人工智能處理複雜任務的能力,在過去一年經歷了根本性的蛻變。以往,AI 在需要深度推理的任務中總是表現笨拙,但今天,情況已截然不同。這場變革的核心,是強化學習(Reinforcement Learning)終於在語言模型中找到了真正的用武之地。
從主觀偏好到客觀驗證: AI 學習的躍升
過去的 AI 訓練,高度依賴人類的主觀偏好,由人類判斷哪個答案「更好」。然而,人類本身並非完美的裁判,我們容易受各種認知偏見影響,傾向選擇那些言辭流暢、看似權威的答案,哪怕其內容謬以千里。 最新的突破來自「可驗證獎勵的強化學習」(Reinforcement Learning from Verifiable Reward)。這種模式的評判標準客觀而清晰:代碼能否通過所有測試?數學答案是否絕對正確?在這些能夠提供明確獎懲機制的領域,例如編程與數學,AI 的能力已從一年前不如高中生的水平,躍升至足以媲美甚至超越人類專家。 這意味著 AI 研究員已經掌握了一套可靠的方法,只要有充足數據及精確的反饋機制,就能將 AI 的表現推向人類專業級水平。
白領自動化:不再是技術問題,而是數據與成本問題
在前沿 AI 研究員的眼中, AI 要進步到能可靠地用 Photoshop 進行複雜的多步驟圖片編輯,預訂多程機票並規劃複雜行程,甚至處理個人稅務申報等任務,已經有清晰明確的方向,剩下只是時間和成本的問題。 換言之,縱使 AI 的底層算法不再有革命性突破,我們現有的技術框架,也足以實現大規模的白領工作自動化。其關鍵瓶頸,已轉向能否大規模收集特定工作流程的「海量高質量數據」,包括完整的螢幕錄影、滑鼠與鍵盤操作序列、決策路徑、電郵溝通及會議記錄等。 目前的強化學習、模仿學習等演算法,一旦獲得這些優質「養料」,便能高效地模仿人類如何完成任務,甚至青出於藍。從經濟角度審視,為實現自動化而投入的數據收集與模型訓練成本,與這些白領崗位的總薪酬相比,可能只是九牛一毛。正如多位頂尖 AI 科學家所言,未來白領工作的自動化浪潮,即使無更底層的技術創新,單憑數據壁壘的打破與經濟效益的驅動,已勢不可擋。
當前的挑戰與「莫拉維克悖論」的詛咒
當然, AI 要達至全面的通用智能,仍面臨幾項挑戰。例如,當任務涉及超長上下文、需要跨越多個文件和複雜依賴關係時, AI 仍會顯得力不從心;當任務目標模糊、需要大量探索和試錯時, AI 亦會顯得笨拙。其核心邏輯很簡單:清晰的反饋迴路是 AI 表現出色的前提。此外,能源消耗與算力瓶頸也是現實制約。但坦白說,以上皆是能透過投入資金、匯聚人才並給予足夠時間來持續改善的工程問題。 更為棘手、更具中長期挑戰性的,是「莫拉維克悖論」(Moravec’s Paradox)的詛咒: AI 在棋類、編程等被視為「高級認知」的領域已超凡入聖,但在幼兒都能輕易掌握的精細運動協調上卻進展緩慢。 這可能導致一個怪誕的社會過渡期: AI 能高效地自動化海量的認知型工作,但在物理世界的操作上,仍需依賴人類。我們可以想像一個場景:失業的白領戴著 AR 眼鏡,接受 AI 「大腦」的實時指令,運用人類靈巧的雙手,去完成 AI 無法直接執行的物理任務。在這個模式中, AI 負責思考與決策,人類則充當其「手與腳」。 這個人機共存、但分工奇特的過渡階段,可能會持續數年甚至更久,直到機器人技術的發展足以追上 AI 的「大腦」。屆時,人類社會的價值與社會結構都會面臨重構。今天我們所見的技術突破,只是這場深刻變革的序幕而已。