隨着人工智能(AI)技術一日千里,科學界與產業界已就「是否已觸及通用人工智能(AGI)」展開嚴肅辯論。目前兩方對此是各執一詞。產業界領袖如輝達行政總裁黃仁勳等,傾向相信 AGI 已經降臨;惟另一邊廂,多位頂尖 AI 學者,包括圖靈獎得主楊立昆(Yann LeCun)卻大潑冷水,直指當下 AI 的智能水平尚不如家貓。
智能的定義:工作技能 vs 觸類旁通
如果我們單純以工作能力來評估,目前的生成式 AI 確實已經達到了令人驚嘆的高度。以產業界的視角來看,AI 已經能夠在法律、編程、甚至藝術創作等眾多專業領域中,展現出等同甚至超越大學畢業生的水平。它能夠在大多數智商測驗中獲得高於大部分人類的分數,高分通過各種人類設計的專業考試,甚至跨越了曾經被視為 AGI 聖杯的「圖靈測試」(Turing Test)。既然我們認為受過高等教育的大學生具備通用智能,擁有比任何單個大學生更廣技能面的系統,理應就是 AGI。
然而,AI 科學家們卻認為目前的 AI 距離 AGI 依然很遠。雖然它已經能夠通過圖靈測試,但在跨過這條線之後,學界反而意識到,這個測試測出的僅僅是模仿人類語言的能力,而非真正的通用智能。我們過去理所當然地認為,既然人類是因為具備強大的自主學習和邏輯演繹能力,才能做好複雜工作;那麼能做好複雜工作的 AI,必然也掌握了相同的自主學習和邏輯演繹能力。
但生成式 AI 卻走了一條完全不同的路:它憑著對大量算力與海量數據進行凝合,學習了大量技能,但一旦脫離了有大量訓練數據覆蓋的場景,表現就會斷崖式下滑。科學家認為,這種極度依賴操練及死記硬背的智能水平,是一種究極版的高分低能。雖然能在充足準備下在任何測驗考試拿高分,但在千變萬化的現實應用場景,卻難以達到分數顯示的智能水平。
為了精準測量 AI 與人類在學習與泛化能力上的真正差距,François Chollet 設計了 ARC-AGI 測試。它不考驗硬知識,而是給予幾個對成年人來說非常簡單的視覺幾何變化例子,要求受試者即時推導出背後的隱含規則,並應用在新的圖形上。在今年最新發布的「ARC-AGI-3」測試,人類受試者即使沒有特地受過相關訓練,依然能夠憑藉邏輯和常識輕鬆拿下接近滿分的成績。然而,原本在過往測試中表現優異的 Claude Opus 4.6 等頂尖 AI,得分率最高僅有慘不忍睹的 0.2%。
這就是生成式AI的核心缺點:一旦面對偏離訓練數據的新任務,由於它並不具備人類觸類旁通的能力,只要脫離大量訓練過的內容,其表現便會崩壞。
為什麼 AI 無法「舉一反三」?概率擬合與規則理解的鴻溝
AI 缺乏舉一反三能力的原因,在於並未掌握人類由少數例子中快速歸納規則,並應用規則進行邏輯推理的認知機制。
以學習一門外語為例。成人學習語言,往往會依賴邏輯規則的輔助,例如語法結構(主謂賓)、動詞時態變化、特定句式等。我們學習這些規則後,只需要對數十個例子進行練習,就能基本掌握它們。一旦掌握了規則,即使面對未曾見過的場景,我們也能依據這些規則,造出正確的句子段落。這是一種高效的「演繹推理」能力。
但目前生成式 AI 的學習方式,卻更像是牙牙學語。它並不理解任何語法,完全靠模仿周遭環境學習新詞彙及句子,並透過每一次獲得的反饋信號來微調自己的行為。這種不提取及利用規則,完全依靠模仿及反饋學習的做法,需要環境提供極度密集的數據、無數次的試錯機會以及即時的反饋,才能夠掌握一門新語言。正因如此,AI 的訓練非常低效,需要比一般人類多上千億倍的訓練量,才能像人類流暢對話及執行任務,且無法熟練使用邏輯處理此前沒有經驗的未知情況。
覆盤的價值
面對AI學習能力的瓶頸,知名 AI 專家 Andrej Karpathy 近期提出了一個具顛覆性的觀點:人類相對薄弱的記憶力,反而正是我們強大智能的來源。
Karpathy 指出,人類無法像硬碟一樣記住每一本書的每一個字或每一場對話的細節。正是因為這種生理上的限制,逼使我們不得不去尋找事物背後的規律,將繁雜的細節拋棄,提煉成抽象的概念和法則。我們因為記不住樹木,所以被迫看見了森林。
相反,目前的大型語言模型擁有幾乎完美的記憶力,但這種完美記憶反而成為了理解抽象概念的絆腳石。AI 被過度豐富的細節所干擾,陷入了對具體數據的過度擬合,反而難以像人類那樣進行高階抽象歸納。
為此,業界越來越多聲音認為,要突破這個瓶頸,未來的 AI 必須具備類似人類覆盤反思的機制,,在行動後主動回顧推理過程,將特定情境下的經驗剝離出來,轉化為通用的邏輯法則。因為只有當 AI 學會了主動提取及應用規則處理新問題,它才能真正擺脫學習效率低下的困境。
本文原刊於明報,刊登日期為 2026 年 5 月 5 日。