在 AI 的迅猛發展中,一個令電腦科學家感到「苦澀」的看法正在逐漸成為共識:長遠來看,試圖將人類的知識、直覺和巧思編碼進機器的精密程序,最終總是不敵依賴海量計算、通用而「野蠻」的機器學習方法。這個顛覆性的觀察,源自AI教父理查・薩頓(Rich Sutton)在 2019 年提出的《苦澀教訓》(The Bitter Lesson),並由近年大型語言模型發展呈現的規模法則 (Scaling Law) 發揚光大。
「苦澀教訓」:人腦巧思不敵機器蠻力
過去,許多電腦科學家致力於模仿人類思考,例如為象棋程式編寫精妙的策略,或為圖像識別系統定義何謂「眼睛」和「鼻子」。這些方法在短期內能取得快速進步,但很快便會遇到瓶頸。最終能夠突破的,往往是那些簡單粗暴的方法,例如透過讓神經網絡從海量文字數據中自行學習猜字遊戲(Next Token Prediction),在訓練量達到一定規模後,便出現了能處理多種通用任務的大型語言模型。 這份「苦澀」在於,它否定了人類智慧在構建AI時的主導作用。薩頓指出,人類精心構建的邏輯框架,很多時候反而成為了限制機器潛能的「知見障」。人類將自身知識編寫成程式邏輯,無法創造超越設計者自身的認知水平的系統。 此外,這種精巧的系統缺乏規模擴展的能力,難以從數據與算力的持續增長中獲益,導致其進步潛力,遠遠遜於那些看似簡單粗暴卻更具通用性的學習方法。 在簡單粗暴的 AI 訓練過程中,人類的直接控制力相當有限。AI研究圈內甚至有「煉丹」之說,意指研究人員將海量數據投入訓練後,往往無法預測其最終成果,猶如古時方士煉丹,成敗難料。即便成功訓練出高效能的AI模型,其內部運作邏輯對創造者而言,也常是一個無法完全勘透的「黑盒」(black box),遑論掌控。 然而,就是這種難以控制的「煉丹」模式所產生的AI系統,其效能卻遠超那些滿載人類智慧結晶的精巧程式。此一現實,對於向來以自身嚴謹邏輯與精巧設計為傲的工程師與科學家而言,無疑是一份極其苦澀的教訓。
「規模法則」:量變引發質變
「苦澀的教訓」是一零年代歷史觀察與哲學反思,「規模法則」則是近年AI發展的規律總結。前沿 AI 機構的研究人員發現,大型語言模型的表現好壞,和三個因素有著非常清楚的關系:模型規模、訓練資料規模,以及算力規模。透過增加這三者的規模,AI模型的能力便會隨之穩定提升。這就是為何科技巨頭們願意斥巨資訓練擁有數以萬億計參數的巨無霸模型,及興建大量數據中心,因為力大真的可以出奇跡. 當模型規模擴大到一定程度,量變便會引發質變。模型不僅能更流暢地應對答問,甚至會「湧現」(Emerge)出許多未曾被人類刻意設計的能力。 所謂「湧現」,是指那些在小型模型中完全不存在,只有當模型規模跨越某個關鍵門檻後,才突然出現並迅速增強的複雜能力。這就像單個水分子沒有「濕」的特性,但大量水分子聚集便湧現出「濕潤」的性質。在大型語言模型中,這些湧現能力包括了進行數學運算、遵循複雜指令、進行多步邏輯推理,甚至是理解比喻和幽默感。它們的出現並非基於研究人員的設計,而是模型在學習海量語言數據時,自發形成的能力。當數據和訓練的規模持續增加,AI的能力邊界也不斷被推向新的高度。 然而,「規模法則」同時也揭示了當前AI發展的瓶頸。模型的進步,直接受限於可用的高質量訓練數據量,以及支撐龐大運算的算力。目前,全球最頂尖的模型已幾乎耗盡了互聯網上公開的高質量文本與圖像數據,而建造和運行超級計算中心的成本亦是天文數字。 因此,如何獲取更多、更多元的數據,以及如何提升算力效率,便成為了AI能否繼續依循「規模法則」進步的關鍵所在,也是各大科技巨頭與國家級戰略競爭的焦點。
對社會與個人的啟示:在變革中重新定位
人腦的知識、直覺和巧思,長遠來說無法和機器學習抗衡。這意味著,許多能夠依靠記憶、操練、經驗獲得的各種專業能力,終究會在AI面前一一失守。面對此一趨勢,新時代真正稀缺的能力,將與從前大相逕庭。 過去備受推崇的「博聞強記」、「醒目」、「快手」等執行能力,價值將被大幅削弱。取而代之的,是更深層次的認知技能:如深度思考的能力,讓我們能批判性地評估AI的產出,洞察其潛在的偏見與謬誤;提出好問題的能力,為AI劃定清晰的探索邊界,引導它走向有價值的答案;以及給出好指令的能力,將複雜任務拆解成AI能理解並高效執行的步驟。 這些駕馭和協作AI的能力,重要性將遠遠蓋過個人的知識儲備與執行速度。這也意味著我們的教育、人才選拔及職業培訓體系,都必須進行根本性的改革,轉向培養與AI共存共榮的思維與技能,以面向這個截然不同的未來。