時事筆記
框架放大的是執行,不是方向:讀 DeepMind《From AGI to ASI》
DeepMind 說就算模型能力停在人類水平,一億個 AGI 實例也會「擠」出 ASI。做了一段 agent 基礎設施之後,我反而想的是更近的問題——AGI 會不會只要「能推論的模型+好框架」就成了?
快速摘要:DeepMind 的《From AGI to ASI》是一份「畫地圖」的報告:它不做新實驗、不訓新模型,而是把「人類級 AGI 之後,智慧還會怎麼長」的各種可能走向攤開來畫清楚——三級智慧、四條路徑、一串瓶頸,外加一個理論上的天花板(AIXI)。它押的反直覺判斷是:就算單一模型能力永遠停在人類水平,只要算力還在漲,光靠複製出大量 AGI、共享記憶、加速思考,整群加起來就會「擠」出 ASI。我借這份報告往更近的地方想一個問題:AGI 本身會不會只要「能正確推論的模型+夠好的 agent 框架」就成了?
可略過,如果:你只想知道報告講什麼,讀完第一節〈報告到底說了什麼〉就夠;後面是我從 agent 基礎設施視角的延伸思辨。
報告到底說了什麼
先講它的定位:這份報告不討論「AGI 何時到」,而是討論「AGI 之後會怎樣」。它假設人類級 AGI 已經做出來,再去推演機器智慧會沿什麼路徑往超級智慧(ASI)走、走多快、什麼會擋住。
而它本質上是在「畫地圖」,不是「做實驗」:把各種可能走向攤開、標清楚,但不給任何新的實驗結果。全篇沒有新實驗、新資料、新模型,產出的是三樣東西:一套分類、一個理論上的定位點、一份待研究的問題清單。連它引用的那些數字(有效算力每年約 10× 的成長、scaling law、人類高品質文字快用完了)也都是別人論文的成果,不是這篇做的。
它把智慧排成一條連續體,用三個點標記:AGI(在多數認知任務上達到人類中位數)、ASI(在幾乎所有任務上超人;門檻設得很高:要穩定超過「數萬名彼此協調的專家、只准用 2010 年的技術、針對單一問題連續工作十年」的產出,所以 AlphaFold 這種單一領域超人並不算 ASI),以及理論上的天花板 Universal AI(Hutter 的 AIXI 框架,全篇唯一有數學撐著的部分)。三者都用 Legg-Hutter 智慧分數來定位,所以不必精確劃出門檻,只要「AGI 和 ASI 之間有明顯落差」就能討論。
它最核心的判斷一句話講完:就算模型能力永遠停在人類水平,只要算力還在漲,超級智慧照樣會被硬生生擠出來。一億個人類級 AI,靠無損複製、高速溝通、思考加速一百倍,整群加起來就跨過了 ASI 紅線。這個論點不是它憑空想的:Bostrom 早就把超智慧分成「比人快」「比人多」「比人聰明」三型,報告押的是前兩型——不用更聰明,光靠更快、更多就能到。
為什麼數位智慧能這樣往上疊?報告列了六項它對碳基生物的先天優勢,而且都隨算力放大、生物沒辦法等比例跟上:輸入/輸出快、內部思考可以加速、工作記憶大、能在不同硬體間搬遷、能無損複製(連「一生的經驗」都能完美拷貝)、能高頻寬分享經驗(同源的 AI 之間甚至可以直接交換學習訊號)。
它列了四條從 AGI 通往 ASI 的路徑:把規模愈做愈大(scaling)、出現新的 AI 範式、AI 遞迴改進自己(RSI),以及從一大群 AI 的互動裡自己長出來。這四條不互斥,會並行、甚至像複利一樣疊加,但只有第一條 scaling 有歷史數據可以拿來預測。
沿途它盤點了六道可能的瓶頸:資料牆、經濟與資源、現有範式不夠、研究愈來愈難、抽象壁壘、人為減速。報告說,其他幾道它大致都給得出反制,真正難辦的是「抽象壁壘」(這個討論留到後面細談)。而對「這些瓶頸到底會不會擋住」,它幾乎全部用「這是個還沒有答案的研究問題」收尾,整份報告幾乎沒有一個真正拍板的結論,所有判斷都講得很留餘地:「不能排除」「沒什麼把握」「似乎說得通」。
它也特別強調一件常被熱炒蓋過的事:ASI 既不是全知、也不是全能。它一樣受光速、Landauer 原理(計算要耗能的下限)、P vs NP、哥德爾不完備性這些物理與數學的硬限制約束,沒辦法保證它就能治好老化、或精準模擬整個地球。
最後它押了兩種比較可能的結局,而且都標明「低信心」:不是在 AGI 之前就先卡住,就是從 AGI 相當平順地走到「弱 ASI」。它沒有給時間表,也沒斷言智慧爆炸一定會發生,只說「未來一、二十年內巡航越過 AGI 的可能性,不能輕易排除」。
怎麼公平地評價它:對一件還沒發生、史上沒有先例的事,你本來就拿不到實證資料,只能畫可能性地圖。這類報告的價值不在「發現了什麼」,而在「給了大家共用的詞彙」(像 abstraction barrier、multi-agent scaling laws 這些說法,從此有名字可以拿來討論),以及它代表了 DeepMind 加上 Legg/Hutter 這個份量的官方表態,會牽動整個領域接下來往哪研究、討論的界線畫在哪。把它當成一份「設定研究題目」的文件來讀,而不是當「研究成果」讀,評價會公平很多。
一個容易被誤讀的點:超人 ≠ AGI
不少中文媒體與財經頻道把這份報告下了個聳動標題:「AGI 已死,ASI 門檻是一億個普通人」。標題照例失真,報告沒說 AGI 不重要,它說的是 AGI 是起點而非終點。
這裡藏著一個常被誤會的定義細節:AGI 看的是「夠不夠全能」,不是「最強能多強」。 報告衡量智慧的角度,是看它「在所有任務上的平均」,也就是看它最弱的環節有沒有都到一般人的水平,而不是看它最強的那項衝到多高。順著這個定義,「某些方面超人、但還不算 AGI」完全說得通:今天的模型就是這樣,它在廣度知識、即時多國語言翻譯上早就超越人類,但有些普通人輕鬆做到的事,它反而頻頻出錯:從過去的經驗裡記取教訓、不再犯同樣的錯,在長時間的任務裡維持穩定的判斷,以及知道自己哪裡不懂。這些短板把平均拉了下來,所以就算它在某些項目上表現驚人,整體還是卡在 AGI 線下。它的問題不是不夠強,而是不夠全面。
由此還帶出一個反直覺的推論:第一個 AGI 出生時,不會長得像一個「數位普通人」。因為當它最弱的環節被補到一般人水平時,原本就超人的那些環節並不會跟著被拉平、依然超人。所以第一個 AGI 真正的樣貌,會是一個地板及格、天花板卻超人、能力高低落差很大的系統。
我的延伸:框架放大的是執行,不是方向
做了一段時間 agent 基礎設施之後,我冒出一個直覺:AGI 的實現說不定沒那麼遠——只要有一個能正確推論的模型,加上一個夠好的 agent 框架,可能就成了。這個直覺有一半是對的,而且是被低估的那半。
這幾年能力的進步,越來越多來自外圍的框架(harness),而不是底層模型(base model)本身。多步規劃、自我修正、用工具、跨對話記住事情,這些被叫做「AGI 行為」的東西,本質上是「把模型已經會、只是不穩的能力引出來」的問題,不是「模型根本不會」的問題。框架做的事,是把一個固定模型「能穩定做到的事」往上推:把六十分的能力,榨成九十五分的可靠度。而可靠度本身就是巨大的價值。
抽象壁壘:報告最銳利、卻一直沒動手的一道牆
問題出在前提。「能正確推論的模型」這六個字,夾帶了整個論證最難的部分。
這正是報告裡最銳利的那道牆在問的事,他們叫它抽象壁壘:把從古至今、一直到牛頓那個時代的所有人類文字餵給 AI,它能自己想出廣義相對論嗎?報告判定極高機率不行,因為它缺了微積分、重力這種最底層的「概念零件」。框架能把現有能力編排、引出來,卻長不出底層模型根本沒有的能力種類。如果「正確推論」裡偷偷包含了「能想出人類文獻裡從來沒有的新概念」,那這個前提等於先把最難的問題假設掉了,剩下的當然「只是框架」。
我在第 4 章放了一個更細的版本:把 LLM 訓練在 1543 年(哥白尼出版那年),它會不會講出「地球繞太陽」?這個例子其實在測跟報告不同的東西。日心說在 1543 年並不是全新概念:公元前三世紀阿里斯塔克斯就提過,只是被主流壓成少數派。所以真相就在訓練資料裡、只是不流行,問題從「無中生有想出新概念」降級成「在幾個現成的對立說法裡選出對的那個」。更狠的是:在 1543 年,光憑當時的資料根本還不足以判定誰對(地心說配上「本輪」,對當時觀測到的行星位置,解釋得不輸日心說;日心說真正勝出,要等第谷、克卜勒、伽利略、牛頓)。所以一個誠實的模型理應說「現有證據還無法判定」;這就把毛病從「講錯話」推深到「它有多少把握,跟證據到底支不支持,對不起來」,也就是所謂的校準問題。
LLM + Agent = AGI 成不成立?取決於用哪把尺
要判斷「LLM + Agent = AGI」這個命題,得先把尺定下來。好消息是:所有正經的 AGI 定義,問的都是「它能做到什麼」,沒有一個規定「它得用什麼做出來」,也就沒有哪個嚴肅定義會說「一定要是個 LLM」。所以我的命題在定義上根本沒被排除掉。更關鍵的是,報告講「現在這套做法」時,定義本身就把 預訓練 + 後訓練 + 推論時加碼運算(test-time scaling)+ 外圍框架(scaffolding)+ 工具使用 全包進去了。換句話說,「LLM + Agent」不是什麼另類架構,它就是報告在問「現有做法夠不夠到 AGI」時講的那個東西。
但答案是看尺而定的,取決於用的是哪一把:
- 實用/經濟那把尺(Morris《Levels of AGI》的「達到一般技術勞工的中位數水平」、或「能做掉一個遠端工作者大部分的腦力工作」):命題站得住。缺的那幾塊(可靠性、跨對話記憶、能自己行動),大多是框架層、或現有做法再演化就能補的,不必整個推倒重來。
- 理論/ARC 那把尺(看「在所有任務上的平均」、或「只給幾個例子就能學會全新任務」):命題站不住。因為這兩把尺獎勵的,正好是「自己形成新概念」和「極少樣本就能舉一反三」,也就是抽象壁壘那個框架補不了的洞。
所以真正該做的判斷,不是「我的命題對不對」,而是「我要用哪把尺」。而這要回到 fibon 的目的:我做的是個人助理、實務自動化,在意的是「能不能可靠地做掉人類大部分的腦力活」,不是「能不能重新發明廣義相對論」。用產品真正在意的那把尺,這個命題不只說得通,而是站得住的。
對 fibon 的意義
這跟 fibon 的設計直接相關。fibon 把「跨對話記憶」當核心賣點,但它現在做的,其實是用「檢索」去模擬持續學習:狀態卡、事件卡、五路檢索,把過去撈回來、放回當下的對話裡,而不是真的去更新模型的權重。「靠檢索撈回來」到底等不等於「真的學會了」,是個還沒解的開放問題,而這恰好是我每天都在碰的事。
更深一層,報告把「AI 遞迴改進自己(RSI)」列為四條路裡火力最猛的一條,同時又用一堆關卡把它框住。這跟深入剖析 F〈自我進化與 RSI 定位〉談的是同一個問題:能力可以靠堆量長大,但方向(要推論什麼、什麼算對、什麼值得做),會不會也能純靠堆量自己冒出來?
我的暫定結論是:「能正確推論的模型+好框架」確實指對了實務上那種 AGI 的路,框架被低估了。但同一句話也圈出了那條路會撞到的牆在哪:抽象壁壘擋住「全新的能力種類」,而少了一個外部的錨,會讓系統有執行力卻沒方向。
我們也許不缺模型,缺的是錨。
事件來源
- From AGI to ASI — Shane Legg, Marcus Hutter 等,arXiv:2606.12683(2026-06-10)
- From AGI to ASI — Google DeepMind 出版頁
- Google DeepMind Maps the Road From AGI to Superintelligence — TechTimes(2026-06-13)
- Google DeepMind Maps Four Routes From Human-Level AI to Superintelligence — The AI Insider(2026-06-13)
- Google 放話:AGI已死,ASI門檻竟是1億普通人 — 動區 / PANews(2026-06-15)