時事筆記

框架放大的是執行，不是方向：讀 DeepMind《From AGI to ASI》

DeepMind 說就算模型能力停在人類水平，一億個 AGI 實例也會「擠」出 ASI。做了一段 agent 基礎設施之後，我反而想的是更近的問題——AGI 會不會只要「能推論的模型＋好框架」就成了？

📅 2026-06-10 ✏️ 更新於 2026-06-21 ⏱ 12 分鐘 📖 對應第 3, 4 章 🔬 深入剖析 F

快速摘要：DeepMind 的《From AGI to ASI》是一份「畫地圖」的報告：它不做新實驗、不訓新模型，而是把「人類級 AGI 之後，智慧還會怎麼長」的各種可能走向攤開來畫清楚——三級智慧、四條路徑、一串瓶頸，外加一個理論上的天花板（AIXI）。它押的反直覺判斷是：就算單一模型能力永遠停在人類水平，只要算力還在漲，光靠複製出大量 AGI、共享記憶、加速思考，整群加起來就會「擠」出 ASI。我借這份報告往更近的地方想一個問題：AGI 本身會不會只要「能正確推論的模型＋夠好的 agent 框架」就成了？

可略過，如果：你只想知道報告講什麼，讀完第一節〈報告到底說了什麼〉就夠；後面是我從 agent 基礎設施視角的延伸思辨。

報告到底說了什麼

先講它的定位：這份報告不討論「AGI 何時到」，而是討論「AGI 之後會怎樣」。它假設人類級 AGI 已經做出來，再去推演機器智慧會沿什麼路徑往超級智慧（ASI）走、走多快、什麼會擋住。

而它本質上是在「畫地圖」，不是「做實驗」：把各種可能走向攤開、標清楚，但不給任何新的實驗結果。全篇沒有新實驗、新資料、新模型，產出的是三樣東西：一套分類、一個理論上的定位點、一份待研究的問題清單。連它引用的那些數字（有效算力每年約 10× 的成長、scaling law、人類高品質文字快用完了）也都是別人論文的成果，不是這篇做的。

它把智慧排成一條連續體，用三個點標記：AGI（在多數認知任務上達到人類中位數）、ASI（在幾乎所有任務上超人；門檻設得很高：要穩定超過「數萬名彼此協調的專家、只准用 2010 年的技術、針對單一問題連續工作十年」的產出，所以 AlphaFold 這種單一領域超人並不算 ASI），以及理論上的天花板 Universal AI（Hutter 的 AIXI 框架，全篇唯一有數學撐著的部分）。三者都用 Legg-Hutter 智慧分數來定位，所以不必精確劃出門檻，只要「AGI 和 ASI 之間有明顯落差」就能討論。

它最核心的判斷一句話講完：就算模型能力永遠停在人類水平，只要算力還在漲，超級智慧照樣會被硬生生擠出來。一億個人類級 AI，靠無損複製、高速溝通、思考加速一百倍，整群加起來就跨過了 ASI 紅線。這個論點不是它憑空想的：Bostrom 早就把超智慧分成「比人快」「比人多」「比人聰明」三型，報告押的是前兩型——不用更聰明，光靠更快、更多就能到。

為什麼數位智慧能這樣往上疊？報告列了六項它對碳基生物的先天優勢，而且都隨算力放大、生物沒辦法等比例跟上：輸入／輸出快、內部思考可以加速、工作記憶大、能在不同硬體間搬遷、能無損複製（連「一生的經驗」都能完美拷貝）、能高頻寬分享經驗（同源的 AI 之間甚至可以直接交換學習訊號）。

它列了四條從 AGI 通往 ASI 的路徑：把規模愈做愈大（scaling）、出現新的 AI 範式、AI 遞迴改進自己（RSI），以及從一大群 AI 的互動裡自己長出來。這四條不互斥，會並行、甚至像複利一樣疊加，但只有第一條 scaling 有歷史數據可以拿來預測。

沿途它盤點了六道可能的瓶頸：資料牆、經濟與資源、現有範式不夠、研究愈來愈難、抽象壁壘、人為減速。報告說，其他幾道它大致都給得出反制，真正難辦的是「抽象壁壘」（這個討論留到後面細談）。而對「這些瓶頸到底會不會擋住」，它幾乎全部用「這是個還沒有答案的研究問題」收尾，整份報告幾乎沒有一個真正拍板的結論，所有判斷都講得很留餘地：「不能排除」「沒什麼把握」「似乎說得通」。

它也特別強調一件常被熱炒蓋過的事：ASI 既不是全知、也不是全能。它一樣受光速、Landauer 原理（計算要耗能的下限）、P vs NP、哥德爾不完備性這些物理與數學的硬限制約束，沒辦法保證它就能治好老化、或精準模擬整個地球。

最後它押了兩種比較可能的結局，而且都標明「低信心」：不是在 AGI 之前就先卡住，就是從 AGI 相當平順地走到「弱 ASI」。它沒有給時間表，也沒斷言智慧爆炸一定會發生，只說「未來一、二十年內巡航越過 AGI 的可能性，不能輕易排除」。

怎麼公平地評價它：對一件還沒發生、史上沒有先例的事，你本來就拿不到實證資料，只能畫可能性地圖。這類報告的價值不在「發現了什麼」，而在「給了大家共用的詞彙」（像 abstraction barrier、multi-agent scaling laws 這些說法，從此有名字可以拿來討論），以及它代表了 DeepMind 加上 Legg／Hutter 這個份量的官方表態，會牽動整個領域接下來往哪研究、討論的界線畫在哪。把它當成一份「設定研究題目」的文件來讀，而不是當「研究成果」讀，評價會公平很多。

一個容易被誤讀的點：超人 ≠ AGI

不少中文媒體與財經頻道把這份報告下了個聳動標題：「AGI 已死，ASI 門檻是一億個普通人」。標題照例失真，報告沒說 AGI 不重要，它說的是 AGI 是起點而非終點。

這裡藏著一個常被誤會的定義細節：AGI 看的是「夠不夠全能」，不是「最強能多強」。 報告衡量智慧的角度，是看它「在所有任務上的平均」，也就是看它最弱的環節有沒有都到一般人的水平，而不是看它最強的那項衝到多高。順著這個定義，「某些方面超人、但還不算 AGI」完全說得通：今天的模型就是這樣，它在廣度知識、即時多國語言翻譯上早就超越人類，但有些普通人輕鬆做到的事，它反而頻頻出錯：從過去的經驗裡記取教訓、不再犯同樣的錯，在長時間的任務裡維持穩定的判斷，以及知道自己哪裡不懂。這些短板把平均拉了下來，所以就算它在某些項目上表現驚人，整體還是卡在 AGI 線下。它的問題不是不夠強，而是不夠全面。

由此還帶出一個反直覺的推論：第一個 AGI 出生時，不會長得像一個「數位普通人」。因為當它最弱的環節被補到一般人水平時，原本就超人的那些環節並不會跟著被拉平、依然超人。所以第一個 AGI 真正的樣貌，會是一個地板及格、天花板卻超人、能力高低落差很大的系統。

我的延伸：框架放大的是執行，不是方向

做了一段時間 agent 基礎設施之後，我冒出一個直覺：AGI 的實現說不定沒那麼遠——只要有一個能正確推論的模型，加上一個夠好的 agent 框架，可能就成了。這個直覺有一半是對的，而且是被低估的那半。

這幾年能力的進步，越來越多來自外圍的框架（harness），而不是底層模型（base model）本身。多步規劃、自我修正、用工具、跨對話記住事情，這些被叫做「AGI 行為」的東西，本質上是「把模型已經會、只是不穩的能力引出來」的問題，不是「模型根本不會」的問題。框架做的事，是把一個固定模型「能穩定做到的事」往上推：把六十分的能力，榨成九十五分的可靠度。而可靠度本身就是巨大的價值。

抽象壁壘：報告最銳利、卻一直沒動手的一道牆

問題出在前提。「能正確推論的模型」這六個字，夾帶了整個論證最難的部分。

這正是報告裡最銳利的那道牆在問的事，他們叫它抽象壁壘：把從古至今、一直到牛頓那個時代的所有人類文字餵給 AI，它能自己想出廣義相對論嗎？報告判定極高機率不行，因為它缺了微積分、重力這種最底層的「概念零件」。框架能把現有能力編排、引出來，卻長不出底層模型根本沒有的能力種類。如果「正確推論」裡偷偷包含了「能想出人類文獻裡從來沒有的新概念」，那這個前提等於先把最難的問題假設掉了，剩下的當然「只是框架」。

我在第 4 章放了一個更細的版本：把 LLM 訓練在 1543 年（哥白尼出版那年），它會不會講出「地球繞太陽」？這個例子其實在測跟報告不同的東西。日心說在 1543 年並不是全新概念：公元前三世紀阿里斯塔克斯就提過，只是被主流壓成少數派。所以真相就在訓練資料裡、只是不流行，問題從「無中生有想出新概念」降級成「在幾個現成的對立說法裡選出對的那個」。更狠的是：在 1543 年，光憑當時的資料根本還不足以判定誰對（地心說配上「本輪」，對當時觀測到的行星位置，解釋得不輸日心說；日心說真正勝出，要等第谷、克卜勒、伽利略、牛頓）。所以一個誠實的模型理應說「現有證據還無法判定」；這就把毛病從「講錯話」推深到「它有多少把握，跟證據到底支不支持，對不起來」，也就是所謂的校準問題。

這篇最有意思的點，其實是可以做實驗的，報告卻一直把它掛著沒做。乾淨的做法不是真的去搬 1543 年的古書（份量湊不到現代模型的等級、得從零訓練出來本來就笨、原文又多是拉丁文、年代切點也模糊，就算它推不出來，你也分不清是真有那道牆、還是單純資料太少）。比較可行的是搭一個小型的人造世界：自己訂一套規則，把某個概念（比方某個守恆量、某種對稱性）藏在資料裡、從頭到尾不講明，只給原始觀測，再看模型能不能在「只有抓到這個概念才解得開」的考題上把它逼出來。而且要把問題拆成兩層才測得乾淨：(A) 它能不能自己形成新概念（這是推理能力的限制）、(B) 就算它想得到，驗證新概念還需要新的物理觀測（這是「得親手去量世界」的限制）。最強的說法（「永遠形成不了任何新概念」）反而最容易被一個反例推翻；溫和一點的版本可以畫出「規模愈大、能力長多少」的曲線；但最前沿的版本——真實科學前沿那道牆到底在不在——用今天的系統基本沒法定論，這正是報告把它留成開放問題、而不是直接跑實驗的原因。整篇的模式都是這樣：能變成實驗的部分，幾乎都被掛成了「未來再做」。

LLM ＋ Agent = AGI 成不成立？取決於用哪把尺

要判斷「LLM ＋ Agent = AGI」這個命題，得先把尺定下來。好消息是：所有正經的 AGI 定義，問的都是「它能做到什麼」，沒有一個規定「它得用什麼做出來」，也就沒有哪個嚴肅定義會說「一定要是個 LLM」。所以我的命題在定義上根本沒被排除掉。更關鍵的是，報告講「現在這套做法」時，定義本身就把預訓練＋後訓練＋推論時加碼運算（test-time scaling）＋外圍框架（scaffolding）＋工具使用全包進去了。換句話說，「LLM ＋ Agent」不是什麼另類架構，它就是報告在問「現有做法夠不夠到 AGI」時講的那個東西。

但答案是看尺而定的，取決於用的是哪一把：

實用／經濟那把尺（Morris《Levels of AGI》的「達到一般技術勞工的中位數水平」、或「能做掉一個遠端工作者大部分的腦力工作」）：命題站得住。缺的那幾塊（可靠性、跨對話記憶、能自己行動），大多是框架層、或現有做法再演化就能補的，不必整個推倒重來。
理論／ARC 那把尺（看「在所有任務上的平均」、或「只給幾個例子就能學會全新任務」）：命題站不住。因為這兩把尺獎勵的，正好是「自己形成新概念」和「極少樣本就能舉一反三」，也就是抽象壁壘那個框架補不了的洞。

所以真正該做的判斷，不是「我的命題對不對」，而是「我要用哪把尺」。而這要回到 fibon 的目的：我做的是個人助理、實務自動化，在意的是「能不能可靠地做掉人類大部分的腦力活」，不是「能不能重新發明廣義相對論」。用產品真正在意的那把尺，這個命題不只說得通，而是站得住的。

對 fibon 的意義

這跟 fibon 的設計直接相關。fibon 把「跨對話記憶」當核心賣點，但它現在做的，其實是用「檢索」去模擬持續學習：狀態卡、事件卡、五路檢索，把過去撈回來、放回當下的對話裡，而不是真的去更新模型的權重。「靠檢索撈回來」到底等不等於「真的學會了」，是個還沒解的開放問題，而這恰好是我每天都在碰的事。

更深一層，報告把「AI 遞迴改進自己（RSI）」列為四條路裡火力最猛的一條，同時又用一堆關卡把它框住。這跟深入剖析 F〈自我進化與 RSI 定位〉談的是同一個問題：能力可以靠堆量長大，但方向（要推論什麼、什麼算對、什麼值得做），會不會也能純靠堆量自己冒出來？

我必須誠實標出我還沒想清的地方。fibon 賭的是「人類這個錨是結構上少不了的」：評估器是把人的品味寫進程式碼，而 Approval Gate（重要操作前的人工批准）不是拐杖，是刻意保留的一個外部訊號。但我沒辦法證明這個賭注一定對。有趣的是，前面那個「藏一個概念、看系統能不能自己把它逼出來」的做法，跟我這套「評估器＝刻意藏起來、不讓系統自己優化掉的訊號」其實是同一回事：一個被藏起來的概念，就是一個被保留起來、不讓它偷看的評估目標。也許方向能靠某種自我博弈自己冒出來，那我這套「人在迴圈裡」的設計就是多餘的保險。我目前的判斷是：框架可以無限放大「執行」，但「方向」需要一個從外面灌進去的錨。這是信念，不是已經證明的結論。

我的暫定結論是：「能正確推論的模型＋好框架」確實指對了實務上那種 AGI 的路，框架被低估了。但同一句話也圈出了那條路會撞到的牆在哪：抽象壁壘擋住「全新的能力種類」，而少了一個外部的錨，會讓系統有執行力卻沒方向。

我們也許不缺模型，缺的是錨。