從擴展定律到世界模型,人工智慧模型演進的下一個商機

分析 AI 發展從「擴展時代」到「推理時代」再到「世界模型」的典範轉移。探討 Ilya Sutskever 的 100 小時學生理論、Karpathy 的認知核心概念,以及李飛飛、Google、LeCun 的三條世界模型路線,附投資機會分析。

從擴展定律到世界模型,人工智慧模型演進的下一個商機
人工智慧模型朝向多模態發展

自 ChatGPT 於 2022 年底問世以來,已經過去三年時間。

過去這段時間,全世界人工智慧模型主要的發展方向,可以說是一種.....暴力美學?

這種作法稱為擴展定律 (Scaling Law)。更多的參數、更多的 GPU 算力、更多的電力,就等於更強的智慧。

然而,這種思維在近期開始遇到了挑戰。最簡單的論點就是,如果我們的數據與電力走到了盡頭,這樣的模式還能夠繼續下去嗎?

所以,現在部分公司正從「訓練更大的模型」,轉向讓模型用更多時間「思考」。另外,則是從單純的語言模型納入多模態,並瞄準世界模型。

這場典範轉移不只會改變未來的技術路徑,更重塑了未來的投資邏輯。

第一階段:Scaling Law 的暴力美學與物理極限

在 2020 到 2025 年間,矽谷只有一個信條,那就是 Scaling Law(擴展定律)。

這是一個非常好懂的商業與技術公式:

「更多數據 + 更多算力 + 更多電力 = 更強的智慧」

這條路徑之所以成為主流,是因為它清晰且有效。不管你是 OpenAI、Google 還是 Meta,只要有錢買到足夠的 NVIDIA GPU,蓋足夠大的資料中心,把整個網際網路的數據餵給模型,它的智商就會線性增長。這是一場單純的軍備競賽,大者恆大。

但到了 2025 年底,這個定律開始遇到阻礙。

最大的問題在於「數據耗盡」。高品質的網際網路數據基本上都已經被訓練過一輪了,剩下的都是重複或低質量的內容。再加上電力消耗已經讓全球電網不堪重負,例如,美國資料中心的建設速度就遠遠趕不上需求。

所以,盲目擴大規模(Scaling)的邊際效益正在急速遞減。這引發了產業內的一個關鍵問題:當數據與電力都走到盡頭,AI 該往哪裡走?

第二階段:重回研究時代,從「死記硬背」轉向「推理能力」

當暴力擴展失效,產業界爆發了一場關於「繼續擴展」與「轉向推理(Reasoning)」的路線之爭。這也是我們稱之為「重回研究時代」的關鍵轉折。

Ilya Sutskever:100 小時學生 vs 10,000 小時學生

OpenAI 聯合創始人、現任 SSI(Safe Superintelligence)創辦人 Ilya Sutskever 提出了一個非常傳神的比喻:

Q: 什麼是真正的智慧?
A: 想像有兩個學生準備考數學競賽。學生 A 練習了一萬小時,死記硬背所有題庫。學生 B 只練了一百小時,但他花時間理解公式背後的推導邏輯。

遇到沒見過的難題時,誰更有可能解出來?

Ilya 認為,應該是學生 B

但現在的 AI 更像是學生 A,雖然透過海量訓練數據獲得能力,但缺乏真正的理解與泛化能力。而我們需要的 AGI(通用人工智慧),必須是學生 B,因為他們才能從少量範例中領悟本質。

Andrej Karpathy:認知核心與「鋸齒狀智慧」

Tesla 前 AI 總監、OpenAI 創始成員 Andrej Karpathy 提出了幾個關鍵概念:

1. 鋸齒狀的智慧(Jagged Intelligence):現在的 AI 在某些領域強得可怕(如下棋、寫程式),卻會在基本邏輯或常識推理上犯下低級錯誤,最經典的應該就是「9.11 大於 9.9」這個數學題目。而這種不一致性是目前人工智慧模型的最大挑戰之一。

2. 認知核心(Cognitive Core):我們不需要模型背下整個網際網路(那是外掛資料庫的事),我們只需要訓練一個輕量、純粹的「推理引擎」。

3. 幽靈 vs 動物:我們並不是在模擬生物演化(像斑馬出生幾分鐘就能奔跑那樣的硬體能力)。我們只是在從網路上「召喚數位幽靈」,一種完全基於文字數據的精神實體。這意味著 AI 的智慧本質是一種模仿,它是人類思想與行為模式的數位倒影。這種差異決定了 AI 的能力與侷限。

新的競爭邏輯

所以,部分研究者認為,未來的人工智慧競爭,不再是比誰的模型參數大,而是比誰的「思考品質」高。這解決了數據耗盡的問題,因為我們不再需要餵給它更多的垃圾資訊,而是教它更好的思考方法。

這種轉變催生了「推理時計算(Inference-time Compute)」的新範式:讓模型在回答前花 10 秒甚至更久進行內在推演,而非秒答。這就是從 System 1(直覺反應)到 System 2(邏輯推理)的轉變。

OpenAI 在 2024 年 9 月率先推出 o1-preview,首次將推理時計算帶入主流視野。而真正讓產業震撼的,是 2025 年 1 月中國 DeepSeek 推出的 DeepSeek R1

DeepSeek R1 採用了「小模型 + 推理能力」的策略,總參數量為 671B(6710 億),但在推論時只採用 37B(370 億)參數。這種設計讓它在保持強大推理能力的同時,大幅降低了運算成本。

更重要的是,DeepSeek 證明了一件事:

你可能不需要無限大的模型,只需要一個會思考的模型。

第三階段:終極目標——世界模型(World Models)

除了從擴展理論到開始重視推理能力之外,現在的人工智慧模型也逐漸從個別的語言模型、生圖模型、音頻模型等,融合成多模態模型,並以「世界模型」作為目標。

方法論 vs 終極目標

「Scaling vs Reasoning」爭論的是「大腦該怎麼訓練與思考」(方法論),而「世界模型」是關於「大腦必須懂什麼」(終極目標)。

無論你訓練大腦的方法是靠堆積算力還是靠推理能力,AI 最終都必須通過「物理世界」的考試,才能真正成為 AGI。目前的語言模型只懂文字接龍,它知道「杯子掉在地上會碎」可能是因為訓練的文字資料裡有這樣的內容,而不是因為它知道重力與材質的物理交互作用。

三條通往真實世界的路

目前通往世界模型有三條主要路線,它們分別代表了不同的技術拼圖:

路線一:空間智慧(Spatial Intelligence)

代表:李飛飛的 World Labs(產品 Marble)

核心能力:從 2D 影片中重建高品質的 3D 場景,並且可以一鍵導出到 Unity 或 Unreal Engine。

價值:讓 AI 擁有「視覺」,看得見真實的物理結構。這是人機介面的關鍵,因為人類是視覺動物,需要高畫質的 3D 場景才能感覺「真實」。

批評:更像是「高級的 3D 掃描工具」,就像好萊塢的佈景,正面看很美,背面全是木架支撐。這是一條通往元宇宙的路,而非直接通往 AGI 的路。

路線二:互動模擬(Action & Consequence)

代表:Google 的 Genie 3

核心能力:模擬「如果我做動作 A,世界會變成 B」的因果關係,像是讓模型不斷地做白日夢,提供無限的、低成本的試錯環境。

價值:對於訓練通用代理非常重要,因為它提供了一個虛擬的物理實驗室。

限制:依然受限於「像素」。如果模型這一次「夢」錯了(比如夢見杯子掉下去沒有碎而是彈起來),機器人就會學到錯誤的物理知識。

路線三:抽象理解(Abstract Prediction)

代表:Meta 的 JEPA(Yann LeCun 主導)

核心能力:不預測下一個像素,而是預測物體的抽象特徵與狀態。比如看到一台車開過來,JEPA 不在乎車的顏色,只在乎它的速度向量和碰撞機率。

價值:這是通往 L5 自動駕駛和具身智能的必經之路。Tesla 的 FSD v12 基本上就是這類「視覺到決策」模型的大規模部署。

缺點:對人類很不友善,因為它是「黑盒子」,我們看不見它到底理解了什麼,只能通過它的行為來判斷。而且 Yann LeCun 也將離開 META。

終極整合

如果我們把這三條路線放在一起看,它們其實構成了一個金字塔結構:

  • 底層:Marble 的完美外表,但不懂因果
  • 中間:Genie 試圖連結,但精準度還不夠
  • 頂層:JEPA 的完美邏輯,但沒有身體

真正的 AGI 需要 JEPA 的大腦來指揮,但需要 Marble 這種技術將抽象的物理交互渲染成人類可理解的畫面。或者反過來,用 Marble 生成的高精度數據來餵養 JEPA。

這場戰爭最終不會是三選一,而是看誰能先把這三者整合在一起。

投資典範轉移:從訓練到推論

這種技術典範的轉移,直接影響了資金流向。

關鍵轉變:訓練算力 → 推論算力

在 Scaling 時代,算力主要花在訓練那個巨大的模型上。訓練完後,用戶問問題,模型秒答(推論成本低)。

但在 Reasoning 時代,模型在回答前可能需要「思考」10 秒甚至更久(System 2 思維),進行大量的內在推演。這意味著推論階段的算力需求將指數級爆發。

投資機會地圖

硬體層:晶片與算力

  • NVIDIA:依然是王者,但專注於高效能推論的 ASIC 晶片(如 Broadcom、Marvell 協助設計的 TPU/LPU)將迎來爆發。
  • TSMC:真正的壟斷者,無論是 NVIDIA 的 GPU,還是 Google、Amazon 自研的 AI 晶片,全部都要找台積電代工。

平台層:完整技術堆棧

  • Google DeepMind:擁有 Genie、Gemini、AlphaFold 的完整技術儲備。加上 YouTube 的無限影片訓練數據和 Waymo 的真實世界數據,在世界模型競賽中極具優勢。

數據層:物理世界數據

  • Tesla:如果互聯網文字數據已經不值錢,那什麼最值錢?答案是「非公開的物理世界數據」。Optimus 與 FSD 每天都在收集真實世界的物理交互數據,這是其他公司難以複製的。

能源層:電力基礎建設

  • 不論是 Scaling 還是 Reasoning,電力都是硬通貨。大量運算都取決於一個瓶頸:電力。

結論

過去三年,我們見證了太多次「領先者」的更迭。2022 年,所有人都以為 OpenAI 會一路領先。2023 年,Google 的 Gemini 和 Anthropic 的 Claude 證明了追趕者的爆發力。2025 年,中國的 DeepSeek 用更小的模型和更低的成本,挑戰了整個產業的假設,開源模型更是急起直追取得一定的市場份額。

這是因為 AI 的遊戲規則正在改變。當所有人都在比拼參數量時,推理能力成為新的分水嶺。當大家都在訓練語言模型時,多模態與世界模型開啟了新戰場。

每一次典範轉移,都將讓產業秩序重新洗牌。

現在的我們,可能正在逐漸脫離「只要砸錢就能讓模型變聰明」的簡單時代。


參考資料

媒體報導

產業動態

Read more