AI 能自主優化模型,卻說不出一個新笑話,這條分界線,才是人類的護城河!

Andrej Karpathy 說他自去年 12 月起幾乎沒有再打過一行程式碼。但同一個訪談裡,他說 ChatGPT 說的還是四年前的同一個笑話。這兩件事同時為真,看起來矛盾,其實指向同一條線——看清楚這條線,你就會知道什麼任務該全部交給 Agent,以及哪些能力是你真正應該去積累的護城河。

AI 能自主優化模型,卻說不出一個新笑話,這條分界線,才是人類的護城河!
AI 能自主優化模型,卻說不出一個新笑話

Andrej Karpathy 最近在 No Priors Podcast 中提到,自去年 12 月起,他幾乎沒有再打過一行程式碼了。而這一集的標題就叫做 The End of Coding。

Karpathy 曾在 Tesla 主持自動駕駛開發,在 OpenAI 是最早的核心研究員之一。如果他說有什麼行為模式翻轉了,那大概不只是個人習慣改變。

但同一個訪談裡,他說了另一件事。他說今天如果你去問 ChatGPT「說個笑話」,你得到的,是三到四年前就存在的同一個笑話。就是那個老笑話

「為什麼科學家不相信原子?因為原子 make everything up!(構成萬物/捏造一切的諧音)」

它四年前是這個,今天還是這個。

這兩件事同時為真。看起來矛盾,但其實指向同一條線。


他做到的三件事,都有一個共同點

要理解這條線,先看 Karpathy 這段時間具體做了什麼。

他建了一個叫「Dobby the elf claw」的家庭 AI,負責管理他的數位家電。他告訴 Agent:「我家裡有 Sonos 音響,幫我找找看。」Agent 開始掃描局域網,找到了 Sonos 系統,反向工程 API 端點,然後回來問他:「要試著在書房播放音樂嗎?」音樂出來了。Karpathy 說:「我不敢相信只要三個提示就做到了。」後來他把燈光、HVAC、百葉窗、泳池、安全攝影機都接進去了,替代了原本六個不同的 app。

而 Karpathy 在訓練自己的模型時,靠著多年經驗手動調參,調到覺得差不多夠好了。然後他讓 AutoResearch,一個讓 AI 自主跑超參數搜尋的系統,跑了一個晚上。隔天早上回來,AutoResearch 帶著他沒有想到的調整:weight decay 的設定、Adam betas 的組合。他沒發現,但 AI 發現了。一夜之間,超越了他兩個月的人工調整。

他說:「我不應該是個瓶頸。我不應該是那個在手動跑超參數搜尋的人。」

Karpathy 說,AutoResearch 只適合「有客觀指標可以評估」的任務。程式優化有速度指標,超參數調整有 loss 指標,同樣的道理也用在 Dobby 這個系統上,Sonos 的控制指令有效沒效,一播放就知道了。

這些任務都可以被觀察、被量化、被驗證。

有了這三個條件,AI 才能形成優化迴圈。才能跑完一次、比較結果、調整方向、再跑一次。迴圈跑得夠多,就有複利。


說不出新笑話,是因為它沒辦法知道「好不好笑」

現在再回頭看那個笑話。

ChatGPT 說不出新笑話,跟它有沒有幽默感、夠不夠聰明沒關係。它能幫你完成幾個小時的 agentic 任務、查資料寫程式做分析,但就是一直說同一個笑話。原因是:「好不好笑」沒有客觀指標,RL 訓練沒辦法優化它,所以它被凍結在四年前。它不知道什麼叫「做好了」,所以它無法改善。

其實可能還是有辦法改善,只是在成本效益評估下,或許不是優先項目。

但把這個邏輯擴展出去,你就會發現這條分界線無處不在。

你叫 Agent 跑資料清理,有成功失敗的標準,它可以自主迭代。你叫它幫你審品牌文案的調性,它很可能回來說「沒問題」,但它其實不知道你的品牌什麼感覺才對。你叫它整理你的收件匣,它做得很好。你叫它幫你判斷這個合作對象值不值得信任,它給你一個答案,但你不能真的放心。

它努不努力不是問題。
問題是它沒有辦法「知道自己做對了」,所以它沒有辦法進步。

這條可驗證的線,不只是解釋了人工智慧的現狀,它更是幫你做任務分類最直接的方法。


兩件事,你應該同時進行

理解了這條線之後,方向其實很清晰:你應該同時做兩件事,而這兩件事都需要有意識地去執行。

第一件事:找出你工作裡「可觀察、可量化、可驗證」的部分,全部交出去。

要主動去重構你的工作流程,讓複利效應在那裡發生。仔細分解你做的每一件事,問自己:這件事有沒有客觀的成功標準?有的話,就設計讓 Agent 能自主跑的迴圈。Karpathy 的感受是,自 12 月以來他幾乎不再打一行程式碼,但他做到的事並沒有減少,反而更多。這就是複利在發生。

這也解釋了,為什麼人工智慧代理在工程師圈用得最兇,對就業影響也最大。因為程式本身,就是「可觀察、可量化、可驗證」的一項任務。

而如果你不主動做這個任務分解、不主動設計迴圈,即便你用了龍蝦或各種人工智慧代理,體感上可能只會是一個比較聰明的搜尋引擎,成果累積不起來,比起一問一答的對話框模式,可能不會好太多。

第二件事:把護城河建在那條線的另一邊。

Karpathy 在講 microGPT 的時候提到,microGPT 是他用 200 行 Python 寫成的 LLM 訓練框架,追求的是「把 LLM 的算法提煉到最精簡的本質」。他說,Agent 能完全讀懂這 200 行、理解為什麼每個設計決定是這樣,但它無法自己創造出來

那個「創造出問題框架本身」的這一步,仍然是人類的事。

這延伸出來的,是一個更結構性的方向:判斷什麼問題值得問、看出衡量指標本身的缺陷、在沒有客觀標準的領域做品味判斷,例如一個好笑的笑話。這些能力的共同特徵,就是它們的「好壞」本身難以被客觀量化,所以人工智慧沒有一個清楚的優化目標。

這當然不是說這些技能永遠安全。
但在那個邊界移動之前,這裡是我們最值得投入的方向。


真正的稀缺,是知道用 AI 做什麼

「會用 AI」在這個時代越來越不是競爭優勢,它只是基本門檻。就像十幾年前「會用 Google 或 Excel」可能曾經是一個加分點,今天沒有人會把它當技能列在履歷上。

真正有稀缺性的,分成兩端。

一端是:你能不能清楚地定義一個任務的「成功標準」?你能不能辨識出哪些任務值得設計成自動化迴圈?你能不能在 Agent 跑出結果之後,判斷它是真的做好了,還是只是看起來做好了?這些是你能讓 AI 複利的前提,懂這個的人,能從 AI 身上拿到的遠比別人多。

另一端是:那些沒有客觀成功標準的判斷。哪個合作對象值得信任?這個策略方向有沒有感覺?這篇文章的語氣是否到位?AI 說了一個答案,但你無法把這個責任真的甩給它,因為它也沒有辦法知道自己做對了。這類判斷力,因為 AI 天生就難以優化它,反而因此變得更稀缺,而且稀缺性還會持續上升。

這些問題,指向同一個核心:

你對「什麼叫作好?」這件事,有沒有自己的判斷力。

有些人把這件事叫做品味,嗯......但我不覺得全然是那樣,只是我短時間也想不到更好的詞。

Karpathy 的 AutoResearch 能在一夜之間超越他兩個月的調參,是因為他知道 loss 下降是個好的指標,知道怎麼設計搜尋空間,知道怎麼看結果。他帶著清晰的問題框架讓 AI 去填充答案,不是把「幫我把這個模型訓練得更好」這種模糊問題丟過去,那得到的,也只是模糊的答案。

問題框架清不清楚,是那條線兩邊最明顯的差別。

那條讓 AI 停止進步的線,同時也是你應該開始積累的那條線。你站在這條線的哪一邊,決定了 AI 對你是放大器還是替代品。

Karpathy 說「人類不應該是瓶頸」。在可以驗證的事情上,這完全成立。但在那些人工智慧還無從驗證的地方,你就是唯一能判斷的人。

這個位置,才是你現在應該花心思守住的地方。


數據來源

《No Priors》:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI