AI 能自主優化模型,卻說不出一個新笑話,這條分界線,才是人類的護城河!
Andrej Karpathy 說他自去年 12 月起幾乎沒有再打過一行程式碼。但同一個訪談裡,他說 ChatGPT 說的還是四年前的同一個笑話。這兩件事同時為真,看起來矛盾,其實指向同一條線——看清楚這條線,你就會知道什麼任務該全部交給 Agent,以及哪些能力是你真正應該去積累的護城河。
Andrej Karpathy 最近在 No Priors Podcast 中提到,自去年 12 月起,他幾乎沒有再打過一行程式碼了。而這一集的標題就叫做 The End of Coding。
Karpathy 曾在 Tesla 主持自動駕駛開發,在 OpenAI 是最早的核心研究員之一。如果他說有什麼行為模式翻轉了,那大概不只是個人習慣改變。
但同一個訪談裡,他說了另一件事。他說今天如果你去問 ChatGPT「說個笑話」,你得到的,是三到四年前就存在的同一個笑話。就是那個老笑話
「為什麼科學家不相信原子?因為原子 make everything up!(構成萬物/捏造一切的諧音)」
它四年前是這個,今天還是這個。
這兩件事同時為真。看起來矛盾,但其實指向同一條線。
他做到的三件事,都有一個共同點
要理解這條線,先看 Karpathy 這段時間具體做了什麼。
他建了一個叫「Dobby the elf claw」的家庭 AI,負責管理他的數位家電。他告訴 Agent:「我家裡有 Sonos 音響,幫我找找看。」Agent 開始掃描局域網,找到了 Sonos 系統,反向工程 API 端點,然後回來問他:「要試著在書房播放音樂嗎?」音樂出來了。Karpathy 說:「我不敢相信只要三個提示就做到了。」後來他把燈光、HVAC、百葉窗、泳池、安全攝影機都接進去了,替代了原本六個不同的 app。
而 Karpathy 在訓練自己的模型時,靠著多年經驗手動調參,調到覺得差不多夠好了。然後他讓 AutoResearch,一個讓 AI 自主跑超參數搜尋的系統,跑了一個晚上。隔天早上回來,AutoResearch 帶著他沒有想到的調整:weight decay 的設定、Adam betas 的組合。他沒發現,但 AI 發現了。一夜之間,超越了他兩個月的人工調整。
他說:「我不應該是個瓶頸。我不應該是那個在手動跑超參數搜尋的人。」
Karpathy 說,AutoResearch 只適合「有客觀指標可以評估」的任務。程式優化有速度指標,超參數調整有 loss 指標,同樣的道理也用在 Dobby 這個系統上,Sonos 的控制指令有效沒效,一播放就知道了。
這些任務都可以被觀察、被量化、被驗證。
有了這三個條件,AI 才能形成優化迴圈。才能跑完一次、比較結果、調整方向、再跑一次。迴圈跑得夠多,就有複利。
說不出新笑話,是因為它沒辦法知道「好不好笑」
現在再回頭看那個笑話。
ChatGPT 說不出新笑話,跟它有沒有幽默感、夠不夠聰明沒關係。它能幫你完成幾個小時的 agentic 任務、查資料寫程式做分析,但就是一直說同一個笑話。原因是:「好不好笑」沒有客觀指標,RL 訓練沒辦法優化它,所以它被凍結在四年前。它不知道什麼叫「做好了」,所以它無法改善。
其實可能還是有辦法改善,只是在成本效益評估下,或許不是優先項目。
但把這個邏輯擴展出去,你就會發現這條分界線無處不在。
你叫 Agent 跑資料清理,有成功失敗的標準,它可以自主迭代。你叫它幫你審品牌文案的調性,它很可能回來說「沒問題」,但它其實不知道你的品牌什麼感覺才對。你叫它整理你的收件匣,它做得很好。你叫它幫你判斷這個合作對象值不值得信任,它給你一個答案,但你不能真的放心。
它努不努力不是問題。
問題是它沒有辦法「知道自己做對了」,所以它沒有辦法進步。
這條可驗證的線,不只是解釋了人工智慧的現狀,它更是幫你做任務分類最直接的方法。
兩件事,你應該同時進行
理解了這條線之後,方向其實很清晰:你應該同時做兩件事,而這兩件事都需要有意識地去執行。
第一件事:找出你工作裡「可觀察、可量化、可驗證」的部分,全部交出去。
要主動去重構你的工作流程,讓複利效應在那裡發生。仔細分解你做的每一件事,問自己:這件事有沒有客觀的成功標準?有的話,就設計讓 Agent 能自主跑的迴圈。Karpathy 的感受是,自 12 月以來他幾乎不再打一行程式碼,但他做到的事並沒有減少,反而更多。這就是複利在發生。
這也解釋了,為什麼人工智慧代理在工程師圈用得最兇,對就業影響也最大。因為程式本身,就是「可觀察、可量化、可驗證」的一項任務。
而如果你不主動做這個任務分解、不主動設計迴圈,即便你用了龍蝦或各種人工智慧代理,體感上可能只會是一個比較聰明的搜尋引擎,成果累積不起來,比起一問一答的對話框模式,可能不會好太多。
第二件事:把護城河建在那條線的另一邊。
Karpathy 在講 microGPT 的時候提到,microGPT 是他用 200 行 Python 寫成的 LLM 訓練框架,追求的是「把 LLM 的算法提煉到最精簡的本質」。他說,Agent 能完全讀懂這 200 行、理解為什麼每個設計決定是這樣,但它無法自己創造出來。
那個「創造出問題框架本身」的這一步,仍然是人類的事。
這延伸出來的,是一個更結構性的方向:判斷什麼問題值得問、看出衡量指標本身的缺陷、在沒有客觀標準的領域做品味判斷,例如一個好笑的笑話。這些能力的共同特徵,就是它們的「好壞」本身難以被客觀量化,所以人工智慧沒有一個清楚的優化目標。
這當然不是說這些技能永遠安全。
但在那個邊界移動之前,這裡是我們最值得投入的方向。
真正的稀缺,是知道用 AI 做什麼
「會用 AI」在這個時代越來越不是競爭優勢,它只是基本門檻。就像十幾年前「會用 Google 或 Excel」可能曾經是一個加分點,今天沒有人會把它當技能列在履歷上。
真正有稀缺性的,分成兩端。
一端是:你能不能清楚地定義一個任務的「成功標準」?你能不能辨識出哪些任務值得設計成自動化迴圈?你能不能在 Agent 跑出結果之後,判斷它是真的做好了,還是只是看起來做好了?這些是你能讓 AI 複利的前提,懂這個的人,能從 AI 身上拿到的遠比別人多。
另一端是:那些沒有客觀成功標準的判斷。哪個合作對象值得信任?這個策略方向有沒有感覺?這篇文章的語氣是否到位?AI 說了一個答案,但你無法把這個責任真的甩給它,因為它也沒有辦法知道自己做對了。這類判斷力,因為 AI 天生就難以優化它,反而因此變得更稀缺,而且稀缺性還會持續上升。
這些問題,指向同一個核心:
你對「什麼叫作好?」這件事,有沒有自己的判斷力。
有些人把這件事叫做品味,嗯......但我不覺得全然是那樣,只是我短時間也想不到更好的詞。
Karpathy 的 AutoResearch 能在一夜之間超越他兩個月的調參,是因為他知道 loss 下降是個好的指標,知道怎麼設計搜尋空間,知道怎麼看結果。他帶著清晰的問題框架讓 AI 去填充答案,不是把「幫我把這個模型訓練得更好」這種模糊問題丟過去,那得到的,也只是模糊的答案。
問題框架清不清楚,是那條線兩邊最明顯的差別。
那條讓 AI 停止進步的線,同時也是你應該開始積累的那條線。你站在這條線的哪一邊,決定了 AI 對你是放大器還是替代品。
Karpathy 說「人類不應該是瓶頸」。在可以驗證的事情上,這完全成立。但在那些人工智慧還無從驗證的地方,你就是唯一能判斷的人。
這個位置,才是你現在應該花心思守住的地方。
數據來源
《No Priors》:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
Comments ()