Sora 2 下架那一天，世界模型悄悄拿了五億美元

為什麼最會拍片的 AI 沒能贏？因為下一場戰爭比的不是炫技，是物理直覺

May 13, 2026

四月二十六日，OpenAI 把 Sora 2 的消費端 app 關掉了。

新聞稿很簡短：「策略性轉向」。社群上有人惋惜「最神的影片 AI 工具沒了」，更多人則是連這件事都沒注意到。Sora 2 那些貓做三級跳的影片、奧運體操員違反物理定律的後空翻、抓著衝浪板穩穩划水的鴨子。這個五個月前還是矽谷最熱的炫技項目，悄悄成為歷史。

同一週，李飛飛的 World Labs 跟投資人見面，談的是新一輪五億美元募資，估值五十億。產品叫 Marble，一個從文字、照片、影片或 3D 草圖生成「可以持續存在的 3D 環境」的模型。沒有貓、沒有體操、沒有後空翻。

兩件事疊在一起，是 AI 產業 2026 年最重要的一次方向修正。但因為 Sora 2 太會搶版面、Marble 太低調，這次修正在大眾視野裡幾乎沒有聲音。

▉ 鷹架被拆掉的時刻

過去兩年我們學的所有 ChatGPT prompt 技巧、所有「提示詞工程」的暢銷課程、所有「100 個必學公式」的焦慮販賣，本質都是一道鷹架。

鷹架的功能，是讓你能站在不完美的牆面前把磚搬上去、把灰漿抹平。鷹架本身不是建築。當建築完成的那一刻，鷹架就會被拆掉。

提示詞工程就是 AI 大廈完工前的鷹架。它存在的理由是當下的 AI 還沒辦法自己理解你想要什麼、沒辦法自己補上缺失的脈絡、沒辦法把模糊指令翻譯成可執行的內部表徵。所以你要學會用特定句式、特定模板、特定的「請扮演 X、然後 Y、輸出格式 Z」這套程序跟它說話。

問題是，這道鷹架正在被自動拆除。

OpenAI 的 GPT-5 系列已經內建 auto-prompting，你寫得不夠清楚時它會自己補；Anthropic 的 Claude 預設啟用 extended thinking，會自己決定要不要先做研究再回答；Gemini 的 Deep Think 模式直接把 chain-of-thought 完全自動化。你今年學會的所有「prompt 模板」，明年只剩半數還能用，後年連十分之一都不到。

當鷹架被拆，真正承重的是甚麼？是這棟建築的承重牆。在 AI 這棟樓裡，那道承重牆叫做世界模型。

▉ 世界模型在做的事，跟你以為的不一樣

世界模型這個詞被講爛了。一般人聽到，會以為是「更強的 ChatGPT」、「更會生圖的 Midjourney」。實際上完全不是這個範疇。

世界模型在學的是重力。

你拿一張紙寫「蘋果從樹上掉下來」，ChatGPT 可以把這句話寫成一首詩、翻譯成八種語言、改成莎士比亞風格、生一張蘋果在半空中的圖。可是它並不知道蘋果為什麼會掉。它不知道掉下來要花多久。它不知道樹再高一公尺、掉下來的速度會不會變。它不知道風往哪個方向吹會改變蘋果落地的位置。

它能寫出蘋果掉下來的詩，但它並不理解這件事為什麼會發生。

世界模型的核心，是讓 AI 內建一個物理宇宙的表徵。它從幾百萬小時的網路影片（Yann LeCun 的 V-JEPA 用的素材）、幾千個機器人軌跡（V-JEPA 2 整合的）、3D 場景生成（World Labs 的 Marble 用的）裡，學會時間怎麼流動、空間怎麼擺、因果怎麼推。

學會以後，這個模型不只能寫蘋果掉下來，它能規劃。它能告訴你，如果蘋果樹種在斜坡上，掉下來的蘋果會滾到溪邊；如果你想在傍晚撿到蘋果，你應該幾點到那個位置等。

這已經不是文字接龍。是一個會推演世界的引擎。

▉ 道與術，徹底反轉

我們有一個古老的感嘆：「大道易得、小術難求。」哲學家、思想家、宗教領袖把人生的「道」傳承下來，每個人都聽過一千遍「珍惜時間」「善用槓桿」「複利的力量」。但要把一件具體的事情做到位，那需要練習、需要學徒、需要十年。書法的「術」要練十年，木工的「術」要練十年，外科手術的「術」要練十年。

AI 把這條曲線翻過來。

任何「術」現在的折舊速度都比五年前快十倍。Excel 巨集這種事明年 Copilot 接手。影片剪輯的功夫被 Runway 兩個月吃掉。程式碼？Claude Code 寫的比我清楚。「術」變便宜了，因為它的本質是「可被複製的步驟」，而 AI 最擅長的就是複製步驟。

留下來的是甚麼？是判斷甚麼是值得問的問題、甚麼是值得做的事。是「道」。

這就是道術反轉。在這個結構下，鷹架式的 prompt 技巧屬於術，正在便宜化、自動化、被內建。承重牆式的世界觀、決策框架、跨領域推演的能力屬於道，反而正在升值。

兩年前你跟人說「我會 prompt engineering」，這是 alpha。今年你跟人說同一句話，這是 noise。

▉ 兩種幻覺，差別在地基

道術反轉之外還有一個更危險的結構：當你的 AI 從文字接龍升級成世界推演者，它犯錯的性質也變了。

LLM 寫錯一句話，後果是文字噪音。你看到「拿破崙在 1815 年贏了滑鐵盧」，你笑一下、自己更正、繼續滑手機。傷害是零。

但世界模型如果搞錯一條物理定律，它生成的是「在斜坡上會往上滾的球」、「在空中可以瞬間轉九十度的車」、「不會碎掉的玻璃」。這些錯誤輸出進到下游的決策系統。進到自動駕駛、進到工廠機器人、進到醫療影像、進到金融模擬。後果是真實世界的崩塌。

把這個結構搬到個人決策上。如果你依賴 ChatGPT 給的職涯建議，最壞的情況是你浪費三個月走錯方向，自己會發現、自己會修正。但如果你依賴一個你不理解底層結構的「世界模型」幫你做投資組合、人生規劃、創業方向，你不只可能輸錢，你可能輸掉「能夠輸了再翻身」的那個底層結構。

文字幻覺浪費的是時間。世界幻覺燒掉的是地基。

這就是為什麼世界模型這條 path 上，最頂尖的研究者反而在減慢動作。LeCun 的團隊今年發表 LeWorldModel，模型參數只用 15M、可以在一張 GPU 上幾小時訓練完，比上一代基底模型快 48 倍。但他們做的並不是「更會做夢的 AI」。他們做的是「會檢驗自己夢得對不對的 AI」。World Labs 募了五億，做的也不是更炫的場景生成。他們要的是讓 3D 環境能被一致地踏進去、走出來、再踏進去還在那裡。這些工作不性感、不上熱搜，但都是在打地基。

▉ Sora 2 為什麼會死

回到開頭那個畫面。Sora 2 的關閉不是技術失敗。它的視覺效果到最後一天都讓人驚嘆。它失敗的是商業判斷：OpenAI 沒能在「炫技工具」跟「真正可以推演物理世界的引擎」之間找到中間地帶。

當消費者看膩了貓做三級跳，下一個變現點在哪？沒有答案。當企業要把它用在工廠模擬，它對撞擊力學的理解又不夠細。Sora 2 在「炫」這條線走到極致，但在「用」這條線上卡在中間。

OpenAI 自己知道。四月的策略轉向就是承認這件事。把 app 關掉、把 API 留到九月，意思是「我們繼續賣這個技術給願意自己組合場景的開發者，但我們不再期望它做為一個消費者市場」。

同一個月，World Labs 拿到 Autodesk 那兩億，因為 Autodesk 想用 Marble 做 BIM 跟 CAD 的次世代後端。Marble 不會被拿來做病毒影片。Marble 會被拿來做「橋會不會塌」的模擬。

這就是承重牆跟鷹架的差別。

▉ 今晚一個練習

關掉所有「ChatGPT 100 個必學公式」的影片。

打開一個空白 AI 視窗。不要下命令。不要 prompt template。問它一個你這週真的在掙扎的決策問題，告訴它你的脈絡，問它你沒看到的角度。

注意自己的反應。你會立刻想評估它說的話「對不對」嗎？這個本能反應就是你還在用 ChatGPT 的思路看 AI。試試另一個姿勢：把它說的話當作一個跨領域顧問丟出來的初步想法，你的工作是接著推演，不去評分。

如果它說「你可以從供應鏈韌性的角度想想」，你就接著問：那供應鏈韌性在我這個場景下，最弱的環節在哪？如果它說「你可以從家庭分工的角度想想」，你就接著問：那家庭分工有沒有可能本身就是這個問題的源頭？

每一次接著問，你都在練「道」的肌肉。每一次練習，你都離 Sora 2 那條死路遠一步，往 World Labs 那條活路近一步。

「我專門拆解：那些你已經被市場說服、但其實正在害你的共識。」

主力爸爸我錯了

Discussion about this post

Ready for more?