一个做了十二年因果研究的学者,在节目里给整个具身智能行业的主流路线打了分:VLA(视觉-语言-动作模型)五分,WAM(以动作为核心的世界模型)六点五分,而她自己那条还没跑出真机 demo 的路线,目标是十分。

这不是一句口嗨。黄碧薇是 UCSD 的助理教授,从德国马普所到 CMU,因果发现这条窄路她走了十二三年,今年下场创立 Aether AI,做"因果世界模型",落地场景是机器人的大脑,短时间内融了约两千万美金天使轮。一个把半个职业生涯押在一个冷门方向上的人,说"全行业方向都错了,只有因果这条路能到终局",你很难判断这是真知灼见,还是创业者必须讲的故事。

更耐人寻味的是节目的收尾。Koji 问她,如果能问上帝一个问题,她想问什么。她说,她想问"因果到底是不是真实存在的"。一个赌上整个公司去做因果的人,承认自己不确定因果是否真实存在。

以下是我们的拆解和判断。

"第四条路":先承认她不是在喊口号

要评判黄碧薇,得先把她的立场立住,而不是急着拆。

她把当下的世界模型路线数成三条:视频生成、3D 生成、Yann LeCun 力推的 JEPA。她的判断是,这三条都不算真正的世界模型,因为它们没有去学物理世界背后的因果规律,只是在不同层面上做渲染、做预测。她说自己做的是"第四条路":在隐空间里同时学会因果变量(物体形状、速度、摩擦力)、因果结构(这些变量之间怎么相互影响),以及因果动力学(给一个动作,下一刻世界变成什么样)。

这套区分听起来抽象,但她举的例子很扎实。让机器人煎一张 pancake,如果它只是看视频学了个表面流程——倒面糊、等一会儿、翻面——那走进真实厨房就会出问题:这次锅更热、面糊更厚、油更多,三十秒可能就糊了。她对 VLA 的批评落在一个具体的技术点上:动作端是连续空间,训练数据没法穷举所有可能状态,所以哪怕"桌面高了两厘米",没覆盖到的姿态就可能让策略暴露泛化缺口。 这不是说 VLA 一无是处,而是说它靠数据覆盖的打法,碰到了连续空间和组合泛化的天花板——这是任何做过机器人操作的人都认的真问题。

所以"第四条路"既是一个技术路线的命名,也是一个创业语境里的差异化叙事,两者可以同时成立。一个真做了十二年因果的人提出它,跟一个蹭"因果"热词的团队提出它,分量完全不同。我们不打算把她写成"又一个会融资的投机者"。她的学术血统是实的:在 CMU 师承 Peter Spirtes、张坤(Kun Zhang),在马普所的领导是 Bernhard Schölkopf——都是因果发现这一脉的核心人物。

但立住她,恰恰是为了能更公平地问下一个问题:她说的这些,哪些是可以被真机验收的技术赌注,哪些是没法证伪的信仰?

可下注的那一层:数据效率与一个被退回的机器人

她的主张里,有一层是可以下注、也值得严肃对待的。

第一是数据效率。她说,LLM 加一百万条数据可能提升 20% 的 performance,而一个真懂因果、懂底层规律的模型,"可能只需要二十万条数据就能达到一样的效果"。她甚至直接说"scaling law 也是比较虚",这是对当下整个堆数据范式的正面叫板。这个主张的好处是,它可以被验证:模拟器里,她的模型在只学过 lift 和 pick-and-place 之后,能完成从没见过的 stacking 任务,因为 stacking 的物理规律是前两者的叠加。

第二是那个让她决定创业的瞬间。一个朋友告诉她,工厂里的机器人测试了一阵子之后又被退回去了——不是因为机器人不够灵巧,而是它"成了工厂里的一个负担,因为缺了一个非常智慧的大脑"。这个细节比任何宏大叙事都有说服力:它指向一个真实的、花钱方愿意为之买单的痛点。

这一层是黄碧薇真正值得被认真对待的地方。不是因为她说因果"更高级",而是因为她敢把因果押进具身智能里极难的那道关:没见过的环境、没见过的任务,还要能泛化。 这是当下所有靠遥操数据、靠视频模仿的路线都没解决的问题。如果她的第一版真机模型今年能在这道关上交出哪怕一点像样的成绩,那"二十万条顶一百万条"就不再是 PPT 上的数字。

不过得给这层的乐观降一点温。"二十万条"目前的证据,是模拟器里上百小时数据训出来的 stacking 泛化;真机 demo 她说今年才会做。她自己用的词也都是"可能""应该"。这是一个在模糊地带做出的效率宣称,不是已经发生的事实。可以下注,但要清楚你下注的是一张尚未兑现的期票。

不可证伪的那一层:当"只有我对"无法被反驳

她的主张里,还有一层是没法证伪的,而这一层往往用特别笃定的语气说出来。

一是"第四条路"这个命名本身。把别人都归进"前三条",把自己单列为第四条,这是一种叙事策略:它不需要先赢,就先在认知上占住了一个独特位置。二是排他性。她说,真正走到"学因果变量+因果结构+因果动力学"这一层的,"应该是我们团队是仅有的"。注意她原话里那个"应该"——是推断,不是断言,但落到读者耳朵里,很容易被听成"全世界只有我对"。

特别微妙的是那个形而上学的收尾。她想问上帝"因果是否真实存在",又说"茶余饭后可以 argue,但平时务实一点,假设它存在"。

很容易的一种反应,是把这句话当成把柄,讥讽"她连根基都怀疑还创业"。但这恰恰读反了。一个领域的前驱者,必须先假设某个基础概念成立,才能往前推进工作;同时又足够清醒,知道这只是个假设——这种张力不是漏洞,是诚实。 她在本体论上保留怀疑,在工程上采取实用主义。创业赌的是后者,不是去证明前者。一个对自己理论的边界毫无意识、逢人就说"因果必然是答案"的人,反而更可疑。

所以这一层不该被嘲讽,但必须被识别。因为当一个创始人说"全行业方向都错了,只有我对"时,"只有我对"这句话本身是无法被外部反驳的:它要么靠真机泛化兑现,要么就永远停在叙事里。识别它,不是为了否定她,而是为了在为它买单之前,知道自己买的是哪一层。

笔者个人观察:学术正确和工程能跑,隔着一整条河

这期节目有一个结构性的局限:黄碧薇所有的信心信号,几乎都来自模拟器和论文,真机还在路上。所以判断她的赌局,不能只听她怎么说,得把"学术正确"和"工程能跑"这两件事分开看。笔者补一个前车之鉴、一个产业侧的观察。

前车之鉴是 RAG。两三年前,"用知识图谱给大模型注入结构化知识"在学术上极其正确——逻辑严密、可解释、不易幻觉。但落到产品里,不少团队最后发现,维护一张准确知识图谱的成本,高到不如直接把文档塞进上下文窗口。更优雅的路线,输给了更糙但能跑的路线。这不是因果图谱派错了,而是"理论上更合理"和"在真实约束下更划算"本就是两件事。因果世界模型现在的处境与之相似:它在白板上更对,但要赢,得证明"显式建模因果变量、实时估计物理参数、再把仿真迁移到真机"这一整套,能在成本、返工率和泛化上跑赢"糙但数据多"的对手。

产业侧的观察是融资节奏。过去一年,具身智能的故事重心明显从"谁的本体硬件强"挪到了"谁的大脑更聪明","世界模型"几乎成了所有大脑叙事的标配词。两千万美金天使轮的激进定价,正是这个氛围的产物:资本愿意为一个尚未交付的认知范式,先付一笔很高的入场费。但也正因为这个词太好用,真正能把"因果"做到她说的那三层、而不是停在 high-level 提一句的团队本就稀少。稀少既是她的护城河,也是她极大的执行风险:只要融资环境还热,叙事本身就能在短期撑住估值,未必需要立刻被真机证伪——而这恰恰会让"她到底跨没跨过那条河"的答案,被推迟到下一轮融资,甚至更晚才揭晓。

解释世界,还是控制世界

把这两层叠在一起看,黄碧薇这场赌局真正的赌注就清楚了。

因果,在过去两千年里,从亚里士多德到易经,一直是人类解释世界的语言——它帮我们理解"为什么会这样"。黄碧薇在做的,是把这套解释世界的学术语言,押成一种控制世界的工程能力:让机器人不只是看懂物理规律,而是能用它在没见过的厨房里把那张 pancake 真的煎好。这是一次范式的迁移,也是这场赌局的全部张力所在。

在第一版真机模型交卷之前,"因果世界模型"这五个字会一直同时是两样东西:一个可证伪的技术赌注,和一个不可证伪的创业信仰。前者提供可以被验收的进步指标,后者吸收所有暂时无法兑现的风险。它们共生在同一家公司、同一个创始人身上,甚至共生在她同一段回答里:你能听见她从"二十万条数据"这样的具体承诺,一路滑到"只有我们对"的排他判断,再滑到"因果是否真实存在"的根基之问。

我们的判断是:这条路值得被认真追踪,但读者要练就的,是把这两层拆开的能力。下一次再听到一个创始人说"全行业都错了,只有我对",不必急着信,也不必急着嘲。先问一句:这句话里,哪部分明年就能被真机、被指标、被一张交付单验收,哪部分要等到五年后、甚至永远无法证伪?分清楚了,你才知道自己掏的钱、投的注、付的信任,到底买的是哪一层。

声入商业说

我们不替你听完四十九分钟,我们帮你把一个聪明人的主张切成可下注的和要警惕的两半。黄碧薇的因果世界模型,是这两年具身智能里少见的、敢正面挑战主流路线的反共识样本——它最终会成为一次范式突破,还是一个停在叙事里的优雅假设,得等她的真机 demo 说话。

评论区想听听你的判断:当一个创始人说"全行业方向都错了",你会先信,还是先等他拿出可被验收的那一层?

这期播客来自十字路口 Crossing,小宇宙搜索"十字路口"即可收听完整对话;点击阅读原文跳转节目页。