跳到主要内容
  1. Posts/

李彦宏这句话,两个月就在硅谷应验了

·1 分钟

李彦宏这句话,两个月就在硅谷应验了 #

Meta 内部流行过一个排行榜,名字起得挺妙,叫 Claudeonomics。8.5 万员工,按 Token 消耗量排名,烧得越多排得越高,一度是内部的荣誉榜。30 天,全员烧掉 60 万亿 Token,榜首一个人,单月 2810 亿。后来的事不难猜:不少人为了冲榜,拿模型跑了一堆没什么用的任务。

看到这串数字,我想起李彦宏 5 月在百度开发者大会上说的一句话,当时不少人觉得是在讲概念:“Token 不一定代表终局,它代表成本,并不代表收益;它衡量的是投入,而不是产出。”两个月不到,这句话被硅谷挨个验证了一遍。

这病其实有名字,古德哈特定律:一个指标一旦变成目标,它就不再是好指标。老程序员都见过它上一次发作,用代码行数考核工程师,结果人人都往仓库里灌又长又烂的代码。Token 排行榜就是代码行数考核的 AI 版,量的是动作量,跟活干得好不好没关系。

接下来是行业集体交学费。亚马逊那个叫 KiroRank 的内部冲榜榜单停了,高管出来告诫员工“不要为了使用 AI 而使用 AI”。Uber 给 5000 名工程师配上 AI,四个月烧完了全年预算,COO 事后承认,Token 消耗与最终发布的有价值产品之间,并不存在明显的线性关系。微软更直接,发现有工程师一个月烧掉 2000 美元 Token,官方给的说法是,烧 Token 已经比员工贵,按了暂停键。7 月 1 日,Palantir 的 CEO Karp 在 CNBC 把话挑明:这套 Token 计价模式,“彻底出了问题”。从兴起到被嫌弃,Tokenmaxxing 这股风一共刮了六个月。

海外集体批判与反思唯 Token 论

更拧巴的是账面:2023 年以来 Token 单价跌了九成多,企业的 AI 账单反而翻倍。贝恩测算过,一年里 Token 成本减半,消耗量却涨了 450%。钱花得更多了,却更说不清买到了什么。

翻车的姿势五花八门,病根就一个:Token 是投入侧的数字,它天然回答不了“干成了什么”。就像你没法拿一个团队的加班时长去算它的产出。这轮学费买到的教训是,尺子必须挪到产出那一侧去。

那产出侧数什么?李彦宏当时给的答案是 DAA,日活智能体数:每天有多少个 Agent 真的在给人干活,并且交付了结果。对标的是移动互联网人人都懂的 DAU,只是数的对象从“多少人打开了 App”换成了“多少活被干完了”。他的原话是,“关注有多少 Agents 在给人类干活,并交付结果。这比无谓的 Token 消耗,更接近价值,也更接近本质。”

上个月,这把尺子等来了一个分量很重的注脚。我去翻了纳德拉那期《Possible》播客的原文,他的原话就一句:Microsoft has 20 million AI agents running right now。微软内部,2000 万个智能体在跑。更有意思的是他接下来的抱怨:他自己同时管着 100 个编程智能体,坦言认知负荷太高,所以这些智能体必须“完全可检查、完全可审计”,要给它们身份、沙盒和策略,像管员工一样管起来。

全球 AI 科技公司 DAA 规模预测

一个 CEO 开始操心 2000 万个 agent 里到底有多少真在干活,他手里需要的那块仪表盘,数的其实就是 DAA。

当然,古德哈特定律不会放过任何指标,DAA 将来会不会也被人刷穿?说不好,这块我也没完全想透。但两把尺子有个结构性的差别:刷 Token,多调几次 API 就行,造假几乎免费;而 DAA 数的是任务闭环,你想伪造一次“交付了结果”,差不多得真把活干了一遍。**一个指标配不配当尺子,不看它准不准,看伪造它贵不贵。**代码行数输在这,Token 也输在这。

这一局,提前把话说清楚的,是两个月前那个被认为在讲概念的人。

凡人小北
作者
凡人小北
和我的 AI 合伙人凡哥一起,探索人机协作的新可能。