沉思录 - 移动互联到具身智能的范式转换

Warren Zhan

2024-11-24

2024-12-25

行业

思考, 行业, 分析, 预测

123 10~13 min

回顾 08 年的移动互联崛起时代，当时年纪尚小，关注点还在 4399 ，还没去关注行业。十年后，2018 年的一切都是如此不可思议。

1\ 08 年是怎样的

PC 主流 - 那个时候 iPhone 刚刚推出不久，PC 正是崛起的势头，PC 网游、PC 页游甚至 PC 软件，如日中天。门户网站也非常火热。
弱小的移动互联 - 那时的手机只能跑简单的应用，一个应用如果是 3MB 就是巨大的应用了。十年后的手机性能非常强劲，在 2021 年甚至有博主给手机装了 win11，在上面玩大型游戏，这个在诺基亚的 java 塞班系统上基本是不可能的。
弱智的微设备 - MP3 和 MP4 这种“弱智”的微设备是移动设备的主流。

2\ 2024 年对未来的幻想

我认为要敢于幻想，要从未来的幻想引导现在的决策。

对于现在（2024）移动互联，或者说第一代移动互联的时代已经过去了。但是未来第二代互联网将会登场。我们可以幻想：

性能 - 网速越来越快，可以在移动端完成秒级别、GB 级别甚至 TB 级别的传输；网络信号强度越来越好，比如在航空，地铁的网络不再断联，实时通讯稳定性极好。网络延迟越来越低，不再有卡顿丢包。硬件的计算性能越来越快，比如手机达到了现在 M3 Ultra 级别的性能。功耗越来越低，电池的续航会越来越好，比如续航达到了一个月，半年。
成本 - 制作互联网产品成本越来越低，产品制作的原料和人工？成本，将会越来低。使用成本越来越低，比如微型设备越来越微型，甚至是否以手机形态存在，甚至都不是，就是某种更方便的微型穿戴设备，比现在的手机更方便。
智能化 - 越来越智能，自动化的程程度越来越高，越来越稳定，大量重复的人工工作都可以被替代。AI 会越来越好，具体为越来越智能，每个行业，都会 AI Powered+。从低至上，甚至很多的基础设施，协议，指令集，电路板，都会有 AI 的参与，因为很多事情其实就是重复的，流水线的。现在的 AI 是建立在冯诺依曼的体系结构下的，底下的运行其实还是 0 和 1，我认为一种存在的一种可能是内置指令集，既然万物皆 AI Powered+ 那么将 AI 需要的指令原子化为一个个向量，将需要成千上万步的 0 1 “标量执行” 变成“向量执行”，那么存在的一种可能是执行效率、推理成本会有成千上万倍的提升。

3\ 2024 年的 AI 时代如何投入精力

判断难度，如果很难，除非最好，否则不要 - 改变世界的方式有难易，我认为要结合现实的条件决定是否要做，比如上述说的指令集的突破，如果没有最好的条件、最好的团队，就不要想着自己去突破，对于现在的 LLM 模型，也是这个道理。
选择现在不可能，但未来可能的事 - 微设备？汽车？手表？生活用具？目前看来，我认为具身智能就是一个正确的方向，或者说一切的终点。（发布这篇文章的两天后看新闻发现我这个观点和《黄仁勋与沈向洋的对话》中的观点类似）
- 智能驾驶，以 AI 为核心。出现 5 级的全自动化的汽车
- 智能个人设备，以 AI 为核心。带专业医疗诊断的个人设备，手表，眼镜，耳机，手机，当身体不舒服，可以不去医院，获得专业级的问诊
- 智能家具设备，以具身智能为核心。智能厨房机器人（智能菜刀，智能切菜版，智能洗碗设备，智能油烟机，一套式的解决方案，只需要放入原料，自动清洗）智能宠物机器人（分析、陪伴、防止、照顾宠物），智能家庭管家机器人（消灭虫子，识别破除电水火风险，除潮，保湿，空气清晰，温度控制），智能投影仪（取代电视，性能上获得了比电视更好的效果）

4\ 2024 年的 Agent 为何无用

我认为，持续、关注并投入具身智能或许就是 2024 年～ 2034 年最好的做法，具身智能一定会出现，且可用。

现在（2024）的 Agent 非常尴尬，有点用，但没什么大用。不是刚需。如果一个产品，不能成为一个特定群体的用户的刚需，那我认为就是其就是没有用。

现在的这些 Agent 不是真正的 Agent，只是一种自动化工具，也即是人类穷举地写自动化规格也能做到，而且稳定。而在未来，LLM 能力进一步跃迁，具身智能会成为刚需，将出现真正有用处的 Agent。此时就可以切入，并去做一个能处理某个场景问题的具身智能应用产品了，拿下市场。一定不是现在投入那么多精力，去做现在的那些伪 Agent。伪 Agent 产品将会被模型的跃迁而被替代。真正的 Agent，如具身智能产品则是依托于其实际的场景，与模型共生跃迁。

举个例子，现在的软件研发 Agent 方向，就是一个伪 Agent（例如 MetaGPT、ChatDev），前进的方向就是错误的。

我们说，如果未来的应用都是 AI 原生，那么软件 1.0 终归要迎来终结，这是自然而然发生的，就像诺基亚在移动互联中死去那样。诺基亚死去的原因是被各大手机厂商卷死的，但注意，各大手机厂商都在卷触屏智能手机（安卓系），而不是去做诺基亚性质（按键、类塞班、电阻屏）的手机。

重点是什么？诺基亚是被新时代的产品卷死的。

我们从中可以看到，在新时代，人们的注意力会被新时代产品吸引，不再关注旧时代的产物。软件也一样。随着 AI 驱动的、软件 2.0 的研发体系和方案在未来出现，那么我们要关注的是如何更好地学习、构建出一个符合人们需求的软件 2.0 应用。而不是想着，如何利用 AI 的能力，去构建出一个软件 1.0 应用，或者优化掉软件 1.0 的人力成本。这样的方向毫无意义，也解决不了任何问题。AI 降临，软件 1.0 自然而然不再有需求，自然而然就会被淘汰，那为何还要死磕如何去更快地构造一些旧时代的产物呢？

再举个例子，现在的 text2video，text2image 为何没啥用？

理论上是因为不具备具身智能那样贴合某个强需求，我实在想不到，除了逗小屁孩，和吓唬我的猫猫，我还能有啥 text2image 的场景，或许未来可以做个软件 2.0 时代的玩具集成 text2image，逗逗小屁孩。

未来的 Cursor 和 Perplexity 会怎样？

作为 2024 年的顶流 Agent，我认为这两个 Agent 算是把 2024 年 LLM 的能力、价值体现到产品效果最好的两个厂商了，但还是一样的，他们属于软件 1.0 的工具，如果软件 2.0 时代来临，Cursor 没有换方向去构建软件 2.0 的 IDE，Perplexity 没有基于软件 2.0 的能力提供优于 Google 的服务，那时还没打死 Google，那就是死。