沉思录 - 移动互联到具身智能的范式转换

63

回顾 08 年的移动互联崛起时代,当时年纪尚小,关注点还在 4399 ,还没去关注行业。十年后,2018 年的一切都是如此不可思议。

1\ 08 年是怎样的

  • PC 主流 - 那个时候 iPhone 刚刚推出不久,PC 正是崛起的势头,PC 网游、PC 页游甚至 PC 软件,如日中天。门户网站也非常火热。

  • 弱小的移动互联 - 那时的手机只能跑简单的应用,一个应用如果是 3MB 就是巨大的应用了。十年后的手机性能非常强劲,在 2021 年甚至有博主给手机装了 win11,在上面玩大型游戏,这个在诺基亚的 java 塞班系统上基本是不可能的。

  • 弱智的微设备 - MP3 和 MP4 这种“弱智”的微设备是移动设备的主流。

2\ 2024 年对未来的幻想

我认为要敢于幻想,要从未来的幻想引导现在的决策。

对于现在(2024)移动互联,或者说第一代移动互联的时代已经过去了。但是未来第二代互联网将会登场。我们可以幻想:

  • 性能 - 网速越来越快,可以在移动端完成秒级别、GB 级别甚至 TB 级别的传输;网络信号强度越来越好,比如在航空,地铁的网络不再断联,实时通讯稳定性极好。网络延迟越来越低,不再有卡顿丢包。硬件的计算性能越来越快,比如手机达到了现在 M3 Ultra 级别的性能。功耗越来越低,电池的续航会越来越好,比如续航达到了 一个月,半年。

  • 成本 - 制作互联网产品成本越来越低,产品制作的原料和人工?成本,将会越来低。使用成本越来越低,比如微型设备越来越微型,甚至是否以手机形态存在,甚至都不是,就是某种更方便的微型穿戴设备,比现在的手机更方便。

  • 智能化 - 越来越智能,自动化的程程度越来越高,越来越稳定,大量重复的人工工作都可以被替代。AI 会越来越好,具体为越来越智能,每个行业,都会 AI Powered+。从低至上,甚至很多的基础设施,协议,指令集,电路板,都会有 AI 的参与,因为很多事情其实就是重复的,流水线的。现在的 AI 是建立在冯诺依曼的体系结构下的,底下的运行其实还是 0 和 1,我认为一种存在的一种可能是内置指令集,既然万物皆 AI Powered+ 那么将 AI 需要的指令原子化为一个个向量,将需要成千上万步的 0 1 “标量执行” 变成“向量执行”,那么存在的一种可能是执行效率、推理成本会有成千上万倍的提升。

3\ 2024 年的 AI 时代如何投入精力

  • 判断难度,如果很难,除非最好,否则不要 - 改变世界的方式有难易,我认为要结合现实的条件决定是否要做,比如上述说的指令集的突破,如果没有最好的条件、最好的团队,就不要想着自己去突破,对于现在的 LLM 模型,也是这个道理。

  • 选择现在不可能,但未来可能的事 - 微设备?汽车?手表?生活用具?目前看来,我认为具身智能就是一个正确的方向,或者说一切的终点。(发布这篇文章的两天后看新闻发现我这个观点和《黄仁勋与沈向洋的对话》中的观点类似)

    • 智能驾驶,以 AI 为核心。出现 5 级的全自动化的汽车

    • 智能个人设备,以 AI 为核心。带专业医疗诊断的个人设备,手表,眼镜,耳机,手机,当身体不舒服,可以不去医院,获得专业级的问诊

    • 智能家具设备,以具身智能为核心。智能厨房机器人(智能菜刀,智能切菜版,智能洗碗设备,智能油烟机,一套式的解决方案,只需要放入原料,自动清洗)智能宠物机器人(分析、陪伴、防止、照顾宠物),智能家庭管家机器人(消灭虫子,识别破除电水火风险,除潮,保湿,空气清晰,温度控制),智能投影仪(取代电视,性能上获得了比电视更好的效果)

4\ 2024 年的 Agent 为何无用

我认为,持续、关注并投入具身智能或许就是 2024 年 ~ 2034 年最好的做法,具身智能一定会出现,且可用。

现在(2024)的 Agent 非常尴尬,有点用,但没什么大用。不是刚需。如果一个产品,不能成为一个特定群体的用户的刚需,那我认为就是其就是没有用

现在的这些 Agent 不是真正的 Agent,只是一种自动化工具,也即是人类穷举地写自动化规格也能做到,而且稳定。而在未来,LLM 能力进一步跃迁,具身智能会成为刚需,将出现真正有用处的 Agent。此时就可以切入,并去做一个能处理某个场景问题的具身智能应用产品了,拿下市场。一定不是现在投入那么多精力,去做现在的那些伪 Agent。伪 Agent 产品将会被模型的跃迁而被替代。真正的 Agent,如具身智能产品则是依托于其实际的场景,与模型共生跃迁。

举个例子,现在的软件研发 Agent 方向,就是一个伪 Agent(例如 MetaGPT、ChatDev),前进的方向就是错误的。

我们说,如果未来的应用都是 AI 原生,那么软件 1.0 终归要迎来终结,这是自然而然发生的,就像诺基亚在移动互联中死去那样。诺基亚死去的原因是被各大手机厂商卷死的,但注意,各大手机厂商都在卷触屏智能手机(安卓系),而不是去做诺基亚性质(按键、类塞班、电阻屏)的手机。

重点是什么?诺基亚是被新时代的产品卷死的。

我们从中可以看到,在新时代,人们的注意力会被新时代产品吸引,不再关注旧时代的产物。软件也一样。随着 AI 驱动的、软件 2.0 的研发体系和方案在未来出现,那么我们要关注的是如何更好地学习、构建出一个符合人们需求的软件 2.0 应用。而不是想着,如何利用 AI 的能力,去构建出一个软件 1.0 应用,或者优化掉软件 1.0 的人力成本。这样的方向毫无意义,也解决不了任何问题。AI 降临,软件 1.0 自然而然不再有需求,自然而然就会被淘汰,那为何还要死磕如何去更快地构造一些旧时代的产物呢?

再举个例子,现在的 text2video,text2image 为何没啥用?

理论上是因为不具备具身智能那样贴合某个强需求,我实在想不到,除了逗小屁孩,和吓唬我的猫猫,我还能有啥 text2image 的场景,或许未来可以做个软件 2.0 时代的玩具集成 text2image,逗逗小屁孩。

未来的 Cursor 和 Perplexity 会怎样?

作为 2024 年的顶流 Agent,我认为这两个 Agent 算是把 2024 年 LLM 的能力、价值体现到产品效果最好的两个厂商了,但还是一样的,他们属于软件 1.0 的工具,如果软件 2.0 时代来临,Cursor 没有换方向去构建软件 2.0 的 IDE,Perplexity 没有基于软件 2.0 的能力提供优于 Google 的服务,那时还没打死 Google,那就是死。