【环球网科技综合报道】“早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。” 自变量创始人兼CEO王潜认为,家庭环境的本质是随机、碎片和不断变化的。“目前全球没有任何一台机器人可以在无遥控操作的情况下独立完成上述场景中的综合整理任务。”
他解释道,舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强,但这些动作本质是预设轨迹的“命令行机器人”,每一个动作都经过预先编程或遥控操作。工厂中已经部署的工业机器人同样不构成可比案例:工厂环境下,一个动作可以重复一万次且每次条件相同;而在家庭中,一万个动作每个可能只做一次,每次的环境条件都不一样。因此,机器人进入家庭也被视为“这个时代最难的技术问题之一”。
4月21日,自变量机器人正式发布新一代自研具身智能基础模型WALL-B,这是基于世界统一模型架构(World Unified Model,WUM)的具身智能基础模型,标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。同时,自变量机器人宣布将在35天后的5月25日搭载WALL-B的新一代机器人将首批入驻真实家庭。

具体应用方面,自变量与 58 同城合作,将搭载 WALL-AS 模型的机器人送入真实家庭,与保洁阿姨协同作业,实现机器人进入家庭,并服务人类复杂的家居生活。
据自变量联合创始人兼CTO王昊介绍,WALL-B真正区别于行业其他方案的核心,是其从VLA到WUM的架构革命。
该架构的设计思路类似于 Apple Silicon 的统一内存架构:在苹果 M1 芯片之前的 Mac 上,CPU、GPU、内存各自独立,数据搬运产生的延迟和损耗成为性能瓶颈;苹果通过统一内存架构让所有处理单元共享同一块内存,性能由此大幅提升。
在机器人领域,VLA就类似于M1之前的笔记本电脑架构,视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。
WALL-B采用的WUM 的核心理念与之相同,将视觉、语言、动作、物理预测等所有能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运损耗。
基于这一架构,WALL-B 实现了三项区别于行业现有模型的核心技术特征:
第一,原生多模态。 WALL-B 从训练第一天起,即对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练,实现“多模态进、多模态出”。这意味着模型不需要通过“传话”的方式在不同模块间转译信息——它看到杯子的同时就已经在准备伸手,感觉到重量的同时就已经在调整力度。这种架构还首次赋予了模型一种被称为“原生本体感”的能力:WALL-B 无需持续观察自身全身或依赖大量外部传感器,即可内在地感知自身的空间尺寸,如高度、宽度、手臂伸展范围,并判断能否通过某个空间或触及某个物体。这是一种内生的空间感知能力,而非通过外部测量或建模获得。王昊指出,这一点甚至许多动物都不具备。
第二,物理世界的“世界观”。 WALL-B 能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中——例如一个盘子一半悬空在桌沿外——模型可以推断出盘子掉落摔碎,从而采取预防动作。这种对物理规律的理解为零样本泛化提供了基础。日常生活中,物理规律在不同环境中均保持一致,WALL-B 在任何一个它从未去过的家庭中,都能利用对基本物理常识的理解来应对新场景,不需要针对每个家庭重新训练。
第三,与世界交互并自我进化。 这是 WUM 架构区别于所有现有 VLA 模型的最根本特征。目前主流机器人在任务失败后通常直接停止,返回错误信息,无法从失败中学习。WALL-B 的行为模式则完全不同:它在失败后会调整策略再次尝试,如果成功,则将这次成功的经验直接更新到模型参数中。这种机制使模型在真实环境中完成自我迭代,无需工程师重新训练、无需人工注入新数据、无需返回实验室。王昊将其类比为人类学习使用筷子的过程,“筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能。WALL-B 克服了 Transformer 架构难以进行长期内化记忆的问题,所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。”
“尽管进入家庭的机器人现在还很笨,走得很慢,经常犯错。人类从婴儿时期迈出的第一步也是如此。每一个伟大的旅程,都是从踉踉跄跄的第一步开始的。如今,机器人已经在最复杂的地方开始了它学习和进化的征程。”王潜说道。(青山)