2月4日,Physical Intelligence开源了当时SOTA的VLA模型π0。
9月8日,中国的自变量机器人最新推出了端到端具身智能基础模型WALL-OSS,采用紧密耦合的MoE架构,能动作、会推理、长程任务表现优异,并在第一时间开源了,大家可以在自己的机器人本体上微调和应用。
9月9日,很巧的是,在自变量的模型开源之后,大洋彼岸的Physical Intelligence在多种真实环境泛化的π0.5也开源了。
自变量:https://huggingface.co/x-square-robot/wall-oss-fast;https://huggingface.co/x-square-robot/wall-oss-flow
PI:https://github.com/Physical-Intelligence/openpi
自变量机器人CTO王昊和physical intelligence的研究员柯丽一鸣(Kay Ke)最新有一期对话节目《临近机器人GPT-3时刻,具身智能开源模型的加速演进》,也提到了这次的开源计划。
回看LLM的开源历程,Meta2022年发布的OPT和2023年发布的LLaMA1,前者为首个大型开源LLM,后者的代码和权重泄露后引发社区热潮,也诞生了斯坦福大学的Alpaca模型这样的学界创新。
DeepSeek R1这样参数量高达6710亿的开放权重模型的出现,模糊了开源与闭源的界限,表明顶级能力也可以通过非封闭源代码的方式实现。正是这样的开源生态,推动了LLM领域的蓬勃。两个SOTA VLA模型的开源,也将助力VLA的生态发展,期待更多的本体可以在模型的赋能下发挥更多作用。
这样的开源的意义不仅仅停留在学术生态建设上。LLM开源浪潮的成功也验证了一种可行的商业模式,通过开源,公司可以迅速建立市场影响力,吸引顶尖人才和资金。意味着VLA技术路线的生态在一段时间内都会成为学术界乃至商业战场上的主导技术路线。就像《大教堂与集市》说的一样:
“有时候,要想成为一只更大的青蛙,最佳办法就是让水池更快变大,这就是技术公司参与公开标准(完全可以将开源软件看成是可执行标准)的经济原因”
无论是PI还是自变量,这两个VLA模型的先驱,都会面临相似的挑战。
我们拥有的在互联网数据上大规模预训练的VLM/LLM,虽然给机器人提供了很好的泛化性,但在落地成一种能够在真实物理世界里行动的AI依旧非常艰难,核心困境有两个:
图注:现有VLM用在机器人上会遇到的问题
π0率先引入动作专家Action Expert:在预训练 VLM骨干上增设一个独立的动作专家分支;动作专家采用 Flow Matching(流匹配),直接建模连续动作分布。
后来PI提出了FAST tokenizer的方法,是一种专门为机器人动作设计的离散token化方法。它的目标是把连续、高频、精细的机器人动作——比如机械臂的关节角度变化——转成一系列离散的 action tokens,方便 Transformer 这类序列模型进行训练和预测。
自变量也延续了采用Flow Matching方式的动作专家模块,并且也采纳了FAST tokenizer的方式让机器人的动作更好在VLM骨干上训练。
图注:(a)如OpenVLA;(b)如π0;(c)WALL-A和WALL-OSS的创新设计
从PI开始,VLA开始采用了一种巧妙的混合专家(MoE)架构。你可以把它想象成大脑里有两个紧密合作的专家团队:
这个“动作专家”是新来的,一开始什么都不会(参数是随机的)。在训练过程中,它犯错时产生的“负反馈”(梯度)会反向传播,干扰甚至“污染”原本VLM模型已经学好的知识。
PI的解决方案是名叫“知识绝缘”(Knowledge Insulation)。顾名思义,就是在训练时,想办法把VLM主干模型保护起来,不让它被新来的“动作专家”所干扰。可见文章:PI系列解读|Π0.5+知识绝缘,让机器人更快、更聪明
WALL-OSS采用了独特的紧密耦合架构。他的独特解法是让两个专家团队共享一部分核心认知能力(比如注意力机制),但在执行各自任务时会调用自己的专属网络。这种紧密耦合的设计,既保证了专业性,又实现了高效协作,让语言指令能精准地指导动作。
要解决这个问题,方法有很多,长推理是一个方向。
π0.5提出了层次化推理,先输出高层子任务(比如“pick up the plate”),再由动作专家生成连续动作来完成该子任务。
WALL-OSS在思维链的创新上更进一步。当面对复杂任务时,WALL-OSS不只是盲目地执行,而是会像人一样进行思考-规划-行动:
整个过程在一个模型内部完成,实现了从高级语义到具体物理动作的无缝转换,大大提升了完成长流程、复杂任务的成功率。
WALL-OSS 的整体架构。QwenVL2.5-3B 作为主要骨干模型,以视觉输入(第一人称视角和手臂安装相机视图)和文本指令作为输入,并根据不同的训练阶段产生不同的输出,同时在整个过程中保持对相同多模态输入的条件依赖。
π0.5在预训练的数据中加入了来自互联网的图像描述、VQA 和目标定位等数据。也指出了互联网数据可以让模型理解并跟随涉及未见物体类别的语言指令。
WALL-OSS更推进了一步,空间/具身理解能力优于原生Qwen。和π0.5不同的是,WALL-OSS在预训练阶段便分为两个精心设计的阶段,并且充分利用具身的VQA增强机器人在环境中的空间推理能力:
PI 的联创Chelsea曾经提到,数据规模解决不了所有问题,需要更多元的跨本体的真实世界数据。他们在π0.5中利用了大量不同构型本体采集的真实世界数据和少量互联网数据,以提升模型在不同环境跨本体的繁华性。
WALL-OSS的数据策略和PI的思路非常一致,也是坚持真实数据为主。他们构建了一个以真实数据为中心、多源的数据集,以解决当前缺乏大规模对齐的 VLA 监督和空间理解差距的问题。这个数据集时长超过数万小时,并包含三个互补的部分:
(1)自己收集的机器人动作数据,以确保高质量和任务复杂性;
(2)开源的动作数据,以实现跨形态和跨环境的泛化;
(3)多模态的 VQA 数据,以保持和增强语言-视觉能力,并提供额外的空间-时间监督和推理支持。
图注:丰富的数据来源
π0.5的效果令人惊艳,这里不多赘述,WALL-OSS的实验效果如何呢?
为了验证WALL-OSS的实力,研究团队进行了一系列严格的测试:
整体来看,无论是分布内还是分布外,都取得了很好的表现,甚至超过了PI的。
WALL-OSS的研究为通用机器人AI的发展提供了一条清晰且有效的路径。它通过创新的MoE紧密耦合架构、两阶段训练方法和思维链机制,成功地将高级的语言和视觉理解能力与底层的物理动作控制能力紧密地结合在一起,展示了构建一个既能看懂世界、又能思考规划、还能精准行动的具身智能体的巨大潜力。
很高兴能够看到VLA在比 LLM 更短的时间内就实现了 SOTA 模型的开源。这不仅展示了机器人领域研究的迅速迭代,也反映出学术界与产业界对具身智能的高度关注。
在可以预见的未来,随着WALL-OSS 与π0.5的相继开源,VLA社区将迎来前所未有的活力与加速度。