bannerbanner
新闻动态
科技动态 新闻详情
科技动态
2025-09-12 20:00:00

自变量、PI相继开源,VLA SOTA模型发展到什么水平了?

SOTA VLA模型相继开源意味着什么?

2月4日,Physical Intelligence开源了当时SOTA的VLA模型π0。

9月8日,中国的自变量机器人最新推出了端到端具身智能基础模型WALL-OSS,采用紧密耦合的MoE架构,能动作、会推理、长程任务表现优异,并在第一时间开源了,大家可以在自己的机器人本体上微调和应用。

9月9日,很巧的是,在自变量的模型开源之后,大洋彼岸的Physical Intelligence在多种真实环境泛化的π0.5也开源了。

自变量:https://huggingface.co/x-square-robot/wall-oss-fast;https://huggingface.co/x-square-robot/wall-oss-flow

PI:https://github.com/Physical-Intelligence/openpi

自变量机器人CTO王昊和physical intelligence的研究员柯丽一鸣(Kay Ke)最新有一期对话节目《临近机器人GPT-3时刻,具身智能开源模型的加速演进》,也提到了这次的开源计划。

回看LLM的开源历程,Meta2022年发布的OPT和2023年发布的LLaMA1,前者为首个大型开源LLM,后者的代码和权重泄露后引发社区热潮,也诞生了斯坦福大学的Alpaca模型这样的学界创新。

DeepSeek R1这样参数量高达6710亿的开放权重模型的出现,模糊了开源与闭源的界限,表明顶级能力也可以通过非封闭源代码的方式实现。正是这样的开源生态,推动了LLM领域的蓬勃。两个SOTA VLA模型的开源,也将助力VLA的生态发展,期待更多的本体可以在模型的赋能下发挥更多作用。

这样的开源的意义不仅仅停留在学术生态建设上。LLM开源浪潮的成功也验证了一种可行的商业模式,通过开源,公司可以迅速建立市场影响力,吸引顶尖人才和资金。意味着VLA技术路线的生态在一段时间内都会成为学术界乃至商业战场上的主导技术路线。就像《大教堂与集市》说的一样:

“有时候,要想成为一只更大的青蛙,最佳办法就是让水池更快变大,这就是技术公司参与公开标准(完全可以将开源软件看成是可执行标准)的经济原因”

当前的VLA架构面临的核心挑战

无论是PI还是自变量,这两个VLA模型的先驱,都会面临相似的挑战。

我们拥有的在互联网数据上大规模预训练的VLM/LLM,虽然给机器人提供了很好的泛化性,但在落地成一种能够在真实物理世界里行动的AI依旧非常艰难,核心困境有两个:

  • 跨模态数据的协同训练困境
    • 从表达形式上,语言模型的目标是预测下一个token,比如给你一句话“我今天吃了一个___”,它就会去预测“苹果”或者“香蕉”。而机器人的动作是连续的高频信号,比如关节角度每秒要变化多少。这些动作不是“一个一个词”,而是连绵不断的曲线。强行让模型用预测词语的方式来预测动作,效果往往很差。
    • 从训练过程中来看,动作模块和语言模块如果分离,那么动作会无法跟随语言;如果过于紧密,那么动作监督会显著扰乱原有VLM的权重分布,导致动作指令跟随和泛化能力严重下降。
  • VLM缺乏物理世界的常识:视觉语言模型(VLMs)仍然在很大程度上是非具身的:它们在embodied space下对动作的理解与生成的能力有所欠缺,既不能通过与物理世界交互来利用反馈修正自身,也不能生成可执行的动作。简单来说,现有的AI就像一个只通过书本和图片学习了游泳理论的人,一旦真的下水,就不知道该如何协调身体做出连贯的动作了
图片

图注:现有VLM用在机器人上会遇到的问题

如何解决跨模态数据协同训练的挑战

解决表达形式的问题

π0率先引入动作专家Action Expert:在预训练 VLM骨干上增设一个独立的动作专家分支;动作专家采用 Flow Matching(流匹配),直接建模连续动作分布。

后来PI提出了FAST tokenizer的方法,是一种专门为机器人动作设计的离散token化方法。它的目标是把连续、高频、精细的机器人动作——比如机械臂的关节角度变化——转成一系列离散的 action tokens,方便 Transformer 这类序列模型进行训练和预测。

自变量也延续了采用Flow Matching方式的动作专家模块,并且也采纳了FAST tokenizer的方式让机器人的动作更好在VLM骨干上训练。

解决训练过程的问题

图片


图注:(a)如OpenVLA;(b)如π0;(c)WALL-A和WALL-OSS的创新设计

从PI开始,VLA开始采用了一种巧妙的混合专家(MoE)架构。你可以把它想象成大脑里有两个紧密合作的专家团队:

  • 视觉语言专家:负责理解图像和指令。
  • 动作专家:专门负责生成精确的机器人动作。

这个“动作专家”是新来的,一开始什么都不会(参数是随机的)。在训练过程中,它犯错时产生的“负反馈”(梯度)会反向传播,干扰甚至“污染”原本VLM模型已经学好的知识。

PI的解决方案是名叫“知识绝缘”(Knowledge Insulation)。顾名思义,就是在训练时,想办法把VLM主干模型保护起来,不让它被新来的“动作专家”所干扰。可见文章:PI系列解读|Π0.5+知识绝缘,让机器人更快、更聪明

WALL-OSS采用了独特的紧密耦合架构。他的独特解法是让两个专家团队共享一部分核心认知能力(比如注意力机制),但在执行各自任务时会调用自己的专属网络。这种紧密耦合的设计,既保证了专业性,又实现了高效协作,让语言指令能精准地指导动作。

如何解决VLM缺乏物理常识的问题

长推理长思考

要解决这个问题,方法有很多,长推理是一个方向。

π0.5提出了层次化推理,先输出高层子任务(比如“pick up the plate”),再由动作专家生成连续动作来完成该子任务。

WALL-OSS在思维链的创新上更进一步。当面对复杂任务时,WALL-OSS不只是盲目地执行,而是会像人一样进行思考-规划-行动:

  • 高级指令:“整理一下书桌。”
  • 思维链(CoT):“我需要先识别哪些是垃圾,哪些是书本,然后把垃圾扔掉,再把书本摆放整齐。”
  • 子任务规划:“第一步,拿起桌上的废纸团。第二步,把它移动到垃圾桶上方。第三步,松开手爪。”
  • 连续动作执行:机器人精确地执行上述每一个子任务。

整个过程在一个模型内部完成,实现了从高级语义到具体物理动作的无缝转换,大大提升了完成长流程、复杂任务的成功率。

图片

WALL-OSS 的整体架构。QwenVL2.5-3B 作为主要骨干模型,以视觉输入(第一人称视角和手臂安装相机视图)和文本指令作为输入,并根据不同的训练阶段产生不同的输出,同时在整个过程中保持对相同多模态输入的条件依赖。

让VLM建立具身语义

π0.5在预训练的数据中加入了来自互联网的图像描述、VQA 和目标定位等数据。也指出了互联网数据可以让模型理解并跟随涉及未见物体类别的语言指令。

WALL-OSS更推进了一步,空间/具身理解能力优于原生Qwen。和π0.5不同的是,WALL-OSS在预训练阶段便分为两个精心设计的阶段,并且充分利用具身的VQA增强机器人在环境中的空间推理能力

  • 第一阶段:灵感(Inspiration)
    • 这个阶段的目标是先让模型开窍,提升它对物理世界的理解能力。研究人员会给模型看大量的机器人场景图片和视频,并让它回答相关问题(比如:Q:桌子上的苹果在哪里?;A:在桌子的右上方),同时学习一些粗略的、离散化的动作指令。这一步相当于为模型打下坚实的物理常识基础。
  • 第二阶段:整合(Integration)
    • 在模型具备了基本理解能力后,这个阶段开始专注于精细、连续的动作学习。模型会学习如何将高级指令(如:把杯子放到盘子上)转化为流畅、精确的物理动作序列。通过流匹配(flow matching)技术,模型能够生成高质量的连续动作。

更多元的真实世界数据

PI 的联创Chelsea曾经提到,数据规模解决不了所有问题,需要更多元的跨本体的真实世界数据。他们在π0.5中利用了大量不同构型本体采集的真实世界数据和少量互联网数据,以提升模型在不同环境跨本体的繁华性。

WALL-OSS的数据策略和PI的思路非常一致,也是坚持真实数据为主。他们构建了一个以真实数据为中心、多源的数据集,以解决当前缺乏大规模对齐的 VLA 监督和空间理解差距的问题。这个数据集时长超过数万小时,并包含三个互补的部分:

(1)自己收集的机器人动作数据,以确保高质量和任务复杂性;

(2)开源的动作数据,以实现跨形态和跨环境的泛化;

(3)多模态的 VQA 数据,以保持和增强语言-视觉能力,并提供额外的空间-时间监督和推理支持。

图片

图注:丰富的数据来源

自变量WALL-OSS实际效果如何?

图片

π0.5的效果令人惊艳,这里不多赘述,WALL-OSS的实验效果如何呢?

为了验证WALL-OSS的实力,研究团队进行了一系列严格的测试:

  • 更懂物理世界
    • 全面继承 VLM 能力:具备强大的文本生成与语言理解能力。
    • 具身理解大幅提升:在空间理解,动作推理等 VQA 与 grounding 任务上,表现超越Qwen。(在 Object Grounding、Scene Captioning、Action Planning 三个子任务上,WALL-OSS 相比 Qwen2.5-VL-3B 大幅提升:Grounding:46.1% → 91.6%, Captioning:57.7% → 87.6%, Action Planning:59.8% → 69.0%)。
  • 动作精准且泛化能力强:在捡垃圾、摆放杯子等任务中,WALL-OSS的成功率远高于其他模型,尤其是在面对新环境和新物体时,依然能保持很高的性能。
  • 更强的指令遵循:在动作生成上展现出和更高的文本对齐度以及更精准的执行力,显著强于 π0 与 Diffusion-Policy。
  • 真实的通用泛化性:在目标种类,位置,环境,任务变化时展现出展现了强大的零样本泛化能力,能够理解并执行新任务。(Zero-shot 指令遵循:如在 未见过的 pick-and-place 指令下,WALL-OSS 实现了已见物体85%的平均进度 和 全新物体  61%的平均进度)。
  • 轻松应对复杂长程任务:在整理卧室、布置餐桌这类需要多个步骤才能完成的复杂任务上,其他模型常常会忘记自己进行到哪一步,或者重复无效动作。而WALL-OSS凭借其子任务规划能力,能够有条不紊地完成所有环节。
    • 优秀的长程任务的成功率和稳定性:拥有subtask 生成能力,能保持任务连贯性和进度感知。
    • 极复杂任务的可行性:cross-level CoT 的训推范式带来了对高度复杂任务的推理能力,这是以往语言能力退化的VLA模型难以实现的。
  • 会思考,善推理:在需要逻辑推理的用字母积木拼单词任务中,WALL-OSS能够先在大脑中想出答案,再规划动作去拼写,展现了真正的智能。

整体来看,无论是分布内还是分布外,都取得了很好的表现,甚至超过了PI的

图片

WALL-OSS的研究为通用机器人AI的发展提供了一条清晰且有效的路径。它通过创新的MoE紧密耦合架构、两阶段训练方法和思维链机制,成功地将高级的语言和视觉理解能力与底层的物理动作控制能力紧密地结合在一起,展示了构建一个既能看懂世界、又能思考规划、还能精准行动的具身智能体的巨大潜力。

总结

很高兴能够看到VLA在比 LLM 更短的时间内就实现了 SOTA 模型的开源。这不仅展示了机器人领域研究的迅速迭代,也反映出学术界与产业界对具身智能的高度关注。

在可以预见的未来,随着WALL-OSS 与π0.5的相继开源,VLA社区将迎来前所未有的活力与加速度。