具身智能的分水岭，有人在造轮子，有人在修公路

看机器人客服

作者

约 6154 字 · 预计阅读 16 分钟

作者：吕鑫燚

出品：具身研习社

如果把具身智能爆火的三年折叠起来，会发现一个最底层的产业逻辑：所有能被复制的能力，都不是核心竞争力。

硬件的护城河会被成熟的供应链填平；算法的领先优势正以周为单位压缩；甚至连曾经引以为傲的工程化能力，也随着大厂人才的流动变得不再稀缺。在这个技术迭代速度远超任何过往科技赛道的时代，任何可以被写进代码、拆解成步骤、采购自市场的能力，最终都会变成行业的“标配”，而非“稀缺”。

当硬件、算法、工程化的代差正在逐步缩窄时，真正不可被复制的制胜内核便落在了视野和格局，这也是让企业保持领先态势的竞争力。

最近业内有个生动的样本，短短数天自变量机器人连续打出三记重拳，向整个产业展示出它们未被人注意到的视野和格局：开源 WALL-OSS-0.5 、发布 WALL-WM 事件级世界模型、开源 XRZero-G0 数采系统。三条腿走路的背后，是自变量把 “数据采集 — 模型预训练 — 世界预测” 三个困扰具身智能产业良久的大山逐个击破。

XRZero-G0 在国内首先跑通了全身无本体采集 → 自动质检 → 混合训练 → 真机评测的闭环链路，真正让无本体数据变得可用；WALL-OSS-0.5 证明了零样本能直接上真机，预训练模型可以直接产生可用的操作能力，彻底打破了 “后训练至上” 的重负困境；WALL-WM 重新定义了世界模型最小单元，用“事件级”思维读懂物理世界的演化和分辨事件的重心。

这三记重拳绝非零散的技术修补，而是基于敏锐的技术直觉，直击问题本质并给出的系统性答案。而这也不是孤立的三个技术点，而是一个环环相扣的完整生态。

更重要的是，自变量机器人选择将其中两个重磅的技术底座毫无保留地开源，更是自变量机器人对产业发展规律的清醒判断。闭源或许能换来短暂的技术领先窗口，却永远无法催生出一个真正繁荣、能够自我进化的产业生态。自变量机器人没有单纯去卷谁家的算法精度更高，而是直接为整个行业搭建了一个新的基础设施。当大多数人还在为一块蛋糕争得头破血流时，自变量已经亲手烤出了一个更大的蛋糕，然后邀请所有人一起来吃。

具身智能技术路线尚未收敛，是这个产业中为数不多的共识。但这种未收敛状态带来的最大代价，从来不是资源分散，而是技术内耗。所有人都在努力解决各式各样的问题，但大部分并不具备分辨真伪问题的能力，只有少部分人解决的问题能推动产业前行。

因为定义问题，本身就是一种最稀缺的技术直觉。

当前业内最核心的争议集中在两个方向：一是数据采集的路线选择，二是 VLA 与世界模型究竟该走向融合还是独立演进。

数据采集路线的博弈，表面上是采集设备的竞赛和高质量数据集的规模比拼，所有人都在堆无本体数据的量级，拼谁的采集设备更炫、谁的数据集更大，却对一个最底层事实视而不见：市面上绝大多数无本体数据，很难能用来训练模型。大家都在解决 “有没有” 的问题，却没有人愿意直面 “好不好用” 的灵魂拷问。

自变量机器人跳出了内卷，它没有跟着别人去拼数采硬件，而是直接一拳打在了行业的七寸上。XRZero-G0 做的事情很简单，但也足够颠覆：它是国内第一个把全身无本体采集全链路跑通的。直接把行业认知从“无本体数据能解决量级饥渴”拉到了“如何让数据高度可用”的阶段。

XRZero-G0，让无本体数据的有效率做到和真机数据一样的水平，且用 1/20 的成本就能打出纯真机数据的效果。得益于无本体数据的天然的优势，训出来的模型再也不会被某一款机器人绑死，能直接跨机型迁移。

这就是定义问题的能力，单纯比硬件设备比数据集规模，不如直接回答根本性问题，让数据可用。

数据能用了，下一个死结就是模型架构，同样的分歧也存在于模型路线之争中。

VLA 路线的质疑者认为其难以涌现真正的通用泛化能力，很多好看的DEMO仍是数据和后训练驱动的拟合；而被寄予厚望的世界模型，还处于非常早期的阶段，该由什么路线还原物理世界，还原的世界中又该有什么要素等等前置问题还没有答案。

自变量机器人依旧没有陷入“二元叙事”中，而是沿着两条技术路线同步探索边界，挖掘技术更高维的价值。

WALL-OSS-0.5 解决的是 VLA 最无法回避的问题，即过度依赖后训练，难以做到真正的通用。进入真实场景必须针对每一个具体任务、每一台特定机器人进行海量的后训练微调。这也是为什么 VLA 喊了两年通用，但部分落地却始终停留在零散的 Demo 阶段。

而 WALL-OSS-0.5 首次打破了这一困局。它证明了预训练本身就可以直接产生可用的操作能力，其零样本泛化效果甚至能够比肩传统方法的后训练结果。这意味着 VLA 终于有可能摆脱对定制化微调的依赖，真正走向开箱即用。

世界模型侧，自变量机器人选择回答了最前置的问题，我们到底该用什么东西，来给这个物理世界做切片？

常见的答案是“固定时间动作块”，把 1 秒、0.5 秒的视频片段当作最小单元，但一个动作块里可能同时包含 “伸手” 和 “碰到杯子” 两个完全不同的状态。为了解决这一痛点，自变量机器人的 WALL-WM 直接将世界的最小单元定义为事件，伸手是一个事件，抓取是一个事件，提起是一个事件。每一个事件都是一个完整的语义闭环，能说清楚、能看明白、能做出来。

这一下，世界模型变成了一个真正能理解物理规律的 "世界观察者"。它知道了做了这件事之后会发生什么。

这才是具身智能产业最核心的竞争力，能够穿透行业的表层喧嚣，精准命中每一个环节的核心矛盾，这背后正是自变量机器人对具身智能技术演进的深刻洞察与前瞻性判断。

当自变量机器人精准命中了具身智能核心环节的矛盾时，这些技术突破足以让它在行业内保持相当长一段时间的领先优势。但它做出了一个让很多人意外的选择：将这两个重磅的技术底座全部开源。

而这两个开源依旧是延续自变量机器人的风格「真技术」和「真开源」。

XRZero-G0 在数据采集环节，针对现有的无本体采集“黑箱化”、真机可用性差的致命缺陷，提出了三层质量校验体系：一是采用头显 + 双腕三视角同步采集方案，结合边缘计算实现 ≤ 4 毫米精度的时空对齐，彻底解决了遮挡与漂移问题；二是引入自动逆运动学验证，过滤所有超出机器人关节极限的无效动作；三是通过随机真机开环回放做最终验证。

三层筛选后，入库数据有效率提升至 85% 以上，同时采集效率提升 1.7-2.3 倍，峰值可达 93.2 条轨迹 / 小时。一举解决了数据采集两大顽疾：数据量少、有效率低。

在训练环节，首次定量验证了 “少样本物理锚定效应”。对比了纯真机、1:1 混合、10:1 混合三种训练方案，结果显示仅用 50 条真机数据搭配 500 条无本体数据的 10:1 方案，模型任务成功率与 500 条纯真机数据基线持平甚至更高。

这一发现将具身智能的数据训练成本直接降低至传统方式的 1/20，为行业提供了可复制的低成本训练范式。

这些能力，现在不是自变量机器人的专属，而是将一套全身无本体数采+质检+训练+真机评测的完整链路，全部开源，甚至还有 2000 小时、3000 多个任务的多模态无本体数据集。

这套真技术+真开源最外显的落地，已经在多个得到了最直接的验证。多位开发者在复现后反馈，整个流程运行丝滑，数据精度稳定在毫米级，完全满足 VLA 与世界模型的预训练需求。中山大学通用具身智能中心也证实，XRZero-G0 及其数据集可无缝接入现有 VLA 和世界模型的训练管线，对于 UMI 路线的学术研究具有极高价值。更重要的是，这一复现打破了行业长期以来对无本体采集技术的质疑。正如一位开发者所言：UMI 终于不再是只能停留在发布会的演示技术，而是真正可以用来训练模型的生产工具。

透过开发者的复现结果可见，自变量机器人不是在讨“开源”美名，更不是只留美名不留代码。而是实实在在潜心做好底层研究并真开源给所有产业内的参与者。

如果说 XRZero-G0 解决了 “数据从哪里来” 的问题，那么 WALL-OSS-0.5 的开源则解决了 “部署门槛高” 的问题。

WALL-OSS-0.5 不是又一个微创新的 VLA，除了让模型摆脱后训练这一结果之外，其技术之内发生的是一个系统性的技术创新，首次实现了动作能力与基础模型主干的深度融合，为 VLA 的零样本泛化提供了可行的技术路线。

其核心技术突破主要体现在四个方面：首先，重构了 VLA 的训练架构，将动作转化为离散 token 与文本、视觉共同进入主干进行统一训练，打破了传统 “主干 + 动作头” 的分层模式。实验表明，该设计是模型获得真实操作能力的关键，移除后任务成功率会出现显著下降。

接下来，就是如何解决动作 token 的语义化问题。WALL-OSS-0.5 将动作执行与环境视觉变化建立关联，使模型能够学习动作与物理世界的因果关系，让动作 token 具备了类似语言 token 的知识表征能力。还优化了连续动作生成机制。针对传统 flow matching 过度关注轨迹拟合、忽视任务目标的缺陷，将监督重点调整为决定任务成败的核心动作结构，大幅提升了模型在真实场景中的任务完成率。

最后，攻克了大规模多模态协同训练的工程挑战。解决了多路监督冲突、梯度不平衡等问题，实现了视觉、语言、动作三种能力的稳定共训，推动具身智能进入了系统工程竞争的新阶段。

一个完整的开源数据采集管线，加上一个零样本泛化的通用 VLA 模型，自变量用这两个开源项目，为整个具身智能行业搭建了一套最基础的公共设施。

正如前不久在自变量机器人联合主办的全球首届具身智能黑客松大会的学术圆桌上，多位顶尖学者共同指出的那样：这种基础设施的建设，利好的不仅仅是短期内的研发减负。它最大的意义，在于解放了整个行业的生产力，让那些没有足够资源搭建底层技术栈、但更有长期耐心的学术实验室和创业团队，能够跳过重复造轮子的阶段，直接投身于更前沿的技术探索和更垂直的场景创新中。

除了数据和 VLA 这两个萦绕在具身智能产业风暴中最棘手的问题外，具身智能更值得探索的也是价值更高的在于世界模型。很多前沿学者将其视为物理 Ai 在等的最后一块拼图。

不过“世界模型”从现在的产业语境看，依旧是一个目标，而非某一个既定的架构。这便导致了世界模型走到了野蛮生长期，技术路线杂乱、解决问题的能力也尚未得知。

这种野蛮生长期的背后，是业内无法琢磨透模型究竟该怎么理解物理世界的肌理，即我们该如何标注世界，模型该如何思考世界。

这是世界模型最前置的问题，也是最底层的问题，自变量机器人提出的 “事件级” 价值正在这里。

WALL-WM 通过系统性的架构创新与工程优化，首次将 “事件作为世界模型思考单位” 的理念转化为可落地的技术方案，在保留通用多模态先验的同时，实现了更强的物理世界预测与推理能力，其核心突破在于：

先验对齐的联合去噪机制：采用视觉 - 动作单向耦合架构，跨视角融合分支的输出投影则零初始化，动作模块读取视觉语言表征且梯度不反向传播。该设计解决了大规模训练中动作学习污染视频先验的问题，实现了能力的协同增长。
几何感知的多视角融合：模型先保留Wan原有的单视角时空注意力，用它继承已有的视频生成先验；随后在每个DiT block中加入cross-view attention，把同一时间帧下来自不同相机的空间token放到一起做信息交互。这样既能利用多视角之间的几何互补性，又不会破坏预训练backbone的单视角能力。视锥掩码基于相机标定限制注意力的物理可达范围，管状掩码通过随机遮挡强迫模型学习跨视角对应关系。配合可学习相机旋转位置编码，能满足模型无本体、多视角的大规模训练。
阶梯式思维链解码：创新性地采用底层单次推理、高层并行展开的架构，既保留了思维链的离散可读性（冻结 LLM 即可完整还原推理过程），又通过并行化大幅降低了解码延迟，原生支持 KV-Cache，满足机器人实时和可解释。

WALL-WM 支持同一权重下的双模式部署：事件模式输出变长动作块，适配带外部规划器的复杂场景；统一模式通过在线思维链生成，支持端到端实时控制。两种模式可逐动作块无缝切换，无需重新训练。

多项基准测试表明，WALL-WM 在具身视频生成、3D 感知和真机操作任务中均取得了领先成绩。

坦白讲，WALL-WM 在做的事看起来不像给机器人建模一个世界的范式那么性感，但却是所有参与世界模型的人都在试图回答的问题。用事件级给世界模型做切片，WALL-WM 留给产业的不单单是一个架构，而是一种思考思维，一种站在机器人的视角去看物理世界的思维，这将成为颠覆世界模型演变的一个新突破口。

更重要的是，WALL-WM 的金字塔数据结构中，有一层是UMI 风格的无本体采集，这就是自变量机器人全自研的XRZero-G0无本体数采设备。这表明自变量机器人已经做到了数据生产与模型训练的双向交叉验证闭环，XRZero-G0 产出的数据质量直接决定了 WALL-WM 对物理世界的建模精度，而 WALL-WM 的训练反馈又反过来持续迭代 XRZero-G0 的采集标准与质检流程。这种自产自用、双向打磨的模式，是那些依赖外部数据集的模型难以复制的优势。

在这个所有人都急于证明自己的具身智能时代，我们见过太多炫酷的演示、惊人的参数和华丽的发布会。大多数公司都在努力做更外化、更容易被看见的 "秀"，让机器人跑得更快、跳得更高、做出更有视觉冲击力的动作。

但自变量机器人选择了一条完全不同的路。它没有去追逐那些容易吸引眼球的表层突破，而是沉下心来做最内隐也最核心的事：打造通用具身智能的大脑。从数据采集的底层链路，到 VLA 的预训练可用，再到世界模型的思考范式，自变量做的每一件事，都在试图回答 “具身智能到底应该是什么” 这个最根本的问题。

更难得的是，它没有把这些最核心的技术成果藏起来。从 XRZero-G0 到 WALL-OSS-0.5，自变量将自己踩过无数坑才摸索出来的完整技术栈全部开源。它没有把技术当作打击对手的武器，而是当作推动整个行业前进的燃料。

这个行业从来不缺聪明的人，缺的是有格局的人。而历史已经无数次证明，最终能赢得整个时代的，永远是那些愿意为行业铺路的人。

阅读全文

发布于 2026-06-11 22:30:49