机器人仿真走向数据生成，地瓜机器人推出交互式世界模型 Uranus

看机器人客服

作者

开发一台能自主完成复杂任务的机器人，离不开大量的测试与验证。然而，真实世界的测试昂贵、耗时且难以复现。让一台机械臂在真实环境中试错成千上万次，意味着设备、人力、场地和时间成本都要持续投入。更麻烦的是，真实环境很难完全复现，光照、物体位置、桌面状态等，只要其中一个条件变化，测试结果就可能受到影响。

传统仿真器，例如Isaac Sim、MuJoCo，提供了一种替代方案：在虚拟环境中验证算法，再迁移到真实世界。但这条路同样崎岖，手工构建仿真场景本身就是一项浩大的工程。3D建模、材质设定、物理参数调校等，每一个新环境都可能需要数天甚至数周的搭建。

随着机器人策略模型、VLA和世界模型持续迭代，行业对可交互、可复现仿真环境的需求正在增加。

有没有一种方法，能像生成图片和视频一样“生成”一个仿真环境？更进一步——能不能像真正的仿真器那样，做到逐帧交互、逐帧闭环？

近日，地瓜机器人算法团队提出了Uranus，一个基于视频扩散模型、工作在帧级闭环模式下的交互式世界模型。它将机器人仿真从“手工搭建”推进到“数据驱动”的全新范式。

据了解，Uranus基于视频扩散模型，采用帧级闭环模式。给定参考图像、机器人关节状态、相机参数和文本描述，模型可以自回归地生成多相机视角下连续、可控的未来视频流，用于模拟机器人与环境的交互过程。

帧级闭环是Uranus的核心机制。传统开环生成通常是输入一段动作后一次性输出整段视频；Uranus每一步只生成下一帧，并将生成结果反馈给下一步预测。由于生成过程按帧推进，动作指令可以在过程中实时调整，模型会根据新的动作继续生成后续画面。这让Uranus更接近机器人训练和评测所需要的交互式仿真环境。

在跨具身泛化方面，Uranus通过统一的骨架渲染管线，将不同机器人本体的动作映射到同一种“图像语言”中。系统可以根据机器人描述文件和关节状态，自动生成统一格式的骨架图。同一模型可支持G1人形机器人、Franka协作臂、双臂系统以及移动平台等不同具身形态。

Uranus还支持分钟级闭环稳定生成、多视角空间一致和相机轨迹控制。在训练只使用2秒短片段的情况下，模型可以在推理阶段稳定生成60秒级别的闭环视频；同时支持3路以上相机视角同步生成，并允许开发者在闭环过程中调整相机位置和角度。

从应用场景看，Uranus可用于模型评测、训练数据生成和强化学习支持。在模型评测中，可以根据策略输出的动作逐帧生成环境反馈，并记录成功率、轨迹偏差等指标；在训练场景中，可以形成“动作—反馈—再动作”的闭环过程，为策略模型训练、调试和验证提供支持。

Uranus建立在预训练的Wan2.1视频DiT骨干之上，提供1.3B和14B两个参数规模，分别适用于快速实验和高保真闭环生成场景。后续，地瓜机器人将公布完整技术报告、训练细节和定量实验结果。

真实世界测试仍然是机器人开发中不可替代的一环。Uranus的价值，在于为真机测试之外的训练、评测和策略迭代提供新的工具，让机器人能够在更可控的环境中完成更多轮试错。地瓜机器人将持续推进Uranus的技术迭代，并在后续公布完整技术报告、训练细节和定量实验结果。

发布于 2026-07-02 20:15:09

喜欢 0

海报

2142