登顶多项权威基准测试，这家公司将他们的具身智能模型开源,智能检测模型的优势

机器人正在我们的日常中频繁出没。送外卖、做咖啡、接商演……但不出意外，它们在提供服务的同时，也会随机“赠送”笑料。

酒店里送餐的机器人坐电梯为了站中间，不惜碾过乘客的脚；做咖啡时，只管拉花，不顾杯子里的咖啡洒没了多少；机器人足球赛上，两方“队伍”在传球和射门之间，选择叠罗汉式摔倒。

你肯定有过疑问，为什么有些时候机器人行云流水，有些时候却笨拙得不可理喻？

事实是，在一些论文和公开实验中，机器人操作精细或复杂的任务时成功率并不高。即便简单如“抓取”，也会受制于几何多样性和复杂的物理环境，成功率“五五开”。

最近，在最新的 SimplerEnv 基准测试中，一家中国的具身智能企业“深度机智”研发的具身智能模型跑出了 80.2% 的平均成功率，超越了“行业标杆” Pi0.5 （ 57.1%），达到行业 SOTA。模型能力突破的关键是这家公司在单单“模仿动作”之外，为具身智能找到另外一条通往“通用性”的道路。

机器人“认死理”

要是你在电梯里被“横冲直撞”的机器人踩到脚，不免脱口而出，真是典型的“一根筋”！作为人类，挺容易理解这个词。它通常指不善变通，认死理，一条道跑到黑。放到机器人的语境下，它有一个专业表达，“泛化”。机器人泛化程度的高低决定了它如何应对从未见过的那些情况。

莫拉维克悖论，人工智能领域公认的一个观察，经过数亿年的自然选择，人类的大脑发育出了一套极其高效的物理引擎和模式识别系统（比如行走、感知、常识判断），这些功能被固化在了大脑最古老的区域。而我们称之为推理、逻辑、抽象的那些刻意思考过程，其实依赖大量无意识的感知预设。

为了让机器人直接跳过“本能进化”这一漫长的演化过程。人类要么搭建“高精度版《模拟人生》”——1：1还原物理定律的虚拟世界，让机器人在里面进行千万次的强化学习。要么穿上传感设备，让机器人像“提线木偶”般模拟出每一个动作。一大把机器人因此有了不错的运动控制，尤其在下肢。

但是“速成”的机器人其实如还未开智的人类孩童一般，往往将死记硬背误以为真的懂了。本质上还是因为机器人学到的是统计相关性，而非物理因果性。机器人是个“熟练工”，可它出不出洋相取决于之前人类“教没教过”，要是题目超纲，那可就是人类的不懂事儿了。

你得先把人类看不上的常识装进机器人的大脑

人类孩童在成长过程中会逐渐编织好一张致密的常识网络。然而，机器人每一次与物理世界的接触，都要重新建构一条统计学逻辑链。

打个比方，机器人很像一个讨巧的“考试型”学生。它一般在上场前得临阵磨枪一番。真正阻碍它成为“全科通才”的原因是，训练数据的稀缺和匮乏。

目前训练机器人，主要靠仿真和遥操作真机采集两种方式得来的数据。但是它们各自面临困境。仿真环境的物理引擎往往过于“洁癖”，难以完美复刻现实中复杂的摩擦力、物体的形变或是光影的乱跳。用于训练真实场景里的机器人，仿真数据得做合格筛选。真机采集固然真实，却面临扩展性瓶颈，每一秒人类操作员的示范都意味着实打实的机械投入和损耗。

于是从去年起，国内外的一些公司开始探讨其他数据采集策略。

今年2月英伟达发布构建了名为 DreamDojo-HV（Human Videos）的数据集，包含44711小时的第一人称视角视频。特斯拉在去年 5 月也称正在把 Optimus 的训练从传统的动作捕捉和遥操作转向纯视觉的视频学习，当前也聚焦在第一视角。深度机智也在去年发布论文成果，他们构建了人类第一视角视频的数据集，并在此基础上训练了一个具身大脑，PhysBrain。

深度机智数采设备

国内外的团队目标大致相同，训练机器人“学会”如人类一般对物理世界进行理解和交互，以此获得物理智能和泛化能力的提升。

在语言智能领域，Scaling Laws 已经是一个被广泛接受的共识。但是在机器人领域，这一规律一直未能建立。直到去年 11 月，Generalist AI（由前 DeepMind 高级研究员创办）基于27万小时人类操作真实物理世界任务的视频做预训练，在其机器人基础模型 GEN-0 身上观察到了可量化的 Scaling Law（扩展定律）。

图源 Generalist AI

从时间点上来看，甚至先于 Generalist AI 证明具身智能的 Scaling Law 更早，深度机智就笃定，人类数据在数据采集上最有可能规模化，“第一视角之下“同时蕴含最为直观的物理直觉。

深度机智成立于去年5月，由北京中关村学院、中关村人工智能研究院共同孵化。创始人陈凯作为北京中关村学院导师，中关村人工智能研究院研究员，曾任微软亚洲研究院首席研究员，一直深耕在人工智能前沿研究。

陈凯与公司 CEO 张翼博同为中科大少年班学院校友，也是大学室友。张翼博是AI for Science领域专家，其一作研究成果曾被Nature子刊录用，并被中科院首页报道，在基础科学与人工智能交叉领域有着深厚积累。

2024年，由于智能眼镜等AI硬件的密集入场，让陈凯敏锐捕捉到人类第一视角数据将迎来爆发，于是下场创业。

今天无论是英伟达、特斯拉，Figure AI 这些耳熟能详的名字，或者国内外的新起之秀，越来越多押注到“用人类数据去增强模型的物理直觉”这条数据策略。这验证了深度机智的判断正确。

如何将物理常识提取，结构成机器能读懂的形式？“数据标注”是深度机智自研的数据处理管线中最为关键的一环。例如一个拿苹果的动作会被拆解成时间关系、空间关系、物体属性、力学信息、目的推理、动作总结、轨迹描述这些7个维度。

那么模型因此“理解”物理世界了吗？

他们观察到了一个有意思的现象，在一个胡萝卜抓取任务中自发“涌现”出变通与纠错的能力。（在微调数据全是夹取成功案例的情况下），机械臂在触碰到胡萝卜时，自发了“推”的动作，试图把胡萝卜推进盘子，推了两次，但尝试无果，最后还是通过夹取完成了任务。

“预编程都搞不出这种灵活性”，陈凯说道。

头脑发达，四肢才不简单

这两年的机器人，但凡外形能看出来像个人，你会发现它们下肢的运动表现远远好于上肢”。但是无论机器人是进工厂还是养老院，它们必须依靠上肢劳作——我们生活的日常环境，至少是现在，都是为了“人”设计。

“机器人必须像人吗？”关于这个疑问有林林总总的讨论。“不必要”，答案来自构型千奇百怪的机器“人”，它们针对特定场景任务的效率提升被开发出来。陈凯认为，当机器人大脑（也就是基座模型）足够聪明之后，任何长尾状况便能靠它自身的泛化能力去解决。至少，这为还在“循序渐进”一个个解锁任务的机器人，提供了另一个“进化思路”。

在今天的中关村论坛上，深度机智将其新训练出的基座模型 PhysBrain 开源。行业做法只是开源模型，但是此次深度机智也将数据集一并开源，并公布了模型架构和训练方法。

传统 VLA 训练有个问题，具体任务微调会导致模型通用性变差。当基座模型不够聪明，而又过于追求某个任务的成功率，调整神经元权重会导致坏结果，模型的特征表示从“理解物理世界”坍缩到了“记忆这几个动作序列”。深度机智设计了全新 TwinBrainVLA “双脑融合” 架构，用大白话说就是，左（理解世界）右（感知和执行）脑各干各的，必要时再通个气儿。

自动驾驶“抬头”错以为黄灯是月亮，机器人一看到毛茸茸就以为是软的。也就是说，如果数据中存在一些“非本质”的规律，机器人会迅速将其视为真理，跳过理解物理规律和操作逻辑。这也称为，“视觉捷径”。

视觉捷径不仅让机器人更迷糊，也更“偷懒”了。一旦把它常见的蓝杯子换成红的，就不“认识”杯子了。还有，机器人经常跳过语言指令，过于依靠视觉画面做动作，可一旦视觉画面嘈杂起来，它可能会将无关像素的移动与自己的任务关联起来。

因此他们同时在模型训练中创新性加入 LangForce 策略，打破“视觉捷径”，模型不是“偷懒”不听指令吗？LangForce 将听话和不听话的结果对比展示出来，并强制模型“听指令”后才执行。

以 PhysBrain 为基座、TwinBrainVLA 为架构、LangForce 为策略，PhysBrain 1.0 模型仅用千小时公开的人类数据就在最新的 SimplerEnv 测试中，跑出了 80.2% 的平均成功率，超越了行业标杆 Pi0.5 （ 57.1%），达到行业SOTA。而传统 VLA 想要达到如此性能跨越需要用数万小时真机数据的堆砌。同时在 RoboCasa 等国际权威测试中也登顶。

深度机智也首次对外展示了一台全尺寸工业级拟人体机器人Prime。因为一开始对具身智能“通用性”的判断和笃定，手部具备20个自由度，能实现毫米级精细化操作。

如果这两年你参观过大大小小的机器人展会，不免嘲笑过那些“累瘫了”（续航和散热跟不上高频率的动作幅度）的硅基生物。

值得一提的是，团队设计 Prime 时在关键的关节处引入了工业机型常用的自锁设计，让机器人实现不通电站立。好处是降低功耗，拉长机器人真正作业的时间。

图说，机器人实际作业时，高负载下的姿态保持往往比动态运动更具挑战，因为通电产生扭矩以抵消重力负载时，电能并未转化为机械动能，而是几乎全部转化为热能，耗电同时更会导致电机过热，造成系统失稳

在拥有了拟人的大脑和身躯之后，这下好了，就连人类假装上班这一招儿，也是被它们学去了。

作者：马文

编辑：普通酱

配图无特殊说明都来自深度机智

点个“小爱心”吧