机器人正在我们的日常中频繁出没。送外卖、做咖啡、接商演……但不出意外,它们在提供服务的同时,也会随机“赠送”笑料。
酒店里送餐的机器人坐电梯为了站中间,不惜碾过乘客的脚;做咖啡时,只管拉花,不顾杯子里的咖啡洒没了多少;机器人足球赛上,两方“队伍”在传球和射门之间,选择叠罗汉式摔倒。
你肯定有过疑问,为什么有些时候机器人行云流水,有些时候却笨拙得不可理喻?
事实是,在一些论文和公开实验中,机器人操作精细或复杂的任务时成功率并不高。即便简单如“抓取”,也会受制于几何多样性和复杂的物理环境,成功率“五五开”。
最近,在最新的 SimplerEnv 基准测试中,一家中国的具身智能企业“深度机智”研发的具身智能模型跑出了 80.2% 的平均成功率,超越了“行业标杆” Pi0.5 ( 57.1%),达到行业 SOTA。模型能力突破的关键是这家公司在单单“模仿动作”之外,为具身智能找到另外一条通往“通用性”的道路。
机器人“认死理”
要是你在电梯里被“横冲直撞”的机器人踩到脚,不免脱口而出,真是典型的“一根筋”!作为人类,挺容易理解这个词。它通常指不善变通,认死理,一条道跑到黑。放到机器人的语境下,它有一个专业表达,“泛化”。机器人泛化程度的高低决定了它如何应对从未见过的那些情况。
莫拉维克悖论,人工智能领域公认的一个观察,经过数亿年的自然选择,人类的大脑发育出了一套极其高效的物理引擎和模式识别系统(比如行走、感知、常识判断),这些功能被固化在了大脑最古老的区域。而我们称之为推理、逻辑、抽象的那些刻意思考过程,其实依赖大量无意识的感知预设。
为了让机器人直接跳过“本能进化”这一漫长的演化过程。人类要么搭建“高精度版《模拟人生》”——1:1还原物理定律的虚拟世界,让机器人在里面进行千万次的强化学习。要么穿上传感设备,让机器人像“提线木偶”般模拟出每一个动作。一大把机器人因此有了不错的运动控制,尤其在下肢。
但是“速成”的机器人其实如还未开智的人类孩童一般,往往将死记硬背误以为真的懂了。本质上还是因为机器人学到的是统计相关性,而非物理因果性。机器人是个“熟练工”,可它出不出洋相取决于之前人类“教没教过”,要是题目超纲,那可就是人类的不懂事儿了。
你得先把人类看不上的常识装进机器人的大脑
人类孩童在成长过程中会逐渐编织好一张致密的常识网络。然而,机器人每一次与物理世界的接触,都要重新建构一条统计学逻辑链。
打个比方,机器人很像一个讨巧的“考试型”学生。它一般在上场前得临阵磨枪一番。真正阻碍它成为“全科通才”的原因是,训练数据的稀缺和匮乏。
目前训练机器人,主要靠仿真和遥操作真机采集两种方式得来的数据。但是它们各自面临困境。仿真环境的物理引擎往往过于“洁癖”,难以完美复刻现实中复杂的摩擦力、物体的形变或是光影的乱跳。用于训练真实场景里的机器人,仿真数据得做合格筛选。真机采集固然真实,却面临扩展性瓶颈,每一秒人类操作员的示范都意味着实打实的机械投入和损耗。
于是从去年起,国内外的一些公司开始探讨其他数据采集策略。
今年2月英伟达发布构建了名为 DreamDojo-HV(Human Videos)的数据集,包含44711小时的第一人称视角视频。特斯拉在去年 5 月也称正在把 Optimus 的训练从传统的动作捕捉和遥操作转向纯视觉的视频学习,当前也聚焦在第一视角。深度机智也在去年发布论文成果,他们构建了人类第一视角视频的数据集,并在此基础上训练了一个具身大脑,PhysBrain。
深度机智数采设备
国内外的团队目标大致相同,训练机器人“学会”如人类一般对物理世界进行理解和交互,以此获得物理智能和泛化能力的提升。
在语言智能领域,Scaling Laws 已经是一个被广泛接受的共识。但是在机器人领域,这一规律一直未能建立。直到去年 11 月,Generalist AI(由前 DeepMind 高级研究员创办)基于27万小时人类操作真实物理世界任务的视频做预训练,在其机器人基础模型 GEN-0 身上观察到了可量化的 Scaling Law(扩展定律)。
图源 Generalist AI
从时间点上来看,甚至先于 Generalist AI 证明具身智能的 Scaling Law 更早,深度机智就笃定,人类数据在数据采集上最有可能规模化,“第一视角之下“同时蕴含最为直观的物理直觉。
深度机智成立于去年5月,由北京中关村学院、中关村人工智能研究院共同孵化。创始人陈凯作为北京中关村学院导师,中关村人工智能研究院研究员,曾任微软亚洲研究院首席研究员,一直深耕在人工智能前沿研究。
陈凯与公司 CEO 张翼博同为中科大少年班学院校友,也是大学室友。张翼博是AI for Science领域专家,其一作研究成果曾被Nature子刊录用,并被中科院首页报道,在基础科学与人工智能交叉领域有着深厚积累。
2024年,由于智能眼镜等AI硬件的密集入场,让陈凯敏锐捕捉到人类第一视角数据将迎来爆发,于是下场创业。
今天无论是英伟达、特斯拉,Figure AI 这些耳熟能详的名字,或者国内外的新起之秀,越来越多押注到“用人类数据去增强模型的物理直觉”这条数据策略。这验证了深度机智的判断正确。
如何将物理常识提取,结构成机器能读懂的形式?“数据标注”是深度机智自研的数据处理管线中最为关键的一环。例如一个拿苹果的动作会被拆解成时间关系、空间关系、物体属性、力学信息、目的推理、动作总结、轨迹描述这些7个维度。
那么模型因此“理解”物理世界了吗?
他们观察到了一个有意思的现象,在一个胡萝卜抓取任务中自发“涌现”出变通与纠错的能力。(在微调数据全是夹取成功案例的情况下),机械臂在触碰到胡萝卜时,自发了“推”的动作,试图把胡萝卜推进盘子,推了两次,但尝试无果,最后还是通过夹取完成了任务。
“预编程都搞不出这种灵活性”,陈凯说道。
头脑发达,四肢才不简单
这两年的机器人,但凡外形能看出来像个人,你会发现它们下肢的运动表现远远好于上肢”。但是无论机器人是进工厂还是养老院,它们必须依靠上肢劳作——我们生活的日常环境,至少是现在,都是为了“人”设计。
“机器人必须像人吗?”关于这个疑问有林林总总的讨论。“不必要”,答案来自构型千奇百怪的机器“人”,它们针对特定场景任务的效率提升被开发出来。陈凯认为,当机器人大脑(也就是基座模型)足够聪明之后,任何长尾状况便能靠它自身的泛化能力去解决。至少,这为还在“循序渐进”一个个解锁任务的机器人,提供了另一个“进化思路”。
在今天的中关村论坛上,深度机智将其新训练出的基座模型 PhysBrain 开源。行业做法只是开源模型,但是此次深度机智也将数据集一并开源,并公布了模型架构和训练方法。
传统 VLA 训练有个问题,具体任务微调会导致模型通用性变差。当基座模型不够聪明,而又过于追求某个任务的成功率,调整神经元权重会导致坏结果,模型的特征表示从“理解物理世界”坍缩到了“记忆这几个动作序列”。深度机智设计了全新 TwinBrainVLA “双脑融合” 架构,用大白话说就是,左(理解世界)右(感知和执行)脑各干各的,必要时再通个气儿。
自动驾驶“抬头”错以为黄灯是月亮,机器人一看到毛茸茸就以为是软的。也就是说,如果数据中存在一些“非本质”的规律,机器人会迅速将其视为真理,跳过理解物理规律和操作逻辑。这也称为,“视觉捷径”。
视觉捷径不仅让机器人更迷糊,也更“偷懒”了。一旦把它常见的蓝杯子换成红的,就不“认识”杯子了。还有,机器人经常跳过语言指令,过于依靠视觉画面做动作,可一旦视觉画面嘈杂起来,它可能会将无关像素的移动与自己的任务关联起来。
因此他们同时在模型训练中创新性加入 LangForce 策略,打破“视觉捷径”,模型不是“偷懒”不听指令吗?LangForce 将听话和不听话的结果对比展示出来,并强制模型“听指令”后才执行。
以 PhysBrain 为基座、TwinBrainVLA 为架构、LangForce 为策略,PhysBrain 1.0 模型仅用千小时公开的人类数据就在最新的 SimplerEnv 测试中,跑出了 80.2% 的平均成功率,超越了行业标杆 Pi0.5 ( 57.1%),达到行业SOTA。而传统 VLA 想要达到如此性能跨越需要用数万小时真机数据的堆砌。同时在 RoboCasa 等国际权威测试中也登顶。
深度机智也首次对外展示了一台全尺寸工业级拟人体机器人Prime。因为一开始对具身智能“通用性”的判断和笃定,手部具备20个自由度,能实现毫米级精细化操作。
如果这两年你参观过大大小小的机器人展会,不免嘲笑过那些“累瘫了”(续航和散热跟不上高频率的动作幅度)的硅基生物。
值得一提的是,团队设计 Prime 时在关键的关节处引入了工业机型常用的自锁设计,让机器人实现不通电站立。好处是降低功耗,拉长机器人真正作业的时间。
图说,机器人实际作业时,高负载下的姿态保持往往比动态运动更具挑战,因为通电产生扭矩以抵消重力负载时,电能并未转化为机械动能,而是几乎全部转化为热能,耗电同时更会导致电机过热,造成系统失稳
在拥有了拟人的大脑和身躯之后,这下好了,就连人类假装上班这一招儿,也是被它们学去了。
作者:马文
编辑:普通酱
配图无特殊说明都来自深度机智
点个“小爱心”吧