在大模型后,“具身智能”成了当下AI浪潮中的新热点。而在AI融入物理实体的过程中,人形机器人无疑是具身智能领域最有代表性的实体。
近日,人形机器人赛道再迎重磅事件!作为上海“模塑申城”建设中的一份子,智元机器人(下称“智元”或“AgiBot”)携手上海人工智能实验室、国家地方共建人形机器人创新中心、上海库帕思正式开源了数据集AgiBot World,全球首个全功能、全场景、高质量的人形机器人百万真机数据集来了! #源神稚晖君又开源了#
作为人形机器人领域一颗耀眼之星,自“华为天才少年”“稚晖君”彭志辉2023年创立智元以来,该公司备受瞩目、发展迅速,仅仅一年半时间就融资了八轮,其中不乏高瓴创投、百度风投、比亚迪等实力资本,整体估值已超70亿元。
今年8月,智元继一年前推出首款远征A1智能机器人后,再次发布“远征”与“灵犀”两大系列共五款商用人形机器人新品,把商用人形机器人市场再次向前推了一大步。仅仅4个月后,智元还官宣了“正式开启通用机器人量产”这一消息,用彭志辉的话说,“智元机器人终于跨越初创沟堑”。
不过,智元发展虽然“坐上火箭”,但行业更关注另一件事,即彭志辉和智元高管多次公开提到的数据集开源问题。
要开源百万真机数据集和千万仿真数据集,这相当于把自己最核心、行业最需要的数据燃料倾囊相助,智元真的会这样做吗?
如今,梦想照进现实,百万真机数据集真的来了。行业的思考或许从这一刻进入全新里程:智元是如何做到的这一切?人形机器人领域将因此发生哪些改变?
用“真实”重新定义标准
就像我们熟知的语言、视觉大模型需要大量文本、素材做支撑一样,要想获得一个性能优异、和人能实现的功能极其相近的机器人,也势必需要投喂大量训练数据。
在智元选择开源之前,全球最通用的机器人操作策略一般是在Open X-Embodiment数据集上预训练的。这一大规模标准化机器人学习数据集由谷歌 DeepMind机器人团队联手20多家知名院校创建,可以覆盖多种环境和机器人变化。
事实上,Open X-Embodiment数据集为特定场景开发带来了泛化性增益,但由于在数据分布外场景成功率难称“优异”,因此训练出的机器人系统难以适应新任务、新环境的巨大挑战。而机器人操作最核心的就是泛化能力,如果只能完成少量预设任务,或者适应的场景非常单一,那面对新环境和新任务必然无法实现“即插即用”,机器人产品也就只能走向工厂流水线等环境,飞入寻常百姓家只能是“空中楼阁”。
除Open X-Embodiment数据集外,DROID等数据集也横跨了一定场景和技能,并配有语义标签、相机校准等,但数据分布仍主要集中于办公室、厨房等,任务也多局限于单臂桌面任务,向更真实融入仍然是一大问题。
相比较而言,智元此次开源的数据集(AgiBot World)无疑是对行业生态的颠覆! #智元开源,中国具身ImageNet到来#
首先,从辐射场景来看,AgiBot World主要采集自五大行业板块,横跨家庭(40%)、餐饮(20%)、工业/物流(20%)、超市(10%)等大部分生活服务场景,且均是1:1真实还原现实场景,包含洗衣服、叠衣服、熨烫衣物、烹饪、洗碗、打包、搬运桌子、安装内存条、组装零件、物料分拣等多种复杂的长程精细任务,每个场景下数据量都很充分,采集效率很高。
相较于Open X-Embodiment,Agibot World 长程数据规模整整高出10倍,场景范围覆盖面扩大100倍,数据质量已经从实验室级上升到工业级标准,真正做到了全域真实场景覆盖。
值得注意的是,要完成众多长程任务,需要机器人在较长时间跨度、多变复杂的环境内持续执行多个子任务,极其考验机器人的多模态感知、运动控制、任务规划决策、能源管理、故障处理等能力。
AgiBot World很好地构建了这些能力体系,从而给机器人应用带来了巨大变化:在过去数据集基础上生成的人形机器人,可能还在考虑怎么才能抓住桌子的某个边缘,基于AgiBot World生成的人形机器人已经可以参考“人”的行为逻辑,决定抓哪一边更好,并且可以双机器人协作来搬运桌子。
其次,从任务设计来看,与行业已有的大规模数据集相比,AgiBot World任务设计更贴合实用需求。
除了行业“常规”外,AgiBot World充分考虑到精细操作、物品情况、双臂协同、工具使用等,且单个episode对应的动作更长程,包含许多时长集中在25s-120s之间的原子动作,涉及各类场景中的3000多种物品,最终把更精细化、更贴近原始行为的任务有机组合到一起,基本实现“照搬”人类在面对复杂环境下的原生交互方式,推动了具身算法找到相对明确的“scaling law”。
比如,在汽车制造车间,过往人形机器人能实现的多是单一任务,比如简单组装、搬运等,不太具备处理复杂任务的能力,基于AgiBot World生成的人形机器人已经可以将复杂机器的许多零件精确组装到一起,或者是对焊接质量去做检测把关,真正替代人的一些劳动输出。
正是基于真实的场景和任务设计,以及百万数据的训练保障,AgiBot World具备了创造更高阶“飞跃”的潜质,呼应了稚晖君“人形机器人人人造”的愿景,为机器人操作提供了更强的泛化支持。
这种用“真实”诉说改变的方式,何尝不是对人形机器人数据集采标准的重新定义?
本体平台强,数据把控稳
智元机器人合伙人兼营销服副总裁姜青松曾在某采访中表示,“相较于互联网数据、仿真数据,真机数据是具身大脑真正需要的数据。”
真机数据也不只是采完即可,采集的效率、质量都会影响最终的输出。在数据集采质的飞跃背后,智元如何在本体平台及数据质量上进行把控?
在今年8月举行的新品发布会上,智元联合创始人彭志辉曾对外公布了具身智能G1到G5技术路线图。其中,G1阶段需要⼤量⼈⼯编排执⾏任务,G2阶段主要面向柔性智造和交互服务场景,已在多个实际场景中得到商业应用,到了G3阶段则是基于端到端数据驱动,进行大规模机器人学习。
在G3路线下,机器人通过具身大脑和小脑,完成从多模态输入到机器人控制指令输出的端到端具身操作。正是基于G3路线,智元推出了A2-W、A2、A2-D、X1-W等多款性能优异的数采本体。
还没有评论,来说两句吧...