新闻中心

“稚晖君”智元机器人发布首个通用具身基座大模型 GO-1

2025-03-15 12:01:58

来源:

稚晖君"智元机器"人发布首个、通用具身基座大模型 G?O-1

IT之家3月10日消息,“稚晖君”创业项目智元机器人今日发布了首个通用具身基座模型——智元启元大模型(GenieOperator-1),它开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。

2024年底,智元推出了AgiBotWorld,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBotWorld,智元今天正式发布智元通用具身基座大模型GenieOperator-1(GO-1)。

它开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成:

VLM借助海量互联网图文数据获得通用场景感知和语言理解能力

MoE中的LatentPlanner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力

MoE中的ActionExpert(动作专家)借助百万真机数据获得精细的动作执行能力

通过ViLLA架构,智元机器人在五种不同复杂度任务上测试GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中“PourWater”(倒水)、“TableBussing”(清理桌面)和“RestockBeverage”(补充饮料)任务表现尤为突出。

此外智元机器人还单独验证了ViLLA架构中LatentPlanner的作用,可以看到增加LatentPlanner可以提升12%的成功率(66%->78%)。

GO-1大模型借助人类和多种机器人数据,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

智元机器人还预告了下一代具身智能机器人产品,不过没有透露推出时间。

博主“快嘴二姐”因胰腺癌离世长沙TES战胜北京JDG李若彤59岁正是闯的年纪中国“登陆奇观”驳船现身海滩一年新增数万家咖啡店能赚到钱吗美国能让欧洲的F35一键关机吗2025年315晚会主题官宣90后老师失业后到校门口卖火鸡面女子说柯基腿短 柯基立马急眼今年中央本级教育支出安排1744.43亿

(内容来源:新京报)

作者: 编辑:何梓豪

  • 越牛新闻客户端

  • 越牛新闻微信

  • 绍兴发布微信

  • 越牛新闻微博

  • 绍兴发布微博

爆料

新闻热线

0575-88880000

投稿信箱

zjsxnet@163.com