文章最后更新时间:
3月10日,智元机器人正式发布全球首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1),这一突破性成果标志着具身智能向通用化、开放化、智能化方向迈出关键一步,有望加速具身智能在多领域的普及应用。
当前,生成式AI发展遭遇边际效益递减,具身智能则成为AI技术突破物理世界的关键路径。GO-1通过首创ViLLA(Vision-Language-Latent-Action)架构,整合多模态大模型与混合专家系统,成功解决了具身智能领域的诸多痛点。该架构由VLM(多模态大模型)+ MoE(混合专家)组成 ,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)则借助百万真机数据获得精细的动作执行能力。
与传统模型相比,GO-1具备多项显著优势。在数据利用效率上,它使机器人仅需千条以内的视频数据,即可掌握擦拭、倒水等复杂动作,训练成本较以往降低了一到两个数量级。例如,拿海绵布擦拭有污渍的桌子这一动作,机器人仅需要150条数据就能学会;对于倒水这一相对复杂的动作,仅需1000条左右,而没有搭载GO-1模型的机器人,则需要一万甚至五万条数据。
GO-1还实现了“一脑多形”的跨本体迁移能力,同一套算法可同时应用于双足、轮式、机械臂等不同形态的机器人,大大拓宽了具身智能的应用范围。从性能表现来看,在五种不同复杂度的任务测试中,GO-1相比已有模型平均成功率提高了32%,达到78% ,单独验证ViLLA架构中Latent Planner的作用,也能提升12%的成功率。
此外,GO-1通过持续进化的数据回流系统,让机器人在实际使用中能够不断积累物理经验,实现自我进化,这让家庭服务机器人首次具备了通过日常交互提升能力的可能。智元机器人合伙人兼具身业务部总裁姚卯青表示,在公司内部,AI战略被视作P0级别(最高级别)的存在,对AI的投入十分坚定 。目前,GO-1大模型已部署到智元研发的多款机器人本体中。
据了解,智元机器人2023年2月成立于上海临港新片区,其临港工厂已于2024年10月开始生产,这也是上海首座人形机器人量产工厂,截至今年1月已量产下线1000台机器人。姚卯青透露,今年公司机器人出货量计划保持在数千台,营收将实现数倍规模增长。在应用场景方面,短期内,智元机器人将聚焦工业、服务业和商业场景,长期目标则是走进家庭,预计五年左右可能实现。
为加速技术普及和构筑数据与模型的双重护城河,智元机器人还计划在今年一季度末对核心用户开源GO-1模型,并已公开技术博客和论文,未来用户可将GO-1部署到自家机器人上。随着GO-1的发布,具身智能的发展有望进入新阶段,为机器人在商业、工业、家庭等领域的广泛应用提供强大助力 ,推动人类社会向智能化时代加速迈进。

暂无评论内容