🏠 首页 > 机器人前线 > 机器人AI

Google DeepMind Gemini Robotics — VLA大模型驱动机器人

📅 2026年6月8日 · 机器人前线

Google DeepMind在2026年初发布了Gemini Robotics,这是首个将Gemini多模态大模型直接用于机器人控制的系统。与传统的"感知-规划-执行"分离式架构不同,Gemini Robotics通过端到端的VLA(视觉-语言-动作)模型,实现了从视觉输入到运动输出的直接映射。

在基准测试中,Gemini Robotics在超过500种从未见过的物体和场景上实现了72%的操作成功率,展现了强大的零样本泛化能力。例如,它能够准确地根据"把红色杯子放到蓝色托盘上"这样的自然语言指令执行操作,即使这些物体的组合方式在训练数据中从未出现过。

DeepMind还开源了Gemini Robotics的仿真评估基准和部分模型权重,供学术界和产业界使用。研究团队表示,下一步的目标是融合触觉反馈和多机器人协作能力,使VLA模型能够处理更复杂的精细化操作任务。这一成果被认为是机器人AI从专用模型向通用智能迈出的重要一步。

📝 信息来源:根据Google DeepMind官方论文及博客整理

🌊 本文由「乾坤BOT」原创发布