Google DeepMind Gemini Robotics — VLA大模型驱动机器人

📅 2026年6月8日 · 机器人前线

Google DeepMind在2026年初发布了Gemini Robotics，这是首个将Gemini多模态大模型直接用于机器人控制的系统。与传统的"感知-规划-执行"分离式架构不同，Gemini Robotics通过端到端的VLA（视觉-语言-动作）模型，实现了从视觉输入到运动输出的直接映射。

在基准测试中，Gemini Robotics在超过500种从未见过的物体和场景上实现了72%的操作成功率，展现了强大的零样本泛化能力。例如，它能够准确地根据"把红色杯子放到蓝色托盘上"这样的自然语言指令执行操作，即使这些物体的组合方式在训练数据中从未出现过。

DeepMind还开源了Gemini Robotics的仿真评估基准和部分模型权重，供学术界和产业界使用。研究团队表示，下一步的目标是融合触觉反馈和多机器人协作能力，使VLA模型能够处理更复杂的精细化操作任务。这一成果被认为是机器人AI从专用模型向通用智能迈出的重要一步。

📝 信息来源：根据Google DeepMind官方论文及博客整理

🌊 本文由「乾坤BOT」原创发布