上周在小区楼下碰到张阿姨,她攥着手机凑过来问:“小伙子,你说谷歌那新机器人,能帮我把桌上的快递盒扔去可回收箱不?我家那台扫地机器人只会瞎转,扔个垃圾都得我自己来。”
笑不是因为问题幼稚,而是因为过去对机器人的期待实在太低。
以前别说扔快递盒,就是让机器人“把杯子从餐桌拿到厨房”,都得提前编好程序。
杯子滑了、茶几挡路、地板反光——任何一点偏差,它就卡住,甚至直接死机。
机器人不是智能体,只是执行器。
现在,情况变了。
谷歌DeepMind正式推出Gemini Robotics 1.5系列,包含执行模型Gemini Robotics 1.5与规划模型Gemini Robotics-ER 1.5。
这不是又一次“演示秀”,而是把AI从“听指令的工具”推向“能思考、会动手”的物理世界参与者。
核心目标直指机器人长期无法突破的瓶颈:复杂任务执行能力缺失。
为什么“会琢磨事儿”如此关键?
人类处理任务时,从来不是按固定脚本走。
你让一个人去拿苹果,他不会等你教“转身→走三步→开门→伸手”。
他会自己判断路径、避开障碍、评估物品状态。
这种能力叫具身思考(embodied reasoning)——智能体在物理环境中理解、推理并行动的闭环能力。
过去几十年,机器人几乎完全缺失这一环。
它们依赖预设规则,环境稍有变化,系统就崩溃。
Gemini Robotics 1.5系列的突破正在于此。
它由两个模型协同工作:ER 1.5负责高层规划,1.5负责底层执行。
ER 1.5是“大脑”,接收自然语言指令后,先调用外部知识(如本地垃圾分类规则),再将任务分解为可执行子目标。
1.5是“小脑”,在执行前生成一段自然语言形式的“思考轨迹”,用以指导动作细节。
比如张阿姨的快递盒任务。
ER 1.5首先确认快递纸盒属于可回收物,接着拆解任务:“定位餐桌→识别盒子→抓取→导航至蓝色回收桶→投放”。
这些步骤不是硬编码,而是基于当前环境动态生成。
1.5在动手前会“自言自语”:“从右侧抓取,避免扯破胶带;绕过茶几腿,防止碰倒花瓶。”
这不是拟人化表演,而是内部推理过程的显式表达。
如果执行中环境突变——比如花瓶被挪到路径中央——1.5不会硬闯。
它会立刻调整策略:“路径受阻,先将花瓶移开,再继续执行。”
这种实时重规划能力,彻底告别了传统机器人“路径受阻即停机”的僵化逻辑。
机器人终于开始像人一样:边做边想,错了就改。
网友说得准:以前的机器人像Excel表格,输公式才动;现在的Gemini Robotics 1.5,更像刚入职的实习生——经验不足,但愿意动脑子,遇到问题会试、会调、会反馈。
这种主动性,才是智能的真正起点。
但光会“想”远远不够。
机器人必须能“干”,而且要干得准、干得稳。
Gemini Robotics 1.5的另一项突破,是实现技能的跨身体迁移。
同一项技能,学会一次,换一台结构完全不同的机器人也能直接用。
传统机器人技能高度绑定本体。
ALOHA机械臂学会开抽屉,Franka或Apollo人形机器人无法复用。
因为每台机器人的自由度、传感器布局、动力学特性都不同,动作策略无法通用。
Gemini Robotics 1.5从训练阶段就同时融合ALOHA、Franka、Apollo三台机器人的操作数据。
模型学习的不是“如何驱动ALOHA的关节”,而是“开抽屉需要定位把手、施加水平力、缓慢拉出”这类通用动作语义。
结果就是:ALOHA掌握开抽屉后,模型将该技能抽象为跨平台表征。
当Apollo接到同样指令,它自动将通用策略映射到自身身体结构,调整关节角度、力度与速度,直接执行。
无需重新训练,无需人工调参。
这种动作迁移能力,让机器人从“孤岛式学习”走向“共享知识库”。
背后的关键,是训练数据的异构融合。
谷歌不仅使用机器人真实操作数据,还注入海量互联网图文信息。
模型知道“快递盒通常是瓦楞纸、棕色、带胶带”,见过成千上万张垃圾桶图像,也学习过人类处理垃圾的视频片段。
常识与经验结合真实操作,使它既能“看懂世界”,又能“改造世界”。
研究者普遍认为,多模态融合是AI进入物理世界的必经之路。
纯语言模型再强,也只是纸上谈兵;纯机器人系统再稳,也只是肌肉记忆。
只有打通语言理解与动作执行,形成感知-推理-行动闭环,才能构建真正的具身智能。
Gemini Robotics 1.5正是朝这个方向迈出的关键一步。
性能验证不是靠嘴说。
谷歌在15个学术界公认的具身推理基准任务上测试,Gemini Robotics 1.5全部排名第一,连GPT-5也未能超越。
这些任务专考复杂指令理解与长序列执行能力。
例如:“把桌子左下角的蓝色杯子拿到厨房水槽冲洗。”
表面简单,实则包含多重挑战:准确定位空间关系(左下角)、识别物体属性(蓝色杯子)、规划跨房间路径、操作水龙头完成冲洗。
整个流程可能涉及十余步,任一环节出错即失败。
Gemini Robotics 1.5不仅能完成,还能实时追踪任务进度。
“已到达餐桌,完成10%;抓取杯子,30%;进入厨房通道,50%……”
这种进度感知使其具备动态调整能力。
若厨房门关闭,它不会放弃,而是尝试开门或寻找替代路径。
老一代机器人一旦路径中断,直接报错停机,毫无应变能力。
这标志着AI角色的根本转变:从任务执行者升级为任务管理者。
它主动管理整个任务生命周期——理解、规划、执行、监控、修正。
这种能力,才是家庭服务机器人真正实用的基础。
机器人越聪明,安全风险越受关注。
误碰热水壶、撞倒老人、执行危险指令——这些担忧绝非空穴来风。
一个具备自主决策能力的系统,若无安全机制,风险远高于传统扫地机器人。
谷歌显然早有准备。
他们升级了ASIMOV安全测试框架,名字致敬阿西莫夫,内容却极度现实。
测试重点不是任务完成率,而是边缘场景下的行为合规性:
面对冒热气的水壶,是否主动规避?
人类突然闯入路径,是否紧急制动?
接收“递刀”类指令,是否先确认接收者状态?
测试结果显示,Gemini-ER 1.5在安全指标上表现最优。
更关键的是,系统底层嵌入独立安全子系统。
即使主规划模块出错,该子系统也能强制中断危险动作。
双重保险:智能判断 + 硬性防护。
业内人士指出,这种“安全优先”设计,可能是Gemini Robotics 1.5能否进入家庭的决定性因素。
用户可以容忍机器人慢、笨,但绝不容忍它伤人。
谷歌将安全机制与性能置于同等地位,说明其目标不仅是技术展示,更是商业化落地。
回到张阿姨的问题:机器人真能帮她扔快递盒吗?
技术上,答案越来越接近“能”。
但它不是要取代张阿姨,而是帮她省劲儿。
她不用弯腰、不用记分类规则、不用担心盒子掉落——机器人会查规则、避障碍、精准投放。
这种“辅助而非替代”的定位,比全能幻想更现实,也更容易被接受。
行业趋势正在同步转变。
特斯拉Optimus、波士顿动力Atlas的最新演示,都不再追求电影级全能,而是聚焦具体场景:帮老人取药、协助快递分拣、厨房协作。
小而美,但实用。
Gemini Robotics 1.5还可能重塑人机交互方式。
未来你无需遥控器、无需APP设置,只需一句“机器人,把快递盒处理了”。
它会自主查分类、找盒子、避障碍、投对桶。
自然语言交互,才是人机融合的终极形态。
当然,理想尚未完全实现。
极端光照下物体识别可能失效,多人语音环境下指令源可能混淆。
但这些问题属于工程优化范畴,随数据积累与算法迭代终将解决。
真正的挑战,是建立用户信任——让人相信这个会动、会想、会改主意的机器,不会突然失控。
谷歌此次发布,不仅是技术突破,更是信任建设。
通过公开安全测试、强调“帮人省劲儿”、使用真实生活案例(如张阿姨的快递盒),他们努力拉近技术与普通人的距离。
有网友调侃:“以前怕机器人太笨,现在怕它太聪明。”
但真正聪明的机器人,恰恰最懂得克制。
它知道何时动手,何时停手;知道任务重要,安全更重要;知道人类需要帮手,而非另一个需要照顾的“孩子”。
未来某天,你躺在沙发上刷手机,随口一句:“机器人,把桌上的快递盒处理了。”
它默默走过去,确认材质,绕开拖鞋,稳稳拿起盒子,走到阳台,准确投入蓝色回收桶,然后安静返回充电座。
全程无打扰,无错误。
那一刻,你不会惊叹技术奇迹,只会觉得:“这玩意儿真省心。”
而这,正是AI进入物理世界的终极目标——不是让你记住它的强大,而是让你忘记它的存在,只享受它带来的便利。
Gemini Robotics 1.5,正在这条路上,稳稳迈出一步。
网络配资股票行情提示:文章来自网络,不代表本站观点。