就在刚刚,Gemini 2.5 Pro 在直播中通关了《宝可梦蓝》。谷歌 CEO 劈柴哥第一时间兴奋官宣,放出通关时刻珍贵影像。

大模型这一小步,把网友们也整嗨了。

满屏画风皆是:泰!酷!辣!

这回,Gemini 的自我介绍里可以多一条了:首个成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。(doge)

要知道,一年前的旧模 Claude 3.5 还只能勉强走出新手村到达常磐森林,2 个月前,Claude 3.7 倒是终于能击败道馆主了,但也并未通关宝可梦。

Gemini 2.5 Pro 通关宝可梦

游戏已通关,但直播仍继续。画面是酱婶的:

有一说一,过程看上去是有那么点无聊,因为每动一步 Gemini 都要深思熟虑……

左边的文本框里显示了 Gemini 每个行动背后的详细思考过程。

在上面这个片段中,Gemini 的主要目标是探索华蓝洞穴,寻找和捕获超梦。

直播中可以看到,在完成了一长串行动,走到了目标位置之后,Gemini 2.5 Pro 足足思考了 40 多秒,消耗 76011 个 token,才开启下一步的行动规划。

(因为有点迷路,Gemini 后面还想了很久很久……)

不过从这些思考过程中,可以清晰地看到大模型是怎么理解宝可梦游戏的。总结起来,Gemini 玩宝可梦的基本步骤如下:

截取屏幕截图并检索游戏状态数据

用网格覆盖处理图像,以辅助空间推理

将屏幕截图和游戏信息发送给模型

AI 决定是直接响应还是调用专门的智能体

解析响应内容,以确定按下哪个按钮

执行按钮按下操作,并等待游戏更新

对下一帧重复该过程

如果你对 Gemini 的宝可梦直播感兴趣,可以在 twitch 上搜索“gemini plays pokemon”,传送门我们也会在文末奉上~

宝可梦难在哪儿?

尽管已经是联盟冠军,但可以看出的是,在宝可梦这样一款最初主要面向儿童和青少年推出的游戏中,大模型的表现明显不如人类(经常一整个大迷路什么的……)。参照 Claude Plays Pokémon 项目研究人员的说法,这主要是因为大模型“视力不佳”。以 Claude 为例,模型很难像人类一样去解读 Game Boy 屏幕里展现出的低分辨率、像素化的世界。同时,游戏中的二维地图看上去对未经专门训练的大模型而言也充满挑战性。

我们很容易理解(游戏中)的建筑物就是建筑物,是无法穿过的。

这对 Claude 来说却相当有挑战性。

另外,模型上下文的限制也影响了它们在游戏中的表现。不过,在游戏中偏文本的部分,此前 Claude 就已经有惊艳表现。比如,在宝可梦对战中,当游戏提示电属性宝可梦的攻击对岩石属性对手“效果不佳”时,Claude 能马上 get 到其中的意思,并在此后将这些知识整合到自己的战斗策略里。

现在,谷歌率先实现了新的突破,并表示还将在这个有趣的挑战中进行更多探索(直播将至少持续数天)。或许真的像网友所说:

以后测试大模型的基准要变成谁能更快通关宝可梦了。

“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”