AI模型游戏能力大比拼：o3称霸俄罗斯方块，Gemini惜败

经典游戏正成为衡量人工智能模型感知、记忆与推理能力的新标杆。

谁能想到，《宝可梦》《俄罗斯方块》这些童年经典游戏，如今竟成为科技巨头测试AI模型的重要工具。从Anthropic的Claude到Google的Gemini，各大模型纷纷以“通关宝可梦”来展示其推理与长期记忆能力。

然而，这些测试缺乏统一标准——有的模型依赖外部代码提取游戏状态，有的需要数百小时运行时间，且成本高昂。为此，UCSD等研究团队推出了Lmgame Bench标准化评估框架，通过多款经典游戏分模块测评AI模型的真实能力。

游戏为何成为AI试金石？

在人工智能领域，存在一个著名的“莫拉维克悖论”：让电脑表现出成人水平的棋类能力相对容易，但要让其具备一岁小孩的感知和行动能力却异常困难。

语言学家史迪芬·平克对此总结道：“困难的问题是易解的，简单的问题是难解的。”四岁小孩能轻松完成的人脸识别、拿起铅笔、室内走动等任务，恰恰是工程领域最难解决的问题。

这解释了为什么当前顶级AI模型都希望通过《宝可梦》等游戏证明自己的感知能力——这些游戏需要综合运用空间推理、长期规划和实时决策能力，正是AI研究的核心挑战。

Lmgame Bench采用模块化测试框架，通过感知、记忆和推理三大模块系统评估模型的游戏能力。该框架通过迭代交互循环让模型与模拟游戏环境进行交互，并采用标准化提示优化技术降低对提示词的敏感性。

研究团队精选了六款中等难度的经典游戏作为测试基准：

许多模型在视觉理解上存在脆弱性，导致对游戏状态频繁误判。感知模块将原始游戏帧或UI元素转换为结构化的符号/文本状态描述，减少对脆弱视觉的依赖。

该模块存储最近的状态、动作和反思笔记，以缩小动作空间并支持长期规划。强大的记忆机制是实现长期决策的关键。

综合所有其他模块的信息，并可选择开启长链式思维推理，全面评估模型的决策能力。

研究团队实现了Gym风格API的标准化接口，统一评估设置。通过轻量级的感知与记忆辅助模块设计，稳定提示带来的差异并消除数据污染。

在13个领先模型上的实验表明，Lmgame Bench既具有挑战性，又能有效区分不同模型的能力水平。

排行榜前列由o3模型占据，该模型以其强大的视觉感知、空间推理和长视野规划能力著称。o3在2048、推箱子和俄罗斯方块三个游戏中完全领先，展现了卓越的综合能力。

令人意外的是，o3在糖果消除游戏中表现远远落后，这说明即使是顶级模型也存在特定的能力短板。

这一结果揭示了AI模型能力的不均衡性——在某些领域表现卓越的模型，在其他看似简单的任务中可能表现不佳。

近期所有模型的进步表明，在数学和编程任务中，整合强化学习可以显著增强LLMs的推理能力。即使是最简单的RL算法也能改善模型的规划和决策能力，这种能力在与复杂环境互动时显得尤为重要。

经典游戏经过精心设计，专门用于挑战人类的思维和认知能力。同样地，这些游戏是极具价值但尚未被充分利用的AI基准测试资源。

除了经典游戏，现今还有众多3A大作可供测试，未来的评估体系将具有高度可扩展的发展路径。Lmgame Bench的诞生正是为了回答一个问题：真正的智能不仅要能写代码、做数学题，更要能在复杂、开放、动态的环境中持续思考、规划并行动。

游戏环境提供了复杂、动态且可控的测试场景，能够全面评估AI模型的感知、记忆、推理和规划能力。经典游戏尤其适合是因为它们原本就是为挑战人类认知而设计的。

Lmgame Bench采用标准化接口和模块化设计，消除了外部依赖和数据污染问题。它提供统一的评估标准，使得不同模型之间的比较更加公平和准确。

这可能是因为o3模型过于复杂的推理机制在简单优化任务中反而成为负担。糖果消除需要的是快速、直观的决策，而非深度的长链推理。

游戏测试能够评估模型的核心认知能力，这些能力可以迁移到实际应用中。然而，专业领域应用还需要针对性的微调和适配。

研究团队提供了开源代码，任何人都可以通过一条命令为任何受支持的模型-游戏组合启动评估。这使得测试过程变得简单且可重复。

是的，研究团队计划持续扩展游戏测试集，包括从经典游戏到现代3A大作，以创建更加全面和挑战性的评估体系。

这场关于AI智能的测试还远未结束，随着技术的发展和评估体系的完善，我们将对人工智能的能力有更加深入的理解。