AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

时间：2025-03-04 16:24:08 来源：24直播网

加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）上周五开展了一项独特的研究，将人工智能（AI）引入经典游戏《超级马力欧兄弟》中，以测试其性能表现。研究结果显示，在参与测试的 AI 模型中，Anthropic 的 Claude 3.7 表现最为出色，紧随其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。

需要明确的是，此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中，并通过一个名为 GamingAgent 的框架与 AI 进行连接，从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发，其向 AI 提供基本指令，例如“如果附近有障碍物或敌人，向左移动或跳跃以躲避”，同时还提供游戏内的截图。随后，AI 通过生成 Python 代码的形式来操控马力欧。

据实验室介绍，该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是，实验发现像 OpenAI 的 o1 这样的推理模型（它们通过逐步思考问题来得出解决方案）表现不如“非推理”模型，尽管它们在大多数基准测试中通常表现更强。研究人员指出，推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中，时机至关重要，一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。

数十年来，游戏一直是衡量 AI 性能的重要工具。然而，一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比，游戏往往是抽象且相对简单的，并且能够为 AI 训练提供理论上无限的数据。

IT之家注意到，最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西（Andrej Karpathy）所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道：“我目前真的不知道该关注哪些 AI 指标。”他总结道：“我的反应是，我目前真的不知道这些模型到底有多好。”

标签模型推理操作马力超级兄弟

上一篇：新华社采访多位国内游戏制作人：国产单机游戏未来拥有无限的可能！

下一篇： mayumi更博晒照：一周内就抵达中国

AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

热门数据

相关信息

判若两队！JDG赛后群访教练：各种细小失误的叠加起来造成了失利

导播还整上回溯了！JDG战平FPX厚赛后数据面板显示JDG01FPX

劲往一处使！FPX赛后群访Care：大家都很想赢一起进步越打越好

英伟达将在美生产AI超级计算机：计划投资5000亿美元建成该设备

LPL乱成一锅粥咯！组内倒数FPX爆冷击败JDG收获队伍的第二场胜利

太爆了！EDG冠军赛五人撕逼康康发博登上微博热搜第一

玩花了！JDG迎来队伍在组内赛的首场失利登峰组也再无全胜队伍

爆冷不敌FPX不败金身被破！吧友们觉得JDG失利谁的问题最大

感谢Peyz大火箭！金克丝精准制导胜利快感狂轰JDG扳回一城

卧槽盒！Smoggy更博：别开我户了兄弟姐妹我道歉我道歉

04月14日CBA季后赛14决赛G1山西广东全场录像

04月14日CBA季后赛14决赛G1北京北控全场录像

04月12日NBA常规赛火箭湖人全场录像

04月12日NBA常规赛马刺太阳全场录像

04月12日NBA常规赛魔术步行者全场录像

04月11日CBA季后赛首轮12进8G3广东上海全场录像

04月11日NBA常规赛老鹰篮网全场录像

04月08日NBA常规赛国王活塞全场录像

04月07日CBA季后赛首轮12进8G2浙江青岛全场录像

04月07日CBA季后赛首轮12进8G2同曦新疆全场录像

相关集锦

廖三宁末节14分里勒31分陈盈骏27分北控力克北京先下一城

失误620刘传兴11+7徐杰14+6+6山西7人上双大胜42分10广东

班顿23+5+7克内克特27+8布朗尼4+3+6+4断开拓者大胜湖人

萨博尼斯20+12拉文16分阿伦20+5国王击败太阳锁定西部第九

维金斯28+7+7卡尔森26+10厄尔10+16雷霆轻取鹈鹕

卡斯尔20+8+6保罗全勤S巴恩斯35+11+8马刺22分大逆转猛龙

华子43+6+5&登顶三分王戈贝尔19+18森林狼胜爵士晋级季后赛

史蒂文斯31+6巴格利25+11加福德20+7灰熊大胜独行侠

约基奇18+7+7阿门15+6+6格林7中0掘金轻取火箭锁西部第4

哈登39+7+10库里36+6+8失误快船客场加时胜勇士杀进季后赛

热门TAG