![這張圖片展示了寶可夢的電子遊戲、人偶和玩具。13JUL16 SCMP/May Tse [18JULY2016 FEATURES DIGITAL]](https://storage.googleapis.com/bucket_tihongkong/xlrss_media/5/2026/01/14/xlrss_69673de7cfabe.jpg)
(SeaPRwire) – 現在,在Twitch上直播的內容中,你可以看到世界上最聰明的三個AI系統——、、和——正在盡力挑戰經典寶可夢遊戲。至少以人類的標準來看,它們的表現並不太好。
這些系統動作緩慢、過度自信,且經常感到困惑。但如果你想了解這些系統當前在更廣泛世界中的能力,追蹤它們成為寶可夢冠軍的努力,會比每個新模型發布時伴隨的、往往難以理解的基準數據告訴你更多信息。
讓大型語言模型(LLM)成為寶可夢大師的嘗試始於去年2月,當時Anthropic的一名研究人員推出了一個Claude玩1996年Game Boy遊戲《寶可夢紅》的直播,以配合Claude Sonnet 3.7的發布——當時它是世界上最好的模型之一。正如該公司所指出的,這是第一個能夠有意義地玩這款遊戲的Claude模型(之前的模型「漫無目的地徘徊或陷入循環」,無法通過遊戲的開場階段)。在最初的幾周內,該直播吸引了大約2000名觀眾,在公共聊天中為Claude加油打氣。
大多數孩子在大約20到40小時內就能輕鬆完成這款遊戲。Sonnet 3.7並沒有設法打敗它,經常一次卡住數十個小時。Anthropic的最新模型Claude Opus 4.5表現得,但其實也經常卡住。有一次,它花了四天時間在健身房周圍盤旋,卻無法進入,因為它沒有意識到(或看不到)它應該砍倒一棵樹。Google的Gemini模型去年5月設法完成了一款等效的遊戲,這讓Google CEO Sundar Pichai開玩笑地,該公司離創建「人工寶可夢智慧」又近了一步。
但這並不意味著Gemini是更好的寶可夢大師。這是因為這兩個AI系統使用不同的「戰甲」(harness)。正如運行Gemini Plays Pokémon直播的獨立開發者所解釋的那樣,戰甲最好被理解為一套「鋼鐵人」戰甲,AI系統被置於其中,使其能夠使用工具並採取自己無法採取的行動。Gemini的戰甲為它提供了更多幫助——例如,將遊戲的視覺效果轉換為文字,從而繞過其視覺推理的弱點,並提供自定義工具來解決難題。與此同時,Claude被綁在一個更的戰甲中,這意味著它的嘗試能告訴我們更多關於模型本身的信息。
儘管模型與其戰甲之間的區別對日常用戶來說並不明顯,但戰甲已經改變了我們使用AI的方式。例如,當你向ChatGPT查詢需要搜索網絡的內容時,它會使用網絡搜索工具——這是其戰甲的一部分。在寶可夢方面,每個模型都在使用不同的自定義戰甲,管理它們可以採取的行動。
寶可夢非常適合測試AI能力——不僅僅因為它的文化熟悉度。與瑪利歐這類需要實時反應的遊戲不同,寶可夢是回合制的,沒有時間壓力。要玩遊戲,AI模型會收到遊戲的截圖和一個提示,解釋其目標和可以採取的行動。然後它們自己思考,輸出行動(如「按A鍵」)。這就是一步。截至撰寫本文時,Opus 4.5已經玩了超過500小時的人類時間,處於第170,000步。在每一步,模型都會重新初始化,借鑒其先前實例留下的信息,就像健忘症患者依賴便利貼一樣。
AI系統在國際象棋和圍棋方面表現出超人的能力,卻在六歲兒童都能輕鬆玩的遊戲中掙扎,這可能令人驚訝。但征服國際象棋和圍棋的系統是為這些特定遊戲量身定制的,不同於Gemini、Claude和ChatGPT這類通用系統。儘管如此,由於這些LLM繼續在考試中取得優異成績,並在編碼比賽中壓倒人類,它們在這裡的表現不佳從表面上看是令人困惑的。
AI面臨的挑戰來自「它在長時間範圍內堅持完成任務的能力」,張說。至關重要的是,如果AI要實現認知工作的自動化,這種長期規劃和執行的能力也是必要的。「如果你想讓一個代理完成你的工作,它不能忘記五分鐘前做過的事情,」他說。
獨立研究人員Peter Whidden基於一種較舊的AI開發了一個寶可夢遊戲算法,他這樣說:「AI知道關於寶可夢的一切。它接受了大量人類數據的訓練。它知道自己應該做什麼,但執行起來卻很笨拙。」雖然「代理」一詞已經被營銷炒作過度使用,但任何值得這個稱號的AI系統都需要彌合知識與執行之間的差距,並進行長期規劃。
有跡象表明,這種差距正在開始縮小。Opus 4.5比以前的模型更善於留下備註,這與其改進的理解所見內容的能力一起,讓它在遊戲中走得更遠。在打敗《寶可夢藍》後,最新的Gemini系統(Gemini 3 Pro)繼續完成了更具挑戰性的《寶可夢水晶》,沒有輸掉一場戰鬥——這是其前身Gemini 2.5 Pro無法實現的壯舉。
與此同時,Claude Code——本質上是一個允許Claude編寫和運行自己程式碼並構建自己軟件的戰甲——已被應用於另一款復古遊戲中,據報導它在那裡成功管理著一個主題公園。所有這些都指向一個奇怪的未來:戰甲中的AI系統可能能夠執行大量知識工作——包括軟件開發、會計、法律分析和圖形設計——即使它們在需要實時反應的任何事情上掙扎,比如玩《決勝時刻》遊戲。
這些寶可夢遊戲運行揭示的另一件事是,這些基於人類數據訓練的模型如何表現出類人的怪癖。例如,在Gemini 2.5 Pro中,Google指出,在模型模擬恐慌的情況下——比如當它的寶可夢即將暈倒時——其推理能力會下降。
而且這些模型繼續以意想不到的方式行事。當Gemini 3 Pro完成《寶可夢藍》時,它寫道:「我已成功完成遊戲,成為寶可夢聯盟冠軍並捕獲了超夢。」然後它決定做一些意想不到且主動的事情,張認為這很令人感動。「為了富有詩意地結束這一切,」它寫道,「我要回到一切開始的地方——我的房子,有效地「退休」我的角色一段時間。我想最後一次和媽媽說話,來結束這次遊玩。」
本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。
分類: 頭條新聞,日常新聞
SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。
