成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

僅用提示詞工程摘下IMO金牌!清華校友強強聯(lián)手新發(fā)現(xiàn)

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

無需谷歌“鈔能力”,兩位清華校友強強聯(lián)合,直接讓基礎模型Gemini 2.5 Pro輕松達到IMO金牌水平。

只需提示詞改動……



該發(fā)現(xiàn)來自兩位清華校友楊林黃溢辰,他們共同設計了一套自我迭代驗證流程和提示詞優(yōu)化,就成功讓Gemini 2.5 Pro完成了今年IMO題目的解答。

他們還剛剛更新了代碼,直接利用通用提示詞就能實現(xiàn)模型推理增強。



好家伙,原來我們都被LLM騙了,基礎大模型早就彎道超車,具備超強的解決復雜數(shù)學推理問題的能力。

只不過,直接用效果并不好。

就像MathArena也用Gemini?2.5?Pro跑了本次IMO題目,結(jié)果只有13分,遠低于IMO銅牌門檻(19/42)。



但只要加一點點提示詞魔法和迭代驗證,就能實現(xiàn)1+1>2。

這一點也受到了陶哲軒的認可:

我認同嚴格驗證是在復雜數(shù)學任務中取得出色表現(xiàn)的關鍵。

具體是怎么做到的?我們接著往下看。

通用提示詞+迭代驗證

首先為什么最近AI模型都喜歡參加IMO測試呢?

其實是因為相較于面向中小學水平題目的傳統(tǒng)數(shù)學基準GSM8KMATH等,IMO可以更為充分地考驗模型的抽象思維和多步驟邏輯推理能力,堪稱檢驗LLM推理能力的“試金石”。

不過前幾年模型結(jié)果都不盡如人意,要么是無法理解題目要求,要么是“偏科”某一類問題。

直到今年才首次有官方認可的金牌AI出現(xiàn),谷歌OpenAI均完成了5道題,其中谷歌Gemini模型搭載了新的Deep Think模式,OpenAI的模型據(jù)悉也是在通用強化學習計算擴展方面實現(xiàn)了技術突破。

但現(xiàn)在,研究團隊只用提示詞設計,就達成了上述效果。



關鍵在于,他們設計了一套自我驗證流程,依次可分為六個步驟:

  1. 初始解決方案生成:模型首先根據(jù)提示詞生成初步解答,要求每一步邏輯推理清晰、解釋明確。
  2. 自我改進:模型對初始答案進行回顧和優(yōu)化,彌補初始生成中因思維預算有限導致的不足。
  3. 驗證解決方案并生成錯誤報告:在驗證器中根據(jù)提示詞驗證解答,生成包含關鍵錯誤(如邏輯謬誤或事實錯誤)和不完整論證在內(nèi)的問題報告。
  4. 審查錯誤報告(可選):對問題報告進行復核,刪除誤報的問題,提升報告可靠性。
  5. 基于錯誤報告糾正或改進解決方案:根據(jù)問題報告改進解答,修正后返回驗證步驟。
  6. 接受或拒絕解決方案:若解答連續(xù)5次都通過驗證,則接受該回答;若連續(xù)迭代10次,都存在重大問題,則拒絕此答案。

具體來說,整個過程是由Gemini 2.5 Pro構(gòu)成的求解器(solver)驗證器(verifier)執(zhí)行,采用差異化提示詞以達到不同作用。

其中求解器主要負責生成和改進答案,在提示詞設計上將嚴謹性設為首要目標,確保結(jié)果可嚴格驗證。

但由于Gemini 2.5 Pro的最大思考tokens為32768,在初始生成答案時無法獨立完成負責的IMO問題,所以通過步驟2中的自我改進,額外注入32768 tokens,讓模型回顧并優(yōu)化初始解答,提升整體質(zhì)量。

然后使用驗證器模擬IMO評分專家,進行迭代改進,并決定是否接受改進后的解決方案。

驗證器會逐一檢查解答并找出存在的問題,將問題分為關鍵錯誤論證缺口兩類,其中關鍵錯誤是指明顯錯誤或存在清晰邏輯謬誤的內(nèi)容,會嚴重破壞證明的邏輯鏈條,引向錯誤答案。

論證缺口包含主要缺口次要缺口,主要缺口可能會導致整個證明失敗,而次要缺口可能會產(chǎn)生正確結(jié)論,但論證仍然是不完整的。

當發(fā)現(xiàn)問題后,驗證器隨即會輸出一份錯誤報告,為模型改進解決方案提供有用信息,在步驟4中對驗證器的誤判進行改正,然后模型根據(jù)報告嘗試改進答案。

由于驗證器可能出錯,所以需要足夠次數(shù)的重復迭代,降低誤判影響,最終如果答案能通過驗證則接受,如果始終存在關鍵錯誤或主要論證缺口,則拒絕。



具體實驗過程中,研究團隊選擇剛剛發(fā)布的IMO 2025題目,因為發(fā)布時間較短,可以有效避免訓練數(shù)據(jù)污染,確保評估的真實性。

另外在參數(shù)設置上,選擇較低的溫度值0.1,因為較高的溫度可能會導致更多的隨機錯誤,并使用Gemini 2.5 Pro的推理token上限,同時排除其它模型、代碼干擾。

關鍵提示詞中,初始生成的提示詞要求有充分理由支撐答案,如果不能找到完整解決方案,不能進行編造,且所有數(shù)學內(nèi)容用TeX格式呈現(xiàn)。



輸出格式需嚴格按照總結(jié)到詳細解決方案的順序,其中總結(jié)包括結(jié)論和方法概述,詳細解決方案中需要呈現(xiàn)完整、逐步的數(shù)學證明,在最終輸出前還要仔細檢查以符合所有指令。

驗證提示詞里,唯一任務就是找出并報告解決方案里的所有問題,并不嘗試糾正漏洞,需生成詳細驗證日志并將問題進行分類,輸出格式包括總結(jié)和詳細驗證日志,總結(jié)又包括最終判定和發(fā)現(xiàn)列表。



最終,模型實現(xiàn)為IMO的6道題目中的5道生成了完整且數(shù)學嚴謹?shù)慕鉀Q方案,其中前兩道題目各生成了有提示和無提示的兩種解決方案。

第一題提示使用數(shù)學歸納法,第二題提示使用解析幾何完成,通過對比可得,詳細的提示詞可以減少計算搜索空間、提高效率,但并不會額外賦予模型新的能力。

在未能解決的第六題上,研究人員發(fā)現(xiàn)模型是在其中一個有關證明時出現(xiàn)核心錯誤,從而導致后續(xù)證明無效。

實驗結(jié)果證明,結(jié)構(gòu)化迭代流程將是LLM的潛在能力轉(zhuǎn)化為嚴謹數(shù)學證明的關鍵,可突破單次生成中例如有限推理預算和初始答案錯誤等局限性。

另外研究人員預計,如果混合使用多種模型,例如Grok 4、OpenAI-o系列,以及類似Grok 4 heavy的多智能體系統(tǒng),可能會產(chǎn)生更強的數(shù)學能力。

清華校友強強聯(lián)合

本次研究的兩位作者——黃溢辰楊林,他們是清華大學數(shù)學物理基礎科學實驗班的本科同學,畢業(yè)后又分別前往海外高校深造。



黃溢辰在加州大學伯克利分校取得物理學博士學位后,曾在微軟擔任AI研究員,后在加州理工學院擔任博士后,師從凝聚態(tài)物理領域大拿陳諧教授。

陳諧教授本科同樣畢業(yè)于清華大學,并在2012年獲得麻省理工學院理論物理博士,目前是加州理工學院的Eddleman理論物理學教授。

主要研究的是量子凝聚態(tài)系統(tǒng)中的新型相和相變,包括強關聯(lián)系統(tǒng)中的拓撲序、多體系統(tǒng)動力學、張量網(wǎng)絡表示以及量子信息應用等。

曾在2017年斬獲斯隆獎,后又因其對物質(zhì)拓撲態(tài)及相互關系的卓越貢獻,榮獲2020年物理學新視野獎,該獎項隸屬于科學突破獎的子獎項,要知道科學突破獎也被譽為當代科學界的“奧斯卡獎”。

后續(xù)黃溢辰又接著在麻省理工學院理論物理中心和哈佛大學物理系繼續(xù)從事博士后研究,主要研究方向是量子物理學,包括量子信息學、 凝聚態(tài)理論和機器學習。



另一位作者楊林,目前是加州大學洛杉磯分校的副教授,任職于電氣與計算機工程系以及計算機科學系。



此前,他曾獲得約翰霍普金斯大學的計算機科學和物理與天文學雙博士學位,又曾在普林斯頓大學從事博士后研究,師從王夢迪教授。

王夢迪14歲就考入清華,23歲就從麻省理工學院博士畢業(yè),其導師還是美國國家工程院院士Dimitri P. Bertsekas,年僅29歲就成為普林斯頓大學終身教授。

研究領域主要涉及生成式人工智能、強化學習、大語言模型等,2024年還曾獲得控制領域最高獎項Donald P. Eckman獎(每年僅頒發(fā)給一位獲獎者)。

而楊林教授的研究重點則是強化學習理論與應用、機器學習和優(yōu)化理論、大數(shù)據(jù)處理和算法設計等,他曾在ICMLNeurIPS等頂級機器學習會議上發(fā)表過多篇論文,還曾獲得亞馬遜教授獎、西蒙斯學者獎等。

有限的資源下,學術界也能比肩大廠

對于本次研究的相關細節(jié),量子位也和楊林教授深入聊了聊。

首先是為什么會優(yōu)先選擇Gemini 2.5 Pro作為研究對象,楊林教授表示:

實驗開始時Gemini相對比較方便,可調(diào)的參數(shù)較多。

而當談及Gemini 2.5 Pro在解決前5道問題所涉及的計算資源和耗時,楊林教授也是坦然回應道:

具體資源我們沒有仔細統(tǒng)計,但大致估算下,第一步大概需要60000token,之后的每次驗證,如果通過則15000token,如果需要修改則需要30000token。
每次由于隨機性都會有所差異,不同題目需要的tokens數(shù)在300k到5000k都是有可能的,比如運氣不好的時候,一道題目就做了8次獨立實驗。而計算時間則取決于谷歌服務器的空閑度,最快10分鐘左右就能解出一道題。

關于使用提示前后模型的差異,楊林教授也表示:

當使用提示后,模型基本一次獨立實驗(Agent輸出失敗或成功算一次獨立實驗)就能解決題目,但不使用模型的思維會發(fā)散,之前提及的8次獨立實驗就是在沒有使用提示的情況下出現(xiàn)的。

至于沒有成功解決的第六題,楊林教授認為主要問題還是出在驗證器上:

當求解器輸出假陽性答案時,驗證器沒能很好地區(qū)分一些細節(jié)。

目前團隊已經(jīng)進行了手動驗證,自我檢查了證明的所有細節(jié),但缺乏官方評分,楊林教授也希望如果組委會有興趣,他們很樂意參與IMO官方評分,進一步驗證解答。

未來他們也將會通過使用更多訓練數(shù)據(jù)進行預訓練和微調(diào),以提升基礎模型的能力。

之后楊林教授也分享了一些本次研究中他所收獲的心得體會:

有時候基礎模型的能力需要用其它方法釋放,如果未來模型訓練達到瓶頸,那么Agent方法可能是破局的關鍵。而本次研究也讓我們看到,學術界利用有限的資源,也能做出與大廠同等重要的成果。

他也希望AI在未來能在數(shù)學研究中扮演更為重要的角色,尤其是在一些長期懸而未決的問題上。

最后也幫讀者朋友們向教授詢問了一些與AI共存的建議,楊林教授相當謙虛地表示:

同學們比我年輕,對AI的使用可能比我更加自然,所以我提不出什么建議。但就我自身而言,我希望在使用AI的同時,也能提高自身的知識水平。
簡而言之就是,使用并向它學習。

論文鏈接:https://www.alphaxiv.org/abs/2507.15855v2

參考鏈接:
[1]https://x.com/ns123abc/status/1948223115437154372
[2]https://github.com/lyang36/IMO25
[3]https://x.com/lyang36/status/1947466281990738339

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子求職要求雙休獲回復“你要是漂亮可以天天休息”

女子求職要求雙休獲回復“你要是漂亮可以天天休息”

大象新聞
2025-08-17 18:11:02
“女子帶娃回娘家一家三口被害”案件明日開庭,家屬:兇手是同村熟人,不認可其有精神疾病

“女子帶娃回娘家一家三口被害”案件明日開庭,家屬:兇手是同村熟人,不認可其有精神疾病

極目新聞
2025-08-17 13:47:16
中央巡視時,貴州一正廳級官員任上被查,最后一次公開露面是一個多月前

中央巡視時,貴州一正廳級官員任上被查,最后一次公開露面是一個多月前

瀟湘晨報
2025-08-17 12:32:11
致癌物超標1179倍,造假率超過75%,很多人天天用,孩子也愛戴

致癌物超標1179倍,造假率超過75%,很多人天天用,孩子也愛戴

以茶帶書
2025-08-16 13:15:33
孩子剛出生就出軌!小三天天誘惑已婚男,對話炸裂:從上親到下面

孩子剛出生就出軌!小三天天誘惑已婚男,對話炸裂:從上親到下面

社會醬
2025-08-17 09:42:27
性高潮到底是什么感覺?真實記錄多位女性的自述

性高潮到底是什么感覺?真實記錄多位女性的自述

好好虛度時光
2025-08-16 20:14:53
“特朗普立場已發(fā)生重大轉(zhuǎn)變”

“特朗普立場已發(fā)生重大轉(zhuǎn)變”

政知新媒體
2025-08-17 13:53:13
澳洲楊蘭蘭車禍案真相大白了

澳洲楊蘭蘭車禍案真相大白了

不惑豬的頻道
2025-08-16 19:58:49
太突然!上海著名商場,“店王”宣布:整晚不關門

太突然!上海著名商場,“店王”宣布:整晚不關門

青春上海
2025-08-17 12:54:44
男子每天發(fā)朋友圈炫耀女兒美貌,老師察覺不對報警,警方推開門傻眼

男子每天發(fā)朋友圈炫耀女兒美貌,老師察覺不對報警,警方推開門傻眼

罪案洞察者
2025-07-18 17:04:05
華碩:90%的PC和主板生產(chǎn)已轉(zhuǎn)移

華碩:90%的PC和主板生產(chǎn)已轉(zhuǎn)移

芯智訊
2025-08-16 10:59:25
繼“飛機拜拜員”后,上海一機場“箱子墊墊員”走紅,網(wǎng)友羨慕:夢中情班

繼“飛機拜拜員”后,上海一機場“箱子墊墊員”走紅,網(wǎng)友羨慕:夢中情班

瀟湘晨報
2025-08-17 14:38:06
工信部嚴令火速停用英偉達芯片,華為產(chǎn)線徹夜轟鳴,黃仁勛的“大禮”竟是特洛伊木馬?

工信部嚴令火速停用英偉達芯片,華為產(chǎn)線徹夜轟鳴,黃仁勛的“大禮”竟是特洛伊木馬?

林子說事
2025-08-17 12:41:23
范曾找到了!原來嬌妻徐萌陪他在法國度假,還有兒子范一夫隨行…

范曾找到了!原來嬌妻徐萌陪他在法國度假,還有兒子范一夫隨行…

火山詩話
2025-08-17 09:12:54
廣東這座城市“太特別”:只有市區(qū)講粵語,周邊區(qū)縣卻說客家話?

廣東這座城市“太特別”:只有市區(qū)講粵語,周邊區(qū)縣卻說客家話?

劉小順
2025-08-16 09:20:03
全天下苦難者團結(jié)起來,打破金飯碗!砸爛世襲者!

全天下苦難者團結(jié)起來,打破金飯碗!砸爛世襲者!

布衣亂彈
2025-08-16 18:14:03
普特會結(jié)束,特朗普變了,普京樂了,中國大陸在臺海該做好準備了

普特會結(jié)束,特朗普變了,普京樂了,中國大陸在臺海該做好準備了

傲傲講歷史
2025-08-16 10:59:24
火焰迅猛蔓延至樓頂!廣東一燒雞店起火,官方通報

火焰迅猛蔓延至樓頂!廣東一燒雞店起火,官方通報

南方都市報
2025-08-17 14:34:20
外賣小哥發(fā)現(xiàn)帶血枕頭報警,上面寫著“110625”,民警破譯密碼緊急上樓破門,女子已被困30小時

外賣小哥發(fā)現(xiàn)帶血枕頭報警,上面寫著“110625”,民警破譯密碼緊急上樓破門,女子已被困30小時

揚子晚報
2025-08-17 09:18:26
李國慶婚禮現(xiàn)場(多圖):郎才女貌,依然相信愛情

李國慶婚禮現(xiàn)場(多圖):郎才女貌,依然相信愛情

三言科技
2025-08-17 15:19:18
2025-08-17 19:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11117文章數(shù) 176230關注度
往期回顧 全部

科技要聞

宇樹跑步贏"半馬冠軍" 為何兩家都不太服氣

頭條要聞

特朗普公開提議俄烏直接簽署和平協(xié)議 澤連斯基拒絕

頭條要聞

特朗普公開提議俄烏直接簽署和平協(xié)議 澤連斯基拒絕

體育要聞

FIBA預熱亞洲杯男籃決賽 內(nèi)線對決成沖冠X因素

娛樂要聞

張維伊曾協(xié)議丁克,婚后卻反悔了?

財經(jīng)要聞

房東出租房子必須交稅?多地回應

汽車要聞

東風風行星海V9越享系列19.99萬元開啟預售

態(tài)度原創(chuàng)

藝術
游戲
家居
房產(chǎn)
手機

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

初代《深海迷航》與“冰點之下”獲更新檔與大幅折扣

家居要聞

肌理材料 打造侘寂風格

房產(chǎn)要聞

容積率僅2.2!荔灣中山八地鐵站旁宅地上新!

手機要聞

應對谷歌Pixel設備鎖BL風險,GrapheneOS宣布與主流安卓廠商合作

無障礙瀏覽 進入關懷版