港大经管学院最新测评:AI高阶推理能力,哪家最强?
港大经管学院今日发表《AI高阶推理能力测评报告》,针对选定的AI大语言模型(LLM)在中文语境下的高阶推理能力进行测评,以全面检视AI高阶推理能力的发展现状。
2025年以来,AI大语言模型从“能对话”向“会思考”快速演进。 然而在需要复杂推理能力的场景中,AI的推理能力参差不齐,包括对图片和文字等跨模态信息的整合分析能力,或面对非常规性复杂题目时的创新推理能力。 有鉴于此,港大经管学院创新及信息管理学教授兼夏利莱伉俪基金教授蒋镇辉率领人工智能评估实验室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人员,首次构建多模态推理和奥赛推理综合评测体系,以系统性、定量化的方式针对2025年人工智能技术的核心发展瓶颈——高阶推理能力,进行了全面深入的现状测评。 测评对象覆盖中美两国截止2025年10月中旬发布的共37款大语言模型(含14个推理模型、20个通用模型和3个一体化系统)。
测评结果显示:
- 在“多模态推理”领域,GPT系列持续领先,以豆包1.5 Pro(思考模式)为首的顶尖国产模型,也已成功跻身全球第一梯队。
- 在更高难度的“奥赛推理”领域,则由美国模型整体主导,其中GPT-5(思考模式)呈现断层优势,而Gemini 2.5 Pro则紧随其后。
- 整体而言,此次测评体现了一个清晰的行业趋势:在高阶推理能力领域,“推理模型”表现优于“通用模型”,两者梯度差异明显。 这与人工智能产业的发展规律高度契合——行业正经历从追求“全场景通用能力覆盖”转向聚焦“专用场景突破与深度效能优化”,技术发展也在从“广度扩张”迈向“深度精耕”的新阶段。
蒋镇辉教授表示:“高阶推理能力对AI在教育、科研及商业决策等领域的应用拓展至关重要。 此研究旨在揭示高阶人工智能技术的发展现状,令行业能够精准定位技术瓶颈,加速通用人工智能在高要求领域的落地应用,最终推动AI从对话助手转型成为更加高级的智能伙伴。 ”
测评方法
该研究综合测评了大语言模型高阶推理能力的两个核心 – 多模态推理能力和奥赛推理能力。
- 多模态推理能力是指模型在整合文本、图像、数据图表等多种信息形式进行跨模态关联分析与逻辑推导时展示的能力。 在教育场景中,它能帮助学生结合教材文本与图标理解科学原理; 在商业分析中,可助力从业者匹配市场文字描述与销售图表,预判消费趋势。 这种能力是AI应对复杂现实任务的“必备素养”。
- 奥赛推理能力则通过国际数学奥林匹克(IMO)等权威赛事的高难度题目,检验模型在复杂逻辑结构、多步推导与创造性思维上的表现。 这类题目往往没有唯一解法,更考验AI跳出常规、寻找最优解的能力,是衡量其“深度智慧”的试金石。
多模态推理能力排名
根据测评结果,不同大语言模型在多模态推理能力上的表现有明显分层。 其中,GPT系列在85分以上区间的五个头部模型中占据四席,形成完整的顶尖能力链条。 豆包1.5 Pro(思考模式)是唯一进入前五的国产模型,其通用与思考模式差距极小,说明其多模态推理能力已普遍达国际顶尖水平。
从模型类型看,和通用模型相比,同公司的推理模型在复杂任务中展现出一定的优势。
| 排名 | 模型名称 |
多模态推理能力 准确率得分 |
| 1 | GPT-5(思考模式) | 91 |
| 2 | GPT-4.1 | 90 |
| 3 | GPT-o3 | 87 |
| 4 | 豆包1.5 Pro(思考模式) | 85 |
| 4 | GPT-5(自动模式) | 85 |
| 6 | GPT-4o | 84 |
| 7 | Claude 4 Opus(思考模式) | 83 |
| 8 | 豆包1.5 Pro | 82 |
| 8 | Grok 3(思考模式) | 82 |
| 10 | 通义千问3 | 81 |
| 11 | Kimi-k1.5 | 80 |
| 11 | 日日新 V6推理 | 80 |
| 11 | Step R1-V-Mini(阶跃 R1-V-Mini) | 80 |
| 14 | Grok 4 | 79 |
| 14 | GPT-o4 mini | 79 |
| 14 | 混元-T1 | 79 |
| 17 | GLM-4-plus(智谱-4-Plus) | 78 |
| 17 | 通义千问3(思考模式) | 78 |
| 19 | Gemini 2.5 Flash | 77 |
| 19 | GLM-Z1-Air(智谱-Z1-Air) | 77 |
| 21 | Llama 3.3 70B | 76 |
| 22 | 日日新 V6 Pro | 75 |
| 22 | Gemini 2.5 Pro | 75 |
| 23 | 文心一言4.5-Turbo | 74 |
| 24 | Step 2(阶跃2) | 73 |
| 26 | 混元-TurboS | 71 |
| 26 | Claude 4 Opus | 71 |
| 28 | Spark 4.0 Ultra(讯飞星火 4.0 Ultra) | 68 |
| 28 | MiniMax-01 | 68 |
| 30 | Baichuan4-Turbo(百川4-Turbo) | 67 |
| 31 | Grok 3 | 66 |
| 32 | Kimi | 63 |
表 1:多模态推理能力排名
奥赛推理能力排名
根据评测结果,美国大语言模型在正确性、逻辑连贯性、方法创新性、奥赛推理能力上呈现“多维度领先”的特点。 GPT-5(思考模式)和Gemini 2.5 Pro断层领先,GPT-o3,Claude 4 Opus(思考模式)分列第三名及第四名; 国产模型中,通义千问3(思考模式)和Step R1_V_mini表现领先。总体来说,国产模型在复杂推理上仍有很大进步空间。
此外,对比同公司的通用与推理模型版本,我们发现思考模式下的模型在奥赛推理能力各维度的表现普遍更好。
| 排名 | 模型名称 | 正确性 | 逻辑连贯性 | 方法创新性 |
奥赛推理能力 加权得分 |
| 1 | GPT-5(思考模式) | 48 | 47 | 44 | 48 |
| 2 | Gemini 2.5 Pro | 48 | 39 | 36 | 44 |
| 3 | GPT-o3 | 36 | 42 | 39 | 38 |
| 4 | Claude 4 Opus(思考模式) | 30 | 36 | 39 | 33 |
| 5 | Gemini 2.5 Flash | 35 | 28 | 31 | 32 |
| 5 | GPT-o4 mini | 32 | 33 | 33 | 32 |
| 7 | 通义千问3(思考模式) | 29 | 25 | 28 | 28 |
| 7 | Step R1_V_mini | 26 | 33 | 22 | 28 |
| 9 | GLM_Z1_Air | 27 | 31 | 22 | 27 |
| 9 | 日日新 V6推理 | 27 | 28 | 22 | 27 |
| 11 | 通义千问3 | 25 | 31 | 17 | 26 |
| 12 | 文心一言4.5-Turbo | 25 | 25 | 19 | 24 |
| 13 | Grok 3(思考模式) | 21 | 28 | 25 | 23 |
| 14 | GPT-5(自动模式) | 22 | 22 | 28 | 22 |
| 14 | DeepSeek-V3(深度求索-V3) | 26 | 14 | 22 | 22 |
| 16 | Claude 4 Opus | 22 | 17 | 31 | 21 |
| 17 | 豆包1.5 Pro(思考模式) | 22 | 17 | 22 | 20 |
| 17 | DeepSeek-R1(深度求索-R1) | 17 | 25 | 22 | 20 |
| 19 | Grok 3 | 20 | 19 | 17 | 19 |
| 19 | Grok 4 | 19 | 17 | 25 | 19 |
| 21 | 文心一言 X1-Turbo | 17 | 19 | 14 | 17 |
| 21 | 混元-T1 | 17 | 17 | 19 | 17 |
| 21 | 混元-TurboS | 17 | 17 | 19 | 17 |
| 21 | Kimi-k1.5 | 17 | 19 | 11 | 17 |
| 25 | 豆包1.5 Pro | 16 | 17 | 19 | 16 |
| 26 | GLM-4-plus(智谱-4-Plus) | 12 | 17 | 8 | 13 |
| 27 | GPT-4o | 13 | 8 | 19 | 12 |
| 27 | Spark 4.0 Ultra(讯飞星火 4.0 Ultra) | 13 | 11 | 14 | 12 |
| 29 | Baichuan4-Turbo(百川4-Turbo) | 8 | 19 | 11 | 11 |
| 29 | GPT-4.1 | 11 | 8 | 17 | 11 |
| 31 | Kimi | 6 | 14 | 17 | 9 |
| 31 | Llama 3.3 70B | 7 | 14 | 6 | 9 |
| 33 | Yi-Lightning(零一-Lightning) | 6 | 11 | 14 | 8 |
| 33 | 日日新 V6 Pro | 8 | 8 | 6 | 8 |
| 35 | MiniMax-01 | 5 | 11 | 8 | 7 |
| 35 | Step2 | 6 | 8 | 8 | 7 |
| 35 | 360智脑2-o1 | 7 | 6 | 8 | 7 |
| Note: 所有分数均为四舍五入得分结果。 | |||||
表 2:奥赛推理能力排名
请按此阅读《AI高阶推理能力测评报告》全文
综合以上评估可知,在地域上,美国模型在多模态和奥赛推理中表现突出,暂时领先; 中国模型仍需在深层语境理解、复杂推理链或创造性解决问题上弥补差距。 此外,推理模型在高端推理能力领域的表现普遍优于通用模型。
展望未来,人工智能需在跨模态深度融合和极端复杂问题的创造性解决上持续实现核心突破。对于中国模型而言,其关键在于依托本土场景的独特优势,精准补齐高阶推理能力上的短板,从而推AI从“能用”向“真智慧”迈进,并应用于更广泛、更复杂的场景中。
图片
港大经管学院创新及信息管理学教授兼夏利莱伉俪基金教授蒋镇辉教授
请按此下载高清图片。
