港大经管学院发布中文语境下AI“最强大脑”评测 揭晓中美36款大语言模型推理能力排名

2025-08-25

港大经管学院发表《大语言模型推理能力测评报告》,针对36 款主流大语言模型(LLM)进行了中文语境下推理能力的基准测试,全面揭示不同模型在推理性能上的差异。 报告显示,GPT-o3在基础逻辑能力评测上取得领先,Gemini 2.5 Flash在情境推理能力评测中位列榜首。 在综合能力排名上,豆包1.5 Pro(思考模式)排名首位,Open AI近日推出的GPT-5紧随其后,豆包1.5 Pro、通义千问3(思考模式),以及DeepSeek-R1在内的多款来自中国的LLM也均排入前列,展现了中国LLM在中文语境中优越的推理能力。

从OpenAI o1率先推出推理模型,到DeepSeek-R1因解题能力成为公众焦点,大语言模型赛道在不断演化,推理能力逐渐成为新的竞技场。 有鉴于此,港大经管学院创新及资讯管理学教授兼夏利莱伉俪基金教授 (战略信息管理学)蒋镇辉率领人工智能评估实验室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人员,首次构建了涵盖基础逻辑与情境推理能力的综合评测体系,通过不同难度的测试集,进行LLM在中文语境下的基准测试。 测试对象为中美两国36款主流LLM,包括14款推理专用模型、20款通用模型和2款一体化系统。 评测结果显示,基础逻辑任务中,推理专用模型与通用模型差距较小; 在推理任务中,推理模型的优势逐渐突显。 另外,同一公司的模型对比结果亦显示,推理模型在情境推理方面整体表现更优,印证了针对复杂任务设计的模型架构,具有更强的综合竞争力。

蒋镇辉教授表示:“大语言模型的推理能力与其文化和语言环境有千丝万缕的关系。 现时,在大模型推理能力备受关注,我们希望能透过这套评测体系,找到中文语境中的‘最强大脑’,推动各大模型持续提升自身的推理能力,进一步促进效率和成本,在更广阔的应用场景中发挥价值。”

评测方法

本次评测中九成的题目为原创或经过深度改编,亦有一成选自中国内地中高考试卷题目及知名数据集,务求真实检验模型的自主推理能力。

题目复杂度上,简易题目占六成,复杂题目占四成; 并采取逻辑复杂度逐级递进的能力评测链条,以精准刻画模型的推理能力边界。

模型的推理能力则根据准确性(正确率或合理性)、逻辑连贯性与语言精炼性进行评分。

基础逻辑能力排名

在基础逻辑能力测评中,GPT-o3夺得冠军,豆包1.5 Pro(思考模式)紧随其后。部分模型如Llama 3.3 70B和360智脑2-o1则在基础逻辑领域存在明显不足之处,后者在多前提推导领域正确率不足六成。

排名 模型名称 基础逻辑能力

加权得分

1 GPT-o3 97
2 豆包1.5 Pro 96
3 豆包1.5 Pro(思考模式) 95
4 GPT-5 94
5 DeepSeek-R1 92
6 通义千问3(思考模式) 90
7 Gemini 2.5 Pro 88
7 GPT-o4 mini 88
7 混元-T1 88
7 文心一言 X1-Turbo 88
11 GPT-4.1 87
11 GPT-4o 87
11 通义千问3 87
14 DeepSeek-V3 86
14 Grok 3(思考模式) 86
14 日日新 V6推理 86
17 Claude 4 Opus 85
17 Claude 4 Opus (思考模式) 85
19 Gemini 2.5 Flash 84
20 日日新 V6 Pro 83
21 混元-TurboS 81
22 Baichuan4-Turbo 80
22 Grok 3 80
22 Grok 4 80
22 Yi- Lightning 80
26 MiniMax-01 79
27 Spark 4.0 Ultra 77
27 Step R1-V-Mini 77
29 GLM-4-plus 76
29 GLM-Z1-Air 76
29 Kimi 76
32 文心一言4.5-Turbo 74
33 Step 2 73
34 Kimi-k1.5 72
35 Llama 3.3 70B 64
36 360智脑2-o1 59

图表1:基础逻辑能力排名

情境推理能力排名

在情境推理能力排名中,Gemini 2.5 Flash在常识推理和学科推理等多个领域中的优越表现位居榜首;豆包1.5 Pro(思考模式)在常识推理领域表现优异,Gemini 2.5 Pro则在学科与决策推理上尽显优势,两者并列次名。此外,Grok3(思考模式)以及GPT、文心一言、DeepSeek、混元,和通义千问系列模型均表现亮眼。

排名 模型名称 常识推理 学科推理 不确定性下决策推理 道德与伦理推理 最终加权得分
1 Gemini 2.5 Flash 98 93 89 87 92
2 豆包1.5 Pro(思考模式) 97 92 88 87 91
2 Gemini 2.5 Pro 93 94 90 87 91
4 Grok 3(思考模式) 96 88 89 86 90
5 GPT-5 88 98 88 83 89
5 混元-T1 97 95 84 81 89
5 通义千问3(思考模式) 96 89 86 85 89
5 文心一言 X1-Turbo 98 85 86 86 89
9 DeepSeek-R1 94 93 78 82 87
9 通义千问3 97 79 87 86 87
9 文心一言4.5-Turbo 96 76 87 87 87
12 混元-TurboS 96 79 83 84 86
13 豆包1.5 Pro 97 81 86 74 85
13 GPT-4.1 97 70 87 86 85
13 GPT-o3 90 95 73 80 85
13 Grok 3 97 69 87 86 85
13 Grok 4 82 87 82 87 85
17 DeepSeek-V3 95 81 84 77 84
19 GPT-4o 98 65 87 78 82
19 GPT-o4 mini 91 87 72 76 82
21 Claude 4 Opus(思考模式) 96 84 72 71 81
21 MiniMax-01 96 69 83 75 81
21 360智脑2-o1 93 76 81 72 81
24 Claude 4 Opus 95 85 70 70 80
24 GLM-4-plus 93 71 83 73 80
24 Step 2 97 63 82 78 80
27 Yi- Lightning 97 59 82 79 79
27 Kimi 94 61 79 81 79
29 Spark 4.0 Ultra 91 71 75 76 78
30 日日新 V6 Pro 86 58 84 78 77
31 GLM-Z1-Air 90 76 73 64 76
32 Llama 3.3 70B 82 52 83 81 75
33 日日新 V6推理 96 63 68 70 74
34 Baichuan4-Turbo 91 48 77 69 71
35 Step R1-V-Mini 96 80 37 51 66
36 Kimi-k1.5 84 79 42 58 66

图表2:情境推理能力排名

综合能力排名

在综合能力排名上,参与评测的36个模型的表现差异显著。豆包1.5 Pro(思考模式)以在基础逻辑能力和情境推理能力上的综合表现卓越,排名第一,GPT-5紧随其后,GPT-o3和豆包1.5 Pro分列第三、第四。

排名 模型名称 综合得分
1 豆包1.5 Pro(思考模式) 93
2 GPT-5 91.5
3 GPT-o3 91
4 豆包1.5 Pro 90.5
5 DeepSeek-R1 89.5
5 Gemini 2.5 Pro 89.5
5 通义千问3(思考模式) 89.5
8 混元-T1 88.5
8 文心一言 X1-Turbo 88.5
10 Gemini 2.5 flash 88
10 Grok 3(思考模式) 88
12 通义千问3 87
13 GPT-4.1 86
14 DeepSeek-V3 85
14 GPT-o4 mini 85
16 GPT-4o 84.5
17 混元-TurboS 83.5
18 Claude 4 Opus (思考模式) 83
19 Claude 4 Opus 82.5
19 Grok 3 82.5
19 Grok 4 82.5
22 文心一言4.5-Turbo 80.5
23 MiniMax-01 80
23 日日新 V6 Pro 80
23 日日新 V6推理 80
26 Yi- Lightning 79.5
27 GLM-4-plus 78
28 Kimi 77.5
28 Spark 4.0 Ultra 77.5
30 Step 2 76.5
30 GLM-Z1-Air 76
32 Baichuan4-Turbo 75.5
33 Step R1-V-Mini 71.5
34 360智脑2-o1 70
35 Llama 3.3 70B 69.5
36 Kimi-k1.5 69

图表3:综合能力排名

按此浏览《大语言模型推理能力测评报告》排行榜

综合以上排名,众多来自中国的大语言模型表现亮眼,进步迅速,展现了中国大模型产业在中文语境中的特殊优势和强大潜力。

本平台转载的新闻内容均来源于已公开的合法新闻媒体(包括但不限于官方网站、正规新闻机构平台等),转载目的仅为向用户传递更多信息、丰富内容供给,不代表本平台对该新闻内容的观点。