港大经管学院最新发布: AI大语言模型幻觉控制能力深度评测报告
AI在专业场景中的可信度调查
港大经管学院今日发表《大语言模型幻觉控制能力测评报告》,针对选定的AI大语言模型(LLM)评估其幻觉控制能力。“幻觉”是指AI会输出看似合理却与事实相悖或偏离语境的内容。现时,大语言模型(LLM)正积极于知识服务、智能导航、客户服务等专业应用场景中推进。 然而,“幻觉”现象仍是制约其可信度的关键瓶颈。
该研究由港大经管学院创新及资讯管理学教授兼夏利莱伉俪基金教授 (战略信息管理学)蒋镇辉教授率领人工智能评测实验室(AIEL)(https://hkubs.hku.hk/aimodelrankings)研究人员发起,针对 37个中美大语言模型(包括20个通用模型、15个推理模型及2个一体化系统)在中文语境下的幻觉控制能力开展专业评测,揭示不同模型在规避事实错误与保持语境一致性方面的真实表现。
评测结果显示,GPT-5(思考模式)和GPT-5(自动模式)分别位列第一第二,Claude 4 Opus系列紧随其后;字节跳动公司的豆包1.5 Pro系列表现突出,在中国大语言模型阵营中处于领先地位,但与国际顶尖模型之间仍存在显著差距。
蒋镇辉教授表示:“幻觉控制能力作为衡量模型输出真实性与可靠性的核心指标,直接影响大语言模型在专业场景中的可信度。 该研究为未来模型的优化提供了明确方向,推动AI从‘能生成’向更关键的‘可信赖’迈进。 ”
评测方法
根据模型生成内容在事实依据或语境契合度上存在的问题,该研究将“幻觉”分为两类:事实性幻觉和忠实性幻觉。
事实性幻觉是指模型输出内容与真实世界资讯不符,既包括对已知知识的错误调用(如张冠李戴、数据错记),也包括对未知资讯的虚构(如编造未验证的事件、数据)。 研究透过讯息检索类问题、虚假事实识别类问题,以及矛盾前提识别类问题,检测不同模型针对事实性幻觉的控制能力。
忠实性幻觉是指模型未能严格遵循使用者指令,或输出内容与输入上下文矛盾,包括遗漏关键要求、过度引申、格式错误等。 研究透过指令一致性评估问题及上下文一致性评估问题,检测不同模型针对忠实性幻觉的控制能力。
幻觉控制能力梯队
根据评测结果,GPT-5(思考模式)和GPT-5(自动模式)分别位居第一名和第二名,Claude 4 Opus系列紧随其后;字节跳动公司的豆包1.5 Pro系列在中国大语言模型阵营中表现突出,但与国际顶尖模型之间仍存在显著差距。
| 排名 | 模型名称 | 事实性幻觉 | 忠实性幻觉 | 最终得分 |
| 1 | GPT 5(思考模式) | 72 | 100 | 86 |
| 2 | GPT 5(自动模式) | 68 | 100 | 84 |
| 3 | Claude 4 Opus(思考模式) | 73 | 92 | 83 |
| 4 | Claude 4 Opus | 64 | 96 | 80 |
| 5 | Grok 4 | 71 | 80 | 76 |
| 6 | GPT-o3 | 49 | 100 | 75 |
| 7 | 豆包1.5 Pro | 57 | 88 | 73 |
| 8 | 豆包1.5 Pro(思考模式) | 60 | 84 | 72 |
| 9 | Gemini 2.5 Pro | 57 | 84 | 71 |
| 10 | GPT-o4 mini | 44 | 96 | 70 |
| 11 | GPT-4.1 | 59 | 80 | 69 |
| 12 | GPT-4o | 53 | 80 | 67 |
| 12 | Gemini 2.5 Flash | 49 | 84 | 67 |
| 14 | 文心一言 X1-Turbo | 47 | 84 | 65 |
| 14 | 通义千问3(思考模式) | 55 | 76 | 65 |
| 14 | DeepSeek-V3 | 49 | 80 | 65 |
| 14 | 混元-T1 | 49 | 80 | 65 |
| 18 | Kimi | 47 | 80 | 63 |
| 18 | 通义千问3 | 51 | 76 | 63 |
| 20 | DeepSeek-R1 | 52 | 68 | 60 |
| 20 | Grok 3 | 36 | 84 | 60 |
| 20 | 混元-TurboS | 44 | 76 | 60 |
| 23 | 日日新 V6 Pro | 41 | 76 | 59 |
| 24 | GLM-4-plus | 35 | 80 | 57 |
| 25 | MiniMax-01 | 31 | 80 | 55 |
| 25 | 360智脑2-o1 | 49 | 60 | 55 |
| 27 | Yi- Lightning | 28 | 80 | 54 |
| 28 | Grok 3(思考模式) | 29 | 76 | 53 |
| 29 | Kimi-k1.5 | 36 | 68 | 52 |
| 30 | 文心一言4.5-Turbo | 31 | 72 | 51 |
| 30 | 日日新 V6推理 | 37 | 64 | 51 |
| 32 | Step 2 | 32 | 68 | 50 |
| 33 | Step R1-V-Mini | 36 | 60 | 48 |
| 34 | Baichuan4-Turbo | 33 | 60 | 47 |
| 35 | GLM-Z1-Air | 32 | 60 | 46 |
| 36 | Llama 3.3 70B | 33 | 56 | 45 |
| 37 | Spark 4.0 Ultra | 19 | 64 | 41 |
图表 1:幻觉控制能力综合排名
图表 2:幻觉控制能力梯队
是次研究涵盖的37个模型的幻觉控制能力得分及排名整体呈现出显著的梯度差异,且在事实性与忠实性幻觉控制上表现出不同的能力特征。
综合而言,目前大模型在忠实性幻觉控制上已相当强劲,但在事实性幻觉领域上仍有不足之处反映出这些模型目前普遍存在“严守指令,但易虚构事实”的倾向。
此外,推理模型的幻觉控制能力相对表现较好,例如通义千问3(思考模式),文心一言 X1-Turbo和Claude 4 Opus(思考模式)等推理模型的幻觉控制能力比同系列通用版本更佳。
在中国大语言模型中,豆包1.5 Pro系列位于领先地位,在事实性幻觉控制和忠实性幻觉控制的领域得分均衡,展现出稳健的幻觉控制能力;然而,其综合能力与GPT-5和Claude系列仍有差距。 相比之下,DeepSeek系列的幻觉控制能力稍显逊色,有待加强。
请按此浏览《大语言模型幻觉控制能力深度测评报告》全文。
总括而言,本次评估透过事实性同忠实性的分类框架,深入阐述大语言模型幻觉控制能力的核心理论基础与模型表现。未来, AI可信度需兼顾控制事实性幻觉与忠实性幻觉两个领域的能力,以产出更可信赖的内容。
图片
- 港大经管学院创新及资讯管理学教授兼夏利莱伉俪基金教授 (战略信息管理学)蒋镇辉教授
请按此下载高清图片。
