MMDeepResearch 模型排名 — 可排序表格（含说明）

点击列标题进行排序（首次点击降序排列；再次点击切换顺序）。悬停标题可查看快速提示。

筛选

排名	模型	模态	检索方式	综合分	可读性	洞察力	结构完整性	视觉忠实度	一致性	覆盖率	文本忠实度	视觉语义	数据准确性	视觉推理
1	Gemini Deep Research (Gemini 3 Pro)	深度研究	智能体	49.41	84.53	89.56	70.86	35.71	56.17	52.84	31.29	41.29	87.54	28.45
2	Gemini 3 Pro	多模态	网络搜索	44.68	58.05	75.39	49.85	46.43	37.98	41.85	6.46	40.69	80.44	23.15
3	Gemini 3 Flash	多模态	网络搜索	44.43	81.22	90.22	52.00	45.71	31.95	35.07	15.42	36.61	87.31	18.99
4	DeepSeek-V3.2	单模态	离线	43.71	75.37	87.82	58.16	19.28	33.34	45.48	18.77	42.19	83.85	12.88
5	GPT-5 mini	多模态	离线	38.49	70.06	81.73	47.18	39.29	20.02	26.64	32.61	33.90	94.23	15.60
6	Gemini 2.5 Flash	多模态	网络搜索	38.40	56.22	68.58	55.44	32.86	25.35	27.77	38.30	40.67	75.96	25.49
7	Gemini 2.5 Pro	多模态	网络搜索	38.04	80.04	85.94	51.44	38.57	30.18	28.77	14.98	19.47	92.86	12.50
8	Perplexity Sonar Deep Research	深度研究	智能体	37.55	62.29	64.35	47.80	27.86	33.12	41.51	16.68	50.79	87.75	21.22
9	GPT-4.1	多模态	离线	36.95	79.34	89.04	53.00	39.29	15.90	10.06	5.61	29.66	80.56	19.92
10	Kimi K2 (Thinking)	单模态	离线	36.91	71.34	77.27	47.34	17.14	23.54	24.62	27.20	42.00	90.00	9.50
11	Grok-4 (Fast Reasoning)	多模态	离线	36.10	60.62	80.49	52.99	36.43	17.30	14.62	6.12	28.46	87.45	19.34
12	Qwen3 235B (A22B)	单模态	离线	36.04	77.56	85.74	54.05	17.14	35.60	45.73	22.98	20.43	53.09	4.95
13	Qwen 3 VL 235B (A22B)	多模态	离线	35.08	77.01	86.48	52.21	43.57	18.34	15.25	10.68	30.58	93.52	16.98
14	GPT-4.1 mini	多模态	离线	34.23	71.25	83.62	49.60	12.86	24.20	25.44	12.33	32.62	89.91	13.21
15	Claude 4.5 Opus	多模态	网络搜索	33.84	77.81	83.86	50.70	35.00	30.64	41.14	21.97	21.30	77.21	14.75
16	Claude 4.5 Haiku	多模态	网络搜索	33.67	74.60	81.80	53.22	28.57	17.90	14.10	18.56	25.98	76.90	11.70
17	Claude 4.5 Sonnet	多模态	网络搜索	33.61	77.63	82.31	51.65	32.14	14.36	15.09	16.11	20.73	70.13	14.41
18	GPT-5.2	多模态	离线	32.76	69.75	83.92	54.31	46.43	14.00	1.43	5.30	12.83	50.00	9.16
19	GPT-5.1	多模态	离线	32.69	79.34	89.04	53.00	35.71	15.90	2.30	13.67	22.03	84.29	14.32
20	OpenAI o3-mini	单模态	离线	31.96	53.75	52.65	37.11	13.57	28.45	33.74	48.35	15.47	90.00	12.60
21	Grok-3	多模态	离线	29.89	75.17	86.13	52.24	20.00	12.57	5.79	2.80	22.18	68.39	13.89
22	ChatGPT Deep Research (o3-mini)	深度研究	智能体	29.50	52.40	63.61	37.30	29.29	10.19	4.16	11.07	27.32	73.44	21.75
23	Tongyi Deep Research (30B-A3B)	深度研究	智能体	29.02	54.27	62.67	40.07	12.86	25.99	30.87	24.25	20.39	93.33	20.39
24	GPT-4o	多模态	离线	28.62	52.52	68.41	40.90	10.04	10.94	4.61	11.89	24.10	71.43	18.72
25	GPT-4.1 nano	多模态	离线	28.07	49.77	64.82	37.28	10.79	18.99	19.86	24.42	27.02	76.30	13.04

这些列代表什么？（点击折叠）

所有分数均为 0-100 分制（越高越好），并在各任务中取平均。表格可排序：点击任意表头进行排序（首次点击降序）。

综合得分

综合分：单一汇总分数（0-100；越高越好）。它结合三组指标：FLAE（报告质量）、TRACE（引用依据）和 MOSAIC（视觉依据），采用 0.2·FLAE + 0.5·TRACE + 0.3·MOSAIC 加权。

FLAE — 报告质量

FLAE 使用三项维度评估写作质量：

READ（可读性）：报告是否清晰、连贯、易读。
INSH（洞察力）：报告是否提供有意义的分析与可用结论（而非简单复述事实）。
STRU（结构完整性）：报告结构是否完整（章节组织、覆盖请求项、内容完整度）。

重要性：这反映报告的可读性与完整性，但文字写得好并不代表引用或视觉依据正确。

TRACE — 引用依据

TRACE 检查引用来源是否真实支撑结论，以及报告是否忠实于任务（包括视觉要求）：

VEF（视觉证据忠实度）：依赖图像的表述是否与提供的视觉内容一致。在 TRACE 中，这被视为严格的“提示一致性”检查（按通过/不通过阈值）。
CON（一致性）：论断是否与引用来源一致（无矛盾或错配）。
COV（覆盖率）：报告中的关键内容是否有引用支持（避免关键点缺乏证据）。
FID（文本忠实度）：论断与引用内容的匹配程度——会惩罚过度具体化、因果方向错误等问题。

重要性：TRACE 高通常意味着结论可验证、引用更规范（减少“看似有依据但实际上没有”）。

MOSAIC — 视觉依据

MOSAIC 评估引用图像（图表、表格、图示、照片）时的文字陈述是否与视觉内容匹配：

SEM（视觉语义一致性）：引用图像的文字是否在语义层面与图像一致。
ACC（视觉数据解读准确性）：对图像中的数字、标签、表格单元等细节读取是否正确。
VQA（复杂视觉问答/推理）：对图像进行更复杂的多步推理（如比较、趋势、推导量）。

重要性：如果误读图表或无法进行多步视觉推理，报告可能看似合理却是错误的。

行标签

每行还包含：

模态：
- 单模态 = 仅文本。
- 多模态 = 文本 + 图像。
- 深度研究 = 面向多步研究/写作的智能体系统。
检索方式：
- 离线 = 无网络访问。
- 网络搜索 = 可浏览/搜索网页。
- 智能体 = 使用工具的研究智能体流程。

快速解读提示

FLAE 高 + TRACE 低：文笔好，但引用可能并未真正支撑结论。
覆盖率（Cov.）高 + 忠实度（Fid.）低：引用很多，但可能错配或过度延伸。
语义一致性（Sem.）高 + 准确性（Acc.）低：抓住图像大意，但具体数字/细节有误。
VEF 低：可能误解视觉证据或违反关键视觉要求。

参考文献：MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents (arXiv:2601.12346).