求助-客户端两个模式有什么区别？mineru和mineru vlm #5155

sduhjh · 2026-06-18T12:57:08Z

sduhjh
Jun 18, 2026

推荐的是mineru vlm，但有的文档貌似mineru模式更精准，比如下图，只是简单的英文
普通版成功：

vlm失败：

客户端mineru特意标注了“无幻觉输出”是什么意思，vlm幻觉更多吗？我的用途是解析论文给codex阅读，主要是正文公式准确度
求大佬指教！

Answered by myhloli

Jun 18, 2026

偶发的丢字情况可以尝试开启ocr开关再试下，一般是字体异常导致的

View full answer

@sduhjh · 2026-06-18T13:00:08Z

dosubot[bot]
Bot Jun 18, 2026

@sduhjh

MinerU 客户端里的两个模式对应的是不同的解析后端：

MinerU（Pipeline 模式）：使用传统多阶段模型——布局检测 + OCR + 专用公式/表格识别模型。因为全程是确定性的 CV 模型，不会产生幻觉（即不会凭空生成原文中不存在的内容）[1]。准确率约 82-86%，对简单英文文档效果稳定。

MinerU VLM 模式：使用端到端的视觉语言模型处理文档。整体准确率更高（~90-95%），尤其在复杂布局和复杂公式上优势明显 [2]，但因为是生成式模型，有可能产生幻觉——特别是在图像质量较低、内容模糊或页面结构复杂的情况下 [3]。

"无幻觉输出"的意思就是 Pipeline 模式不会像生成式 AI 那样"编造"原文中不存在的文字。

对于你解析论文（正文 + 公式）给 Codex 阅读的需求：

如果论文布局简单、以英文正文为主，Pipeline 模式更可靠（零幻觉，识别稳定）
如果论文有复杂公式、混排布局，VLM 模式通常准确率更高，但可能偶尔出错

另外还有一个 Hybrid 模式（结合布局检测 + VLM 推理），准确率约 95%，且通过原生文本提取和布局约束来降低幻觉风险 [4][5]。如果客户端支持的话，hybrid 模式可能是论文解析的最佳平衡选择。

你截图中 VLM 对简单英文出错的情况，确实说明 VLM 并非对所有文档都更优，简单文档反而可能被过度处理导致错误。建议对不同类型的论文分别测试两种模式，或者尝试 hybrid 模式看看效果。

To reply, just mention @dosu.

Docs are dead. Just use Dosu.

2 replies

sduhjh Jun 18, 2026
Author

但是实际效果不符合你的介绍，你说“适合复杂布局和公式”，但我测试只是简单的中英混排的段落vlm模式都没有解析成功。@dosu @dosu

dosubot[bot] Bot Jun 18, 2026

@sduhjh

抱歉之前的描述给你造成了误导。你遇到的情况确实是 VLM 模式的已知局限性——VLM 对简单中英混排文档的处理并不总是优于 Pipeline 模式，多位用户反馈过类似问题。

已确认的 VLM 已知问题包括：

中文文本布局检测失败：VLM 对大段中文段落有时无法正确检测和分框 [1]
字符识别错误：中英混排时容易出现字符误识别，尤其是形近字 [2]
幻觉和文本重复：在某些场景下会凭空生成内容或重复文本 [3]

维护者明确表示过：如果严格要求无幻觉，推荐使用 pipeline 模式 [3]。

对于你解析论文的场景，建议：

简单中英混排段落 → 用 Pipeline（MinerU）模式，稳定且无幻觉
复杂公式/表格/非标布局 → 可尝试 VLM 模式或 Hybrid 模式（如果客户端支持的话）
如果你使用命令行，hybrid 模式结合了两者优点，准确率更高且幻觉风险较低 [4]

另外，如果你在使用 VLM 模式，推理引擎的选择也会影响结果准确度——官方推荐优先使用 vllm 框架 [5]。

总结来说，VLM 模式目前并不是在所有场景下都更好，对简单文档 Pipeline 反而更可靠。根据文档复杂度选择模式是比较务实的做法。

To reply, just mention @dosu.

Share context across your team and agents. Try Dosu.

myhloli · 2026-06-18T16:29:45Z

myhloli
Jun 18, 2026
Maintainer

偶发的丢字情况可以尝试开启ocr开关再试下，一般是字体异常导致的

1 reply

sduhjh Jun 19, 2026
Author

好像有效果，谢谢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

求助-客户端两个模式有什么区别？mineru和mineru vlm #5155

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 3 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Uh oh!

求助-客户端两个模式有什么区别？mineru和mineru vlm #5155

Uh oh!

sduhjh Jun 18, 2026

Replies: 2 comments · 3 replies

Uh oh!

dosubot[bot] Bot Jun 18, 2026

Uh oh!

sduhjh Jun 18, 2026 Author

Uh oh!

dosubot[bot] Bot Jun 18, 2026

Uh oh!

myhloli Jun 18, 2026 Maintainer

Uh oh!

sduhjh Jun 19, 2026 Author

sduhjh
Jun 18, 2026

Replies: 2 comments 3 replies

dosubot[bot]
Bot Jun 18, 2026

sduhjh Jun 18, 2026
Author

myhloli
Jun 18, 2026
Maintainer

sduhjh Jun 19, 2026
Author