vlm后端解析中文效果很差是什么原因 #4033

Xiaochaomeng · 2025-11-20T14:33:23Z

Xiaochaomeng
Nov 20, 2025

layout.pdf很多大段落的中文没有被框起来，但英文的layout.pdf没有问题

@Xiaochaomeng · 2025-11-20T14:41:32Z

dosubot[bot]
Bot Nov 20, 2025

Hi @Xiaochaomeng! I'm Dosu and I’m helping the MinerU team.

VLM后端解析中文效果差，layout.pdf中中文大段落没有被框起来，主要原因是布局检测模型（如DocLayoutYOLO/YOLOv10）是纯视觉的，不区分语言，且对复杂中文排版（如多栏、长段落、密集文本）分块能力有限，容易漏检或合并过大区域。英文文档布局通常更简单，模型分块效果更好相关讨论。

此外，OCR环节虽然支持中文（如PaddleOCR的ch/ch_lite），但如果布局检测阶段没有正确框选中文段落，后续OCR也无法补救。部分模型在中文行检测时span高度过大，导致串行和框选错误相关案例。缺失字体（如fonts-noto-cjk）或PDF字体编码异常也会影响分块和识别效果FAQ说明。

建议：可以尝试pipeline后端（-b pipeline）+强制OCR模式（-m ocr），或升级到MinerU 2.5及最新模型，通常对复杂布局和中文分块更鲁棒。如果layout.pdf依然漏框，属于模型漏检，目前无法直接修复，只能等待后续模型升级或手动调整官方建议。

To reply, just mention @dosu.

Share context across your team and agents. Try Dosu.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

vlm后端解析中文效果很差是什么原因 #4033

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Select a reply

Uh oh!

Uh oh!

vlm后端解析中文效果很差是什么原因 #4033

Uh oh!

Xiaochaomeng Nov 20, 2025

Replies: 1 comment

Uh oh!

Uh oh!

dosubot[bot] Bot Nov 20, 2025

Xiaochaomeng
Nov 20, 2025

dosubot[bot]
Bot Nov 20, 2025