-
|
推荐的是mineru vlm,但有的文档貌似mineru模式更精准,比如下图,只是简单的英文 |
Beta Was this translation helpful? Give feedback.
Replies: 2 comments 3 replies
-
|
MinerU 客户端里的两个模式对应的是不同的解析后端: MinerU(Pipeline 模式):使用传统多阶段模型——布局检测 + OCR + 专用公式/表格识别模型。因为全程是确定性的 CV 模型,不会产生幻觉(即不会凭空生成原文中不存在的内容)[1]。准确率约 82-86%,对简单英文文档效果稳定。 MinerU VLM 模式:使用端到端的视觉语言模型处理文档。整体准确率更高(~90-95%),尤其在复杂布局和复杂公式上优势明显 [2],但因为是生成式模型,有可能产生幻觉——特别是在图像质量较低、内容模糊或页面结构复杂的情况下 [3]。 "无幻觉输出"的意思就是 Pipeline 模式不会像生成式 AI 那样"编造"原文中不存在的文字。 对于你解析论文(正文 + 公式)给 Codex 阅读的需求:
另外还有一个 Hybrid 模式(结合布局检测 + VLM 推理),准确率约 95%,且通过原生文本提取和布局约束来降低幻觉风险 [4][5]。如果客户端支持的话,hybrid 模式可能是论文解析的最佳平衡选择。 你截图中 VLM 对简单英文出错的情况,确实说明 VLM 并非对所有文档都更优,简单文档反而可能被过度处理导致错误。建议对不同类型的论文分别测试两种模式,或者尝试 hybrid 模式看看效果。 To reply, just mention @dosu. Docs are dead. Just use Dosu. |
Beta Was this translation helpful? Give feedback.
-
|
偶发的丢字情况可以尝试开启ocr开关再试下,一般是字体异常导致的 |
Beta Was this translation helpful? Give feedback.


偶发的丢字情况可以尝试开启ocr开关再试下,一般是字体异常导致的