请问普通公文目前能比较完美转成docx吗？另外我试了几个模型只有这个可以很好的把公章抠出来，能讲讲怎么识别公章的原理吗？ #3790

tomhasmail · 2025-10-21T09:01:58Z

tomhasmail
Oct 21, 2025

请问普通公文目前能比较完美转成docx吗？另外我试了几个模型只有这个可以很好的把公章抠出来，能讲讲怎么识别公章的原理吗？

@tomhasmail · 2025-10-21T09:16:24Z

dosubot[bot]
Bot Oct 21, 2025

Hi @tomhasmail! I'm Dosu and I’m helping the MinerU team.

目前MinerU并不支持直接将普通公文（如Word文档、docx）高质量地转换为docx格式。推荐流程是先用LibreOffice等工具将Word文档转为PDF，再用MinerU提取内容为Markdown或JSON，然后可以用pandoc等工具将Markdown转为docx，但转换效果通常不理想，常见问题包括乱码、页面识别不准、复杂样式丢失。如果需要高质量的docx内容和样式提取，建议使用专门的Word解析工具，比如python-docx、Apache POI、Aspose.Words、docx4j等，MinerU主要适合结构化内容抽取，不适合复杂样式还原参考1 参考2。

关于公章识别，MinerU在这方面表现确实很突出。其公章抠图原理主要依赖于深度学习和图像分割技术，通常会用专门训练的模型（如布局分析、目标检测、分割模型）对PDF中的图片区域进行检测和分割，将公章区域从文档中精准提取出来。相关模型和流程一般在MinerU的layout和mfd（多格式检测）模块中实现，核心是通过图像处理和AI模型自动定位、分割公章区域，再输出为独立图片或结构化数据，适合后续业务处理。虽然没有详细的代码片段，但整体流程是基于深度学习的目标检测与分割参考。

如果你有更具体的需求，比如需要公章的坐标、图片或结构化信息，可以进一步说明，我可以帮你查找更详细的实现细节或用法建议。

To reply, just mention @dosu.

Share context across your team and agents. Try Dosu.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问普通公文目前能比较完美转成docx吗？另外我试了几个模型只有这个可以很好的把公章抠出来，能讲讲怎么识别公章的原理吗？ #3790

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Select a reply

Uh oh!

请问普通公文目前能比较完美转成docx吗？另外我试了几个模型只有这个可以很好的把公章抠出来，能讲讲怎么识别公章的原理吗？ #3790

Uh oh!

tomhasmail Oct 21, 2025

Replies: 1 comment

Uh oh!

Uh oh!

dosubot[bot] Bot Oct 21, 2025

tomhasmail
Oct 21, 2025

dosubot[bot]
Bot Oct 21, 2025