请问普通公文目前能比较完美转成docx吗?另外我试了几个模型只有这个可以很好的把公章抠出来,能讲讲怎么识别公章的原理吗? #3790
Replies: 1 comment
-
|
Hi @tomhasmail! I'm Dosu and I’m helping the MinerU team. 目前MinerU并不支持直接将普通公文(如Word文档、docx)高质量地转换为docx格式。推荐流程是先用LibreOffice等工具将Word文档转为PDF,再用MinerU提取内容为Markdown或JSON,然后可以用pandoc等工具将Markdown转为docx,但转换效果通常不理想,常见问题包括乱码、页面识别不准、复杂样式丢失。如果需要高质量的docx内容和样式提取,建议使用专门的Word解析工具,比如python-docx、Apache POI、Aspose.Words、docx4j等,MinerU主要适合结构化内容抽取,不适合复杂样式还原参考1 参考2。 关于公章识别,MinerU在这方面表现确实很突出。其公章抠图原理主要依赖于深度学习和图像分割技术,通常会用专门训练的模型(如布局分析、目标检测、分割模型)对PDF中的图片区域进行检测和分割,将公章区域从文档中精准提取出来。相关模型和流程一般在MinerU的layout和mfd(多格式检测)模块中实现,核心是通过图像处理和AI模型自动定位、分割公章区域,再输出为独立图片或结构化数据,适合后续业务处理。虽然没有详细的代码片段,但整体流程是基于深度学习的目标检测与分割参考。 如果你有更具体的需求,比如需要公章的坐标、图片或结构化信息,可以进一步说明,我可以帮你查找更详细的实现细节或用法建议。 To reply, just mention @dosu. Share context across your team and agents. Try Dosu. |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
请问普通公文目前能比较完美转成docx吗?另外我试了几个模型只有这个可以很好的把公章抠出来,能讲讲怎么识别公章的原理吗?
Beta Was this translation helpful? Give feedback.
All reactions