Replies: 1 comment
-
|
目前 MinerU 没有直接支持在表格识别时指定表头或表头长度来严格分割表格的功能,也没有相关的配置项或 API 能让用户自定义表头识别行为。表格识别和分割主要依赖模型和启发式规则,尤其是对于无线表格或标题较近的情况,容易出现多个表格被识别到一起的问题。 不过,最近的代码和合并逻辑(如 table_merge.py)已经在处理表头检测、表格合并和行结构调整方面做了不少优化,比如通过 如果只是想避免表格被错误合并,可以在后处理阶段(如 Markdown/JSON 输出后)用脚本根据表头内容或结构进行二次筛查和分割,也是一个可行的变通方案。 如需进一步定制,建议重点关注 To reply, just mention @dosu. Docs are dead. Just use Dosu. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
对于部分无线的表格,标题可能会比较近然后就被识别到一起去了,是否可以修改部分代码以实现该功能。
Beta Was this translation helpful? Give feedback.
All reactions