AIH-Contexture v0.1
AIH-Contexture 0.1 发布说明
AIH-Contexture 0.1 是项目作为独立人文学科文献结构化工具发布的首个版本。本版本在 Marker 相关开源能力的基础上,面向人文学科材料处理需求,加入页码锚点、印刷页码识别、边注处理、行内注处理、多后端 OCR / Layout 适配和批量处理能力。
0.1 的核心目标,是让扫描文献、学术出版物、古籍、档案和历史材料在转换为 Markdown / JSON 后,能够保留更适合人文学术使用的结构信息和页级定位信息。
项目定位
AIH-Contexture 面向的问题不是单纯“把 PDF 转成文本”,而是“如何让数字化文献能够被学术引用、复核和追溯”。
在人文学科场景中,材料结构化结果需要尽可能保留:
- 原文页面位置;
- 印刷页码;
- 页眉页脚;
- 边注和夹注;
- 章节结构;
- 后续 RAG / 知识图谱 / Agent 工作流可使用的页级锚点。
0.1 是这一方向的初始发布版本。
核心能力
OCR 与 Layout 后端可插拔
0.1 提供 OCR 和 Layout 后端可插拔架构,支持在不同处理路线之间切换。
OCR 后端包括:
- Surya
- Calamari
- Chandra
- VLM
Layout 后端包括:
- Surya
- YOLO
- DocLayout-YOLO
- VLM
这为后续针对不同文献类型、扫描质量和本地/云端模型环境进行组合提供了基础。
三种处理模式
0.1 提供三类处理路线:
- 传统 Pipeline;
- VLM 泛化;
- VLM 特化。
这些模式使 Contexture 可以同时面向传统 OCR/Layout 流程和视觉语言模型驱动的结构化流程。
页码锚点系统
0.1 引入页码锚点机制,用于在 Markdown 输出中保留页面级定位信息。
该能力是 Contexture 面向人文学科场景的重要基础:转换后的文本不只是可读文本,还应能够回到原 PDF 或原书页面,支持引用、复核和后续知识系统溯源。
印刷页码识别
0.1 支持从页眉、页脚等页面区域识别印刷页码,并支持多种页码形式:
- 阿拉伯数字;
- 罗马数字;
- 中文数字;
- 自定义正则规则。
这使其可以处理现代出版物、古籍、档案和多种历史文献中常见的页码形式。
页码序列修正
0.1 提供基于页码模式识别的序列修正能力,用于处理部分异常页码、缺失页码或识别不稳定的情况。
边注处理器
0.1 提供边注识别与结构化能力,用于处理页边批注、眉批、侧注等人文学科材料中常见的注释形态。
行内小字注处理器
0.1 支持行内注、夹注、割注等结构的处理,适合古籍、传统注疏和部分历史文献场景。
模板系统
0.1 提供面向不同材料类型的模板基础:
modern_publications:现代学术出版物;chinese_ancient_books:中国古籍;german_gothic_print:德语哥特体印刷品;archive_documents:档案文献。
模板系统使不同文献类型可以在处理策略、页面结构和输出约定上保持可配置。
API Key 池与批处理能力
0.1 提供 API Key 池和批处理工具:
- 多 Key 并发;
- Round-robin 负载均衡;
- 失败自动冷却;
- GPU 内存自适应批处理参数计算。
这些能力用于支持较大规模的文献转换任务。
输出与使用场景
0.1 适用于以下场景:
- 扫描书或论文 PDF 转 Markdown;
- 人文学科材料结构化;
- 保留页级锚点以支持后续 RAG;
- 对古籍、报刊、档案等材料进行初步结构化;
- 比较不同 OCR / Layout 后端在特定材料上的效果。
开源基础与致谢
AIH-Contexture 0.1 基于多个开源项目和模型生态构建,特别包括:
- Marker
- Surya
- Chandra
- Calamari OCR
本项目在这些开源能力的基础上,面向人文学科文献结构化、页码溯源和学术引用需求进行了独立扩展。相关许可证与声明见仓库中的 LICENSE、MODEL_LICENSE 和 NOTICE 文件。