Skip to content

AIH-Contexture v0.1

Choose a tag to compare

@Baireinhold Baireinhold released this 27 Apr 09:45
· 4 commits to master since this release
6d02ad4

AIH-Contexture 0.1 发布说明

AIH-Contexture 0.1 是项目作为独立人文学科文献结构化工具发布的首个版本。本版本在 Marker 相关开源能力的基础上,面向人文学科材料处理需求,加入页码锚点、印刷页码识别、边注处理、行内注处理、多后端 OCR / Layout 适配和批量处理能力。

0.1 的核心目标,是让扫描文献、学术出版物、古籍、档案和历史材料在转换为 Markdown / JSON 后,能够保留更适合人文学术使用的结构信息和页级定位信息。

项目定位

AIH-Contexture 面向的问题不是单纯“把 PDF 转成文本”,而是“如何让数字化文献能够被学术引用、复核和追溯”。

在人文学科场景中,材料结构化结果需要尽可能保留:

  • 原文页面位置;
  • 印刷页码;
  • 页眉页脚;
  • 边注和夹注;
  • 章节结构;
  • 后续 RAG / 知识图谱 / Agent 工作流可使用的页级锚点。

0.1 是这一方向的初始发布版本。

核心能力

OCR 与 Layout 后端可插拔

0.1 提供 OCR 和 Layout 后端可插拔架构,支持在不同处理路线之间切换。

OCR 后端包括:

  • Surya
  • Calamari
  • Chandra
  • VLM

Layout 后端包括:

  • Surya
  • YOLO
  • DocLayout-YOLO
  • VLM

这为后续针对不同文献类型、扫描质量和本地/云端模型环境进行组合提供了基础。

三种处理模式

0.1 提供三类处理路线:

  • 传统 Pipeline;
  • VLM 泛化;
  • VLM 特化。

这些模式使 Contexture 可以同时面向传统 OCR/Layout 流程和视觉语言模型驱动的结构化流程。

页码锚点系统

0.1 引入页码锚点机制,用于在 Markdown 输出中保留页面级定位信息。

该能力是 Contexture 面向人文学科场景的重要基础:转换后的文本不只是可读文本,还应能够回到原 PDF 或原书页面,支持引用、复核和后续知识系统溯源。

印刷页码识别

0.1 支持从页眉、页脚等页面区域识别印刷页码,并支持多种页码形式:

  • 阿拉伯数字;
  • 罗马数字;
  • 中文数字;
  • 自定义正则规则。

这使其可以处理现代出版物、古籍、档案和多种历史文献中常见的页码形式。

页码序列修正

0.1 提供基于页码模式识别的序列修正能力,用于处理部分异常页码、缺失页码或识别不稳定的情况。

边注处理器

0.1 提供边注识别与结构化能力,用于处理页边批注、眉批、侧注等人文学科材料中常见的注释形态。

行内小字注处理器

0.1 支持行内注、夹注、割注等结构的处理,适合古籍、传统注疏和部分历史文献场景。

模板系统

0.1 提供面向不同材料类型的模板基础:

  • modern_publications:现代学术出版物;
  • chinese_ancient_books:中国古籍;
  • german_gothic_print:德语哥特体印刷品;
  • archive_documents:档案文献。

模板系统使不同文献类型可以在处理策略、页面结构和输出约定上保持可配置。

API Key 池与批处理能力

0.1 提供 API Key 池和批处理工具:

  • 多 Key 并发;
  • Round-robin 负载均衡;
  • 失败自动冷却;
  • GPU 内存自适应批处理参数计算。

这些能力用于支持较大规模的文献转换任务。

输出与使用场景

0.1 适用于以下场景:

  • 扫描书或论文 PDF 转 Markdown;
  • 人文学科材料结构化;
  • 保留页级锚点以支持后续 RAG;
  • 对古籍、报刊、档案等材料进行初步结构化;
  • 比较不同 OCR / Layout 后端在特定材料上的效果。

开源基础与致谢

AIH-Contexture 0.1 基于多个开源项目和模型生态构建,特别包括:

  • Marker
  • Surya
  • Chandra
  • Calamari OCR

本项目在这些开源能力的基础上,面向人文学科文献结构化、页码溯源和学术引用需求进行了独立扩展。相关许可证与声明见仓库中的 LICENSEMODEL_LICENSENOTICE 文件。