AIH-Contexture 0.1 发布说明

AIH-Contexture 0.1 是项目作为独立人文学科文献结构化工具发布的首个版本。本版本在 Marker 相关开源能力的基础上，面向人文学科材料处理需求，加入页码锚点、印刷页码识别、边注处理、行内注处理、多后端 OCR / Layout 适配和批量处理能力。

0.1 的核心目标，是让扫描文献、学术出版物、古籍、档案和历史材料在转换为 Markdown / JSON 后，能够保留更适合人文学术使用的结构信息和页级定位信息。

项目定位

AIH-Contexture 面向的问题不是单纯“把 PDF 转成文本”，而是“如何让数字化文献能够被学术引用、复核和追溯”。

在人文学科场景中，材料结构化结果需要尽可能保留：

原文页面位置；
印刷页码；
页眉页脚；
边注和夹注；
章节结构；
后续 RAG / 知识图谱 / Agent 工作流可使用的页级锚点。

0.1 是这一方向的初始发布版本。

核心能力

OCR 与 Layout 后端可插拔

0.1 提供 OCR 和 Layout 后端可插拔架构，支持在不同处理路线之间切换。

OCR 后端包括：

Surya
Calamari
Chandra
VLM

Layout 后端包括：

Surya
YOLO
DocLayout-YOLO
VLM

这为后续针对不同文献类型、扫描质量和本地/云端模型环境进行组合提供了基础。

三种处理模式

0.1 提供三类处理路线：

传统 Pipeline；
VLM 泛化；
VLM 特化。

这些模式使 Contexture 可以同时面向传统 OCR/Layout 流程和视觉语言模型驱动的结构化流程。

页码锚点系统

0.1 引入页码锚点机制，用于在 Markdown 输出中保留页面级定位信息。

该能力是 Contexture 面向人文学科场景的重要基础：转换后的文本不只是可读文本，还应能够回到原 PDF 或原书页面，支持引用、复核和后续知识系统溯源。

印刷页码识别

0.1 支持从页眉、页脚等页面区域识别印刷页码，并支持多种页码形式：

阿拉伯数字；
罗马数字；
中文数字；
自定义正则规则。

这使其可以处理现代出版物、古籍、档案和多种历史文献中常见的页码形式。

页码序列修正

0.1 提供基于页码模式识别的序列修正能力，用于处理部分异常页码、缺失页码或识别不稳定的情况。

边注处理器

0.1 提供边注识别与结构化能力，用于处理页边批注、眉批、侧注等人文学科材料中常见的注释形态。

行内小字注处理器

0.1 支持行内注、夹注、割注等结构的处理，适合古籍、传统注疏和部分历史文献场景。

模板系统

0.1 提供面向不同材料类型的模板基础：

modern_publications：现代学术出版物；
chinese_ancient_books：中国古籍；
german_gothic_print：德语哥特体印刷品；
archive_documents：档案文献。

模板系统使不同文献类型可以在处理策略、页面结构和输出约定上保持可配置。

API Key 池与批处理能力

0.1 提供 API Key 池和批处理工具：

多 Key 并发；
Round-robin 负载均衡；
失败自动冷却；
GPU 内存自适应批处理参数计算。

这些能力用于支持较大规模的文献转换任务。

输出与使用场景

0.1 适用于以下场景：

扫描书或论文 PDF 转 Markdown；
人文学科材料结构化；
保留页级锚点以支持后续 RAG；
对古籍、报刊、档案等材料进行初步结构化；
比较不同 OCR / Layout 后端在特定材料上的效果。

开源基础与致谢

AIH-Contexture 0.1 基于多个开源项目和模型生态构建，特别包括：

Marker
Surya
Chandra
Calamari OCR

本项目在这些开源能力的基础上，面向人文学科文献结构化、页码溯源和学术引用需求进行了独立扩展。相关许可证与声明见仓库中的 LICENSE、MODEL_LICENSE 和 NOTICE 文件。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AIH-Contexture v0.1

Choose a tag to compare

Sorry, something went wrong.