LaTeX OCR 的数据仓库

本数据仓库是专为 LaTeX_OCR 及 LaTeX_OCR_PRO 制作的数据，来源于 https://zenodo.org/record/56198#.V2p0KTXT6eA 以及 https://www.isical.ac.in/~crohme/ 以及我们自己构建。

数据集

本仓库暂时有 4 个数据集

small 是小数据集，测试用
full 是印刷体约 100k 的完整数据集。实际上略小于 100k，因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX。
fullhand 是手写体 100k 的完整数据集。实际上略小于 100k，理由同上。
hand 是手写体较小数据集，更符合人类在电子屏上的手写体。主要来源于 CROHME。我们用 LaTeX 的抽象语法树校验过了。
chinese 是混有中文的数学公式数据集。基于上面的 full 数据集，通过对 LaTeX 的抽象语法树指定节点替换为中文而构建。

目录结构规范

每个数据集务必按以下结构来

small
├── formulas
│   ├── train.formulas.norm.txt 规范化后的公式，以空格为分隔符直接构造字典
│   ├── test.formulas.norm.txt
│   ├── val.formulas.norm.txt
│   └── vocab.txt 根据公式文件 XXX.formulas.norm.txt 构建的字典
├── images
│   ├── images_train 图片目录
│   ├── images_test
│   └── images_val
├── matching
│   ├── train.matching.txt 样式为 <image.png>, <formulas_id> 的匹配文件
│   ├── test.matching.txt
│   └── val.matching.txt
├── data.json
├── vocab.json
└── README.md

注意 <image.png>=='0.png', <formulas_id>=='0' 对应 XXX.formulas.norm.txt 的行号，从 0 开始

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

full

full

fullhand

fullhand

hand

hand

small

small

.gitignore

.gitignore

README.md

README.md

Repository files navigation

LaTeX OCR 的数据仓库

数据集

目录结构规范

About

Releases

Packages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
full		full
fullhand		fullhand
hand		hand
small		small
.gitignore		.gitignore
README.md		README.md

stq-hydra/Data-for-LaTeX_OCR

Folders and files

Latest commit

History

Repository files navigation

LaTeX OCR 的数据仓库

数据集

目录结构规范

About

Resources

Stars

Watchers

Forks