CASIA-HWDB 和 CASIA-OLHWDB 数据库简称为 CASIA。
由中科院自动化研究所在 2007-2010 年间收集;
包含 1 020 人书写的脱机(联机)手写中文单字样本和手写文本;
用 Anoto 笔在点阵纸上书写后扫描、分割得到。
CASIA 的使用需要遵循申请书 CASIA-HWDB 和 CASIA-OLHWDB,而数据集的下载请访问 CASIA Online and Offline Chinese Handwriting Databases。
本数据库经签约授权后可免费用于学术研究目的,但用于商业目的需付费。学术研究的用途包括手写 文档分割、字符识别、字符串识别、文档检索、书写人适应、书写人鉴别等。
在申请书中介绍了数据集的基本情况:
数据集名称 | 划分 | 简介 |
---|---|---|
CASIA-HWDB | 离线手写单字样本分为三个数据库:HWDB1.0~1.2,离线手写文本也分为三个数据库: HWDB2.0~2.2。 | HWDB1.0~1.2 总共有 |
CASIA-OLHWDB | 在线手写单字样本分为三个数据库:OLHWDB1.0~1.2,在线手写文本也分为三个数据库: OLHWDB2.0~2.2。 | OLHWDB1.0~1.2 总共有 |
CASIA 单字数据库不仅仅提供了单字数据的图片还提供了这些单字数据的特征,并依据 fileFormat-mpf.pdf 来保存其特征。简单点说,每个单字的特征均以 .mpf
形式保存手工特征。以_pot
结尾的压缩文件保存了在线单字的图片信息,而以 _gnt
结尾的压缩文件则保存了离线单字的图片信息。
关于该数据集的使用和简介的详细内容可参考博文集 post.md。