Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

自然场景文本识别数据集 #6

Open
yan647 opened this issue Feb 21, 2017 · 1 comment
Open

自然场景文本识别数据集 #6

yan647 opened this issue Feb 21, 2017 · 1 comment

Comments

@yan647
Copy link
Owner

yan647 commented Feb 21, 2017

参考:http://blog.csdn.net/peaceinmind/article/details/51387367

ICDAR数据集

ICDAR大赛组委会自2003年起公布了自然场景文本数据库,直到2015年该数据库已包括文本定位数据库、文本分割数据库、单词识别数据库、端对端识别数据库。图像都是是24位彩色图像,大小是1024*768像素。

SCUT-FORU-DB数据库。

该数据库由张树业[1 ]构建,该数据库是一个中英文场景文本检测和识别数据库。该数据库包括3931幅图像,并标注了55209个字符或单词实例。论文中提供的两个网址暂时都不能使用,其github网址:https://github.com/HCIILAB/SCUT_FORU_DB_Release(截至2017.03.15还未再提供新的网址)

COCO-Text (ComputerVision Group, Cornell)

来源:https://vision.cornell.edu/se3/coco-text/
2016提出的数据库,包括63686幅图像,173589个文本实例,三种细粒度的文本属性。文本实例包括手写版和打印版,清晰版和非清晰版,英文版和非英文版。

Synthetic Data for Text Localisation in Natural Image (VGG)

来源:https://github.com/ankush-me/SynthText
是在复杂背景下人工合成的自然场景文本数据,可以清楚的指定文字的标签信息以及位置,不需要人工标注。

Synthetic Word Dataset (Oxford, VGG)

来源:http://www.robots.ox.ac.uk/~vgg/data/text/
包括9百万幅图像涵盖了90k个英文单词

IIIT 5K-Words

来源:http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html
来自谷歌图像搜索,包括5000幅图像,这些图像中包括了自然场景图像和原生数字图像。图像中包括广告牌、招牌、房屋号码、房屋铭牌和电影海报等内容。数据集分为训练集合测试集。数据集提供50多万个词典单词。

StanfordSynth(Stanford, AI Group)

来源:http://cs.stanford.edu/people/twangcat/#research
包括62个字符(0-9,a-z,A-Z)的单字符小图像。

MSRA Text Detection 500 Database(MSRA-TD500)

来源:http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)
包含多方向、多语言文字的图像数据集,文本涉及的语种包括中文、英文、两者的混合。数据集包括500幅自然场景图像,图像分辨率结语1296864到19201280之间。

Street View Text (SVT)

来源:http://tc11.cvc.uab.es/datasets/SVT_1
所有图像源于Google Street View,图像分辨率较低,文字变化较大。图像是24位彩色图像,像素大小是1260*860,文件格式为JPEG。包括350幅高分辨率图像,其中100张图像用于训练,250张图像用于测试,每幅图像都用一个文本向量表示其中包含的文字信息。

KAIST Scene_Text Database

来源:http://www.iapr-tc11.org/mediawiki/index.php/KAIST_Scene_Text_Database
包括3000张室内和室外的场景图像,图像中包含韩语、英语(数字)和混合(韩语、英语、数字)的语言。

Chars74k

来源:http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
是一个经典的字符识别数据集,主要包括英文字符和坎那达语(kannada)字符。包括72k幅图像。包括自然场景图像和人工合成的图像

Oriented Scene Text Database(OSTD)数据集

来源:Yi,Tian Y L. Text string detection from natural scenes by structure-based partition and grouping. IEEE Transactions on Image Processing(TIP),2011,20(9):2594-2605.
包括89幅不同方向的文字的图像。

USTB-SV1K

来源:http://prir.ustb.edu.cn/TexStar/MOMV-text-detection/
来自USTB Street View。包括1000幅多方向、多视角的图像。每张图像的分辨率是512*512。

参考文献:

[1] 张树业. 深度模型及其在视觉文字分析中的应用[D].华南理工大学,2016.

@shuye-cheung
Copy link

shuye-cheung commented Aug 8, 2017

@yan647 You can try https://pan.baidu.com/s/1bprajkN for downloading SCUT-FORU-DB.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants