入门级验证码数据集

简介

本数据集从河南部分高校网站登录页面中采集取得。数据集中单张四字图像共计9453张，单张单字图像共计2000张，字符均为0~9数字。数据在自动标注后进行了人工审核，可以保证误差在极小范围。
最新版运行Demo:
AI Studio - 单字符数字识别
 AI Studio - OCR实现验证码识别(CTC)

目录结构

_____
|-Classify_Dataset  单张单字数据集
|-Classify_Module   单张单字深度学习训练+推理模型Demo
|-OCR_Dataset   单张四字数据集
|-OCR_Module    单张四字深度学习训练+推理模型Demo
|-LICENSE   许可文件

数据集结构

以Classify Dataset为例

Classify_Dataset文件结构

_____
|-Classify_Module
    |-1.jpg 图像文件
    |-2.jpg 图像文件
    |-...
    |-label_dict.txt    标签文件

图像文件

OCR Dataset

70x30 JPEG-24Bit结构

Classify Dataset

15x30 JPEG-24Bit结构

标签文件结构

{str(1.jpg):int(4), str(文件名):int(label), ...}

Tips OCR_Dataset的label非int型，而是str(xxxx)格式

简单读取示例(Python)

import os
import PIL.Image as Image

DATA_PATH = "数据集所在的路径"

# 读取label字典
with open(os.path.join(DATA_PATH, "label_dict.txt"), "r", encoding="utf-8") as f:
    info = eval(f.read())   # 若此步骤报错，请检查文件读取是否正常

# 遍历读取到的字典
for file_name in info:
    label = info[file_name] # info形如{"1.jpg": 4,...}，所以该代码返回label值
    img = Image.open(os.path.join(DATA_PATH, file_name))    # 读取图像
    print(file_name, "图片读取成功，Label为", label)
    img.show()  # 该行在含有GUI界面操作系统中可以正常显示

关于

本项目为免费开源项目，使用MIT许可证，详细条款在本项目的根目录中，使用时需注明数据集来源https://github.com/GT-ZhangAcer/CaptchaDataset 以及作者 ZhangAcer(GT)

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
Classify_Dataset		Classify_Dataset
Classify_Module		Classify_Module
OCR_Dataset		OCR_Dataset
OCR_Module		OCR_Module
sample_img		sample_img
.gitignore		.gitignore
LICENSE		LICENSE
README.MD		README.MD

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

入门级验证码数据集

简介

目录结构

数据集结构

Classify_Dataset文件结构

图像文件

OCR Dataset

Classify Dataset

标签文件结构

简单读取示例(Python)

关于

About

Releases

Packages

Contributors 2

Languages

License

GT-ZhangAcer/CaptchaDataset

Folders and files

Latest commit

History

Repository files navigation

入门级验证码数据集

简介

目录结构

数据集结构

Classify_Dataset文件结构

图像文件

OCR Dataset

Classify Dataset

标签文件结构

简单读取示例(Python)

关于

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages