Skip to content

chanchann/SCU_CV_Competition

Repository files navigation

The first SCU AI image competition.

rank : 1st

Thanks to SCU AI lab's Support and Associate Professor Weihua Zhang's support!

File

data

''http://scuaiclub.machineilab.org/competitions/technology''

完整使用说明

先用json_help.py生产新的train_data.json文件方便label操作

再用process_img_name.py将图片名修改

mv_img.py选择你移动的数量,来分离train/test

根据以上几步将你的完整数据集化为仓库中dataset的形式


train.py来训练你的模型

test.py评估模型,如果效果不好,修改cnn_model.py,然后再次训练train.py

效果良好,进行predict.py

code说明

cnn_model.py:搭建模型

img_cnt.py:数文件夹中图片个数的脚本,可一键看dataset中train,test,predict的图片数量

json_help.py:封装了一些对于json文件的操作,

将{"id":"15999.jpg","characters":"uFtN"}

转为为{"49998.jpg": "gxMz"}

方便label

存为train_data.json

mv_img.py:批量移动train的一部分至test,改变num即可

my_dataset.py:load data

one-hot-encoding.py:独热向量编码

predict.py:对于predict中进行预测

process_img_name:我们将label加到name上

如'00153.jpg'->'WxaY_00153.jpg'

setting.img:一些设置

test.py:用train保存的pkl对测试集进行模型评估

train.py:训练模型,保存pkl

  • src

文件中皆为测试代码

  • dataset

请下载数据集train and test

然后我把test->predict

重新创建了一个test文件来分离train 为训练集和测试集

基本步骤:

  • 准备原始图片素材
  • 图片预处理
  • 图片字符切割
  • 图片尺寸归一化
  • 图片字符标记
  • 字符图片特征提取
  • 生成特征和标记对应的训练数据集
  • 训练特征标记数据生成识别模型
  • 使用识别模型预测新的未知图片集
  • 达到根据“图片”就能返回识别正确的字符集的目标

原始图片素材

已提供5w train 和5w test

train_annotation.json中定义了图片:lable

图片预处理

  • 读取原始图片素材
  • 将彩色图片二值化为黑白图片
  • 去除背景噪点
  • 选择模型
  • 神经网络代码构建
  • 测试评估

About

🐯 scu AI competition

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published