한글에 대한 OCR 연구는 공식 데이터가 없고 딥러닝을 사용한 시도가 많지 않았다. 본 논문은 폰트와 사전데이터를 사용해 딥러닝 모델 학습을 위한 한글 문장 이미지 데이터를 직접 생성해보고 이를 활용해서 한글 문장의 OCR 성능을 높일 다양한 모델 조합들에 대한 실험을 진행했다. 딥러닝을 활용한 OCR 실험 결과 문자 영역을 찾는 부분보다 문자인식 부분에서 개선할 부분이 있음을 찾고 다양한 모델조합의 성능을 비교하였다. 한글은 영문과 비교해 분류해야 할 글자 수가 많아 정확도를 높이기가 어렵고 기존 한글 OCR 연구 또한 글자 단위, 단일모델로만 진행되어 실제 서비스에 적용하기에 한계를 보였다. 반면 해당 논문에서는 OCR의 범위를 문장 단위로 확장하였고 실제 문서 이미지에서 자주 발견되는 유형의 데이터를 사용해 애플리케이션 적용 가능성을 높이고자 한 부분에 의의가 있다.
2019-08-11 훈련 및 검증 데이터셋 생성과정 설명추가
2019-10-05 모델훈련 및 1차실험결과 추가
2019-10-13 논문 및 포스터, 모델파일 추가
2019-10-15 데모 스크립트 및 파일정리
2021-08-16 requirements.txt, 폰트파일 추가 및 minor fix
-
fonts/ko 에 폰트를 추가한다 .ttf만 가능
-
dicts 에 한글 단어사전을 추가한다
-
원하는 유형에 맞추어 데이터를 생성한다
- 5개 유형 데이터 생성 bash
- basic
- skew
- distortion
- blurring
- background
-
생성된 데이터에 맞는 gt 파일을 생성한다
$ cd data
$ ./create_gt_file.sh basic | tee -a gt_basic.txt
$ python3 data/create_lmdb_dataset.py --inputPath data/generator/TextRecognitionDataGenerator/ \
--gtFile data/gt_basic.txt \
--outputPath data/data_lmdb_release/training;
ex) TPS-VGG-None-Attn
$ CUDA_VISIBLE_DEVICES=0 python3 deep-text-recognition-benchmark/train.py \
--train_data data/data_lmdb_release/training \
--valid_data data/data_lmdb_release/validation \
--select_data basic-skew --batch_ratio 0.5-0.5 \
--Transformation TPS \
--FeatureExtraction VGG \
--SequenceModeling None \
--Prediction Attn \
--data_filtering_off \
--batch_max_length 50 \
--workers 4;
$ CUDA_VISIBLE_DEVICES=0 python3 deep-text-recognition-benchmark/test.py \
--eval_data data/data_lmdb_release/evaluation \
--benchmark_all_eval \
--Transformation TPS \
--FeatureExtraction VGG \
--SequenceModeling None \
--Prediction Attn \
--saved_model saved_models/TPS-VGG-None-Attn-Seed1111/best_accuracy.pth \
--data_filtering_off \
--workers 4;
$ CUDA_VISIBLE_DEVICES=0 python3 deep-text-recognition-benchmark/demo.py \
--Transformation TPS --FeatureExtraction VGG --SequenceModeling BiLSTM --Prediction Attn \
--image_folder data/demo_image/ \
--saved_model deep-text-recognition-benchmark/saved_models/TPS-VGG-BiLSTM-Attn-Seed9998/best_accuracy.pth;
v1 | 변환 | 추출 | 시퀀스 | 예측 | 정확도% | 시간ms | 파라미터*10^6 |
---|---|---|---|---|---|---|---|
T1 | None | RCNN | None | CTC | 0.19 | 0.27 | 2.35 |
T2 | TPS | RCNN | None | CTC | 10.3 | 0.40 | 4.05 |
T3 | TPS | VGG | None | Attn | 25.8 | 1.04 | 9.46 |
T4 | TPS | ResNet | BiLSTM | Attn | 29.28 | 1.69 | 50.75 |
T5 | TPS | VGG | BiLSTM | Attn | 29.34 | 3.68 | 12.04 |
v2 | 변환 | 추출 | 시퀀스 | 예측 | 정확도% | 시간ms | 파라미터*10^6 |
---|---|---|---|---|---|---|---|
T1 | None | VGG | None | CTC | 62.72 | 1.27 | 6.04 |
T2 | None | VGG | BiLSTM | CTC | 65.91 | 1.31 | 8.69 |
T3 | TPS | VGG | BiLSTM | CTC | 87.79 | 1.79 | 10.38 |
T4 | TPS | VGG | BiLSTM | Attn | 88.24 | 2.95 | 12.04 |
T5 | TPS | ResNet | BiLSTM | Attn | 87.43 | 6.84 | 50.75 |
deep-text-recognition-benchmark, TextRecognitionDataGenerator