🏆OCR_ancient_korean

2021 옛한글 OCR 인공지능 학습데이터 해커톤

Task Description

Subject

본 대회의 주제는 옛한글로 쓰인 고문헌 이미지를 데이터화하고 이를 바탕으로 효율적인 서비스를 제공하는 것이었습니다. 옛한글로 이루어진 이미지는 일반 한글과 다르게 많은 자모음이 추가되기 때문에 단순 분류 문제가 아닌 인식 문제로 해결해야 합니다. 또한 일반적인 언어와 다르게 합성어기 때문에 각 단어를 구분하는 것이 아닌 자음 모음 받침의 조합으로 분석하는 것이 적절하다고 판단하였습니다.

이를 구현하기 위해 글자를 추출하는 Object Detection 모델을 활용하였고 추출된 문자를 자음 모음 받침의 조합으로 인식하는 Recognition 모델로 구성하였습니다.

Data

학습 데이터 : 목판본, 필사본, 활자본으로 이루어진 54000장의 데이터
검증 데이터 : 목판본, 필사본, 활자본으로 이루어진 6000장의 데이터

Metric

평가 척도
- Object Detection : IoU@70 ( 글자의 대부분을 추출해야하기 때문에 70%이상 겹쳐야 맞은 것으로 평가 )
- Recognition : Word accuracy ( 자음, 모음, 받침이 모두 맞을 때만 맞은 것으로 평가 )

Project Result

대상 - 400만원

Coding Explanation

Detection : MMDetection 패키지에 맞추어 작성된 코드입니다.
Recognition : Google Colab의 ssh 환경에 맞추어 작성된 코드입니다.

Data Structure

Detection

[code]
├── mmdetection/ # mmdetection package
├── mmdet.ipynb 
└── requirements.txt

Recognition

[code]
├── scheduler.py
├── model.py # SWIN TRN
├── utils.py # useful utilities
├── dataset.py # modules related to data
├── requirements.txt
├── main.py # train code
└── inference.py

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
detection		detection
ocr_chrome_extension		ocr_chrome_extension
recognition		recognition
server		server
.gitignore		.gitignore
EDA.ipynb		EDA.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🏆OCR_ancient_korean

Task Description

Subject

Data

Metric

Project Result

Coding Explanation

Data Structure

About

Releases

Packages

Languages

ahaampo5/OCR_ancient_korean

Folders and files

Latest commit

History

Repository files navigation

🏆OCR_ancient_korean

Task Description

Subject

Data

Metric

Project Result

Coding Explanation

Data Structure

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages