## OCR Captcha
- Paper : (2020) Deep CAPTCHA. A deep learning based CAPTCHA solver for vulnerability assessment

<hr>

## 1. Abstract & Introduction
- Captcha는 인간 지능을 모방하려는 bots, attacking programs, other computerised agent 등으로부터 접근을 막기 위한 시도.
- CAPTCHA 생성기 시스템의 약점과 취약성을 조사 및 강력한 보안 문자 생성 시스템 개발
- CAPTCHA는 숫자 형태나, 알파벳과 숫자가 섞인 형태일 수도 있고, 음성이나 이미지 일수도 있음
- 텍스트 기반 보안 문자가 더 낮은 계산 비용과, 트래픽이 많아 밀집된 네트워크 및 웹사이트 공격에 더 일반적이기 때문에 텍스트 중심의 모델 개발

![captcha_example](img/captcha_example.PNG)

<hr>



## 2. Proposed Method
- **Size Reduction**
    - Original Size : 135x50 pixel => 67x25
    - 많은 공백 영역과 상호 의존하는 인접 픽셀이 많아 크기를 줄임
    - 시스템의 성능의 큰 감소 없이 거의 동일한 결과를 얻을 수 있음
    - data entropy를 크게 줄이지 않고, 훈련이 더 빠르게 되도록 도움을 줌.
    
- **Colour space to Gray-space conversion**
    - 비슷한 성능을 유지하며 데이터 크기를 줄이는 좋은 전처리 방법
    
- **Noise Reduction Algorithm**
    - Median-Filter를 통해 노이즈 제거
    - 주변 픽셀 값의 중앙값을 사용하여 이미지의 노이즈 제거
    
    
## 2.1 Encoding
- Captcha 인식 문제에서 특정 수의 클래스가 있는 분류문제와 달리 클래스 수는 설계된 CAPTCHA의 자릿수와 문자 집합의 길이에 따라 다름.
    - EX) 5자리 숫자가 있는 경우 100000개의 다른 조합 가능
- L 개의 parallel Softmax layers 이용 (아래그림의 B)

![captcha_algorithm](img/captcha_algorithm.PNG)

<hr>

## 2.2 Model Architecture
- channel : 32, 48, 64
- relu activation
- 5x5 kernel
- Dropout (30%)
- 0.0001 learning rate
- Adam, SGD Optimzer 사용 비교, Adam이 더 빨리 수렴
- Binary Cross Entropy

![captcha_model_structure](img/captcha_model_structure.PNG)

![captcha_sgd_adam](img/captcha_sgd_adam.PNG)

<hr>


## 3. Experiments
- Python ImageCaptcha 라이브러리를 사용한 700,000개의 alphanumerical CAPTCHAs 생성 및 학습
- we only increased the number of neurons in each Softmax units from 10 to 31 to cover all common Latin characters and digits.

![captcha_python_library](img/captcha_python_library.PNG)

- 훈련 세트에서 99.33%, 테스트 데이터에서 98.94% 성능 도달
- Accuracy 기준은 전체 글자가 모두 일치한 경우, 낱개로 측정시 더 올라간다고 함.

![captcha_result](img/captcha_result.PNG)

### 3.1 Vulnerability Assessment

- 85%의 잘못 분류된 샘플 분석
    - In 54% of the cases, the digits 3, 8, or 9 were the cause of the misclassification.
    - In 81.8% of the cases, the misclassified digits were rotated for 10◦ or more.
    - Confusion between the digits 1 and 7 was also another cause of the failures, particularly in case of more than 20◦counter-clockwise rotation for the digit 7.
    


<hr>

## 4. Comparision other models

![captcha_recognition_model](img/captcha_recognition_model.png)
