## Application example: Photo OCR
### 문제 설명 및 파이프라인(pipeline)

#### The Photo OCR(Optical Character Recognition) problem

<img src="./images/OCR-1.png">

**응용 분야**:
* 자동 이미지 인식
* 시각장애인
* 차량 항법
* etc. 

#### Photo OCR pipeline
**1. Text detection ** 
<img src="./images/OCR-2.png"  width="200px">
**2. Character segmeatation ** 
<img src="./images/OCR-3.png" width="400px">
**3. Character classification ** 
<img src="./images/OCR-4.png" width="400px">
**4. (option) Spell Checking **

#### Photo OCR pipeline

**\[ Image \] ==> \[ Text detection \] ==> \[ Character segmentation \] ==> \[ Character recognition \]**

문제를 서로 다른 머신 러닝 모듈들의 시퀀스로 세분한다. 통상적으로, 각 단계를 전문인력 1~5 명이 담당하게 된다.

## Sliding Windows

문자 감지(Text detection) 와 보행자 감지(Pedestrian detection)

<img src="./images/ocr.png" width="230px" align="left">
<img src="./images/pedstrian.png" width="230px">

* 문자 감지 : 어려움 – 각 사각형에는 종횡비(aspect ratio)가 다름
* 보행자 감지 : 더 간단 – 각 사각형에는 종횡비 가 유사함

**보행자 감지를 위한 지도학습**

$x = $ pixels in $82\times 36$ images patches

<img src="./images/ped_train_data.png" width="400px">


**Sliding window detection**

<img src="./images/sliding_1.png" width="400px">
<img src="./images/sliding_2.png" width="400px">
<img src="./images/sliding_3.png" width="400px">
<img src="./images/sliding_4.png" width="400px">



### Text detection

<img src="./images/text_detect_0.png" width="500px">

<br>

<img src="./images/text_detect_1.png" width="500px">

<br>

**Text Detection (using one rectangle size)**

<img src="./images/text_detect_0.png" width="250">


서로 다른 회색 음영은 확률에 해당

<img src="./images/text_detect_2.png">


**문자 분할을 위한 1D 슬라이딩 창(Sliding window)**

<img src="./images/text_detect_3.png" width="500px">


** Photo OCR Pipeline**

**1. 문자 감지(Text detection) ** <img src="./images/OCR-2.png" width="250" float="right">
**2. 문자 분할(Character segmeatation) ** <img src="./images/OCR-3.png"  width="300" float="right">
**3. 문자 분류(Character classification) ** <img src="./images/OCR-4.png"  width="300" float="right">

## 많은 자료 얻기: 인공적 자료합성 

#### 문자 인식

<img src="./images/text_recog.png" width="450px">

<img src="./images/synthetic_data.png" width="450px">

<img src="./images/synthetic_data_2.png" width="450px">

<img src="./images/synthetic_data_3.png" width="450px">


**왜곡 적용에 의한 자료 합성 : 음성 인식**

* Original audio : 

In [13]:
import IPython
IPython.display.Audio("images/media1.wav")

* Audio on bad cellphone connection : 

In [14]:
IPython.display.Audio("images/media2.wav")

* Noisy background: Crowd :

In [11]:
IPython.display.Audio("images/media3.wav")

* Noisy background: Machinery :

In [12]:
IPython.display.Audio("images/media4.wav")

**왜곡 적용에 의한 자료 합성**


적용된 왜곡은 시험 자료에서의 잡음/왜곡의 형식의 표현이어야 한다.
<img src="./images/synthetic_data_4.png" align="left">
>

> 

Audio:
배경 잡음, 
나쁜 전화 연결

>

>

당신의 자료에 순전한 무작위/의미없는 잡음을 더하는 것은 일반적으로 도움이 되지 않는다.

<img src="./images/synthetic_data_5.png" align="left">
> 
$\quad x_i = $ intensity (brightness) of pixel

$\quad x_i \leftarrow x_i + $ random noise.

>

> 

**더 많은 자료를 얻기 위해서**

1. 노력하기에 앞서서 낮은 바이어스(low bias) 분류기를 갖었는지 확인하라. (Plot learning curves). 즉, 당신이 낮은 바이어스 분류기를 얻기까지 특징의 개수/신경망의 은닉층 단위 개 수를 증가시켜본다.


2. “우리가 현재 갖고 있는 자료보다 10배를 얻는데 어느 정도의 작업이 소요될까?” 다ㅡㅇㄱ다양한 방법 중에서 적절한 것을 선택.
  - 인공적 자료 합성
  - 직접 수집/라벨 붙이기
  - “크라우드 소스(Crowd source)” (E.g. Amazon Mechanical

## 실링 분석(Ceiling analysis) : 파이프 라인에서 다음 작업

#### 각 요소에서의 오차를 추정 (실링 분석)

<img src="./images/ceil_analysis.png">

개선을 위해서 파이프라인의 어느 부분에서 당신의 대부분의 시간을 사용해야 하는가?

| Component | Accuracy
|-----------|----------
| Overall System | 72%
| Text detection | 89%
| Character segmentation | 90%
| Character recognition | 100 %

** 또 다른 천장 분석의 예: **
<img src="./images/ceil_analysis_2.png">
<img src="./images/ceil_analysis_3.png">

| Component | Accuracy
|-----------|----------
| Overall System | 85%
| Preprocess (remove background) | 85.1%
| Face detection  | 91%
| Eyes segmentation | 95%
| Nose segementation  | 96%
| Logistic regression | 100%