
## Visual Recognition

- Classification
- Classification + Localization
- Object Detection
- Instance Segmentation

![](./img/16_vr.JPG)
* 단순한 분류를 넘어, 조건에 따라 Localization, Detection, Segmentation 등이 있음


## Object Detection

- 입력 이미지 안에 존재하는 모든 object를 탐지
- Input : 이미지
- Output : $(c_{i}, s_{i}, b_{i})$
  - $c_{i}$ : class label (사람)
  - $s_{i}$ : confidence level (0.9992)
  - $b_{i}$ : **region box** (x,y,w,h) - Object를 포함하는 영역
    - (x,y) region box의 가운데 좌표 (기호에 따라 모서리 좌표를 사용하기도 함)
    - (w,h) region box의 가로/세로 길이 

#### 어떻게 Region을 찾을 것인가?

- (x, y, w, h) 을 예측하는 regression 문제로 푸는 경우
  - object가 많아지면, 에측할 값이 너무 많아짐
![](./img/16_region.JPG)

- 주어진 region에 대해 레이블을 예측하는 classification으로 풀자
  - CAT? YES
  - DOG? NO ... etc

#### Classification 기반 Objsect Detection
- 주어진 region이 많은 경우 각 region마다 classification 수행
  - X : image region
  - Y : class label
![](./img/16_region_02.JPG)

### Region 의 결정 
- **Selective search**
- 계층적 군집화(Hierarchical Clustering)을 통해 여러개의 region을 만들고 이들 중 선택
- 단일 이미지에서 아주 많은 수의 region을 이용 (~2,000)
- 학습이 느림

![](./img/16_region_03.JPG)


## Faster Region-based CNN (R-CNN)
> Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91-99). <br/>
> - https://arxiv.org/pdf/1506.01497.pdf

- 현재 가장 널리 사용되는 object detection 모델
- Region proposal network (RPN)을 통해 region 선택을 학습할 수 있도록 함

![](./img/16_r_cnn.JPG)

#### Region Proposal Network

- Intermediate layer : $1 \times 1 \times D $ conv. (256-d)
- $cls$ layer : $1\times 1 \times 2 k $ conv. 
- $reg$ layer : $1\times 1 \times 4 k $ conv.

![](./img/16_r_cnn_02.JPG)

- Objectives
$$L({P_{i}},{t_{i}}) = \frac{1}{N_{cls}} \sum_{i} L_{cls}(p_{i}, p_{i}^{*}) + \lambda  \frac{1}{N_{reg}} \sum_{i} p_{i}^{*} L_{reg}(t_{i}, t_{i}^{*})$$

  - $L_{cls}$ : classification loss
  - $L_{reg}$ : regression loss
  - $i$ : anchor index
  - $P_{i}$ : predicted prob. of anchor $i$ being an object
  - $P_{i}^{*}$ : 1 if positive anchor (loU > 0.7), <br/>
                  0 if negative anchor (IoU < 0.3)
  - $t_{i}$ : $(x, y, w, h)$, coordinate of bounding box
  - $t_{I}^{*}$ : ground truth

## Region of Interest (RoI) Pooling

- 각기 다른 크기의 region 을 classifier에 입력하기 위한 방법

![](./img/16_roi_01.JPG)
![](./img/16_roi_02.JPG)
![](./img/16_roi_03.JPG)
![](./img/16_roi_04.JPG)

## Residual Network Object Detection

- Residual Network 에서 output layer를 제외한 부분으로 CNN 대체

![](./img/16_rn_od.JPG)

