
## Deep Model 의 성능

- ImageNet Classification top-5 error (%)

![](./img/12_deep_model.JPG)

## Deep Learning 의 연구 트렌드
- 점점더 deep
![](./img/12_dl_trend.JPG)


### 모델을 깊게 하기 위해 필요한 것들

- Batch Normalization (2015)
- Residual Network (2016)
- Skip Connection


## 1. Batch Normalization

- ** 최근에는 딥러닝 모델의 정석** 처럼 사용되는 추세

#### Normalization
$\hat{x} = \frac{x - \mu}{\sigma}$ <br/><br/>
$\mu = \frac{1}{N}\sigma-{i} x_{i}$  : 평균 <br/><br/>
$\omega = \sqrt{\frac{\sum_{i}(x-\mu)^{2}}{N}} : 표준편차$

#### Batch
![](./img/12_batch.JPG)

<br/>
> Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167. <br/>
> https://arxiv.org/abs/1502.03167

#### Batch Normalization

- 모델의 학습이 어려운 이유는 batch 사이의 분포 (covariance)가 서로 다르기 때문이라는 가정
- Batch 단위로 normalization을 수행하여 이를 보정
- 학습속도 향상 (high learning rate)
- 파라미터 초기값에 강건함
- 예측 성능의 향상 (Improve generalization)

![](./img/12_mini_batch.JPG)

- Normalization 한 batch Data를 선형식 변환 $(\gamma, \beta)$
- 각각의 변수마다 적용
![](./img/12_batch_normalization.JPG)

- 테스트를 수행할 때는 학습한 $\gamma, \beta$ 와 전체 학습 데이터의 평균과 표준편차를 이용해 예측함

![](./img/12_batch_normalization_02.JPG)

#### Batch Normalization은 언제 어디에다가 넣어야 할까?

- activation function 이전에 적용
  - activation function 옵션을 입력을 하지 않으면 그냥 linear 하게 output을 내보내게 됨
  - batch normalization을 하고, 그 다음에 activation function(e.g. relu) 을 적용
- convolution layer에서는 각각의 채널, 필터에 대해 적용

![](./img/12_batch_normalization_03.JPG)

#### Batch Normaaliztion을 적용하면

- Learning rate 을 30배 향상 $\rightarrow$ 학습 속도 향상

![](./img/12_batch_normalization_04.JPG)


## 2. Residual Network & Skip Connection

* 아무리 '딥러닝' 이라도, 레이어의 수를 많이 쌓으면 성능이 저하됨 $\rightarrow$ 이 문제를 해결한 기법 : Residual Network
  - 높은 train error : 학습이 잘 되지 않음 (optimization 문제)
  - 높은 test error : 일반화 성능이 떨어짐 (overfitting 문제) <br/><br/>
![](./img/12_rn_01.JPG)

## Residual Network
> He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition (pp. 770-778). <br/>
> - 2015, https://arxiv.org/pdf/1512.03385.pdf <br/>
> He, K., Zhang, X., Ren, S., & Sun, J. (2016, October). Identity mappings in deep residual networks. In European Conference on Computer Vision (pp. 630-
645). Springer International Publishing. <br/>
> - 2016, https://arxiv.org/pdf/1603.05027.pdf <br/>
> - Slide, http://kaiminghe.com/ilsvrc15/ilsvrc2015_deep_residual_learning_kaiminghe.pdf <br/>
> - ref : http://funmv2013.blogspot.kr/2016/09/resnet.html

- Identity mapping 과 residual learning 그리고 skip connection (shortcut)
- Residual: $F(x) = H(x) -x$
- $F(x): x$ 를 제외하고 부족한 부분을 모델링
![](./img/12_rn_02.JPG)


### Residual Network 구조

- Identity mapping 과 residual learning 그리고 skip connectinon (shortcut)
- Residual : $F(x) = H(x) - x$
- $F(x):x $ 를 제외하고 부족한 부분을 모델링 

![](./img/12_rn_03.JPG) <br/>

- VGGNet 스타일 네트워크 구조
  - all $3 \times 3$ conv. layers
  - size/2 $ \rightarrow $ # filter $\times 2$
  - batch normalization after every conv. layer
  - no hidden fully-connected layers
  - no dropout
  - 레이어 아주 많이 쌓기
  
   ![](./img/12_rn_04.JPG)

- 계산 비교
  - all $(3*3)$
  - Resnet
  ![](./img/12_rn_05.JPG)
  ![](./img/12_rn_06.JPG)
  
#### Residual Network 성능

![](./img/12_rn_07.JPG)


## Skip Connection

![](./img/12_rn_08.JPG)

![](./img/12_shortcut_connection_02.JPG)
![](./img/12_rn_09.JPG)

- Vanishing gradient 현상을 피할 수 있음
- skip connection 구조가 vanishing gradient 문제를 해결하는 이유 
  - 블락단위로 weight를 거치는 데 "+" 합으로 연결되면, 상위 레이어의 gradient 를 하위 레이어에 적은 손실로 전달

$$x_{L} = x_{l} + \sum^{L-1}_{i=l} F(x_{i}), \hspace{1cm} l \leq L $$  
$$\frac{\partial E}{\partial x_{l}} = \frac{\partial E}{\partial x_{L}}\frac{\partial x_{L}}{\partial x_{l}} = \frac{\partial E}{\partial x_{L}}(1+\frac{\partial}{\partial x_{l}} \sum^{L-1}_{i=l} F(x_{i})$$

- No shortcut의 경우,

$$\frac{\partial E}{\partial x_{l}} = \prod ^{L-1}_{i=l} W_{i} \frac{\partial E}{\partial x_{L}}$$
  
#### Shortcut Connection

- 지름길을 만들기 위해 고려해야 할것 $dim(x_{l}) = dim(x_{l+1})$

![](./img/12_shortcut_connection.JPG)

- zero padding shortcut
![](./img/12_shortcut_connection_01.JPG)

#### Residual Network 성능


- 현재 가장 좋은 성능을 보이는 모델

![](./img/12_rn_10.JPG)


## 3. Google의 Inception 모델

> Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. (2016). Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv preprint arXiv:1602.07261. <br/>
> https://norman3.github.io/papers/docs/google_inception.html

- 구글에서 발표한 모델로 계속 업데이트 되고 있음 (version 1~4)
  - 메인 아이디어는 convolutional layer에다가 서로 다른 정보를 넣어줌
  - 파라미터가 많아짐
  - Mixture of Experts 앙상블 기법



#### 같은 task를 수행할 수 있으면 기왕이면 단순한게 좋다 : simple is best (Occam's Razor)
