# ResNet

* 논문 링크: [https://arxiv.org/abs/1512.03385](https://arxiv.org/abs/1512.03385)

## 0. 논문의 구조

* Abstract와 1.Introduction에서 문제의식과 이를 해결하는 솔루션의 전체적 개요를 요약해서 제시한 후
* 2.Related Work에서는 본 논문의 솔루션과 유사한 다른 시도들을 언급한다.
* 3.Deep Residual Learning에는 제안 방법의 구체적인 내용과 구현 방법을 소개하고
* 4.Experiments에서 비교실험 구조와 다양한 데이터셋에서의 실험결과를 통해 이를 검증한다.
* 끝으로 References와 Appendix가 뒤를 잇는다.

## 1. ResNet 이전 모델들의 문제

많은 모델들이 네트워크를 "아주 깊게" 쌓으면 기존보다 훨씬 좋은 성능이 나온다는 것을 여러 대회(ImageNet Challenge)를 통해 보여주었다.

하지만 실제로는 Depth가 어느 부분까지 상승하다가 그 이상은 vanishing/exploding gradient라는 문제 때문에 오히려 성능이 떨어지는 현상이 나타났다. 이 현상을 `degradation problem`이라고 하는데, depth가 깊은 상태에서 학습을 이미 많이 진행한 경우 weight들의 분포가 균등하지 않고, 역전파시 기울기가 충분하지 않아 학습을 안정적으로 진행할 수 없게 되는 문제이다. over-fitting 과는 또 다른 문제이다.

(Vanishing/Exploding Gradient 문제의 해결책에는 normalized initialization,  intermediate normalization layers가 있다.)

<img src="./image/resnet.png" />



## 2. Residual Block

<img src="./image/residual_block.png" />

레이어를 많이 쌓았다고 해서 모델 성능이 떨어지는 것을 해결하기 위해서 `Residual Block`이라는 개념이 나온다. 

<img src="./image/residual_block2.png" />


* Residual 레이어를 $F(x)$로 표현하면 이 레이어의 결과는 입력값 $(x)$에 대해 $(F(x))$가 된다. 
* 여기에 레이어의 입력값 $(x)$을 더해주면 최종 출력값은 $(F(x)+x)$, 즉 레이어의 결과값이 된다. 
* 이후 이 값은 ReLU 활성함수(activation function)을 거치게 된다. 
* 위 식에서 $(F(x,W_{i}))$ 는 학습되어야 할 residual mapping으로서 잔차 학습(residual learning)은 이 식을 학습한다. 
* ResNet에서는 shortcut connection을 가진 ResNet의 기본 블록을 Residual Block이라고 부른다. ResNet은 이러한 Residual Block 여러 개로 이루어진다.

### 논리

$F(x)$가 Vanishing Gradient현상으로 전혀 학습이 안되어 zero mapping이 될지라도, 최종 $H(x)$는 최소한 identity mapping이라도 되니 성능 저하는 발생하지 않게 된다.<br> 
이렇게 하면 실제로 학습해야 할 $F(x)$는 학습해야 할 레이어 $H(x)$에다 입력값 $(x)$를 뺀 형태, 즉 잔차(Residual)함수가 되는데, 이것은 $H(x)$를 직접 학습하는 것보다는 훨씬 학습이 쉬워진다.<br> 
레이어를 깊이 쌓을 수록 Residual에 해당하는 $(F(x))$는 0에 가까운 작은 값으로 수렴해도 충분하기 때문이다. 그리고 실험해 보니 이 구조가 실제로도 안정적으로 학습이 되며, 레이어를 깊이 쌓을수록 성능이 향상되는 것이 확인되었다.

## 3. Experiments

<img src="./image/resnet_error.png" />

* 18개 층과 34개 층을 갖는 네트워크를, 각각 shortcut이 없는 일반 네트워크(plain network)와 shortcut이 있는 ResNet 두 가지로 구현해 총 4가지를 비교

<img src="./image/resnet_error2.png" />

`Table 2.`는 이미지넷 검증 데이터셋을 사용해 실험한 결과를 나타낸다.

일반 네트워크("plain")는 레이어가 16개나 늘어나 네트워크가 깊어졌는데도 오류율은 오히려 높아졌다. 경사소실로 인해 훈련이 잘 되지 않았기 때문이다. ResNet에서는 잘 훈련된 레이어가 16개가 늘어난 효과로 오류율이 2.85% 감소했다. 논문에서는 이렇게 간단한 실험으로 Residual Block의 효과를 입증하고 있다.