### 주요내용

- Deep한 모델을 학습시킬 때 나타나는 Degradation 문제를 해결하기 위해 제시된 방법
    - *Degradation*: 망이 깊어지면서 vanishing, exploding gradient가 발생하여 학습이 어려워지는 문제
    - Residual learning의 효과 입증
    - Vanila 형태와 Bottleneck형태가 있음
    
- Depp한 모델보다 더욱 Deep한 모델을 훈련시키려고 함.
    - Vanishing, exploding 문제가 발생 -> 해결하기 위해 초기 wegith 정구화 또는 중간 noramlizaiton등 연구됨
    - Deep 모델이 수렴하기 시작할 때, 발생하는 degradation문제는 overfitting 때문에 그런것이 아니라고 주장.


- 주요 컨셉
    - res 학습의 주요 컨셉은 F(X):= H(X) - x 처럼 output과 input의 차이인 F(x)를 학습하는 것이다.
        - 만약 H(x)가 identity function이라면 F(x)를 0으로 학습시키는 것이 더용이하다. // F(x):= 0 (if, H(x)= x)
        
    - H(x) = F(x) + x 는 또한 shortcut connection으로도 이해가 가능하다. 
        - 1개 또는 그 이상의 layer들을 파라미터 없이 바로 skip하여 연결하는 개념.
        - `즉, 훈련시 몇개의 layer들을 x라는 identity matrix를 통해 스킵할 수 있다는 개념이다.

### 논문에서 사용된 ResNet 34-layer

In [1]:
import numpy as np

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

In [2]:
class Residual_block(nn.Module):
    def __init__(self, in_size, out_size, dim_inc=False, stride=1):
        super(Residual_block, self).__init__()
                
        # plain block
        self.block = nn.Sequential(
            nn.Conv2d(in_size, out_size, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(out_size, out_size, kernel_size=3, stride=1, padding=1)
        )
        
        #padding block
        self.pad = nn.Sequential(
            nn.Conv2d(in_size, out_size, kernel_size=1, stride=2),
            nn.ReLU()
        )
        
        
        self.relu = nn.ReLU()

    def forward(self, x):
        
        if dim_inc == True:
            shortcut = self.pad(x)
        else:
            shortcut = x
            
        out = self.block(x)
        out += x
        out = self.relu(out)
        return out
                               

class ResNet(nn.Module):
    def __init__(self, image_shape, n_classes = 10):
        super(ResNet, self).__init__()
        
        # 64 * row * height
        self.prev_layer = nn.Sequential(
            nn.Conv2d(image_shape[0], 64, kernel_size=7, stride=2),
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2)
        )
        
        self.conv2n = nn.Sequential(
            Residual_block(64, 64, False),
            Residual_block(64, 64, False),
            Residual_block(64, 64, False)
        )
        
        self.conv3n = nn.Sequential(
            Residual_block(64, 128, True),
            Residual_block(128, 128, False),
            Residual_block(128, 128, False),
            Residual_block(128, 128, False)
        )
        
        self.conv4n = nn.Sequential(
            Residual_block(128, 256, True),
            Residual_block(256, 256, False),
            Residual_block(256, 256, False),
            Residual_block(256, 256, False),
            Residual_block(256, 256, False),
            Residual_block(256, 256, False)
        )
        
        self.conv5n = nn.Sequential(
            Residual_block(256, 512, True),
            Residual_block(512, 512, False),
            Residual_block(512, 512, False),
            Residual_block(512, 512, False),
            Residual_block(512, 512, False),
            Residual_block(512, 512, False)
        )
        
        
        self.clssifier = nn.Sequential(
            nn.AvgPool2d(kernel_size=1),
            nn.Linear(512, 1000)
        )
        
    def forward(self, x):
        out = self.prev_layer(x)
        out = self.conv2n(out)
        out = self.conv3n(out)
        out = self.conv4n(out)
        out = self.conv5n(out)
        out = self.classifier(out)
        
        return out
           
            
        

In [3]:
net = ResNet((3, 256, 256))
net

ResNet(
  (prev_layer): Sequential(
    (0): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2))
    (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (conv2n): Sequential(
    (0): Residual_block(
      (block): Sequential(
        (0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (1): ReLU(inplace=True)
        (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      )
      (pad): Sequential(
        (0): Conv2d(64, 64, kernel_size=(1, 1), stride=(2, 2))
        (1): ReLU()
      )
      (relu): ReLU()
    )
    (1): Residual_block(
      (block): Sequential(
        (0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (1): ReLU(inplace=True)
        (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      )
      (pad): Sequential(
        (0): Conv2d(6

### Reference

- https://dnddnjs.github.io/cifar10/2018/10/09/resnet/
- https://github.com/GunhoChoi/PyTorch-FastCampus/blob/master/04_CNN_Advanced/3_ResNet.ipynb