In [1]:
import torch, torchvision
import torchvision.models as models
import torchvision.datasets as datasets

import matplotlib.pyplot as plt
from PIL import Image

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

https://arxiv.org/abs/1512.03385

residual connection을 통해서 학습을 조금더 안정적으로 하고, vanishing gradient 문제나 explored gradient문제를 해결해서 더 깊은 layer를 쌓아서 문제해결가능한 논문이다.


Identity Mappings in Deep Residual Networks

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

https://arxiv.org/abs/1603.05027

Identity mapping에 대해서 조금더 탐구한 논문.
여러가지 구조변경에 대한 실험과 결과도 나오고 connection 효과가 있고 순서도 batch normalization을 먼저할지, ReLU를 먼저할지 Conv를 먼저할지를 탐구한 논문이다.

In [9]:
models.resnet18()

## 7x7 conv에 2x2 stride를 사용해서 처음에 resolution을 확줄인다.
## 채널은 RGB 이미지에서 64channel로 늘리는데 처음 conv1에서 이미지 size가 1/2가된다.
## max pool이 있어서 1/4로 줄어든다.

## resnet18,34는 basicblock으로 이루어져있다.
## resnet18은 8개의 block으로 구성되어있다
## resnet34는 layer 1에  3개의 block이 있고, 4,6,3 block 으로 구성되어있음.
## resnet50부터는 bottolnet으로 되어있다.
## resnet101도있다. layer개수는 동일하지만 block을 더 중첩시킴.
## layer3에 23개의 bottlneck block이 있다.
## resnet152도 있다. 더많은 수의 bottlneck block이 있다.
## customd으로 bottleneck block을 더 추가하고 싶다면 해도 되는데
## architecture를 이미 search해논것이기 때문에 그대로 사용하는것을 권장한다.

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
  

In [10]:
### Model
resnet18 = models.resnet18(pretrained=True)

## tensor형태로 변경해주기.
## Dataset
to_tensor = torchvision.transforms.Compose(
                [torchvision.transforms.ToTensor(),
               torchvision.transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                 std=[0.229, 0.224, 0.225])]
                                          )

cifar10 = torchvision.datasets.CIFAR10(root='./', download=True, transform=to_tensor)

dataloader = torch.utils.data.DataLoader(cifar10, batch_size=8, shuffle=True, num_workers=2)

Files already downloaded and verified


In [13]:
for idx, data in enumerate(dataloader):
    
    img, gt = data
    
    print(img.shape)
    
    scores = resnet18(img)
    
    print(scores.shape)
    break

## 1000개의 class를 8개 batch에 대해 나타내줌.

torch.Size([8, 3, 32, 32])
torch.Size([8, 1000])


## Fine-tuning

In [None]:
## cifar10에 맞게 모델수정하기

## TODO: 1. replace the last FC layer for cifar10
### Hint: 1000 -> 10



## TODO: 2. fine tuning the last classifier (FC layer) using the cifar 10 training set.
resnet18.train()


## TODO: 3. evaluation of the cifar 10 test set.



## Other models

In [14]:
models.resnet50()

models.resnet101()

models.resnet152()


ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): Bottleneck(
      (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (downsample): Sequential(
        (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 