# Chapter 1 Transfer Learning (VGG)

## 1.1.1 ImageNet Dataset & VGG-16 Model

### 1) ImageNet Dataset

ImageNet Dataset은 MNIST, CIFAR 데이터셋과 더불어 굉장히 유명한 데이터셋이다. 다른 두 개의 데이터셋은 굉장히 작은 데이터셋으로 아이디어 검증에 사용된다.

* MNIST: 28x28 손글씨 사진 (학습 데이터 6만 장, 테스트 데이터 1만 장)  
    ![출처: https://www.google.com/url?sa=i&url=https%3A%2F%2Fko.wikipedia.org%2Fwiki%2FMNIST_%25EB%258D%25B0%25EC%259D%25B4%25ED%2584%25B0%25EB%25B2%25A0%25EC%259D%25B4%25EC%258A%25A4&psig=AOvVaw05FlDMkezOEfvgGw6PkpA6&ust=1629965252703000&source=images&cd=vfe&ved=0CAoQjRxqFwoTCJDVo_fby_ICFQAAAAAdAAAAABAD](images/MnistExamples.png)

* CIFAR-10: 10개의 클래스로 구분된 32x32 사물 사진 (학습 데이터 5만 장, 테스트 데이터 1만 장)  
    ![출처: https://www.google.com/url?sa=i&url=https%3A%2F%2Fgithub.com%2Fdnddnjs%2Fpytorch-cifar10&psig=AOvVaw0s2ba3rx9gg6a7iOhwcexL&ust=1629965198624000&source=images&cd=vfe&ved=0CAoQjRxqFwoTCNjb593by_ICFQAAAAAdAAAAABAV](images/cifar-10.jpg)

반면, ImageNet 데이터셋은 대표적인 대규모 데이터셋이다. 전체 데이터셋에 포함된 이미지는 1,000만 장이 넘으며 이는 Amazon Mechanical Turk 서비스를 이용하여 일일이 사람이 분류한 데이터셋이다. 이에 대한 간략한 설명은 다음과 같다.

* ImageNet Dataset: 스탠포드 대학교에서 인터넷 화상을 수집해 분류한 데이터셋으로 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)대회에서 사용  
    ![출처: https://www.google.com/url?sa=i&url=https%3A%2F%2Fdevopedia.org%2Fimagenet&psig=AOvVaw0Id-a6a10d8h0KDF4m-f1A&ust=1629965635671000&source=images&cd=vfe&ved=0CAoQjRxqFwoTCOjOv6ndy_ICFQAAAAAdAAAAABAD](images/imagenet.png)

특히 PyTorch는 ImageNet 데이터셋 중 ILSVRC2012 데이터셋(클래스: 1천 개, 학습 데이터: 120만 장, 검증 데이터: 5만 장, 테스트 데이터: 10만 장)으로 신경망의 parameter를 학습한 다양한 모델을 사용할 수 있다.

### 2) VGG-16 Model

VGG-16 모델은 2014년 ILSVRC에서 2위를 차지한 합성곱 신경망이다. (비록 우승은 GoogleNet이었지만, 구조의 간결함과 사용의 편이성으로 인해 VGG-16이 GoogleNet보다 더 각광받았다.) 옥스포드 대학교의 VGG팀이 제작하였으며 16층으로 구성되었기때문에 VGG-16으로 불린다. 11, 13, 19층 버전의 모델도 존재하며 구성이 간단하기 때문에 다양한 딥러닝 응용 기술의 기반 네트워크로 사용한다. 

![출처: https://bskyvision.com/504](images/vggnet.png)

## 1.1.2 Prepare Projects

### 1) Make Directories

```sh
mkdir data
mkdir utils
```

### 2) Download Image

```sh
cd data
wget https://cdn.pixabay.com/photo/2018/10/05/02/26/goldenretriever-3724972_960_720.jpg
```

### 3) Install Package (For Arch based Distros)

```sh
# Install PyTorch (SIMD)
yay -S python-pytorch-opt
yay -S python-pillow-simd
yay -S libpng

# Install torchvision
git clone https://github.com/pytorch/vision
cd vision
python setup.py install --user
```

## 1.1.4 Import Packages

In [1]:
import numpy as np
import json
from PIL import Image
import matplotlib.pyplot as plt
%matplotlib inline

import torch
import torchvision
from torchvision import models, transforms

In [2]:
# Check Versions
print("PyTorch Version: ", torch.__version__)
print("Torchvision Version: ", torchvision.__version__)

PyTorch Version:  1.9.0
Torchvision Version:  0.11.0a0+b72129c


## 1.1.5 Read VGG-16

In [3]:
# Create an instance of VGG-16
net = models.vgg16(pretrained=True)
net.eval()

Downloading: "https://download.pytorch.org/models/vgg16-397923af.pth" to /home/xteca/.cache/torch/hub/checkpoints/vgg16-397923af.pth


  0%|          | 0.00/528M [00:00<?, ?B/s]

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1

* VGG-16의 네트워크 구성은 `features`와 `classifier` 두 모듈로 구성되어 있으며, 각 모듈 속에 합성곱(Convolution) 층과 전결합(Linear) 층이 있다. 
    ![출처: https://neurohive.io/en/popular-networks/vgg16/](images/vgg16.png)
    
  
* VGG-16이 16계층이란 것은 Activation(ReLU), Pooling, Dropout을 제외한 Convolution layer와 Linear Layer 수를 말하는 것이다.

In [4]:
# Torch summary (`pip install torchsummary`)
from torchsummary import summary as summary_

In [8]:
summary_(net, input_size=(3, 224, 224), device="cpu")

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Conv2d-1         [-1, 64, 224, 224]           1,792
              ReLU-2         [-1, 64, 224, 224]               0
            Conv2d-3         [-1, 64, 224, 224]          36,928
              ReLU-4         [-1, 64, 224, 224]               0
         MaxPool2d-5         [-1, 64, 112, 112]               0
            Conv2d-6        [-1, 128, 112, 112]          73,856
              ReLU-7        [-1, 128, 112, 112]               0
            Conv2d-8        [-1, 128, 112, 112]         147,584
              ReLU-9        [-1, 128, 112, 112]               0
        MaxPool2d-10          [-1, 128, 56, 56]               0
           Conv2d-11          [-1, 256, 56, 56]         295,168
             ReLU-12          [-1, 256, 56, 56]               0
           Conv2d-13          [-1, 256, 56, 56]         590,080
             ReLU-14          [-1, 256,

### 번외 - Convolution & Pooling

Convolution은 이미지에서 Feature를 추출할 때 사용되는 방법이다. 일반적으로 이미지보다 작은 Kernel을 가지고 이미지를 순회하면서 내적하여 구한 Scalar 값을 모아 이미지를 축소한다.

![출처: Deep Learning with PyTorch](images/convolution.png)

![출처: https://gaussian37.github.io/dl-concept-covolution_operation/](images/conv.gif)



## References

* 안경잡이개발자, [ImageNet 데이터셋 소개 및 다운로드하는 방법](https://ndb796.tistory.com/471)
