# 컨볼루션 신경망(Convolution Neural Networks, CNN)

- 완전 연결 네트워크의 문제점으로부터 시작

  - 매개변수의 폭발적인 증가

  - 공간 추론의 부족
    - 픽셀 사이의 근접성 개념이 완전 연결 계층(Fully-Connected Layer)에서는 손실됨

- 합성곱 계층은 입력 이미지가 커져도 튜닝해야 할 매개변수 개수에 영향을 주지 않음

- 또한 그 어떠한 이미지에도 **그 차원 수와 상관없이** 적용될 수 있음

  <br>

  <img src="https://miro.medium.com/max/4308/1*1TI1aGBZ4dybR6__DI9dzA.png">
  
  <center>[LeNet-5 구조]</center>

  <sub>[이미지 출처] https://medium.com/@pechyonkin/key-deep-learning-architectures-lenet-5-6fc3c59e6f4</sub>

## 컨볼루션 연산 (Convolution Operation)

- 필터(filter) 연산
  - 입력 데이터에 필터를 통한 어떠한 연산을 진행
  
  - **필터에 대응하는 원소끼리 곱하고, 그 합을 구함**

  - 연산이 완료된 결과 데이터를 **특징 맵(feature map)**이라 부름

- 필터(filter)
  - 커널(kernel)이라고도 칭함
  
  - 흔히 사진 어플에서 사용하는 '이미지 필터'와 비슷한 개념

  - 필터의 사이즈는 "거의 항상 홀수"
    - 짝수이면 패딩이 비대칭이 되어버림
  
    - 왼쪽, 오른쪽을 다르게 주어야함
  
    - 중심위치가 존재, 즉 구별된 하나의 픽셀(중심 픽셀)이 존재

  - 필터의 학습 파라미터 개수는 입력 데이터의 크기와 상관없이 일정  
    따라서, 과적합을 방지할 수 있음

  <br>

  <br>

- 연산 시각화
  <img src="https://www.researchgate.net/profile/Ihab_S_Mohamed/publication/324165524/figure/fig3/AS:611103423860736@1522709818959/An-example-of-convolution-operation-in-2D-2.png" width="500">

  <sub>[이미지 출처] https://www.researchgate.net/figure/An-example-of-convolution-operation-in-2D-2_fig3_324165524</sub>


- 일반적으로, 합성곱 연산을 한 후의 데이터 사이즈는  
  ### $\quad (n-f+1) \times (n-f+1)$
    $n$: 입력 데이터의 크기  
    $f$: 필터(커널)의 크기

  <br>
  
  <img src="https://miro.medium.com/max/1400/1*Fw-ehcNBR9byHtho-Rxbtw.gif" width="400">

  위 예에서 입력 데이터 크기($n$)는 5, 필터의 크기($k$)는 3이므로  
  출력 데이터의 크기는 $(5 - 3 + 1) = 3$

  <br>

  <sub>[이미지 출처] https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1</sub>

## Convolution vs Cross Correlation (참고)

- 실제로 머신러닝 분야에서 '합성곱'이라는 용어를 일반적으로 사용하고는 있지만  
  여기서 말하는 합성곱 연산은 '수학적 용어'로는 **교차 상관 관계(cross-correlation)**이라고 볼 수 있음

- 수학적으로 합성곱 연산은 필터를 '뒤집어서' 연산을 진행

  <br>

  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/21/Comparison_convolution_correlation.svg/400px-Comparison_convolution_correlation.svg.png">

  <sub>[이미지 출처] https://en.wikipedia.org/wiki/Convolution</sub>

## 패딩(padding)과 스트라이드(stride)
- 필터(커널) 사이즈과 함께 **입력 이미지와 출력 이미지의 사이즈를 결정**하기 위해 사용

- 사용자가 결정할 수 있음



### 패딩
- 입력 데이터의 주변을 특정 값으로 채우는 기법
  - 주로 0으로 많이 채움

<br>

- 출력 데이터의 크기
  ### $\quad (n+2p-f+1) \times (n+2p-f+1)$
  <br>

  위 그림에서, 입력 데이터의 크기($n$)는 5, 필터의 크기($f$)는 4, 패딩값($p$)은 2이므로    
  출력 데이터의 크기는 ($5 + 2\times 2 - 4 + 1) = 6$

<br>

### 'valid' 와 'same'
- 'valid'
  - 패딩을 주지 않음
  - padding=0
    - 0으로 채워진 테두리가 아니라 패딩을 주지 않는다는 뜻!

- 'same'
  - 패딩을 주어 입력 이미지의 크기와 연산 후의 이미지 크기를 같게!

  - 만약, 필터(커널)의 크기가 $k$ 이면,  
    패딩의 크기는 $p = \frac{k-1}{2}$ (단, <u>stride=1)</u>



### 스트라이드
- 필터를 적용하는 간격을 의미

## 출력 데이터의 크기

## $\qquad OH = \frac{H + 2P - FH}{S} + 1 $
## $\qquad OW = \frac{W + 2P - FW}{S} + 1 $

- 입력 크기 : $(H, W)$

- 필터 크기 : $(FH, FW)$

- 출력 크기 : $(OH, OW)$

- 패딩, 스트라이드 : $P, S$

- (주의)
  - 위 식의 값에서 $\frac{H + 2P - FH}{S}$ 또는 $\frac{W + 2P - FW}{S}$가 정수로 나누어 떨어지는 값이어야 한다.  
  - 만약, 정수로 나누어 떨어지지 않으면  
    패딩, 스트라이드값을 조정하여 정수로 나누어 떨어지게 해야!
  
  

## 텐서플로우/케라스 메소드
- 이미지 합성곱의 경우 기본적으로 저차원 API의 `tf.nn.conv2d()`를 사용
  - `input` : 형상이 $(B, \ H, \ W, \ D)$인 입력 이미지 배치

  - `filter` : $N$개의 필터가 쌓여 형상이 $(k_H, \ k_W, \ D, \ N)$ 인 텐서

  - `strides` : 보폭을 나타내는 4개의 정수 리스트.  
    $\qquad \qquad [1, \ S_H, \ S_W, \ 1]$ 을 사용

  - `padding` : 패딩을 나타내는 4x2개의 정수 리스트나 사전 정의된 패딩 중 무엇을 사용할지 정의  
    "VALID" or "SAME" 문자열 사용

  - `name` : 해당 연산을 식별하는 이름





In [58]:
import torch
import torch.nn as nn
import torch.nn.functional as F

k, D, N = 3, 3, 16
input_data = torch.randn(size=(N, D, 32, 32))

class SimpleCNN(nn.Module):
    def __init__(self, n_kernels=32, kernel_size=(3, 3), strides=1, padding=0):
        super(SimpleCNN, self).__init__()
        
        self.n_kernels = n_kernels
        self.kernel_size = kernel_size
        self.strides = strides
        self.padding = padding
        
        self.conv = nn.Conv2d(
            in_channels=input_data.size(1),
            out_channels=self.n_kernels,
            kernel_size=self.kernel_size,
            stride=self.strides,
            padding=self.padding
        )
        nn.init.kaiming_normal_(self.conv.weight, mode='fan_out', nonlinearity='relu')
        nn.init.zeros_(self.conv.bias) # type: ignore

    def forward(self, x):
        z = F.relu(self.conv(x))
        return z

In [59]:
model = SimpleCNN(n_kernels=32, kernel_size=(3, 3), strides=1, padding=0)

output_data = model(input_data)

output_data.shape

torch.Size([16, 32, 30, 30])

## 풀링(Pooling)

- 필터(커널) 사이즈 내에서 특정 값을 추출하는 과정

### 맥스 풀링(Max Pooling)
- 가장 많이 사용되는 방법

- 출력 데이터의 사이즈 계산은 컨볼루션 연산과 동일
## $\quad OH = \frac{H + 2P - FH}{S} + 1 $
## $\quad OW = \frac{W + 2P - FW}{S} + 1 $

- 일반적으로 stride=2, kernel_size=2 를 통해  
  **특징맵의 크기를 <u>절반으로 줄이는 역할</u>**

- 모델이 물체의 주요한 특징을 학습할 수 있도록 해주며,  
  컨볼루션 신경망이 이동 불변성 특성을 가지게 해줌
  - 예를 들어, 아래의 그림에서 초록색 사각형 안에 있는  
    2와 8의 위치를 바꾼다해도 맥스 풀링 연산은 8을 추출

- 모델의 파라미터 개수를 줄여주고, 연산 속도를 빠르게 해줌

  <br>

  <img src="https://cs231n.github.io/assets/cnn/maxpool.jpeg" width="600">

  <sub>[이미지 출처] https://cs231n.github.io/convolutional-networks/</sub>

### 평균 풀링(Avg Pooling)

- 필터 내의 있는 픽셀값의 평균을 구하는 과정

- 과거에 많이 사용, 요즘은 잘 사용되지 않는다.

- 맥스풀링과 마찬가지로 stride=2, kernel_size=2 를 통해  
  특징 맵의 사이즈를 줄이는 역할

  <img src="https://www.researchgate.net/profile/Juan_Pedro_Dominguez-Morales/publication/329885401/figure/fig21/AS:707709083062277@1545742402308/Average-pooling-example.png" width="600">

  <sub>[이미지 출처] https://www.researchgate.net/figure/Average-pooling-example_fig21_329885401</sub>

In [60]:
k, D, N = 3, 3, 16
input_data = torch.randn(size=(N, D, 32, 32))

class Net(nn.Module):
    def __init__(self, n_kernels, kernel_size, pool_size):
        super().__init__()
        
        self.n_kernels = n_kernels
        self.kernel_size = kernel_size
        self.k_strides = 1
        self.k_padding = 0
        
        self.pool_size = (2, 2)
        
        self.p_strides = 2
        self.p_padding = 0
        
        self.conv = nn.Conv2d(
            in_channels=input_data.size(1),
            out_channels=n_kernels,
            kernel_size=self.kernel_size,
            stride=self.k_strides,
            padding=self.k_padding
        )
        nn.init.kaiming_normal_(self.conv.weight, mode='fan_out', nonlinearity='relu')
        nn.init.zeros_(self.conv.bias) # type: ignore
    
    def forward(self, x):
        x = F.relu(self.conv(x))
        x = F.max_pool2d(x, kernel_size=(2, 2), stride=(2, 2), padding=0)

        return x

In [61]:
model = Net(n_kernels=32, kernel_size=(3, 3), pool_size=(2, 2))

output_data = model(input_data)

output_data.shape

torch.Size([16, 32, 15, 15])

## 완전 연결 계층(Fully-Connected Layer)

- 입력으로 받은 텐서를 1차원으로 평면화(flatten) 함

- 밀집 계층(Dense Layer)라고도 함

- 일반적으로 분류기로서 **네트워크의 마지막 계층에서 사용**

In [62]:
N, D = 16, 32
input_data = torch.randn(size=(N, D))

class FullyConnectedLayer(nn.Module):
    def __init__(self, input_size, output_size):
        super().__init__()
        self.input_size = input_size
        self.output_size = output_size
        
        self.fc = nn.Linear(
            in_features=self.input_size,
            out_features=self.output_size
        )
        nn.init.kaiming_normal_(self.fc.weight, mode='fan_out', nonlinearity='relu')
        nn.init.zeros_(self.fc.bias)
    
    def forward(self, x):
        z = self.fc(x)
        z = F.relu(z)

        return z

In [63]:
model = FullyConnectedLayer(input_data.size(1), 10)

output_data = model(input_data)

output_data.shape

torch.Size([16, 10])

## 유효 수용 영역(ERF, Effective Receptive Field)

- 입력 이미지에서 거리가 먼 요소를 상호 참조하여 결합하여 네트워크 능력에 영향을 줌

- 입력 이미지의 영역을 정의해 주어진 계층을 위한 뉴런의 활성화에 영향을 미침

- 한 계층의 필터 크기나 윈도우 크기로 불리기 때문에 RF(receptive field, 수용 영역)이라는 용어를 흔히 볼 수 있음

  <img src="https://wiki.math.uwaterloo.ca/statwiki/images/8/8c/understanding_ERF_fig0.png">

  <sub>[이미지 출처] https://wiki.math.uwaterloo.ca/statwiki/index.php?title=Understanding_the_Effective_Receptive_Field_in_Deep_Convolutional_Neural_Networks</sub>

<br>

- RF의 중앙에 위치한 픽셀은 주변에 있는 픽셀보다 더 높은 가중치를 가짐
  - 중앙부에 위치한 픽셀은 여러 개의 계층을 전파한 값

  - 중앙부에 있는 픽셀은 주변에 위치한 픽셀보다 더 많은 정보를 가짐

- 가우시안 분포를 따름

  <img src="https://www.researchgate.net/publication/316950618/figure/fig4/AS:495826810007552@1495225731123/The-receptive-field-of-each-convolution-layer-with-a-3-3-kernel-The-green-area-marks.png">

  <sub>[이미지 출처] https://www.researchgate.net/figure/The-receptive-field-of-each-convolution-layer-with-a-3-3-kernel-The-green-area-marks_fig4_316950618</sub>

## CNN 구현

### LeNet-5


  <img src="https://miro.medium.com/max/4308/1*1TI1aGBZ4dybR6__DI9dzA.png">
  
  <center>[LeNet-5 구조]</center>

  <sub>[이미지 출처] https://medium.com/@pechyonkin/key-deep-learning-architectures-lenet-5-6fc3c59e6f4</sub>

In [64]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [65]:
class LeNet5(nn.Module):
    def __init__(self, n_classes):
        super().__init__()
        self.n_classes = n_classes
        
        # Layers
        self.conv1 = nn.Conv2d(
            in_channels=1,
            out_channels=6,
            kernel_size=(5, 5),
            stride=1,
            padding=0
        )
        self.conv2 = nn.Conv2d(
            in_channels=6,
            out_channels=16,
            kernel_size=(5, 5),
            stride=1,
            padding=0
        )
        self.fc1 = nn.Linear(in_features=16*4*4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=84)
        self.out = nn.Linear(in_features=84, out_features=self.n_classes)

    def forward(self, x: torch.Tensor):
        x = F.max_pool2d(self.conv1(x), kernel_size=(2, 2), stride=(2, 2), padding=0)
        x = F.max_pool2d(self.conv2(x), kernel_size=(2, 2), stride=(2, 2), padding=0)
        x = x.view(x.size(0), -1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.out(x)

        return x
        
    @staticmethod
    def init_params(m):
        if isinstance(m, (nn.Conv2d, nn.Linear)):
            nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='relu')
            if m.bias is not None:
                nn.init.zeros_(m.bias)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
model = LeNet5(n_classes=10).to(device)
model.apply(LeNet5.init_params)

LeNet5(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=256, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (out): Linear(in_features=84, out_features=10, bias=True)
)

In [66]:
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(params=model.parameters(), lr=1e-3)

In [67]:
# Load and pre-process data
from torch.utils.data import DataLoader
from torchvision.datasets import MNIST
import torchvision.transforms as transforms

batch_size = 256

train_data = MNIST(root='./data', train=True, download=True, transform=transforms.ToTensor())
train_loader = DataLoader(train_data, batch_size=batch_size)

def calc_mean_std(loader: DataLoader):
    sum, sq_sum, n_batches = 0, 0, 0
    
    for data, _ in loader:
        sum += torch.mean(data, dim=[0, 2, 3])
        sq_sum += torch.mean(torch.square(data), dim=[0, 2, 3])
        n_batches +=1
    
    mean = sum / n_batches
    std = (sq_sum / n_batches - mean ** 2) ** .5 # V(X) = (E(X^2) - m^2)

    return mean, std

mean, std = calc_mean_std(train_loader)

transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((mean, ), (std, ))
])
train_data = MNIST(root='./data', train=True, download=True, transform=transform)
test_data = MNIST(root='./data', train=False, download=True, transform=transform)

train_preprocessed_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True)
test_preprocessed_loader = DataLoader(test_data, batch_size=batch_size, shuffle=False)

In [68]:
epochs = 50
lr = 1e-3

model.train()
for epoch in range(epochs):
    running_loss = .0
    
    for idx, data in enumerate(train_preprocessed_loader):
        optimizer.zero_grad()
        
        inputs, labels = data[0].to(device), data[1].to(device)
        outputs = model(inputs)
        pred_vals, pred_indices = torch.max(outputs, dim=1)
        loss = criterion(outputs, labels) # backpropagation 과정은 tensor 형태가 필요

        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        
        if idx == len(train_preprocessed_loader) - 1:
            print(f'Epoch: {epoch + 1}, Loss: {running_loss / len(train_preprocessed_loader)}')

Epoch: 1, Loss: 0.557654636337402
Epoch: 2, Loss: 0.13484441306679806
Epoch: 3, Loss: 0.08652228806564148
Epoch: 4, Loss: 0.06544912608062968
Epoch: 5, Loss: 0.04937011444980794
Epoch: 6, Loss: 0.03950584412532601
Epoch: 7, Loss: 0.031849166804409405
Epoch: 8, Loss: 0.02582009834574258
Epoch: 9, Loss: 0.022043122213452736
Epoch: 10, Loss: 0.01992389608689762
Epoch: 11, Loss: 0.01564681690602385
Epoch: 12, Loss: 0.01325382659994462
Epoch: 13, Loss: 0.013788178145013591
Epoch: 14, Loss: 0.012152602786118996
Epoch: 15, Loss: 0.009027431737086637
Epoch: 16, Loss: 0.010531126717947661
Epoch: 17, Loss: 0.011664751093547315
Epoch: 18, Loss: 0.015532196492719603
Epoch: 19, Loss: 0.009587820614948174
Epoch: 20, Loss: 0.005657295747957331
Epoch: 21, Loss: 0.005274079769337054
Epoch: 22, Loss: 0.007630581128227703
Epoch: 23, Loss: 0.005413186255231886
Epoch: 24, Loss: 0.0074952933670422855
Epoch: 25, Loss: 0.011542059531022964
Epoch: 26, Loss: 0.007396229544401843
Epoch: 27, Loss: 0.0056214619045

In [69]:
correct = 0

model.eval()
with torch.no_grad():
    t_loss = 0
    
    for data in test_preprocessed_loader:
        inputs, labels = data[0].to(device), data[1].to(device)
        outputs = model(inputs)
        pred_vals, pred_indices = torch.max(outputs, dim=1)
        t_loss += criterion(outputs, labels).item()
        correct += pred_indices.eq(labels).sum().item()
    
    t_loss /= len(test_preprocessed_loader.dataset)
    acc = correct / len(test_preprocessed_loader.dataset) * 100
    print("Test Set")    
    print(f"Loss: {t_loss:.8f}, Accuracy: {acc:.2f}%")

Test Set
Loss: 0.00033505, Accuracy: 98.75%


# Visual Geometry Group Net(VGGNet)

- 2014년 ILSVRC 분류 과제에서 2등을 차지했지만, 이 후의 수많은 연구에 영향을 미침

- 특징

  - 활성화 함수로 `ReLU` 사용, Dropout 적용

  - 합성곱과 풀링 계층으로 구성된 블록과 분류를 위한 완전 연결계층으로 결합된 전형적인 구조

  - 인위적으로 데이터셋을 늘림
    
    - 이미지 변환, 좌우 반전 등의 변환을 시도

  - 몇 개의 합성곱 계층과 최대-풀링 계층이 따르는 5개의 블록과,  
    3개의 완전연결계층(학습 시, 드롭아웃 사용)으로 구성

  - 모든 합성곱과 최대-풀링 계층에 `padding='SAME'` 적용

  - 합성곱 계층에는 `stride=1`, 활성화 함수로 `ReLU` 사용

  - 특징 맵 깊이를 증가시킴

  - 척도 변경을 통한 데이터 보강(Data Augmentation)



- 기여

  - 3x3 커널을 갖는 두 합성곱 계층을 쌓은 스택이 5x5 커널을 갖는 하나의 합성곱 계층과 동일한 수용영역(ERF)을 가짐

  - 11x11 사이즈의 필터 크기를 가지는 AlexNet과 비교하여,  
    더 작은 합성곱 계층을 더 많이 포함해 더 큰 ERF를 얻음

  - 이와 같이 합성곱 계층의 개수가 많아지면,  
    **매개변수 개수를 줄이고, 비선형성을 증가시킴**


- VGG-19 아키텍쳐

  - VGG-16에 3개의 합성곱 계층을 추가

  <br>   

  <img src="https://neurohive.io/wp-content/uploads/2018/11/vgg16.png">
  <center>VGG-16 아키텍쳐</center>

  <sub>[이미지 출처] https://neurohive.io/en/popular-networks/vgg16/ </sub>


<br>

- (참고) ILSVRC의 주요 분류 metric 중 하나는 `top-5`
  
  - 상위 5개 예측 안에 정확한 클래스가 포함되면 제대로 예측한 것으로 간주

  - 일반적인 `top-k` metric의 특정 케이스


In [70]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader, random_split

In [71]:
import os
import shutil
from sklearn.model_selection import train_test_split

def create_train_test_dirs(source_dir, test_size=.2):
    """
    폴더 구조를 변경하는 함수
    """
    path = os.path.join(os.getcwd(), 'data', source_dir)
    translate = {"cane": "dog", "cavallo": "horse", "elefante": "elephant", "farfalla": "butterfly", "gallina": "chicken", "gatto": "cat", "mucca": "cow", "pecora": "sheep", "ragno": "spider", "scoiattolo": "squirrel"}
    classes = [dir for dir in os.listdir(path) if os.path.isdir(os.path.join(path, dir))]

    for cls in classes:
        new_cls = translate.get(cls, cls)
        data_splits = ['train', 'test']
        
        for split in data_splits:
            os.makedirs(os.path.join(path, split, new_cls), exist_ok=True)
        
        files = [f for f in os.listdir(os.path.join(path, cls)) if os.path.isfile(os.path.join(path, cls, f))]
        train_files, test_files = train_test_split(files, test_size=test_size, random_state=42)

        for split, files in zip(data_splits, (train_files, test_files)):
            for f in files:
                src_f_path = os.path.join(path, cls, f)
                dst_f_path = os.path.join(path, split, new_cls, f)
                
                if os.path.exists(dst_f_path):
                    os.remove(dst_f_path)
                
                shutil.move(src_f_path, dst_f_path)
        
        os.rmdir(os.path.join(path, cls))

source_dir = 'animals-10'

create_train_test_dirs(source_dir)

In [72]:
def cnt_imgs(source_dir, animal):
    """
    제대로 분류 되었는지 확인하는 함수
    """
    train_path = os.path.join(os.getcwd(), 'data', source_dir, 'train', animal)
    test_path = os.path.join(os.getcwd(), 'data', source_dir, 'test', animal)

    train_cnt = len([f for f in os.listdir(train_path) if os.path.isfile(os.path.join(train_path, f))])
    test_cnt = len([f for f in os.listdir(test_path) if os.path.isfile(os.path.join(test_path, f))])
    
    return train_cnt, test_cnt

train_cnt, test_cnt = cnt_imgs(source_dir, 'dog')

train_cnt, test_cnt

(3890, 973)

In [46]:
class VGGNet16(nn.Module):
    """
    output의 차원은 데이터 특성상 10개로 설정
    """
    def __init__(self, n_classes=10):
        super().__init__()
        self.n_classes = n_classes
        
        # Layers
        self.conv1_1 = nn.Conv2d(
            in_channels=3,
            out_channels=64,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv1_2 = nn.Conv2d(
            in_channels=64,
            out_channels=64,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        
        self.conv2_1 = nn.Conv2d(
            in_channels=64,
            out_channels=128,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv2_2 = nn.Conv2d(
            in_channels=128,
            out_channels=128,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        
        self.conv3_1 = nn.Conv2d(
            in_channels=128,
            out_channels=256,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv3_2 = nn.Conv2d(
            in_channels=256,
            out_channels=256,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv3_3 = nn.Conv2d(
            in_channels=256,
            out_channels=256,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        
        self.conv4_1 = nn.Conv2d(
            in_channels=256,
            out_channels=512,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv4_2 = nn.Conv2d(
            in_channels=512,
            out_channels=512,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv4_3 = nn.Conv2d(
            in_channels=512,
            out_channels=512,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        
        self.conv5_1 = nn.Conv2d(
            in_channels=512,
            out_channels=512,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv5_2 = nn.Conv2d(
            in_channels=512,
            out_channels=512,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
        self.conv5_3 = nn.Conv2d(
            in_channels=512,
            out_channels=512,
            kernel_size=(3, 3),
            stride=(1, 1),
            padding=(1, 1)
        )
    
        self.fc1 = nn.Linear(512 * 7 * 7, 4096)
        self.fc2 = nn.Linear(4096, 4096)

        self.out = nn.Linear(4096, self.n_classes)
        
    def forward(self, x):
        x = F.relu(self.conv1_1(x))
        x = F.relu(self.conv1_2(x))
        x = F.max_pool2d(x, kernel_size=(2, 2), stride=(2, 2), padding=0)

        x = F.relu(self.conv2_1(x))
        x = F.relu(self.conv2_2(x))
        x = F.max_pool2d(x, kernel_size=(2, 2), stride=(2, 2), padding=0)
    
        x = F.relu(self.conv3_1(x))
        x = F.relu(self.conv3_2(x))
        x = F.relu(self.conv3_3(x))
        x = F.max_pool2d(x, kernel_size=(2, 2), stride=(2, 2), padding=0)
        
        x = F.relu(self.conv4_1(x))
        x = F.relu(self.conv4_2(x))
        x = F.relu(self.conv4_3(x))
        x = F.max_pool2d(x, kernel_size=(2, 2), stride=(2, 2), padding=0)
        
        x = F.relu(self.conv5_1(x))
        x = F.relu(self.conv5_2(x))
        x = F.relu(self.conv5_3(x))
        x = F.max_pool2d(x, kernel_size=(2, 2), stride=(2, 2), padding=0)

        x = x.view(-1, self.n_flat_features(x))

        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.out(x)
        
        return x
        
    def n_flat_features(self, x):
        size = x.size()[1:]
        n_features = 1
        
        for s in size:
            n_features *= s
        
        return n_features
    
    @staticmethod
    def init_params(m):
        if isinstance(m, (nn.Conv2d, nn.Linear)):
            nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='relu')
            if m.bias is not None:
                nn.init.zeros_(m.bias)

In [48]:
batch_size = 128

transform_temp = transforms.Compose([
    transforms.RandomResizedCrop((224, 224)),
    transforms.ToTensor()
])

dataset = datasets.ImageFolder(root='./data/animals-10/train', transform=transform_temp)
loader = DataLoader(dataset, batch_size=batch_size)

def calc_mean_std(loader: DataLoader):
    sum, sq_sum, n_batches = 0, 0, 0
    
    for data, _ in loader:
        sum += torch.mean(data, dim=[0, 2, 3])
        sq_sum += torch.mean(data ** 2, dim=[0, 2, 3])
        n_batches += 1
    
    mean = sum / n_batches
    std = ((sq_sum / n_batches) - mean ** 2) ** .5
    
    return mean, std

mean, std = calc_mean_std(loader)
print(mean, std)

tensor([0.5085, 0.4806, 0.3968]) tensor([0.2631, 0.2585, 0.2699])


In [49]:
transform = transforms.Compose([
    transforms.RandomResizedCrop((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean, std)
])

train_data = datasets.ImageFolder(root=os.path.join(os.getcwd(), 'data', 'animals-10', 'train'), transform=transform)
test_data = datasets.ImageFolder(root=os.path.join(os.getcwd(), 'data', 'animals-10', 'test'), transform=transform)

train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True, num_workers=4)
test_loader = DataLoader(test_data, batch_size=batch_size, num_workers=4)

In [50]:
model = VGGNet16().to('cuda')
model.apply(VGGNet16.init_params)

epochs = 50
lr = 1e-3

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(params=model.parameters(), lr=lr)
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=.6)

In [51]:
def train(model: nn.Module, train_loader: DataLoader, criterion: nn.modules.loss._Loss, optimizer: optim.Optimizer, scheduler: optim.lr_scheduler.StepLR, epochs: int):
    model.train()
    
    for epoch in range(epochs):
        running_loss = 0.0
        correct = 0
        total = 0
        
        for idx, (inputs, labels) in enumerate(train_loader):
            optimizer.zero_grad()

            inputs, labels = inputs.to('cuda'), labels.to('cuda')
            outputs = model(inputs)
            loss = criterion(outputs, labels)

            loss.backward()
            optimizer.step()
            
            running_loss += loss.item()
            
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

            print(f'Epoch: {epoch + 1}, Step: {idx + 1}/{len(train_loader)}, Loss: {running_loss / (idx + 1):.6f}, Accuracy: {100 * correct / total:.2f}%')

        scheduler.step()
                
def test(model: nn.Module, test_loader: DataLoader, criterion: nn.modules.loss._Loss):
    model.eval()
    
    with torch.no_grad():
        t_loss = 0
        correct = 0
        
        for inputs, labels in test_loader:
            inputs, labels = inputs.to('cuda'), labels.to('cuda')
            outputs = model(inputs)
            pred_vals, pred_indices = torch.max(outputs, dim=1)
            
            t_loss += criterion(outputs, labels).item()
            correct += pred_indices.eq(labels).sum().item()
        
        t_loss /= len(test_loader)
        acc = correct / len(test_loader.dataset)
    
    print('Test')
    print(f'Loss: {t_loss:.6f}, Accuracy: {acc * 100:.2f}%')

In [53]:
train(model, train_loader, criterion, optimizer, scheduler, epochs=epochs)

Epoch: 1, Step: 328/655, Loss: 27.473650, Accuracy: 17.93%
Epoch: 1, Step: 655/655, Loss: 14.860885, Accuracy: 18.30%
Epoch: 2, Step: 328/655, Loss: 2.266070, Accuracy: 18.67%
Epoch: 2, Step: 655/655, Loss: 2.237926, Accuracy: 18.34%


KeyboardInterrupt: 

In [None]:
test(model, test_loader, criterion)

# GoogLeNet, Inception 모듈

- VGGNet을 제치고 같은 해 분류 과제에서 1등을 차지

- 인셉션 블록이라는 개념을 도입하여, **인셉션 네트워크(Inception Network)**라고도 불림

  <img src="https://miro.medium.com/max/2800/0*rbWRzjKvoGt9W3Mf.png">

  <sub>[이미지 출처] https://medium.com/analytics-vidhya/cnns-architectures-lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5</sub>

  <br>

- 특징
  
  - CNN 계산 용량을 최적화하는 것을 고려

  - 전형적인 합성곱, 풀링 계층으로 시작하고, 이 정보는 9개의 인셉션 모듈 스택을 통과  
    해당 모듈을 하위 네트워크라고도 함

  - 각 모듈에서 입력 특징 맵은 서로 다른 계층으로 구성된 4개의 병렬 하위 블록에 전달되고, 이를 서로 다시 연결

  - 모든 합성곱과 풀링 계층의 padding옵션은 "SAME"이며 `stride=1`,  
    활성화 함수는 `ReLU` 사용

- 기여

  - 규모가 큰 블록과 병목을 보편화

  - 병목 계층으로 1x1 합성곱 계층 사용

  - 완전 연결 계층 대신 풀링 계층 사용

  - 중간 소실로 경사 소실 문제 해결

  <img src="https://norman3.github.io/papers/images/google_inception/f01.png">

  <sub>[이미지 출처] https://norman3.github.io/papers/docs/google_inception.html</sub>

# ResNet - 잔차 네트워크

- 네트워크의 깊이가 깊어질수록 경사가 소실되거나 폭발하는 문제를 해결하고자 함

- 병목 합성곱 계층을 추가하거나 크기가 작은 커널을 사용

- 152개의 훈련가능한 계층을 수직으로 연결하여 구성

- 모든 합성곱과 풀링 계층에서 패딩옵셥으로 "SAME", stride=1 사용

- 3x3 합성곱 계층 다음마다 배치 정규화 적용,  
  1x1 합성곱 계층에는 활성화 함수가 존재하지 않음

  <br>

  <img src="https://miro.medium.com/max/1200/1*6hF97Upuqg_LdsqWY6n_wg.png">

  <sub>[이미지 출처] https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8</sub>

## 잔차 블록 구현

In [158]:
class BasicBlock(nn.Module):
    """
    2개의 3x3 Convolution Layer로 이루어져 ResNet-18을 구성하는 Basic block
    """
    expansion = 1
    
    def __init__(self, in_channels, out_channels, stride=1, down_sample=None):
        super().__init__()
        
        self.conv1 = nn.Conv2d(in_channels, out_channels, 3, stride, 1, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, 3, 1, 1, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.down_sample = down_sample
    
    def forward(self, x: torch.Tensor):
        residual = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = F.relu(out)
        out = self.conv2(out)
        out = self.bn2(out)
        
        if self.down_sample is not None:
            residual = self.down_sample(x)

        out += residual
        out = F.relu(out)

        return out

In [159]:
class ResNet18(nn.Module):
    """
    5개의 block으로 구성
    """
    def __init__(self, block: BasicBlock, layers, n_classes=10):
        super().__init__()
        self.in_channels = 64
        
        self.conv1 = nn.Conv2d(3, self.in_channels, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(self.in_channels)
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
        self.out = nn.Linear(512 * block.expansion, n_classes)
        
    def _make_layer(self, block: BasicBlock, out_channels: int, blocks, stride=1):
        down_sample = None
        mask = stride != 1 or self.in_channels != out_channels * block.expansion

        if mask:
            down_sample = nn.Sequential(
                nn.Conv2d(self.in_channels, out_channels * block.expansion, 1, stride, bias=False),
                nn.BatchNorm2d(out_channels * block.expansion)
            )
        
        layers = []
        layers.append(block(self.in_channels, out_channels, stride, down_sample))
        self.in_channels = out_channels * block.expansion
        
        for _ in range(1, blocks):
            layers.append(block(self.in_channels, out_channels))
        
        return nn.Sequential(*layers)
    
    def forward(self, x):
        out = self.conv1(x)
        out = self.bn1(out)
        out = F.relu(out)
        out = F.max_pool2d(out, (3, 3), (2, 2), (1, 1))
        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.layer4(out)
        out = F.adaptive_avg_pool2d(out, (1, 1))
        out = out.view(out.size(0), -1)
        out = self.out(out)
        return out
    
    @staticmethod
    def init_params(m):
        if isinstance(m, (nn.Conv2d, nn.Linear)):
            nn.init.kaiming_normal_(m.weight, mode='fan_in', nonlinearity='relu')
            if m.bias is not None:
                nn.init.zeros_(m.bias)

In [166]:
def resnet18(n_classes=10):
    return ResNet18(BasicBlock, [2, 2, 2, 2], n_classes)

model = resnet18().to('cuda')
model.apply(ResNet18.init_params)
print(model)

ResNet18(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=Tru

In [167]:
batch_size = 128

transform_temp = transforms.Compose([
    transforms.RandomResizedCrop((224, 224)),
    transforms.ToTensor()
])

dataset = datasets.ImageFolder(root='./data/animals-10/train', transform=transform_temp)
loader = DataLoader(dataset, batch_size=batch_size)

def calc_mean_std(loader: DataLoader):
    sum, sq_sum, n_batches = 0, 0, 0
    
    for data, _ in loader:
        sum += torch.mean(data, dim=[0, 2, 3])
        sq_sum += torch.mean(data ** 2, dim=[0, 2, 3])
        n_batches += 1
    
    mean = sum / n_batches
    std = ((sq_sum / n_batches) - mean ** 2) ** .5
    
    return mean, std

mean, std = calc_mean_std(loader)
print(mean, std)

tensor([0.5083, 0.4799, 0.3961]) tensor([0.2634, 0.2587, 0.2701])


In [168]:
transform = transforms.Compose([
    transforms.RandomResizedCrop((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean, std)
])

train_data = datasets.ImageFolder(root=os.path.join(os.getcwd(), 'data', 'animals-10', 'train'), transform=transform)
test_data = datasets.ImageFolder(root=os.path.join(os.getcwd(), 'data', 'animals-10', 'test'), transform=transform)

train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True, num_workers=4)
test_loader = DataLoader(test_data, batch_size=batch_size, num_workers=4)

In [169]:
epochs = 50
lr = 1e-3

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(params=model.parameters(), lr=lr)
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=.6)

In [170]:
def train(model: nn.Module, train_loader: DataLoader, criterion: nn.modules.loss._Loss, optimizer: optim.Optimizer, scheduler: optim.lr_scheduler.StepLR, epochs: int):
    model.train()
    
    for epoch in range(epochs):
        running_loss = 0.0
        correct = 0
        total = 0
        
        for idx, (inputs, labels) in enumerate(train_loader):
            optimizer.zero_grad()

            inputs, labels = inputs.to('cuda'), labels.to('cuda')
            outputs = model(inputs)
            loss = criterion(outputs, labels)

            loss.backward()
            optimizer.step()
            
            running_loss += loss.item()
            
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

            print(f'Epoch: {epoch + 1}, Step: {idx + 1}/{len(train_loader)}, Loss: {running_loss / (idx + 1):.6f}, Accuracy: {100 * correct / total:.2f}%')

        scheduler.step()
                
def test(model: nn.Module, test_loader: DataLoader, criterion: nn.modules.loss._Loss):
    model.eval()
    
    with torch.no_grad():
        t_loss = 0
        correct = 0
        
        for inputs, labels in test_loader:
            inputs, labels = inputs.to('cuda'), labels.to('cuda')
            outputs = model(inputs)
            pred_vals, pred_indices = torch.max(outputs, dim=1)
            
            t_loss += criterion(outputs, labels).item()
            correct += pred_indices.eq(labels).sum().item()
        
        t_loss /= len(test_loader)
        acc = correct / len(test_loader.dataset)
    
    print('Test')
    print(f'Loss: {t_loss:.6f}, Accuracy: {acc * 100:.2f}%')

In [171]:
train(model, train_loader, criterion, optimizer, scheduler, epochs=epochs)

Epoch: 1, Step: 1/164, Loss: 2.763364, Accuracy: 7.81%
Epoch: 1, Step: 2/164, Loss: 3.527186, Accuracy: 12.89%
Epoch: 1, Step: 3/164, Loss: 3.615749, Accuracy: 14.58%
Epoch: 1, Step: 4/164, Loss: 3.427653, Accuracy: 14.45%
Epoch: 1, Step: 5/164, Loss: 3.201532, Accuracy: 15.62%
Epoch: 1, Step: 6/164, Loss: 3.030017, Accuracy: 17.19%
Epoch: 1, Step: 7/164, Loss: 2.976851, Accuracy: 18.30%
Epoch: 1, Step: 8/164, Loss: 2.883705, Accuracy: 18.36%
Epoch: 1, Step: 9/164, Loss: 2.802215, Accuracy: 19.10%
Epoch: 1, Step: 10/164, Loss: 2.744764, Accuracy: 20.31%
Epoch: 1, Step: 11/164, Loss: 2.692424, Accuracy: 20.60%
Epoch: 1, Step: 12/164, Loss: 2.640583, Accuracy: 21.16%
Epoch: 1, Step: 13/164, Loss: 2.606119, Accuracy: 20.97%
Epoch: 1, Step: 14/164, Loss: 2.571197, Accuracy: 21.09%
Epoch: 1, Step: 15/164, Loss: 2.538151, Accuracy: 21.46%
Epoch: 1, Step: 16/164, Loss: 2.504676, Accuracy: 21.58%
Epoch: 1, Step: 17/164, Loss: 2.478631, Accuracy: 22.01%
Epoch: 1, Step: 18/164, Loss: 2.447697, A

In [None]:
test(model, test_loader, criterion)