# 합성곱 신경망 (Convolutional Neural Network)

- 사이토고키/개앞맵시, Chapter 7, 밑바닥부터 시작하는 딥러닝, 한빛미디어

## 7.1 전체 구조

완전연결 계층(Affine 계층)으로 이뤄진 네트워크의 예:
<img src="./images/fig 7-1.png" width="700">

CNN으로 이뤄진 네트워크의 예: 합성곱 계층과 풀링 계층 새로 추가
<img src="./images/fig 7-2.png" width="700">

## 7.2 합성곱 계층

### 7.2.1 완전연결 계층의 문제점
- 데이터의 형상이 무시 
  - 3차원 데이터를 평평한 1차원 데이터로 평탄화해서 입력함 (예, MNIST (1,28,28) -> 784)
- 이미지는 3차원(세로,가로,채널) 형상이며 공간적 정보가 담겨 있음 
  - 공간적으로 가까운 픽셀은 값이 비슷함
  - RGB의 각 채널은 서로 밀접하게 관련되어 있음
  - 거리가 먼 픽셀끼리는 별 연관이 없음
- 합성곱 계층은 형상을 유지
  - 3차원 데이터를 입력 받아 다음 계층에 3차원 데이터로 전달 

- 특징 맵 (feature map) : 합성곱 계층의 입출력 데이터
  - 입력 특징 맵 : 합성곱 계층의 입력 데이터
  - 출력 특징 맵 : 합성곱 계층의 출력 데이터

### 7.2.2 합성곱 연산

- 이미지 처리에서는 필터 연산이라 불림 (공간 필터링)

<img src="./images/fig 7-3.png" width="500">

* 필터 = 마스크 = 커널

합성곱 연산의 계산 순서 : 

$$ \text{첫번째 그림: }  1*2 + 2*0 + 3*1 + 0*0 + 1*1 + 2*2 + 3*1 + 0*0 + 1*2 = 15 $$

<img src="./images/fig 7-4.png" width="500">

**예) 이미지에서의 합성곱 연산** (https://alzi.tistory.com/83)

$$ 
\text{Convolution filter} =
\begin{bmatrix} 
   -1 & 0 & 1 \\
   -1 & 0 & 1 \\
   -1 & 0 & 1
\end{bmatrix}
$$
<img src="./images/conv_mask1_image.JPG" width="600">

$$ 
\text{Convolution filter} =
\begin{bmatrix} 
   1 & 0 & -1 \\
   1 & 0 & -1 \\
   1 & 0 & -1
\end{bmatrix}
$$
<img src="./images/conv_mask2_image.JPG" width="600">


합성곱 연산의 편향 :
<img src="./images/fig 7-5.png" width="600">

### 7.2.3 패딩

<img src="./images/fig 7-6.png" width="500">

### 7.2.4 스트라이드

스트라이드가 2인 합성곱 연산 :
<img src="./images/fig 7-7.png" width="500">

출력 크기 (OH,OW) : 입력 크기 (H,W), 필터 크기 (FH,FW), 패딩 P, 스트라이드 S

<img src="./images/e 7.1.png" width="200">

### 7.2.5 3차원 데이터의 합성곱 연산

특징맵 형상 : (세로,가로,채널)
<img src="./images/fig 7-8.png" width="500">

3차원 데이터의 합성곱 연산의 계산 순서 :
<img src="./images/fig 7-9.png" width="500">

### 7.2.6 블록으로 생각하기

<img src="./images/fig 7-10.png" width="500">

여러 필터를 사용한 합성곱 연산의 예 :
<img src="./images/fig 7-11.png" width="500">

합성곱 연산의 처리 흐름 (편향 추가) :
<img src="./images/fig 7-12.png" width="700">

### 7.2.7 배치 처리

<img src="./images/fig 7-13.png" width="700">

## 7.3 풀링 계층

- 풀링은 세로$\cdot$가로 방향의 공간을 줄이는 연산이다

최대 풀링의 처리 순서 : 2$\times$2 풀링, 스트라이드 2
<img src="./images/fig 7-14.png" width="600">

### 7.3.1 풀링 계층의 특징

- 학습해야 할 매개변수가 없다
- 채널 수가 변하지 않는다
- 입력의 변화에 영향을 적게 받는다 (강건하다) (아래 예에서 입력 데이터가 가로로 1원소 만큼 어긋나도 출력은 같다)
<img src="./images/fig 7-16.png" width="600">

## 7.6 CNN 시각화하기

학습 전과 후의 1번째 층의 합성곱 계층의 가중치 : 검은색(0), 흰색(255)
<img src="./images/fig 7-24.png" width="600">

가로 에지와 세로 에지에 반응하는 필터 :
<img src="./images/fig 7-25.png" width="600">

CNN의 합성곱 계층에서 추출되는 정보 :
<img src="./images/fig 7-26.png" width="700">

# Example of Convolutional Neural Network
- MNIST data
- 3 convolutional layers
- 2 fully connected layers

## 1. Settings
### 1) Import required libraries

In [1]:
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.init as init
import torchvision.datasets as dset
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
from torch.autograd import Variable
#from visdom import Visdom
#viz = Visdom()

### 2) Set hyperparameters

In [2]:
batch_size = 100
learning_rate = 0.0002
num_epoch = 10

## 2. Data

### 1) Download Data

In [3]:
mnist_train = dset.MNIST("./", train=True, transform=transforms.ToTensor(), target_transform=None, download=True)
mnist_test = dset.MNIST("./", train=False, transform=transforms.ToTensor(), target_transform=None, download=True)

### 2) Check Dataset

In [4]:
print(mnist_train.__getitem__(0)[0].size(), mnist_train.__len__())
mnist_test.__getitem__(0)[0].size(), mnist_test.__len__()

torch.Size([1, 28, 28]) 60000


(torch.Size([1, 28, 28]), 10000)

### 3) Set DataLoader

In [5]:
train_loader = torch.utils.data.DataLoader(mnist_train,batch_size=batch_size, shuffle=True,num_workers=2,drop_last=True)
test_loader = torch.utils.data.DataLoader(mnist_test,batch_size=batch_size, shuffle=False,num_workers=2,drop_last=True)

## 3. Model & Optimizer

### 1) CNN Model

### Conv2d class :

CLASS torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros')
- input size: $(N, C_{\text{in}}, H, W)$
- output size: $(N, C_{\text{out}}, H_{\text{out}}, W_{\text{out}})$
- output value: 
$$ \text{out} (N_i,C_{\text{out}_j}) = \text{bias} (C_{\text{out}_j}) + 
 \sum_{k=0}^{C_{\text{in}} - 1} \text{weight} (C_{\text{out}_j}, k) * \text{input} (N_i, k)  $$
- output shape: 
$$ H_{\text{out}} = \frac{H + 2P -KH}{S} + 1, \text{where KH is kernel height, P is padding, S is stide} $$
$$ W_{\text{out}} = \frac{W + 2P -KW}{S} + 1, \text{where KW is kernel width, P is padding, S is stide} $$

### MaxPool2d class :

CLASS torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
- input size: $(N, C_{\text{in}}, H, W)$
- output size: $(N, C_{\text{out}}, H_{\text{out}}, W_{\text{out}})$
- output shape: 
$$ H_{\text{out}} = \frac{H}{S}, \text{Usually S = pooling window size} $$
$$ W_{\text{out}} = \frac{W}{S}, \text{Usually S = pooling window size} $$

In [6]:
class CNN(nn.Module):
    def __init__(self):
        super(CNN,self).__init__()
        self.layer = nn.Sequential(
            nn.Conv2d(1,16,5),    # in_channels=1, out_channels=16, kernel_size=5, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros'
                                  # input shape = (batch_size, channels, height, width) = (batch_size, 1, 28, 28)
                                  # output shape = (batch_size, channels, height, width) = (batch_size, 16, 24, 24)
            nn.ReLU(),
            nn.Conv2d(16,32,5),    # in_channels=16, out_channels=32, kernel_size=5, ...
                                   # output shape = (batch_size, channels, height, width) = (batch_size, 32, 20, 20)
            nn.ReLU(),
            nn.MaxPool2d(2,2),     # output shape = (batch_size, 32, 10, 10)
            nn.Conv2d(32,64,5),    # in_channels=32, out_channels=64, kernel_size=5, ...
                                   # output shape = (batch_size, channels, height, width) = (batch_size, 64, 6, 6)
            nn.ReLU(),
            nn.MaxPool2d(2,2)      # output shape = (batch_size, 64, 3, 3)
        )
        self.fc_layer = nn.Sequential(
            nn.Linear(64*3*3,100),
            nn.ReLU(),
            nn.Linear(100,10)
        )       
        
    def forward(self,x):
        out = self.layer(x)
        out = out.view(batch_size,-1)
        out = self.fc_layer(out)

        return out

#model = CNN().cuda()
model = CNN()

### 2) Loss func & Optimizer

In [7]:
loss_func = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

## 4. Train 

In [8]:
for i in range(num_epoch):
    for j,[image,label] in enumerate(train_loader):
        #x = Variable(image).cuda()
        x = Variable(image)
        #y_= Variable(label).cuda()
        y_= Variable(label)
        
        optimizer.zero_grad()
        output = model.forward(x)
        loss = loss_func(output,y_)
        loss.backward()
        optimizer.step()
        
        if j % 100 == 0:
            print(i,j,loss)
            
print("Done!!!")

0 0 tensor(2.3166, grad_fn=<NllLossBackward>)
0 100 tensor(2.3131, grad_fn=<NllLossBackward>)
0 200 tensor(2.3003, grad_fn=<NllLossBackward>)
0 300 tensor(2.3085, grad_fn=<NllLossBackward>)
0 400 tensor(2.3071, grad_fn=<NllLossBackward>)
0 500 tensor(2.3028, grad_fn=<NllLossBackward>)
1 0 tensor(2.3134, grad_fn=<NllLossBackward>)
1 100 tensor(2.3055, grad_fn=<NllLossBackward>)
1 200 tensor(2.3045, grad_fn=<NllLossBackward>)
1 300 tensor(2.3114, grad_fn=<NllLossBackward>)
1 400 tensor(2.3222, grad_fn=<NllLossBackward>)
1 500 tensor(2.3067, grad_fn=<NllLossBackward>)
2 0 tensor(2.2998, grad_fn=<NllLossBackward>)
2 100 tensor(2.3128, grad_fn=<NllLossBackward>)
2 200 tensor(2.2916, grad_fn=<NllLossBackward>)
2 300 tensor(2.3082, grad_fn=<NllLossBackward>)
2 400 tensor(2.3000, grad_fn=<NllLossBackward>)
2 500 tensor(2.3064, grad_fn=<NllLossBackward>)
3 0 tensor(2.3009, grad_fn=<NllLossBackward>)
3 100 tensor(2.2941, grad_fn=<NllLossBackward>)
3 200 tensor(2.3092, grad_fn=<NllLossBackward>)


In [9]:
#param_list = list(model.parameters())
#print(param_list)

## 5. Test

In [12]:
correct = 0
total = 0

for image,label in test_loader:
    #x = Variable(image,volatile=True).cuda()
    x = Variable(image,volatile=True)
    #y_= Variable(label).cuda()
    y_= Variable(label)

    output = model.forward(x)
    _,output_index = torch.max(output,1)
        
    total += label.size(0)
    correct += (output_index == y_).sum().float()
    
print("Accuracy of Test Data: {}".format(100*correct/total))

  


Accuracy of Test Data: 90.79000091552734
