## Convolution Neural Network

### 이미지 컨벌루션 연산 과정

- 이미지 위에서 stride 값 만큼 filter(kernel)을 이동시키면서 겹쳐지는 부분의 각 원소의 값을 곱해서 모두 더한 값을 출력으로 하는 연산

![image1](../images/cnn/image1.png)
![image2](../images/cnn/image2.png)

### 컨벌루션 필터의 슬라이딩 순서

- 보통 가로 방향으로 한 줄을 슬라이딩하고 나서 세로 반향으로 한 칸씩 아래로 이동하는 순서로 진행

![image3](../images/cnn/image3.png)

### 풀링 연산을 이용한 서브샘플링

- 풀링 연산은 이미지상에서 풀링 필터를 슬라이딩하면서 요약 통계량을 구하는 연산

- 다음 그림과 같이 4x4 이미지에 2x2 풀링 필터로 맥스 풀링과 평균 풀링을 구행한다고 가정

- 파란색, 주황색, 녹색, 노란색 영역이 풀링 필터와 이미지가 겹쳐지는 영역이며, 각 영역에서 최댓값과 평균을 구하면 오른쪽의 2x2 이미지가 생성된다.

![image4](../images/cnn/image4.png)

### 스트라이드

- 컨벌루션 연산과 풀링 연산을 할 때 필터의 슬라이딩 간격을 스트라이드라고 한다.

#### 스트라이드 크기별 컨벌루션 연산

- 다음과 같이 7x7 이미지와 3x3 콘벌루션 필터가 있다고 가정

- 스트라이드 1로 콘벌루션 연산을 한다면 출력 이미지의 크기는 어떻게 될까?

![image5](../images/cnn/image5.png)

- 스트라이드 2와 3으로 컨벌루션 연산을 한다면 출력 이미지의 크기는 어떻게 될까?

![image6](../images/cnn/image6.png)

#### 컨벌루션 연산의 출력 크기
- 컨벌루션 연산의 출력 크기는 수식으로 간단히 계산할 수 있다.
$$ O = \frac{N - F}{S} + 1 $$
$$ N: 입력 데이터의 크기 $$
$$ F: 컨벌루션 필터 크기 $$
$$ S: 스트라이드 $$
$$ O: 출력 데이터 크기 $$

#### 컨벌루션 연산의 출력 크기 계산 예시
- 이미지가 7 x 7, 컨벌루션 필터가 3 x 3, 스트라이드가 1일 때 출력의 크기를 계산
$$ O = \frac{N - F}{S} + 1 = \frac{7 - 3}{1} + 1 = 5 $$

- 스트라이드가 2인 경우에도 출력의 크기는 3 x 3이 되는 것을 확인할 수 있다.
$$ O = \frac{N - F}{S} + 1 = \frac{7 - 3}{2} + 1 = 3 $$

### 패딩

- 콘벌루션 연산을 하면 콘벌루션 필터가 입력 이미지 안에서만 슬라이딩하므로 출력 이미지의 크기는 입력 이미지의 크기보다 작아질 수밖에 없다.

- 콘벌루션 연산 뒤에도 이미지 크기를 유지하려면 이미지에 픽셀을 추가하여 크기를 늘려줘야 하는데, 이와 같은 방법을 이미지 패딩이라고 한다.

#### 패딩을 고려한 콘벌루션 연산의 출력 크기

$$ O = \frac{(N + 2 \times P) - F}{S} + 1 $$
$$ N: 입력 데이터의 크기 $$
$$ F: 패딩 $$
$$ F: 컨벌루션 필터 크기 $$
$$ S: 스트라이드 $$
$$ O: 출력 데이터 크기 $$

#### 7 x 7 이미지 패딩 예시

- 7 x 7 이미지에 패딩을 추가하여 9 x 9 이미지를 생성

![image7](../images/cnn/image7.png)

- 앞의 식에 N = 7, P = 1, F = 3, S = 1을 대입하면 컨벌루션 연산 후에도 이미지 크기가 7로 유지되는 것을 알 수 있다.
$$ O = \frac{(N + 2 \times P) - F}{S} + 1 = \frac{(7 + 2 \times 1) - 3}{1} + 1 = 7 $$

#### 이미지 크기를 유지하기 위한 패딩 크기 계산
- 컨벌루션 연산 후 이미지 크기를 유지하기 위한 패딩 크기는 어떻게 계산해야 할까?

- 먼저 앞의 출력 계산식을 P에 대해 정리

- 다음과 같이 출력 이미지를 원하는 크기로 만들기 위한 입력 이미지의 패딩 크기를 계산하는 식이 된다.

$$ P = \frac{(O - 1) \times S - (N - F)}{2} $$

## 1D convolution and padding (with numpy)

In [5]:
import numpy as np

def conv1d(x, w, p=0, s=1):
    w_rot = np.array(w)
    x_padded = np.array(x)
    if p > 0:
        zero_pad = np.zeros(shape=p)
        x_padded = np.concatenate([zero_pad, x_padded, zero_pad])
    res = []
    for i in range(0, int((len(x) + 2 * p - len(w)) / s) + 1):
        j = s * i
        res.append(np.sum(x_padded[j:j+w_rot.shape[0]] * w_rot))
    return np.array(res)

x = [1, 0, 2, 3, 0, 1, 1]
w = [2, 1, 3]
print('Conv1d Implementation: ', conv1d(x, w, p=0, s=1))
print('Numpy Results: ', np.convolve(x, w, mode='valid')) # w = [3, 1, 2], p=0, s=1

Conv1d Implementation:  [ 8 11  7  9  4]
Numpy Results:  [ 7  8  9 11  3]


## 1D convolution and padding (with PyTorch)

In [6]:
import torch
import torch.nn.functional as F

i = torch.tensor([1, 0, 2, 3, 0, 1, 1], dtype=torch.float32, requires_grad=False)
k = torch.tensor([2, 1, 3], dtype=torch.float32, requires_grad=False)

print(i, '\n', k, '\n')

data = i.view(1, 1, i.shape[0])
kernel = k.view(1, 1, k.shape[0])

print(data, '\n', kernel, '\n')

res = F.conv1d(data, kernel, stride=1, padding=0).squeeze()

print(res)

tensor([1., 0., 2., 3., 0., 1., 1.]) 
 tensor([2., 1., 3.]) 

tensor([[[1., 0., 2., 3., 0., 1., 1.]]]) 
 tensor([[[2., 1., 3.]]]) 

tensor([ 8., 11.,  7.,  9.,  4.])


## 2D convolution + padding

In [11]:
import numpy as np
import scipy.signal

def conv2d(X, W, p=(1, 1), s=(1, 1)):
    W_rot = np.array(W)[::-1, ::-1]
    X_orig = np.array(X)
    n1 = X_orig.shape[0] + 2 * p[0]
    n2 = X_orig.shape[1] + 2 * p[1]
    X_padded = np.zeros(shape=(n1, n2))
    X_padded[p[0]:p[0] + X_orig.shape[0], p[1]:p[1] + X_orig.shape[1]] = X_orig

    res = []
    for i in range(0, int((X_padded.shape[0] - W_rot.shape[0]) / s[0]) + 1):
        res.append([])
        for j in range(0, int((X_padded.shape[1] - W_rot.shape[1]) / s[1]) + 1):
            X_sub = X_padded[i*s[0]:i*s[0]+W_rot.shape[0], j*s[1]:j*s[1]+W_rot.shape[1]]
            res[-1].append(np.sum(X_sub * W_rot))
    return (np.array(res))

X = [[1, 2, 3, 4], [5, 6, 1, 3], [1, 2, 0, 2], [3, 4, 3, 2]]
W = [[1, 0, 3], [1, 2, 1], [0, 1, 1]]
print('Conv2d Implementation: \n', conv2d(X, W, p=(1, 1), s=(1, 1)))
print('Scipy Result: \n', scipy.signal.convolve2d(X, W, mode='same'))

Conv2d Implementation: 
 [[10. 24. 33. 14.]
 [19. 24. 24. 14.]
 [13. 28. 25. 17.]
 [11. 17. 14.  9.]]
Scipy Result: 
 [[10 24 33 14]
 [19 24 24 14]
 [13 28 25 17]
 [11 17 14  9]]
