# Lab 10 Convolution

- MNIST
- PyTorch Visdom
- PyTorch Datasets & Custom Dataset
- CIFAR-10
- VGG & ResNet

## Convolution?

- 이미지 위에서 stride 값 만큼 filter(kernel)을 이동시키면서 겹쳐지는 부분의 각 원소의 값을 곱해서 모두 더한 값을 출력으로 하는 연산

```
1 2 3 0 1
0 1 5 1 0     1 0 1    8 9 8
1 0 2 2 1     0 1 0    8 5 9
1 1 2 0 0     1 0 1    6 5 5
1 0 1 1 1

  input      filter   output
```
 
```
output[0][0] =
    (1x1) + (2x0) + (3x1) +
    (0x0) + (1x1) + (5x0) +
    (1x1) + (0x0) + (2x1) = 8
```

- stride : filter를 한 번에 얼마나 이동할 것인가
- padding : zero-padding (zero-padding이 1이면 0 띠가 한 번 주위를 두른다.)

## PyTorch nn.Conv2d

ex) 입력 채널 1 / 출력 채널 1 / 커널 크기 3x3

$\text{out}(N_i, C_{\text{out}_j}) = \text{bias}(C_{\text{out}_j}) + \sum_{k=0}^{C_{in} - 1} \text{weight}(C_{\text{out}_j}, k) * \text{input}(N_i, k)$

(where $*$ is the valid 2D cross-correlation operator)

`torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)`

ex) `conv = nn.Conv2d(1, 1, 3)`

만약 커널이 정 사이즈가 아니면 (1, 3) 같은 튜플로 넣으면 됨.


## 입력의 형태

- input type : torch.Tensor
- input shape : (N x C x H x W) (batch_size, channel, height, width)

## 직접 해볼까요?

$\text{output size} = \frac{\text{input size} - \text{filter size} + (2 * \text{padding})}{\text{stride}} + 1$

- 예제 1)
    - input image size : 227x227
    - filter size = 11x11
    - stride = 4
    - padding = 0
    - **output image size = ?**
- 예제 2)
    - input image size : 64x64
    - filter size = 7x7
    - stride = 2
    - padding = 0
    - **output image size = ?**
- 예제 3)
    - input image size : 32x32
    - filter size = 5x5
    - stride = 1
    - padding = 2
    - **output image size = ?**
- 예제 4)
    - input image size : 32x64
    - filter size = 5x5
    - stride = 1
    - padding = 0
    - **output image size = ?**
- 예제 5)
    - input image size : 64x32
    - filter size = 3x3
    - stride = 1
    - padding = 1
    - **output image size = ?**

In [1]:
import torch
import torch.nn as nn

conv = nn.Conv2d(1, 1, 11, stride=4, padding=0)
conv            # Conv2d(1, 1, kernel_size=(11, 11), stride=(4, 4))

inputs = torch.Tensor(1, 1, 227, 227)
inputs.shape    # torch.Size([1, 1, 227, 227])

out = conv(inputs)
out.shape       # torch.Size([1, 1, 55, 55])

torch.Size([1, 1, 55, 55])

## Neuron과 Convolution

- Perceptron과 Convolution

```
   1 1
  2 0 \
 3 1 \
 0 0 -
 1 1 - Perceptron   - 8 (1 + 3 + 1 + 1 + 2)
 5 0 -
 1 1 /     |
  0 0 /
   2 1    bias
```
(첫 번째는 input, 두 번째는 weight)


## Pooling
이미지 사이즈 줄이기 위해서 사용할 수도 있고, fully-connected 연산을 대체하기 위해 average pooling을 사용하기도 함.

- Max Pooling
    ```
    1 9 3 7
    4 5 2 8  ->  9 8
    7 3 9 0      7 9
    1 2 3 3
    ```

- Average Pooling
    ```
    1 1 2 2
    1 1 2 2  ->  1 2
    3 3 1 2      3 2
    3 3 1 4
    ```

`torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)`

## CNN implementation

![snapshot](./10-1-0.png)

In [3]:
input = torch.Tensor(1, 1, 28, 28)
conv1 = nn.Conv2d(1, 5, 5)
pool = nn.MaxPool2d(2)
out = conv1(input)
out2 = pool(out)
out.size()     # torch.Size([1, 5, 24, 24])
out2.size()    # torch.Size([1, 5, 12, 12])

torch.Size([1, 5, 12, 12])

## What's Next?

- 오늘은 Convolution 연산과 Pooling 연산을 배우고 직접 활용해봤습니다.
- 다음 시간에는 MNIST dataset에 CNN을 적용해보도록 하겠습니다.

## One More Thing!
굳이 공부할 필요는 없는 것.

**cross-correlation ($*$)가 뭐냐?**

![snapshot](./10-1-1.png)

- convolution은, 이 친구가 filter라 생각해봤을 때, 필터 값이 기존의 이미지와 얼마나 겹치는가에 해당하는 걸로 출력 값 결정.
- cross-correlation은, g 값을 뒤집지 않고 그대로 집어 넣음.

### Cross-correlation

- Cross-correlation과 Convolution의 차이를 간단히 말하면...?

- 뒤집고 계산하면 => (Convolution)
- 안 뒤집고 계산하면 => (Cross-Correlation)

- 안 뒤집고 계산해서 Cross-Correlation!

실제로 딥러닝 공부하면서는 cross-correlation과 convolution에 대해서 크게 고민을 할 필요는 없기 때문에 one more thing이라 넣어둔 것. 몰라도 무방하다.