<a href="https://colab.research.google.com/github/JunHyeong-data/ML-DL-Study/blob/main/Basic-Deep-Learning/16_%EB%94%A5%EB%9F%AC%EB%8B%9D%2C_CNN_options.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# CNN Convolution 옵션 정리: Padding, Stride, Dilation

이전 영상에서는 다음 내용을 학습했다.

- Convolution 연산의 기본 개념
- CNN에서 **채널(channel)** 과 **네트워크 깊이(depth)** 의 의미
- Convolution layer 이후 **Fully Connected layer** 를 이용한 Classification

사실 CNN 아키텍처의 큰 틀은 여기까지가 전부지만,  
컴퓨터 비전 응용에서 CNN을 **제대로 이해하고 활용**하려면  
몇 가지 중요한 옵션들을 추가로 알아야 한다.

이번 문서에서는 `Conv2d`에서 사용되는 다음 세 가지 파라미터를 다룬다.

- Padding
- Stride
- Dilation

---

## 1. Convolution2D 기본 파라미터 복습

PyTorch의 `Conv2d`에는 여러 인자가 존재한다.

이미 알고 있는 주요 파라미터는 다음과 같다.

- `in_channels` : 입력 채널 수
- `out_channels` : 출력 채널 수
- `kernel_size` : 커널 크기

### 예시

- 입력 이미지: 채널 3 (RGB)
- 출력 채널: 16

```python
nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)
````

---

## 2. Kernel Size와 Output 크기 변화

입력 이미지의 크기가 다음과 같다고 가정하자.

* 입력 크기: `(3, 224, 224)`

### (1) Kernel Size = 3

* Output 크기: `(16, 222, 222)`

### (2) Kernel Size = 5

* Output 크기: `(16, 220, 220)`

➡️ 이유
Convolution은 **슬라이딩 윈도우 방식**이기 때문에
커널 크기가 커질수록 출력 이미지 크기는 줄어든다.

---

## 3. Padding

### Padding이 필요한 이유

Convolution 연산을 수행하면 출력 이미지 크기가 계속 줄어든다.
이를 방지하기 위해 **입력 이미지 가장자리에 값을 추가**하는 것이 Padding이다.

일반적으로 가장 많이 사용하는 방식은 **Zero Padding**이다.

### Padding의 효과

* 입력 크기를 임시로 확장
* Convolution 이후에도 **출력 크기 유지 가능**

### 예시 (PyTorch)

```python
# 입력 텐서
input = torch.randn(1, 3, 224, 224)

# Padding 없이 Conv
conv = nn.Conv2d(3, 16, kernel_size=5)
output = conv(input)
# 출력 크기: (1, 16, 220, 220)

# Padding 적용
conv_pad = nn.Conv2d(3, 16, kernel_size=5, padding=2)
output_pad = conv_pad(input)
# 출력 크기: (1, 16, 224, 224)
```

➡️ Kernel size가 5일 때, padding을 2로 주면 입력과 출력 크기가 동일해진다.

---

## 4. Stride

### Stride란?

Stride는 **슬라이딩 윈도우가 이동하는 간격**이다.

* 기본값: `stride = 1`
* 값이 커질수록 출력 크기는 작아진다.

### Stride를 사용하는 이유

CNN은 일반적으로 **아주 깊은 구조**를 가진다.
공간 크기를 줄이지 않으면 연산량이 지나치게 커진다.

➡️ Stride는 **효과적인 다운샘플링 방법**이다.

---

### 예시 1: 작은 입력

* 입력 크기: `(1, 4, 4)`
* Kernel size: 2

#### Stride = 1

* 출력 크기: `(1, 3, 3)`

#### Stride = 2

* 슬라이딩 윈도우가 한 칸씩이 아니라 두 칸씩 이동
* 출력 크기 감소

---

### 예시 2: 실제 이미지 크기

* 입력 크기: `(224, 224)`
* Kernel size: 3
* Stride: 2

➡️ 출력 크기: `(112, 112)`

```python
conv = nn.Conv2d(3, 16, kernel_size=3, stride=2)
```

---

## 5. Dilation

### Dilation이란?

Dilation은 Convolution 커널을 **띄엄띄엄 떨어뜨려 적용**하는 방식이다.

* 커널의 실제 크기는 유지
* **수용 영역(Receptive Field)** 은 커짐

즉, 한 번의 Convolution으로 **더 넓은 영역의 정보를 학습**할 수 있다.

---

### Dilation의 특징

* 슬라이딩 윈도우 방식은 동일
* 커널이 입력 이미지와 매칭되는 방식만 달라짐
* 작은 커널로 넓은 패턴 학습 가능

### 활용 예시

* 이미지 세그멘테이션 네트워크
* 넓은 문맥 정보(Context)가 중요한 경우

---

## 6. 정리

이번 문서에서 다룬 Convolution 옵션은 다음과 같다.

| 옵션       | 역할               |
| -------- | ---------------- |
| Padding  | 출력 크기 유지         |
| Stride   | 출력 크기 감소 (다운샘플링) |
| Dilation | 넓은 영역의 패턴 학습     |

이 옵션들은 CNN 아키텍처를 설명할 때 **항상 등장**하며,
네트워크 구조를 이해하는 데 매우 중요하다.

---

다음 단계에서는 **Pooling Layer** 에 대해 알아본다.

In [1]:
import torch
import torch.nn as nn

input_tensor = torch.randn(1, 3, 224, 224)
kernel_size = 5
conv_layer = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=kernel_size)
output_tensor = conv_layer(input_tensor)

print(output_tensor.shape)
#torch.randn은 평균 0인 정규분포에서 뽑은 랜덤 값으로 Tensor를 만들어서
#실제 이미지 입력을 흉내 내는 용도로 쓰인다.

torch.Size([1, 16, 220, 220])


| 차원  | 의미             |
| --- | -------------- |
| 1   | 배치 크기 (이미지 1장) |
| 3   | 채널 수 (RGB)     |
| 224 | 높이             |
| 224 | 너비             |


In [3]:
input_tensor = torch.randn(1, 3, 224, 224)
kernel_size = 5
padding = 2
conv_layer = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=kernel_size, padding=padding)
output_tensor = conv_layer(input_tensor)
print(output_tensor.shape)

torch.Size([1, 16, 224, 224])


In [4]:
input_tensor = torch.randn(1, 3, 224, 224)
kernel_size = 2
stride = 2
conv_layer = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=kernel_size, stride=stride)
output_tensor = conv_layer(input_tensor)
print(output_tensor.shape)

torch.Size([1, 16, 112, 112])


In [5]:
input_tensor = torch.randn(1, 3, 224, 224)
kernel_size = 2
dilation = 2
conv_layer = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=kernel_size, dilation=dilation)
output_tensor = conv_layer(input_tensor)
print(output_tensor.shape)

torch.Size([1, 16, 222, 222])
