# CNN 개요

합성곱 신경망(Convolutional Neural Network, CNN)은 주로 이미지와 같은 2차원 데이터 분석에 적합한 신경망 구조이다.

합성곱과 풀링 계층을 사용하여 특징을 추출하고, 최종적으로 완전 연결 계층을 통해 분류 작업을 수행한다.

CNN은 이미지의 공간적 구조를 유지하면서 각 픽셀 간의 관계를 고려할 수 있는 특성이 있어, 이미지 인식, 영상 분석, 그리고 자연어 처리에서도 널리 활용된다.

![](https://d.pr/i/nSRcmK+)

![](https://d.pr/i/yCJQyk+)


1. 합성곱 층(Convolutional Layer)
    - **합성곱 연산**을 통해 이미지의 중요한 특징을 추출한다. 작은 필터(또는 커널)를 사용하여 이미지 전체를 슬라이딩하며 각 영역의 특징을 추출한다.
    - 필터는 각각 특정 패턴(예: 가장자리, 텍스처 등)을 감지하는데, 이 필터들을 학습하면서 이미지의 중요한 정보가 추출된다.
    - 각 필터의 이동 결과를 **특징 맵(feature map)**이라고 하며, 이 특징 맵들이 합쳐져서 이미지의 중요한 정보를 단계적으로 추출한다.

    - **활성화 함수**
        - 합성곱 층의 출력을 비선형 함수인 **ReLU** 함수에 통과시켜 비선형성을 부여한다. 이를 통해 네트워크가 더 복잡한 패턴을 학습할 수 있게 된다.

    - 풀링 층(Pooling Layer)
        - **맥스 풀링(Max Pooling)**이나 **평균 풀링(Average Pooling)**과 같은 연산을 통해 특징 맵의 크기를 줄여 데이터의 차원을 줄이고 계산량을 줄인다.
        - 일반적으로 가장 높은 값을 취하는 맥스 풀링이 자주 사용되며, 이를 통해 이미지의 주요 특징이 강조된다.
        - 풀링은 데이터의 위치에 대한 불변성을 높이는 데 도움을 주며, 과적합을 방지하는 효과도 있다.

2. 완전 연결 층(Fully Connected Layer)
    - 마지막으로, 추출된 특징을 활용하여 분류 작업을 수행하기 위해 **완전 연결 층**을 사용한다.
    - CNN의 마지막 단계에서 1차원 벡터 형태로 평탄화(Flatten)된 후, 완전 연결 층으로 연결되어 각 클래스에 대한 확률값을 출력한다.
  
3. CNN의 학습
    - CNN은 데이터의 특징을 학습하며 필터와 가중치를 최적화해나간다. 이를 위해 **역전파(backpropagation)**와 **경사하강법(gradient descent)**을 사용하여 필터의 파라미터를 갱신한다.
    - CNN은 이미지에서 가장자리, 질감, 모양 등의 낮은 수준의 특징을 추출한 후 점차 높은 수준의 의미 있는 특징을 추출해 최종적으로 분류를 가능하게 한다.

## Convolution Layer 주요개념

**Feature Extraction**: 이미지의 특정 패턴이나 특징을 추출하는 과정으로, CNN에서 필터와 합성곱 연산을 통해 이미지의 중요한 특징을 뽑아낸다.

**Filter (Kernel)**: 작은 행렬로, 이미지의 특정 패턴을 인식하는 역할을 한다. 필터를 이미지에 적용해 특징 맵(feature map)을 생성한다.

**필터를 한번 사용할때, 하나의 출력값이 나온다.**

![http://ufldl.stanford.edu/tutorial/supervised/FeatureExtractionUsingConvolution/](https://d.pr/i/UIgjFa+)


![https://towardsdatascience.com/convolutional-neural-network-1368ee2998d3](https://miro.medium.com/v2/resize:fit:640/format:webp/1*Ff6mG3aPdWFkjb6hZPy3Xw.gif)




**Stride**

필터를 적용할 때 이미지 위에서 움직이는 간격이다. 스트라이드가 커질수록 출력 크기는 줄어든다.


![https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1
](https://miro.medium.com/v2/resize:fit:588/format:webp/1*BMngs93_rm2_BpJFH2mS0Q.gif)


**Padding**

입력 이미지 주변에 여백을 추가하는 것으로, 출력 크기를 조절하고 경계 부분의 정보 손실을 막는 데 사용된다.

- **Valid Padding**: 패딩을 주지 않는 방식으로, 출력 크기는 입력보다 작아진다.(기본값)
- **Same Padding**: 출력 크기가 입력과 동일하도록 패딩을 적용한다.


![https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1
](https://miro.medium.com/v2/resize:fit:640/format:webp/1*1okwhewf5KCtIPaFib4XaA.gif)

**Pooling(Sub-sampling)**

특징 맵에서 공간 크기를 줄이고 계산량을 줄이는 과정이다. 최대 풀링(max pooling) 또는 평균 풀링(avg pooling)을 사용한다.

![https://towardsdatascience.com/convolutional-neural-network-1368ee2998d3](https://d.pr/i/5S0uPJ+)


![http://ufldl.stanford.edu/tutorial/supervised/Pooling/](https://d.pr/i/I9XtBk+)

**Channel & Filter**

이미지의 색상 채널(RGB)에 대해 개별적으로 필터를 적용해 각 채널에서 특징을 추출하고, 이를 합쳐서 최종 특징 맵을 만든다.

**입력 Image의 채널수가 필터의 채널수이다.**

**필터의 개수는 출력 Feature Map의 채널수이다.**


![https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*8dx6nxpUh2JqvYWPadTwMQ.gif)

![https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1
](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*CYB2dyR3EhFs1xNLK8ewiA.gif)


![https://cs231n.github.io/convolutional-networks/](https://d.pr/i/RMxib5+)


**혼공머신 제공 이미지**

1. 채널수1인 회색조 이미지 x 필터 1개

 ![](https://d.pr/i/Yu6mit+)

 ![](https://d.pr/i/mcDWGx+)

 ![](https://d.pr/i/WXX9zF+)

2. 채널수1인 회색조 이미지 x 필터 3개

 ![](https://d.pr/i/bQ98d0+)

 ![](https://d.pr/i/MKjanb+)

 ![](https://d.pr/i/I7GEfs+)

3. 채널수3인 컬러이미지 x 필터 1개

 ![](https://d.pr/i/8SqpOb+)

 ![](https://d.pr/i/4DO2KL+)

4. 채널수3인 컬러이미지 x 필터 3개

 ![](https://d.pr/i/WEiHAG+)

 ![](https://d.pr/i/VmEwgB+)

# conv layer + pooling layer

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

input_tensor = torch.randn(1, 1, 28, 28)

conv_layer = nn.Conv2d(
    in_channels = 1,
    out_channels = 4,
    kernel_size = 3,
    stride = 1,
    padding = 'same'
)

x = F.relu(conv_layer(input_tensor))
print(x.shape)

x = F.max_pool2d(x, kernel_size = 2, stride = 2)
print(x.shape)



torch.Size([1, 4, 28, 28])
torch.Size([1, 4, 14, 14])


# FashionMNIST