# CNN - 합성곱 신경망(Convolutional Neural Network)
- 1989년 **Yann Lecun**이 LeNet 모델을 만들면서 제안한 Deep learning 구조
- 주로 컴퓨터 비전(이미지, 동영상관련 처리) 에서 사용되는 딥러닝 모델로 이미지로 부터 특성을 추출하는 **Convolution 레이어를 전처리 Layer로 포함시킨 딥러닝 모델**.

![image.png](figures/09_renet.png)

## CNN 응용되는 다양한 컴퓨터 비전 영역

### 1.  Image Classification (이미지 분류)
- 입력된 이미지가 어떤 라벨에 대응되는지 이미지에 대한 분류(Classification)을 처리.

![image-2.png](figures/cnn1.png)

### 2. Object Detection(물체 검출)
- 이미지 안의 Object(물체)들의 위치를 찾고 어떤 물체인지 분류하는 작업을 한다.
- Localization : 이미지안에서 하나의 Object의 위치와 class를 분류한다.
- Dection: 이미지 안의 여러개의 Object의 위치와 Class를 분류한다.
    
![image-2.png](figures/cnn2.png)

### 3. Image Segmentation (세분화)
- 이미지를 입력받아서 픽셀별로 분류한다.

![image-2.png](figures/cnn3.png)

- Semantic segmentation(의미기반 세분화)
    - 클래스 단위로 구분한다.
    - 같은 클래스는 같은 것으로 구분한다.
- Instance segmantation(인스턴스 기반 세분화)
    - 각 객체 단위로 구분한다.
    - 동일한 클래스라도 다른 객체일 경우 다른 것으로 구분한다.

![image-2.png](figures/cnn4.png)

### Classification, Localization, Object Detection, Segmentation 차이

![image-2.png](figures/cnn5.png)

<font size=2>출처:https://medium.com/zylapp/review-of-deep-learning-algorithms-for-object-detection-c1f3d437b852</font>

### 4. Image Captioning
- 이미지에 대한 설명문을 자동으로 생성

![image-2.png](figures/cnn6.png)

### 5. Super Resolution
- 저해상도의 이미지를 고해상도의 이미지로 변환

![image-2.png](figures/cnn7.png)   
<font size=2>출처: https://www.slrlounge.com/zoom-and-enhance-google-brain-super-resolution-tech-make-tv-trope-a-reality/</font>

### 6. 이미지 생성
- 학습된 결과를 바탕으로 새로운 이미지를 생성한다.

![image-2.png](figures/cnn8.png)  
<font size=2>[출처]https://de.wikipedia.org/wiki/Stable_Diffusion</font>

### 7. Neural Style Transfer 
- 입력 이미지와 스타일 이미지를 합쳐 합성된 새로운 이미지 생성 
- 이미지 스타일 변경해주는 것. 
- ex) 사진을 피카소 그림스타일로 변경 등.
    
![image-2.png](figures/cnn9.png)  

### 8. Text Dectection & OCR
- Text Dectection: 이미지 내의 텍스트 영역을 Bounding Box로 찾아 표시
- OCR: Text Detection이 처리된 Bounding Box 안의 글자들이 어떤 글자인지 찾는다.

![image-2.png](figures/cnn10.png)  

### 9. Keypoint Detection (특징점 검출)

- 인간의 특징점(Keypoint)들을 추정한다.
    - 풀고자 하는 문제에 따라 
        - Human Pose estimation: 사람의 관절을 검출해 자세를 추정
        - Face keypoint detection: 사람얼굴의 각 특징점을 추출해 사람의 표정등을 추정
        - Hand detection: 손가락 관절들을 검출하여 손의 형태를 추정한다.

![image-2.png](figures/cnn11.png)  
<center><font size=2>[출처] https://medium.com/syncedreview/human-pose-estimation-model-hrnet-breaks-three-coco-records-cvpr-accepts-paper-74e57fabdeb6</font></center>

![image-2.png](figures/cnn12.png)  

![image-3.png](attachment:image-3.png)

<font size=2>[출처]https://google.github.io/mediapipe/solutions/solutions.html</font>

##  Computer Vision 이 어려운 이유

- ### 사람과 컴퓨터가 보는 이미지의 차이
    - 컴퓨터가 보는 이미지는 0 ~ 255 사이의 숫자로 이뤄진 행렬이다. 
    - 그 숫자들안에서 패턴을 찾는 것이 쉽지 않다.

![image-2.png](figures/cnn14.png)  



### 1. 배경과 대상이 비슷해서 구별이 안되는 경우
- 명암이나 배경에 의해 경계가 구별이 안되는 경우

![image-2.png](figures/cnn15.png)  

### 2. 같은 종류의 대상도 형태가 너무 많다.

![image-2.png](figures/cnn16.png)  

### 3. 대상이 가려져 있는 경우

![image-2.png](figures/cnn17.png)  

### 4. 같은 class에 다양한 형태가 있다.

![image-2.png](figures/cnn18.png)  

# 기존의 전통적인  이미지 처리 방식과 딥러닝의 차이

## Handcrafted Feature (전통적인 영상처리 방식)
- 분류하려고 하는 이미지의 특징들을 사람이 직접 찾아서 만든다. (Feature Exctraction)
    - 그 찾아낸 특징들을 기반으로 학습시킨다.
    - 특성 추출을 위해 Filter 행렬을 주로 이용함
- 미처 발견하지 못한 특징을 가진 이미지에 대해서는 분류를 하지 못하기 때문에 성능이 떨어진다.
- 다양한 많은 대상들에 대해 특성을 추출하는 것을 사람이 만드는 것이 어렵다.

## End to End learning (딥러닝)
- 이미지의 **특징 추출**부터 추론까지 자동으로 학습시킨다.

![image-2.png](figures/cnn19.png)  

## CNN(Convolution  Neural Network) 

### 구성
- 이미지로 부터 부분적 특성을 추출하는 **Feature Extraction** 부분과 분류를 위한 **추론 부분**으로 나눈다.
- **Feature Extraction 부분에 이미지 특징 추출에 성능이 좋은 Convolution Layer를 사용한다.** 
    - Feature Exctraction : Convolution Layer
    - 추론 : Fully connected layer(Dense Layer) 등
 

![image-2.png](figures/cnn20.png)  

## 영상처리에서 Feature Exctractor를  Fully Connected Layer사용했을 때 문제점
- Fully Connected Layer는 이미지의 공간적(spatial) 구조를 학습하는 것이 어렵다.
    - 같은 형태가 전체 이미지에서 위치가 바뀌었을때 다른 값으로 인식하게 된다.
- 이미지를 input으로 사용하면 weight의 양이 이 매우 큼 
    - weight가 많으면 학습 대상이 많은 것이므로 학습하기가 그만큼 어려워진다.
    - 500 * 500 픽셀 이미지의 경우
        - 흑백은 Unit(노드) 하나당 500 * 500 = 250000 개 학습 파라미터(가중치-weight)
        - 컬러는 Unit(노드) 하나당 500 * 500 * 3 (RGB 3가지) = 750000 학습 파라미터(가중치-weight)


## Convolution(합성곱) 연산  이란
- Convolution Layer는 이미지와 필터간의 **Convolution(합성곱) 연산**을 통해 이미지의 특징을 추출해 낸다.
- 합성곱 연산은 input data와 weight간의 가중합을 구할 때 한번에 구하지 않고 작은 크기의 Filter를 이동시키면서 가중합을 구한다.

### 1D Convolution 연산
![image-2.png](figures/cnn21.png)  

### 2D Convolution 연산

- input 행렬과 Filter 행렬간에 행렬곱 연산을 한다. 
    - 동일한 index의 값끼리 곱한 뒤 더해준다. 

1. ![image.png](attachment:image.png)



2. 
![image.png](attachment:image.png)

3.
![image.png](attachment:image.png)

4.
![image.png](attachment:image.png)

이미지 참조: https://untitledtblog.tistory.com/150

<img src="figures/numerical_no_padding_no_strides.gif" width="50%">

## Feature(특성) 추출과 합성곱
- Filter(Kernel)
    - 이미지와 합성곱 연산을 통해 Feature(패턴)들을 추출한다.

### How?

- 대상 이미지   
![image.png](attachment:image.png)

<font size=2>[출처] https://adeshpande3.github.io/</font>

- Filter/Kernel    
![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

<b>필터와 이미지의 노란 박스 부분을 합성곱하면 6600 이 나온다.</b>

![image.png](attachment:image.png)

<b>필터와 이미지의 노란 박스 부분을 합성곱하면 0 이 나온다.</b>

- <font size='5' color='red'><b>필터와 부분 이미지의 합성곱 결과가 값이 나온다는 것은 그 부분 이미지에 필터가 표현하는 이미지특성이 존재한다는 것이다.</b></font>
    - 기존 Hand craft 방식은 이미지의 특성을 잘 찾을 수 있는 Filter를 사람이 만들었다.
    - CNN은 이 Filter를 데이터 학습을 통해 만든다.

## Deep Learning(CNN)에서의 Filter
- Convolution Layer는 특성을 추출하는 Filter(Kernel)들로 구성되 있다.
    - **Filter(Kernel)를 구성하는 값들은 데이터를 학습해 찾아낸다.**
    - 그래서 Filter를 구성하는 원소(element)들이 Parameter(weight)가 된다.
- 한 Layer를 구성하는 Filter들은 Input(input image 또는 feature map) 에서 각각 다른 패턴(특징)들을 찾아낸다.

### Convolution Layer도 여러층을 쌓는다.

- 입력층(Bottom)과 가까운 Convolution 레이어의 unit들은 이미지의 엣지나 경계선등 저수준의 특성에 반응한다.
  - 저수준의 특성들은 일반화가 쉬운 이미지의 기초적인 특성들이다.
- Layer를 거칠 수로 점점 앞 Layer 들에서 찾은 특성들을 결합하여 고수준의 특성들에 반응한다.
  - 고수준의 특성들은 각 사물만이 가지는 특성들을 말한다. 

<img src="figures/conv2.PNG" width="50%">

## Convolutional Layer 클래스 및 작동방식

### [torch.nn.Conv2d](https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html#conv2d)
- 영상처리를 위한 Convolution Layer. 입력으로 (N, Channel, Height, Width) shape의 tensor를 받는다.
    - N: batch size
    
- **Hyper parameter**
    - **in_channels**
        - 입력 데이터의 channel size
    - **out_channels**
        - 출력 데이터의 channel size. 
        - Layer 를 구성하는 kernel의 개수로 Feature map의 depth, channel의 크기가 된다.
    - **kernel_size**
        - Filter의 크기(height, width)
        - 보통 홀수 크기로 잡는다. (3 * 3, 5 * 5). 주로 3 * 3 필터를 사용한다.
            - height, width가 동일할 경우 정수(int) 한개의 값만 설정한다.
    - **padding=0**
        - input tensor의 추가할 padding(여백)의 크기. default는 0으로 padding을 추가 하지 않는다.
        - "same": input의 height와 width와 동일한 output이 나오도록 padding을 추가한다.
        - "valid": padding을 사용하지 않는다.
    - **stride=1**
        - 연산시 Filter의 이동 size(아래 참조)

- **Feature Map**
    - Filter(Conv2d의 unit)를 거쳐 나온 결과물(output)
    - Feature map의 개수는 Filter당 한개가 생성된다.
    - Feature map의 크기(shape)는 Filter의 크기(shape), Stride, Padding 설정에 따라 달라진다.

### Input shape
- (데이터개수, channel, height, width) 
    - Channel: 하나의 data를 구성하는 행렬의 개수
        - 이미지: 색성분 
            - 흑백(Gray scale) 이미지는 하나의 행렬로 구성
            - 컬러 이미지는 RGB의 각 이미지로 구성되어 3개의 행렬로 구성 
        - Feature map: 특성개수
    - Height: 세로 길이
    - Width: 가로 길이
    


### Feature 추출 연산
![image.png](attachment:image.png)

- **예1**
    - Input image는  $3 \times 6 \times 6$ 형태 (채널, 높이, 너비)
    - Filter: $3 \times 3 \times 3$ 크기의 필터 1개   (채널, 높이, 너비)
    - Output: $4 \times 4$  feature map 1개 생성 
        
![image.png](attachment:image.png)

- **예2** 
    - Input image는  $3 \times 6 \times 6$ 형태의 volume
    - Filter: $3 \times 3 \times 3$ 크기의 필터 2개
    - Output: $4 \times 4 $  feature map 2개 생성 
     
![cnn_filter_calc](figures/cnn_filter_calc.png)

## Padding

- 이미지 가장자리의 픽셀은 convolution 계산에 상대적으로 적게 반영 
- 이미지 가장자리를 0으로 둘러싸서 가장자리 픽셀에 대한 반영 횟수를 늘림
    - 0으로 둘러싸는 것을 ZeroPadding이라고 한다.
- Padding을 이용해 Feature map(output)의 size(height,width)의 크기를 조절할 수 있다.
- Conv2d의 padding 속성은 다음 세가지 타입으로 설정한다.
    - tuple
        - (height, width): 각 int 값을 지정하며 height차원과 width 차원의 padding 개수를 각각 지정한다.
    - int
        - height와 width가 동일할 경우 int값으로 지정한다.
    - str
        - "valid" 
            - Padding을 적용하지 않음
        - "same"
            - Input과 output의 크기(size)가 동일하게 되도록 padding 수를 결정 한다.
            - Convolution Layer는 **보통 "same" 패딩을 많이 사용한다.**
                - Output의 크기는 Pooling Layer를 이용해 줄인다.

<img src="figures/zero_padding.png" width="30%" align="left">

<img src="figures/same_padding_no_strides.gif" width="30%">

## Strides
- Filter(Kernel)가 한번 Convolution 연산을 수행한 후 옆 혹은 아래로 얼마나 이동할 것인가를 설정.
- 값으로는 다음 두가지 타입을 지정할 수 있다.
    - tuple: (height방향 이동크기, width 방향 이동크기)
    - int: height, width 방향 이동크기가 같은 경우 정수값 하나로 설정한다.
        - 예) stride=2: 한 번에 두 칸씩 이동
- convolution layer에서는 일반적으로 1을 지정한다.

<img src="figures/no_padding_2_strides.gif" width="30%">
<span style='font-size:1.2em'>stride=(2,2)의 예</span>

    
####  참고
feature map size 계산식
- W: input의 width
- H: input의 height
- F: filter size
- S: strides
- P: the number of zero-paddings


\begin{align}
&\text{output width} = \frac{W−F+2P}{S}+1 \\
&\text{output height} = \frac{H−F+2P}{S}+1
\end{align}

- Ex) 3 X 32 X 32 input, 5 X 5 filter 10개, 1 stride, 0 pad => (10 X 28 X 28)
- Ex) 3 X 32 X 32 input, 3 X 3 filter 10개, 1 stride, 1 pad => (10 X 32 X 32)

In [1]:
feature_map_width_ex1 = (32-5+2*0)/1+1
feature_map_height_ex1 = (32-5+2*0)/1+1
feature_map_width_ex1, feature_map_height_ex1

(28.0, 28.0)

In [2]:
feature_map_width_ex2 = (32-3+2*1)/1+1
feature_map_height_ex2 = (32-3+2*1)/1+1
feature_map_width_ex2, feature_map_height_ex2

(32.0, 32.0)

##  Max Pooling Layer
- Pooling Layer
    - Feature map의 특정 영역의 값들 중 그 영역을 대표할 수 있는 한개의 값을 추출하여 output을 만든다.
    - Feature map의 size를 줄이는 역할을 한다.
    - 대표적인 pooling layer로 Max Pooling과 Average Pooling이 있다.
    
### [torch.nn.MaxPool2d](https://pytorch.org/docs/stable/generated/torch.nn.MaxPool2d.html#torch.nn.MaxPool2d)

- 해당 영역의 input 중 가장 큰 값을 출력 
- 영역의 size와 stride를 동일하게 주어 값을 추출하는 영역이 안겹치도록 한다.
- 일반적으로 2\*2 크기에 stride는 2를 사용한다. 
    - 이렇게 하면 height와 width를 각각 절반 크기로 줄인다. (전체 크기는 1/4로 줄어든다.)
- 강제적인 downsampling 효과 
    - Input의 size를 줄여 계산속도를 높임
    - 특징의 공간적 계층구조를 학습한다. => 부분적 특징을 묶어 전체적인 특징의 정보를 표현하게 된다.
- 학습할 weight가 없음: 일반적으로 convolutional layer 와 pooling layer를 묶어서 하나의 block으로 처리한다.

![image.png](attachment:image.png)  
**Max pooling layer(2 × 2 pooling kernel, stride 2, no padding)**
    

> - **downsampling**
    - 이미지의 크기를 줄이는 것을 말한다.
> - **upsampling**
>   - 이미지의 크기를 크게 키우는 것을 말한다.

## 추론기 
- 해결하려는 문제에 맞춰 Layer를 추가한다. 
    - Feature Extraction layer을 통과해서 나온 Feature map을 입력으로 받아 추론한 최종결과를 출력한다.
- Fully Connected Layer를 많이 사용했으나 지금은 Convolution layer를 사용하기도 한다.
    - Feature Extractor와 추론 layer를 모두 Convolution Layer로 구성한 Network를 Fully Convolution Network(FCN)이라고 한다.
      
![image.png](attachment:image.png)

##  Example of CNN architecture

![image.png](attachment:image.png)

![image.png](attachment:image.png)

- 일반적으로 convolutional layer + pooling layer 구조 묶어서 여러 개 쌓는다(연결한다).
    - 동일한 레이어들의 구조를 반복해서 쌓을 때 그 구조를 **Layer block**이라고 한다.
    - Convolution과 pooling layer를 묶어서 반복한 것을 **convolution block**이라고 한다.
- Bottom단의 Convolution block에서 Top 단의 convolution block으로 진행 될 수록 **feature map**의 size(height, width)는 작아지고 channel(depth)는 증가한다.
    - Top layer (출력 layer)로 갈수록 **동일한 size의 fliter**로 입력 이미지 기준으로 **더 넓은 영역 특성**을 찾도록 모델을 구성하기 위해  size를 줄인다.
    - Top layer로 갈수록 더 큰 영역에서 특성을 찾게 되므로 Filter의 개수를 늘려 더 많은 특성을 찾도록 한다.
- 마지막에 Fully connected layer를 이용해 추론한다.