# CNN 개요

- 합성곱 인공 신경망(Convolutional neural network)
- history
  - 1989 : 논문 발표, Lecun
  - 2003 : CNN을 일반화하여 논문 발표
  - 2012 : AlexNet에서 최초로 적용, CNN은 영상 처리/분류/인식 등에 탁월한 성능을 낸다는 것을 알림, 입지를 다짐


# 신경망 구조

```
- 층 : Layer
  └ 입력층
  └ 은닉층(중간층) : Hidden Layer
    └ 합성곱층     : Convolutional Layer, 특징 추출 목적
    └ 풀링층       : Pooling Layer, 특징 강화 목적
    └ 합성곱층
    └ 풀링층 
    └  ... 반복(여러번 -> n층 Layers)
    └ 전결합층     : 1차원으로 퍼준다, Fully Connected Layer
  └ 출력층
```

# 원리 및 특징

- 이미지 내의 공간 정보를 유지
- 이미지 내의 인접 이미지의 특징을 효과적으로 인지
- 예
  - 이미지의 크기가 (28,28)이었다.
  - 이런 이미지를 (3,3)으로 이동시키면서 정보를 추출하면, 이미지 전체에 대한 해당 공간(부분)에 대한 정보가 추출 => (3,3) 크기의 커널을 이미지 내에서 이동시켜서(스캔해서) 정보를 추출하면, 한 개의 이미지 내의 공간 정보를 특징으로 뽑아낼 수 있다.

# 이미지 특징 추출




- 합성곱층
  - 커널(필터) 행렬(matrix, 2D-Tensor) 1개를 이미지 공간 내에서 이동(stride)하면서, 이미지 공간 내에(필터가 위치한 곳) 특징(공간 특징)을 추출한다.
  - 구성요소
    - 커널(k) : 공간 특징을 뽑는 크기 + 커널을 구성하는 값이 존재(가중치(W)), "가중치 파라미터를 가진 커널"라고 표현을 많이 한다.
      - 직접 개발(수직 커널, 수평 커널, 가우시안, ...)
      - 특정 함수 혹은 알고리즘을 통해서 제작되는 경우
      - 랜덤(큰 의미는 없다.)
    - 스트라이드(s) : 커널의 이동량
    - 패딩(p) : 보정처리용
  - 입력
    - 이전 레이어(층)의 최종 산출물이 입력이 된다.
  - 최종산출물
    - feature map
    - 활성화함수를 최종 처리한다면, activation map

<p align="center"><img src="https://drive.google.com/uc?id=16AcCHi0N84KQUAcWKQHT6vsq1UOqgnZQ" width="70%">

- 위 그림을 보면 이미지의 크기가 원본 대비 feature map은 작다. 
- 이미지 크기가 작아진다! 개수는 증가한다.(차후 확인)

## kernel(filter)

- 이미지의 특징을 추출하는 도구
- 특징
  - 커널이 가지는 값에 따라 아래처럼 이미지의 공간 정보(특징)을 뽑아낼 수 있다.
    - 외곽선 검출, 명암 분포 등 이미지의 특징점을 뽑아낼 수 있다 → 필터 개발(수직 커널, 수평 커널)
    - 수학함수를 이용하여서 통과시킬 수도 있다. 이미지 공간에 대한 해석적인 부분.
    - 랜덤(의미는 없다)
  - 커널이 가지고 있는 값 : W
    - W는 변경될 수 있고, 특징 추출 중에는 계속 조절된다. => '파라미터'라고 표현할 수 있다.
- "가중치 W를 공용 파라미터로 가지는 필터(커널)"  
"커널(필터)은 공용 파라미터로 W를 가진다."
  - 3x3 커널은 몇 개의 W를 가진다? => 9개!

- 이미지 원본과 필터 간의 연산  
<img src="https://drive.google.com/uc?id=1VB8w9vyo3PfAr51A9roupUjakRzROGvY" width="70%">

  - 행렬을 겹쳐서 같은 포지션에 있는 원소끼리 곱해서 모두 더했다.(행렬의 곱) => 특징 추출
  - x*W → matmul()로 처리(cf. 내적곱은 dot)

- 컬러 이미지의 채널 수  
<img src="https://drive.google.com/uc?id=1C1u3v_xwJgsgFy0N1Ja6mk2Wm-KTBZZG" width="50%">

  - 입력 이미지가 컬러면, 3개의 채널로 입력 데이터가 빠진다.
  - 각 채널별(R, G, B)로 커널과 계산해서 특징을 추출하여 더한다.
  - 하위 커널은 3x3 기준에서 9개의 W를 사용하거나, 각각 W를 독자적으로 적용할 수 있다.

## stride


- 커널(필터)이 움직이는 크기
- 윈도우가 슬라이딩하는 크기
- 2D 대상으로 처리하므로
  - 크기는 가로로 이동하는 양, 세로로 이동하는 양 2개가 필요하다.
  - 좌 → 우 → 밑 → 좌 → 우 → ...
  - 통상, 가로 이동량과 세로 이동량은 동일하게 설정한다.
    - (2,2) 혹은 (1,1)

## bias

- 편향값
- 전체값을 이동시켜서 특정 방향을 편향성으로 제시하는 미세 조정값
- 딥러닝 시 학습해서 최적화 처리 시 조절되는 요소!
  - 딥러닝 학습의 목표는 어떤 예측을 잘 수행하기 위한 W, b를 찾는 과정이다.

## padding

- 층을 통과하면, 특징맵(특성맵, feature map) 혹은 활성화맵(activation map)이 작아진다.
  - 이미지의 세로, 가로의 크기가 짝수가 될 때도 있고, 홀수가 될 때도 있다.
    - 이런 경우 커널이 스트라이드만큼 이동하면서 특징을 뽑다보면 shape이 안 맞는 경우가 생긴다.
      - 보정을 통해서 처리가 가능하게끔 처리해주는 작업이 패딩이다.
  - 종류
    - SAME : 커널 통과 후 원본 이미지와 동사이즈 유지
    - VALID : 커널 통과 후 원본 이미지에 비해 사이즈가 줄어든다.
    - 단, 스트라이드 값에 따라 줄어들 수도 있다.
  - 패딩값
    - 기본적으로 0

<img src="https://drive.google.com/uc?id=1AyyJeFNUF2xbMOVmjpqWsSkEJgRgNmF1" width="35.2%">   <img src="https://drive.google.com/uc?id=1e5CH28n3SlG5PrygRExnbdvHrzG33PYZ" width="40%">  
- p값은 동일하게 적용되고, 일반적으로 0을 적용
- 이것은 곧 경계선 검출과 연관성을 가진다.


# 이미지 특징 강화
- 풀링층
  - 특징을 강화
  - 기법
    - 최대 풀링, 평균 풀링, 최소 풀링     
    
    <img src="https://drive.google.com/uc?id=1pVwBlsce-Nx-r2pCbYTE-J9lkXImp5eU" width="50%">

  - 풀링층을 통과하면 크기가 줄어들 수는 있으나 일반적으로는 크기를 유지한다(만들기 나름이다).
  - 요소
    - 최대 풀링인 경우 어느 범위에서 최대값인가?
      - 판단을 할 수 있는 기준 범위 => 커널 담당
      - 커널의 가중치는 필요 없다, shape만 필요
    - stride
      - 커널을 얼마만큼 이동시켜서 최대값을 뽑을 것인가?
    - 패딩
      - 보정
    - bias는 없고, W도 없다.


- 최대 풀링 예  
<img src="https://drive.google.com/uc?id=1P1YyyqIo1dCpTjRCZJ8MPxrYMbK_I1VU" width="80%">

  - 커널의 크기는 필요하다(기준), 커널의 값은 중요하지 않다. 커널의 이동값(스트라이드)도 필요하다.

# 전결합층

- 입력 : 풀링층을 통과한 산출물 => (feature map)
- 목적
  - 출력층에 점진적으로 수렴하기 위해서, 1차원으로 전개하는 층
    - 펴준다. flattern한다. (reshape 등을 이용하여 처리)
- 전결합층의 다음은 출력층이다.
  - 출력층의 분류 개수만큼 최종적으로 출력층에 수렴된다.
    - mnist(손글씨 숫자 이미지)의 경우, 최종 출력층에서 10개로 수렴된다.

<img src="https://drive.google.com/uc?id=1eTaAjKh_gAiy3n1ohpK4H0fefIQnY7fG" width="90%">

# 출력층

- 이 이미지는 y이다.(소위 분류 => 70%의 확률로 y라고 볼 수 있다, y1은 20%, y2는 10%)
  - 머신러닝 > 지도학습 > 분류
  - 가장 높은 확률을 가진 값이 예측값이 되는 구조