## 합성곱과 풀링 (Convolution and Pooling)

* 합성곱 신경망(Convolutional Neural Network, CNN)은 이미지 처리에 탁월한 성능을 보이는 신경망
* 합성곱층(Convolution layer)와 풀링층(Pooling layer)으로 구성

In [1]:
from IPython.display import Image
# from http://cs231n.github.io/convolutional-networks
Image(url='https://raw.githubusercontent.com/Hyelim-Shin/AIdev/master/Images/11-2.convnet.png', width=600)

### 1. 합성곱 신경망의 대두

In [None]:
# 두개의 Y
Image(url='https://wikidocs.net/images/page/64066/conv0.png', width=400)

* 이미지 처리를 위한 다층 퍼셉트론의 한계
    - 이미지는 같은 대상이라도 휘어지거나, 이동되거나, 방향이 뒤틀리는 등 다양한 변형이 존재
    - 다층 퍼셉트론은 몇가지 픽셀만 달라져도 민감하게 예측에 영향을 받음

In [None]:
# image to 1D vector
Image(url="https://wikidocs.net/images/page/64066/conv1.png", width=700)

* 기존의 공간적 구조(spatial structure) 정보가 유실됨
* 이미지의 공간적인 구조 정보를 보존하면서 학습할 수 있는 방법이 필요 → 합성곱 신경망

### 2. 채널(Channel)

* 이미지는 **(높이, 너비, 채널)** 이라는 3차원 텐서
    - 높이: 이미지의 세로 방향 픽셀 수
    - 너비: 이미지의 가로 방향 픽셀 수
    - 채널: 색 성분
* 흑백 이미지는 채널 수가 1, 컬러이미지는 적색(Red), 녹색(Green), 청색(Blue)으로 채널 수가 3개

### 3. 합성곱 연산(Convolution operation)

* 합성곱층은 합성곱 연산을 통해서 **이미지의 특징을 추출**
* 합성곱: **커널(kernel)** 또는 **필터(filter)** 라는 $n \times m$ 크기의 행렬로 높이 $\times$ 너비 크기의 이미지를 처음부터 끝까지 겹치며 훑으면서 $n \times m$ 크기의 겹쳐지는 부분의 각 이미지와 커널의 원소의 값을 곱해서 모두 더한 값을 출력으로 하는 것
    - 커널(kernel)은 일반적으로 $3 \times 3$ 또는 $5 \times 5$를 사용

#### $3 \times 3$ 커널을 이용한 합성곱 예시

#### 1) 첫번째 스텝

In [None]:
Image(url='https://wikidocs.net/images/page/64066/conv4.png', width=600)
# 1*1 + 2*0 + 3*1 +
# 2*1 + 1*0 + 0*1 +
# 3*0 + 0*1 + 1*0 = 6

#### 2) 두번째 스텝

In [None]:
Image(url='https://wikidocs.net/images/page/64066/conv5.png', width=600)
# 2*1 + 3*0 + 4*1 +
# 1*1 + 0*0 + 1*1 +
# 0*0 + 1*1 + 1*0 = 9

#### 3) 세번째 스텝

In [None]:
Image(url='https://wikidocs.net/images/page/64066/conv6.png', width=600)
# 3*1 + 4*0 + 5*1 +
# 0*1 + 1*0 + 2*1 +
# 1*0 + 1*1 + 0*0 = 11

#### 4) 네번째 스텝

In [8]:
Image(url='https://wikidocs.net/images/page/64066/conv7.png', width=600)
# 2*1 + 1*0 + 0*1 +
# 3*1 + 0*0 + 1*1 +
# 1*0 + 4*1 + 1*0 = 10

#### 5) 특성 맵 (Feature Map)

In [10]:
Image(url='https://wikidocs.net/images/page/64066/conv8.png', width=200)

### 4. 스트라이드(Stride)와 패딩(Padding)

* 스트라이드(Stride): 커널의 이동 범위
    - 위 계산에서 스트라이드 = 1

In [11]:
# 스트라이드가 2, 5x5 입력에 3x3 커널 적용
Image(url='https://wikidocs.net/images/page/64066/conv9.png', width=600)

* 패딩(Padding): 입력의 가장자리에 지정된 개수의 폭만큼 행과 열을 추가해주는 것
    - 주로 0을 사용

In [12]:
Image(url='https://wikidocs.net/images/page/64066/conv10.png', width=400)

### 5. 가중치와 편향

#### 1) 가중치

In [13]:
# 합성곱 신경망의 가중치
Image(url='https://wikidocs.net/images/page/64066/conv12.png', width=600)

* 합성곱 신경망은 다층 퍼셉트론을 사용할 때보다 훨씬 적은 수의 가중치를 사용하여 공간적 구조 정보를 보존
* 합성곱 연산을 통해 얻은 특성 맵은 비선형성 추가를 위해 활성화 함수가 적용
* **합성곱 층(Convolution layer)** : 합성곱 연산을 통해서 특성 맵을 얻고, 활성화 함수를 지나는 연산을 하는 합성곱 신경망의 은닉층

#### 2) 편향(bias)

In [14]:
Image(url='https://wikidocs.net/images/page/64066/conv14.png', width=600)

### 6. 다수의 채널을 가질 경우의 합성곱 연산 (3차원 텐서의 합성곱 연산)

In [18]:
Image(url='https://wikidocs.net/images/page/64066/conv15.png', width=600)

In [15]:
Image(url='https://wikidocs.net/images/page/64066/conv16_final.png', width=600)

### 7. 풀링(Pooling)

* 합성곱 층 (합성곱 연산 + 활성화 함수) 다음에 풀링 층을 추가하는 것이 일반적
* 풀링(Pooling): 특성 맵을 다운샘플링하는 연산
    - 최대 풀링(max pooling)과 평균 풀링(average pooling) 등을 사용
* 공간 차원 감소, 이미지의 중요 정보만 추출

In [None]:
# 스트라이드 2, 패딩 0, MAX POOLING
Image(url='https://wikidocs.net/images/page/62306/maxpooling.PNG', width=400)