# 합성곱
합성곱은 마치 입력 데이터에 도장을 찍어서 유용한 특성만 드러나게 하는 것이다.  
동작 원리를 알아보자

---
밀집층에는 뉴런마다 입력 개수 만큼의 가중치가 있다.  
즉 모든 입력에 가중치를 곱한다.  
  
예를 들어서 특성이 10개, 가중치가 w1 ~ w10 있고 절편값 b가 있다.  
여기서 w1 ~ w3이 입력의 처음 3개 특성과 곱해져 1개의 출력을 만든다.  
특성이 순서대로 3, 1, 0, 7, 6, 4, 8, 2, 4, 5 라고 할 때  
3 * w1 + 1 * w2 + 0 * w3 + b를 계산한다.  
  
이후 2 ~ 4 번째 특성과 1 ~ 3 가중치를 곱하고 절편을 더한다.  
즉, 1 * w1 + 0 * w2 + 7 * w3 + b를 계산한다.  
  
이걸 반복하면 총 8개의 출력이 나온다.  
모두 같은 가중치 w1 ~ w3과 절편 b를 사용했다.  
참고로 가중치 개수는 정하기 나름이다, 즉, 하이퍼파라미터다.  

---
  
마치 데이터 위를 이동하면서 똑같은 도장으로 하나씩 찍는 모양세다.  
도장 한번 찍을 때 마다 출력이 하나 나오는 것 같다.  
기존의 뉴런과는 차이가 있기에 합성곱 신경망에서는 이와 같은 뉴런을  
필터, 또는 커널이라고 부른다.  
즉 뉴런 = 필터 = 커널이다.  



입력이 2차원 배열이면 필터도 2차원이어야 한다.  
4 * 4 크기 배열에서 필터크기가 3 * 3 이라면 출력은 총 4번 나온다.  
수행 순서는 좌측 최상단에서 시작해서 오른쪽으로 한칸씩 진행  
한 줄이 끝나면 다음 줄 좌측 끝에서 다시 오른쪽으로 진행한다. 

합성곱 출력을 통해 얻은 출력을 특성 맵이라고 부른다.  

밀집층에서 여러개의 뉴런을 쓰는 것처럼 합성곱 층에도 여러개의 필터를 사용한다.  
2 * 2 크기의 특성 맵을 쌓으면 3차원 배열이 된다.  
  
---
예를 들어, 4 * 4 특성에 크기가 3 * 3인 필터 3개가 있다.  
이 3 * 3 크기의 필터로 특성맵을 만들면 2 * 2 크기의 특성맵이 만들어지고  
필터가 3개 이므로 이 특성맵은 2 * 2 * 3 이 된다.  


# 케라스 합성곱 층
케라스의 층은 모두 keras.layers 패키지 아래 클래스로 구현되어 있다.  
합성곱 층도 마찬가지다.  
왼쪽에서 오른쪽으로, 위에서 아래로 이동하는 합성곱은 Conv2D 클래스로 제공한다.  


In [2]:
from tensorflow import keras  
keras.layers.Conv2D(10, kernel_size = (3, 3), activation = 'relu')  

<keras.layers.convolutional.conv2d.Conv2D at 0x7f835ec4dfd0>


여기서 첫 번째 매개변수 10은 필터의 개수다.  
kernel_size는 필터에 사용할 커널의 크기를 지정한다.  
이 두가지는 필수다.  
활성화 함수는 렐루함수를 사용한다.  


# 패딩과 스트라이드
특성크기가 4 * 4고 필터크기가 3 * 3 이라면 2 * 2 크기의 특성맵이 완성된다.  
그런데, 이 때, 입력과 동일하게 4 * 4 크기의 특성맵을 만드려면 어떻게 해야할까?  
특성크기를 상하좌우 1칸씩 늘린다음 3 * 3 크기의 필터를 순회시켜주면 된다.  
아래 예시와 같다.  
4 * 4 특성이 아래와 같다면  
[3, 1, 0, 7]  
[6, 4, 8, 2]  
[4, 5, 1, 1]  
[3, 2, 5, 8]  
이걸 상하좌우 한 칸씩 늘린다.  
[ 0, 0, 0, 0, 0, 0]  
[ 0, 3, 1, 0, 7, 0]  
[ 0, 6, 4, 8, 2, 0]  
[ 0, 4, 5, 1, 1, 0]  
[ 0, 3, 2, 5, 8, 0]  
[ 0, 0, 0, 0, 0, 0]   
이제 이 배열에서, 3 * 3 크기의 필터를 순회시키면 4 * 4의 합성곱이 완성된다.  
이렇게 입력 배열 주위를 가상의 원소로 채우는 것을 패딩이라고 한다.  
패딩은 실제 값이 아니기에 주로 0으로 채워준다.
패딩으로 0을 채운 경우, 이를 세임 패딩이라고 하며 세임 패딩은 합성곱 신경망에서 가장 많이 사용된다.  

---
왜 패딩을 사용할까?  
위 예시에서 1번째 숫자는 3이다.  
만약 패딩을 사용하지 않을 경우, 이 0,0 인덱스에 있는 숫자 3은 한 번만 사용된다.  
다른 꼭지점에 있는 값들도 마찬가지다.  
반면 다른 원소들은 2번 이상 커널과 계산된다.  
이 때문에 모서리에 위치한 값들이 제대로 반영되지 않는다는 문제가 있다.  
  
위 4 * 4 특성의 경우, 꼭지점에 있는 값들은 1번, 모서리에 있는 값은 2번, 중앙에 있는 값은 4번씩 반영된다.  
그러나 패딩을 사용할 경우, 꼭지점은 4번, 모서리는 6번, 중앙값은 9번 순회한다.  
비율로 따지면 패딩이 없을 떄 1:2:4, 패딩이 있다면 1:1.5:2.25 다.  
이렇듯 패딩은 주변 값을 잃어버리지 않도록 도와주는 역할을 한다.  

  



In [3]:
keras.layers.Conv2D(10, kernel_size=(3,3), activation = 'relu', padding = 'same')

<keras.layers.convolutional.conv2d.Conv2D at 0x7f82f91904c0>

한 칸씩 움직이지 말고 두 칸씩 움직일 수도 있다.  
이를 스트라이드라고 한다.  
기본값은 1이다.  


In [4]:
keras.layers.Conv2D(10, kernel_size= (3,3), activation = 'relu', padding = 'same', strides = 1)

<keras.layers.convolutional.conv2d.Conv2D at 0x7f82f9190ee0>

스트라이드 매개변수는 오른쪽으로 이동하는 크기와 아래쪽으로 이동하는 크기를  
(1, 1,)과 같이 튜플로 지정할 수 있다.  
하지만 커널의 이동 크기를 가로세로 다르게 하는 경우는 거의 없다.  
또 1보다 큰 스트라이드를 쓰는 경우도 드물다.  
때문에 스트라이드는 잘 사용하지 않는다.  

# 풀링
풀링은 합성곱 층에서 만든 특성 맵의 가로세로 크기를 줄인다.  
하지만 특성맵의 개수는 줄이지 않는다.  
[3, 1, 0, 7]  
[6, 4, 8, 2]  
[4, 5, 1, 1]  
[3, 2, 5, 8]  
앞서 보인 이 예제에서 3개의 3 * 3 필터를 사용해 특성맵을 만들면  
그 크기가 (2, 2, 3)이 되는데 풀링을 하면 (1, 1, 3)이 된다.  

---

이 4 * 4 특성에서 2, 2 최대 풀링을 적용하면 크기가 절반으로 줄어든다.  
[2, 5, 7, 3]  
[3, 9, 0, 5]  
[6, 2, 1, 4]  
[4, 8, 6, 0]  
이 예시에서 2, 2 최대 풀링을 적용해보자  
[2, 5]  
[3, 9]  
먼저 여기서 가장 큰 값을 찾는다. 답은 9다.  
그 다음 두 칸 오른쪽으로 간다.  
[7, 3]  
[0, 5]  
이번엔 여기서 가장 큰 값을 찾는다. 답은 7이다.  
이와 같은 방식으로 진행하면 다음과 같은 특성맵을 얻는다.  
[9, 7]
[8, 6]  
이것은 어디까지나 최대 풀링이기에 최대값을 찾아서 넣었지만  
평균 풀링으로 계산한다면 해당 값의 평균을 넣어주면 된다.  
  
---

합성곱과의 차이점은 합성곱은 커널이 한 칸씩 이동해서 겹치는 부분이 발생했다면  
풀링에서는 겹치지 않고 이동했다는 차이가 있다.  



In [5]:
keras.layers.MaxPooling2D(2)

<keras.layers.pooling.max_pooling2d.MaxPooling2D at 0x7f82f9ac1880>

MaxPooling의 첫 번째 매개변수는 그 크기다.  
대부분 풀링의 크기는 2다.  
즉, 가로세로 크기를 절반으로 줄인다.  
물론 튜플을 통해 (2, 3) 같은 형태로 지정할 수 있으나 그런 경우는 거의 없다.  

---
바로 직전에 예시로 보인 최대 풀링의 코드는 다음과 같다.

In [6]:
keras.layers.MaxPooling2D(2, strides = 2, padding = 'valid')

<keras.layers.pooling.max_pooling2d.MaxPooling2D at 0x7f82f9aa4460>

평균 풀링을 제공하는 클래스는 AveragePooling2D이다.  
최댓값이 아닌 평균을 계산하는 것만 빼면 MaxPooling2D와 동일하다.  
그러나 평균 풀링보단 최대 풀링을 더 많이 사용한다.  
평균 풀링은 특성 맵의 중요 정보를 희석시킬 우려가 있기 때문이다.  

# 합성곱 신경망의 전체 구조
합성곱 층, 필터, 패딩, 스트라이드, 풀링 등 중요한 합성곱 신경망의 개념을  
모두 합쳐서 전체구조를 파악해 보자  
합성곱 신경망은 입체적으로 그리는 것이 파악에 용이하다.  
선술했듯이 커널 크기는 3 * 3 으로 하고 특성은 4 * 4 이다.  
패딩을 통해 한 칸씩 늘리고 3개의 필터를 사용해 (4, 4, 3) 특성 맵을 만든다.  
여기까지가 합성곱층(세임패딩)이다.  
  
이를 바탕으로 2, 2 최대 풀링을 사용해 (2, 2, 3) 특성맵을 만든다.  
이걸 1차원으로 펼치는데 여기까지가 풀링층이다.  

(2, 2, 3)을 1차원으로 펼치면 12개가 된다.  
소프트맥스 활성화 함수를 통해 출력층에는 3개의 뉴런을 둔다.  
즉 3개의 클래스를 분류하는 다중 분류 문제가 된다.  
출력층에서 계산된 값은 소프트맥스 활성화 함수를 거쳐 최종 예측확률이 된다.  


# 컬러 이미지를 사용한 합성 곱
지금까지 흑백 이미지만 사용했고 때문에 2차원 배열로 표현할 수 있었다.  
그러나 컬러이미지에선 RGB 값 채널로 구성되어 있기 때문에  
컴퓨터는 이를 3차원 배열로 표시한다.  
R로된 층 하나, G로된 층 하나, B로된 층 하나 인 셈이다.  
  
때문에 커널도 3차원 커널이 필요하다.  
앞선 예시처럼 4 * 4 특성을 사용한다면 컬러이미지에선 특성이  
4 * 4 * 3 이 되며 커널 또한 3 * 3에서 3 * 3 * 3이 될 것이다.  
  
그러나 여기서 중요한 것은 차원과 상관없이 출력은 하나의 값이라는 것이다.  
  
---
사실 케라스는 3차원 배열에 특화되어 있고 흑백이미지의 경우, 깊이가 1인  
3차원 배열로 변환하여 계산한다.  


# 정리
### 합성곱
합성곱은 밀집층처럼 입력과 가중치를 곱하고 절편을 더하는 선형 계산이다.  
단, 밀집층과 달리 입력 전체가 아닌 일부만 사용해 선형계산을 수행한다.  
### 특성맵
특성맵은 합성곱층이나 풀링층의 출력 배열을 의미한다.  
### 패딩
패딩은 합성곱 층의 입력 주위에 0 값을 추가해 채운 것이다.  
### 스트라이드
합성곱층에서 필터가 입력 위를 이동하는 크기로 보통 1이다.  
### 풀링
특성맵의 가로세로 크기를 줄이는 역할을 한다.  
최대풀링과 평균풀링이 있으며 (2, 2)풀링으로 입력을 반으로 줄인다.  