## 합성곱
예를 들어 입력 배열 [3, 1, 0, 7, 6, 4, 8, 2, 4, 5]가 있다고 하자. 7장에서 사용한 밀집층에는 모든 입력에 가중치를 곱한다. 
$$3 \times w_1 + 1 \times w_2 + 0 \times w_3 + 7 \times w_4 +
  6 \times w_5 + 4 \times w_6 + 8 \times w_7 + 2 \times w_8 + 
  4 \times w_9 + 5 \times w_10 + b$$
인공 신경망은 처음에 가중치 w1 ~ w10과 절편 b를 랜덤하게 초기화한 다음 에폭을 반복하며 경사 하강법 알고리즘을 사용하여 손실이 낮아지도록 최적의 가중치와 절편을 찾아간다. 반면 **합성곱(convolution)**은 계산이 다르다. 입력 데이터 일부에 가중치를 더한다. 입력은 위 배열과 같다고 하고, 각 뉴런에 3개의 가중치가 있다고 하자. 그럼 처음에는 다음과 같이 계산된다
$$3 \times w_1 + 1 \times w_2 + 0 \times w_3 + b$$
그 다음은 한 칸씩만 밀어서 조금 겹쳐지게 계산된다
$$1 \times w_1 + 0 \times w_2 + 7 \times w_3 + b$$
마지막으로 다음과 같이 계산된다
$$2 \times w_1 + 4 \times w_2 + 5 \times w_3 + b$$
이 식들이 각각 하나의 출력이 된다. 이런 식으로 입력이 10개일 때 뉴런의 가중치가 3개이면 8개의 출력이 만들어진다. 합성곱 층의 뉴런의 가중치 개수는 하이퍼파라미터다. **합성곱 신경망(convolutional neural network, CNN)**은 완전 연결 신경망과 달리 뉴런을 **필터(filter)** 혹은 **커널(kernel)**이라고 부른다. 여기서는 뉴런 개수를 이야기할 때는 필터, 입력에 곱해지는 가중치를 의미할 때는 커널이라 부른다.
$$ \begin{pmatrix}
  3 & 1 & 0 & 7 \\
  6 & 4 & 8 & 2 \\
  4 & 5 & 1 & 1 \\
  3 & 2 & 5 & 8 \\
 \end{pmatrix}$$
 이렇게 입력이 2차원일 때는 필터도 2차원이어야 한다. 여기서 필터의 커널 크기는 (3, 3)이라 하자. 그럼 합성곱을 다음과 같이 시작한다.
 $$ \begin{pmatrix}
  _3 & _1 & _0 & 7 \\
  _6 & _4 & _8 & 2 \\
  _4 & _5 & _1 & 1 \\
  3 & 2 & 5 & 8 \\
 \end{pmatrix}$$
 입력의 9개 원소와 커널의 9개 원소를 곱하고 절편을 더해 1개의 출력을 만든다.
 이런 식으로 계속 진행한다.
 $$ \begin{pmatrix}
  3 & _1 & _0 & _7 \\
  6 & _4 & _8 & _2 \\
  4 & _5 & _1 & _1 \\
  3 & 2 & 5 & 8 \\
 \end{pmatrix}$$.
 $$ \begin{pmatrix}
  3 & 1 & 0 & 7 \\
  _6 & _4 & _8 & 2 \\
  _4 & _5 & _1 & 1 \\
  _3 & _2 & _5 & 8 \\
 \end{pmatrix}$$.
 $$ \begin{pmatrix}
  3 & 1 & 0 & 7 \\
  6 & _4 & _8 & _2 \\
  4 & _5 & _1 & _1 \\
  3 & _2 & _5 & _8 \\
 \end{pmatrix}$$
 위 처럼 필터가 4번 움직일 수 있으므로 출력은 (2, 2) 크기가 된다. 합성곱 계산을 통해 얻은 출력을 특별히 **특성 맵(feature map)**이라 한다. 여기에서는 하나의 (3, 3) 필터를 사용했기 때문에 (2, 2, 1) 크기의 출력이 생성되었지만, 같은 크기의 필터 3개를 이용하면 (2, 2, 3) 크기의 3차원 출력이 생성된다

 ## 케라스 합성곱 층
 케라스의 층은 모두 keras.layers 패키지 아래 클래스로 구현되어있고, 합성곱은 Conv2D 클래스로 제공한다
 ``` python
 from tensorflow import keras
 keras.layers.Conv2D(10, kernel_size=(3, 3), activation='relu')
 ```
 Conv2D 클래스의 첫 번째 매개변수는 필터의 개수다. kernel_size 매개변수는 필터에 사용할 커널의 크기를 지정한다. 마지막으로 활성화 함수를 적용한다

 ### 패딩과 스트라이드
 위에서 예로 들었던 합성곱 계산은 (4, 4) 크기의 입력에 (3, 3) 크기의 커널을 적용하여 (2, 2) 크기의 특성 맵을 만들었다. 커널 크기를 그대로 두고 출력 크기를 (4, 4)로 만들려면 **패딩(padding)**을 이용할 수 있다. 패딩은 입력값 주위에 가상의 원소로 채우는 것을 말하는데 (4, 4) 크기의 입력에 0을 1개 패딩하면 다음과 같이 (6, 6) 크기의 입력이 된다.
 $$ \begin{pmatrix}
  0 & 0 & 0 & 0 & 0 & 0 \\
  0 & 3 & 1 & 0 & 7 & 0 \\
  0 & 6 & 4 & 8 & 2 & 0 \\
  0 & 4 & 5 & 1 & 1 & 0 \\
  0 & 3 & 2 & 5 & 8 & 0 \\
  0 & 0 & 0 & 0 & 0 & 0 \\
 \end{pmatrix}$$
 위 입력을 위 커널로 계산하면 입력과 동일한 크기의 출력이 생성된다. 이렇게 입력과 특성 맵의 크기를 동일하게 하기 위해 0을 패딩하는 것을 **세임 패딩(same padding)**이라 한다. 또한 패딩 없이 입력 배열만 가지고 특성 맵을 만드는 경우를 **밸리드 패딩(valid padding)**이라 한다