# convolution 연산 이해하기

- 지금까지 배운 다층신경망은 각 뉴런들이 선형모델과 활성함수로 모두 연결된 fully connected 구조였습니다.

- 각 성분 $h_i$에 대응하는 가중치 행 $W_i$이 필요합니다.

$$
h_i = \sigma (\sum_{j=1}^{p}W_{ij}x_{j})
$$

- convolution 연산은 이와 달리 커널을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조입니다.

- 활성화 함수를 제외한 convolution 연산도 선형변환에 속합니다.

- 커널은 고정된 형태로 움직이면서 적용된다 -> parameter 사이즈를 줄인다.

$$
h_i = \sigma (\sum_{j=1}^{k}V_{j}x_{i+j-1})
$$

- convolution 연산의 수학적인 의미는 신호를 커널을 이용해 국소적으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링하는 것입니다.

- 커널은 정의역 내에서 움직여도 변하지 않고(transiation invariant) 주어진 신호에 국소적으로 적용합니다.


# 다양한 차원에서의 convolution

- convolution 연산은 1차원뿐만 아니라 다양한 차원에서 계산 가능합니다.

- i, j, k가 바뀌어도 커널 f의 값은 바뀌지 않습니다.

$$
\begin{align}
[f*g](i) = \sum^{d}_{p=1}f(p)g(i+p) \\
[f*g](i, j) = \sum_{p, q}f(p, q)g(i+p, j+q) \\
[f*g](i, j, k) = \sum_{p, q, r}f(p, q, r)g(i+p, j+q, k+r)
\end{align}
$$


# 2차원 convolution 연산 이해하기

- 2D-Conv 연산은 이와 달리 커널을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조입니다.

$$
[f*g](i, j) = \sum_{p, q}f(p, q)g(i+p, j+q)
$$


- 입력크기를 $(H, W)$, 커널의 크기를 $(K_H, K_W)$, 출력 크기를 $(O_H, O_W)$라 하면 출력 크기는 다음과 같이 계산합니다.


$$
O_H = H - K_H + 1
O_W = W - K_W + 1
$$

- 가령 28 * 28 입력을 3 * 3 커널로 2D-Conv 연산을 하면 26 * 26이 된다.

- 채널이 여러개인 2차원 입력의 경우 2차원 Convolution을 채널 개수만큼 적용한다고 생각하면 됩니다. 3차원부턴 행렬이 아니라 텐서라고 부릅니다.

- 채널이 여러개인 경우 커널의 채널 수와 입력의 채널 수가 같아야 합니다.

- 커널을 여러개를 사용하면 출력도 텐서가 된다.


# convolution 연산의 역전파 이해하기

- convolution 연산은 커널이 모든 입력데이터에 공통으로 적용되기 때문에 역전파를 계산할 때도 convolution 연산이 나오게 됩니다.

$$
\begin{align}
\frac{\partial}{\partial x}[f * g](x) = \frac{\partial}{\partial x} \int f(y)g(x-y)dy \\
= \int f(y)\frac{\partial g}{\partial x}(x-y)dy \\
= [f * g'](x)
\end{align}
$$