### 연전파
인공 신경망을 최적화 하는 과정에서 미분은 필수적인 요소인데 파이토치는 최적화 과정인 역전파(backpropagation)를 쉽게 할 수 있도록 자동 미분 계산을 제공한다.

인공 신경망에서 최적화 할 때에는 손실함수를 정의해 두고, 손실함수가 최소가 되는 모델 파라미터를 찾는 것이 최적화 과정이다. 미분을 이용해서 최대/최소를 구할 수 있다.

1. 자동 미분 준비하기

In [4]:
%pip install torch

Note: you may need to restart the kernel to use updated packages.


In [5]:
import torch

In [None]:
# requires_grad=True
# 해당 텐서를 기준으로 모든 연산들을 추적할 수 있게 하는 옵션이다.
# 즉, x에 대해서 연쇄 법칙을 이용한 미분이 가능하다는 것이다.
x = torch.ones(2,2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [None]:
# y는 x에 대한 식, z는 y에 대한 식이다.
# 따라서 이는 합성함수의 개념으로써 x에 대해서 표현 및 미분이 가능하다.
y = x + 1
z = 2*y**2 # convex 한 형태
res = z.mean() # convex 한 형태

print("y: ", y)
print("z: ", z)
print("Result: ", res)

y:  tensor([[2., 2.],
        [2., 2.]], grad_fn=<AddBackward0>)
z:  tensor([[8., 8.],
        [8., 8.]], grad_fn=<MulBackward0>)
Result:  tensor(8., grad_fn=<MeanBackward0>)


2. 역전파

어떤 기준으로 역전파를 할 지를 결정하는 것이 중요하다.

In [None]:
res.backward() # res를 기준으로 역전파를 진행하겠다는 의미이다. 

# 역으로 식을 써내려 가보면
# res = (z_1 + ... + z_4) / 4 -> 평균
# z_i = 2 y_i ** 2
# z_i = 2 (x_i + 1) ** 2
# d(res)/dx_i = x_i + 1 -> x에 대해서 미분을 하는 것이다.

In [9]:
print(x)
print(x.grad)
# x.grad는 backward()가 선언 된 변수x를 기준으로 미분한다. = d(res)/dx
# 즉, x에 대해서 역전파를 진행한 결과를 보여준다.
# d(res)/dx_i = x_i + 1  

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
tensor([[2., 2.],
        [2., 2.]])


정리

\begin{equation}
  x \Rightarrow y = x+1 \Rightarrow z = 2y^2 \Rightarrow L(z)=\frac{\sum_{j=1}^{n}{z_{j}}}{n} \notag
\end{equation}

\begin{equation}
  \frac{\partial L}{\partial x_{i}} = \frac{\partial L}{\partial z_{i}}\cdot\frac{\partial z_{i}}{\partial y_{i}}\cdot \frac{\partial y_{i}}{\partial x_{i}} = \frac{1}{n}\cdot 4y_{i}\cdot 1 = \frac{4}{n}y_{i} = y_{i} = x_{i}+1 \tag{2}
\end{equation}
since $n=4$.

\begin{equation}
  \begin{pmatrix}
    1 & 1 \\
    1 & 1
  \end{pmatrix} \Rightarrow
  \begin{pmatrix}
    2\text{ }(=x_{1}+1) & 2\text{ }(=x_{2}+1) \\
    2\text{ }(=x_{3}+1) & 2\text{ }(=x_{4}+1)
  \end{pmatrix} \notag
\end{equation}

\begin{equation}
  z = 2y^{2} = 2(x+1)^{2} \notag
\end{equation}

\begin{equation}
  \frac{\partial L}{\partial x_{i}} = \frac{\partial L}{\partial z_{i}}\cdot\frac{\partial z_{i}}{\partial x_{i}} = \frac{1}{n}\cdot 4(x_{i}+1)\cdot 1 = x_{i}+1 \notag
\end{equation}

\begin{equation}
  \begin{pmatrix}
    2 & 2 \\
    2 & 2
  \end{pmatrix} \notag
\end{equation}