# Pytorch Basic Lecture
## Chapter 2: Autograd: automatic differentiation

이전 시간에 배운 Tensor, 즉 배열 기반의 데이터들에 대해서 자동으로 미분을 해주는 패키지가 바로 Autograd 패키지 입니다.
이 패키지의 경우 Define-by-run 구조를 가지는 패키지이며, 코드가 실행되면서 계속해서 미분하거나 parameter update하는 구조가 새로 정의된다는 것입니다. 반대의 경우인 Define-and-run 구조의 경우 코드가 실행되기 전에 먼저 구조를 정의한 이후에 실행되기 때문에, 구조가 변하는 데이터의 경우 다루기 힘들다는 단점이 있습니다. 이정도만 즉, Autograd는 Define-by-run이라는 사실만 이해한 이후 아래 예시를 통해 자세히 알아봅시다.



In [2]:
import torch

In [3]:
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


torch 패키지를 import한 이후, torch.ones를 이용하여 x라는 tensor타입 2x2 배열을 만듭니다. 이 때, autograd를 쓰기 위하여 requires_grad=True로 설정해줍니다. 이를 통해서 이x라는 배열이 이후에 어떤 연산과정을 통하여 최종적으로 output을 만들게 되더라도, 그 연산과정들을 다 기록하였다가, 그를 활용하여 autograd패키지에서 gradient를 연산해주게 됩니다.

In [4]:
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward>)


x라는 배열에 덧셈 연산을 한 번 시행하였으며, 출력값을 통해 연산과정이 기록되고 있다는 것을 알 수 있습니다.

In [6]:
z = y * y * 3
out = z.mean()

print(z)

print(out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward>)
tensor(27., grad_fn=<MeanBackward1>)


최종적으로 out이라는 스칼라값을 하나 얻을 수 있었으며, 최종 값이 스칼라인 경우 다른 추가 설정 없이 .backward()를 통해 gradient를 계산할 수 있으며, 그 이외의 경우에는 어떤 방식으로 gradient를 계산할 것인지 설정해주어야 합니다. 이번 예제의 경우 out이 스칼라이므로 그냥 .backward()를 통해 계산할 수 있습니다.

In [7]:
out.backward()

In [8]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


x에서부터out까지의 연산과정을 고려한 out의 x에 대한 gradient를 구할 수 있었습니다. 구체적인 연산과정을 아래와 같습니다.

You should have got a matrix of ``4.5``. Let’s call the ``out``
*Tensor* “$o$”.
We have that $o = \frac{1}{4}\sum_i z_i$,
$z_i = 3(x_i+2)^2$ and $z_i\bigr\rvert_{x_i=1} = 27$.
Therefore,
$\frac{\partial o}{\partial x_i} = \frac{3}{2}(x_i+2)$, hence
$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=1} = \frac{9}{2} = 4.5$.

여기까지를 통해 pytorch 내에서 gradient를 계산 할 때 어떤 방식으로 계산하는 지 내부를 조금 들여다봤습니다. 여기까지 배운 내용들과 이후에 딥러닝 시간에 배우는 내용들을 토대로 pytorch를 활용한 러닝기법 사용하기를 추후에 하게 될 것입니다.