원본: https://pytorch.org/tutorials/beginner/nlp/pytorch_tutorial.html#sphx-glr-beginner-nlp-pytorch-tutorial-py

# INTRODUCTION TO PYTORCH

## Introduction to Torch’s tensor library

딥러닝 계산은 모두 tensor를 통해 이루어진다. Tensor는 matrix를 일반화한 개념으로, 2차원 이상의 index를 가질 수 있다. 

나중에 tensor가 정확히 어떤 의미를 가지는지 알아볼 것이다.

우선 우리가 tensor를 가지고 뭘 할 수 있는 지 한 번 보자.

In [1]:
# Author: Robert Guthrie

import torch
import torch.autograd as autograd
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

torch.manual_seed(1)

<torch._C.Generator at 0x25b8ed1c1d0>

## Creating Tensors

Tensor는 torch.Tensor() 함수가 Python list를 받아서 생성된다.

In [2]:
# torch.tensor(data) creates a torch.Tensor object with the given data.
V_data = [1., 2., 3.]
V = torch.tensor(V_data)
print(V)

# Creates a matrix
M_data = [[1., 2., 3.], [4., 5., 6]]
M = torch.tensor(M_data)
print(M)

# Create a 3D tensor of size 2x2x2.
T_data = [[[1., 2.], [3., 4.]],
          [[5., 6.], [7., 8.]]]
T = torch.tensor(T_data)
print(T)

tensor([1., 2., 3.])
tensor([[1., 2., 3.],
        [4., 5., 6.]])
tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]]])


3D tensor란 무엇인가? 이렇게 생각해 보자.

Vector의 원소 하나 하나는 스칼라이다.

Matrix의 원소 하나 하나는 벡터다.

그렇다면 3D tensor의 원소 하나 하나로는 matrix가 나오는 것이다!

> **용어 정리**: 앞으로 이 튜토리얼에서의 "tensor"는 torch.Tensor object를 의미하는 용어로 사용할 것이다. 
>
> Vector와 matrix도 torch.Tensor의 차원이 1, 2인 간단한 경우로 속한다. 
>
> 차원을 명시할 필요가 있을 경우에는 꼭 밝힐 것이다. 
>
> 예를 들어 3차원 tensor를 가지고 설명할 경우에는 그냥 "tensor"가 아닌 "3D tensor"라고 쓸 것이다.

In [3]:
# Index into V and get a scalar (0 dimensional tensor)
print(V[0])
# Get a Python number from it
print(V[0].item())

# Index into M and get a vector
print(M[0])

# Index into T and get a matrix
print(T[0])

tensor(1.)
1.0
tensor([1., 2., 3.])
tensor([[1., 2.],
        [3., 4.]])


여러 자료 유형에 대해서 텐서를 만들 수 있다. 

이미 위 코드에서 봤듯이, 기본 세팅은 Float이다. 

정수 형태의 tensor를 만들 때는 torch.LongTensor()를 사용하자. 

그 외 다른 경우를 위해서는 documentation을 확인해보길 바란다. 

하지만 대부분의 경우에 Float과 Long로 충분할 것이다.

torch.randn()을 통해서 원하는 차원의 난수 tensor를 생성할 수도 있다.

In [4]:
x = torch.randn((3, 4, 5))
print(x)

tensor([[[-1.5256, -0.7502, -0.6540, -1.6095, -0.1002],
         [-0.6092, -0.9798, -1.6091, -0.7121,  0.3037],
         [-0.7773, -0.2515, -0.2223,  1.6871,  0.2284],
         [ 0.4676, -0.6970, -1.1608,  0.6995,  0.1991]],

        [[ 0.8657,  0.2444, -0.6629,  0.8073,  1.1017],
         [-0.1759, -2.2456, -1.4465,  0.0612, -0.6177],
         [-0.7981, -0.1316,  1.8793, -0.0721,  0.1578],
         [-0.7735,  0.1991,  0.0457,  0.1530, -0.4757]],

        [[-0.1110,  0.2927, -0.1578, -0.0288,  0.4533],
         [ 1.1422,  0.2486, -1.7754, -0.0255, -1.0233],
         [-0.5962, -1.0055,  0.4285,  1.4761, -1.7869],
         [ 1.6103, -0.7040, -0.1853, -0.9962, -0.8313]]])


## Operations with Tensors

원하는 방식으로 Tensor간의 Operaiton이 가능하다.

In [5]:
x = torch.tensor([1., 2., 3.])
y = torch.tensor([4., 5., 6.])
z = x + y
print(z)

tensor([5., 7., 9.])


Documentation을 보면 우리가 tensor를 통해 할 수 있는 수 많은 operation 리스트를 볼 수 있을 것이다. 

그 중에는 수학적인 연산의 개념을 넘어서는 operation도 있다.

그 중에서 자주 사용하게 될 concatenation을 사용해 보자.

In [6]:
# By default, it concatenates along the first axis (concatenates rows)
x_1 = torch.randn(2, 5)
y_1 = torch.randn(3, 5)
z_1 = torch.cat([x_1, y_1])
print(z_1)

# Concatenate columns:
x_2 = torch.randn(2, 3)
y_2 = torch.randn(2, 5)
# second arg specifies which axis to concat along
z_2 = torch.cat([x_2, y_2], 1)
print(z_2)

# If your tensors are not compatible, torch will complain.  Uncomment to see the error
# torch.cat([x_1, x_2])

tensor([[-0.8029,  0.2366,  0.2857,  0.6898, -0.6331],
        [ 0.8795, -0.6842,  0.4533,  0.2912, -0.8317],
        [-0.5525,  0.6355, -0.3968, -0.6571, -1.6428],
        [ 0.9803, -0.0421, -0.8206,  0.3133, -1.1352],
        [ 0.3773, -0.2824, -2.5667, -1.4303,  0.5009]])
tensor([[ 0.5438, -0.4057,  1.1341, -0.1473,  0.6272,  1.0935,  0.0939,  1.2381],
        [-1.1115,  0.3501, -0.7703, -1.3459,  0.5119, -0.6933, -0.1668, -0.9999]])


## Reshaping Tensors

.view() 방법을 이용하여 Tensor의 모양을 바꿔보자.

이 방법은 대단히 많이 사용되는데, 이유로는 많은 neural network의 component들이 자기의 input이 어떤 특정 모양을 가져야 하기 때문이다.

당신의 데이터를 component에게 보내기 전에 모양을 바꿔줄 필요가 종종 있을 것이다.

In [8]:
x = torch.randn(2, 3, 4)
print(x)
print(x.view(2, 12))  # Reshape to 2 rows, 12 columns
# Same as above.  If one of the dimensions is -1, its size can be inferred
print(x.view(2, -1))

tensor([[[ 0.4175, -0.2127, -0.8400, -0.4200],
         [-0.6240, -0.9773,  0.8748,  0.9873],
         [-0.0594, -2.4919,  0.2423,  0.2883]],

        [[-0.1095,  0.3126,  1.5038,  0.5038],
         [ 0.6223, -0.4481, -0.2856,  0.3880],
         [-1.1435, -0.6512, -0.1032,  0.6937]]])
tensor([[ 0.4175, -0.2127, -0.8400, -0.4200, -0.6240, -0.9773,  0.8748,  0.9873,
         -0.0594, -2.4919,  0.2423,  0.2883],
        [-0.1095,  0.3126,  1.5038,  0.5038,  0.6223, -0.4481, -0.2856,  0.3880,
         -1.1435, -0.6512, -0.1032,  0.6937]])
tensor([[ 0.4175, -0.2127, -0.8400, -0.4200, -0.6240, -0.9773,  0.8748,  0.9873,
         -0.0594, -2.4919,  0.2423,  0.2883],
        [-0.1095,  0.3126,  1.5038,  0.5038,  0.6223, -0.4481, -0.2856,  0.3880,
         -1.1435, -0.6512, -0.1032,  0.6937]])


## Computation Graphs and Automatic Differentiation

Computation graph는 효율적인 딥러닝 개발을 위해 필수적인 개념이다. 

왜냐하면 computation graph가 우리 대신에 back propagation gradient를 계산해주기 때문이다. 

Computation graph를 간단하게 말하자면, 어떻게 데이터가 결합돼서 output으로 계산이 된 것인지를 담은 기록장이다. 

어느 parameter가 어느 연산과 연계되었는지를 모두 기록하기 때문에 computation graph는 미분을 계산할 수 있을 정도로 충분한 정보를 갖게 된다. 

지금까지 설명한 것이 확실하게 와닿지 않을 수 있으므로, Pytorch의 핵심 class 중 하나인 autograd.Variable가 어떻게 작동하는 지 직접 보려고 한다.

먼저 프로그래머의 관점에서 생각해보겠다. 

위에서 우리가 만든 torch.Tensor object에는 무엇이 담겨져 있을까? 

당연하게도 데이터가 있을 것이고, 그 모양(shape) 정보도 있을 것이고, 기타 등등이 있을 것이다. 

근데 두 tensor가 더해질 때를 생각해 보자. 

그 결과로 받는 tensor도 그 데이터와 모양 정도는 알고 있겠지만, 그 tensor 입장에서 자신이 다른 두 tensor의 합이라는 사실을 알고 있을 리가 없다 (마찬가지로 tensor는 자기가 파일에서 읽어서 생성된 tensor인지, 다른 operation으로 생성된 것인지 알 수 없다.)

만약, requires_grad=True로 주게 되면 Tensor는 객체가 어떻게 생성되었는지 추적한다. 실제로 확인해보자! 

In [9]:
# Tensor factory methods have a ``requires_grad`` flag
x = torch.tensor([1., 2., 3], requires_grad=True)

# With requires_grad=True, you can still do all the operations you previously
# could
y = torch.tensor([4., 5., 6], requires_grad=True)
z = x + y
print(z)

# BUT z knows something extra.
print(z.grad_fn)

tensor([5., 7., 9.], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x0000025B91137208>


그래서 Tensors는 무엇을 만들었는지 알고 있습니다. 

z는 파일에서 읽지 않았고 곱셈이나 지수 등의 결과가 아니라는 것을 알고 있습니다. 

그리고 z.grad_fn을 계속 따라가면 x와 y를 찾을 수 있습니다.

하지만 그래디언트를 계산하는 데 어떻게 도움이됩니까?

In [10]:
# Lets sum up all the entries in z
s = z.sum()
print(s)
print(s.grad_fn)

tensor(21., grad_fn=<SumBackward0>)
<SumBackward0 object at 0x0000025B91137D08>


이제 z의 총합 s를 x의 첫 번째 변수에 대한 미분값이 뭘까? 수식으로 간단하게 쓰자면 우리가 구하고 싶은 것은 이거다.

$$\frac{\partial s}{\partial x_0}$$

s는 자기가 tensor z의 합으로 만들어졌다는 것을 안다. z는 x + y의 결과라는 것을 안다. 따라서

$$s = \overbrace{x_0 + y_0}^\text{$z_0$} + \overbrace{x_1 + y_1}^\text{$z_1$} + \overbrace{x_2 + y_2}^\text{$z_2$}$$

이고 s는 우리가 원하는 미분값이 1이라고 말해줄 수 있을만 한 충분한 정보를 다 갖고 있는 셈이다!

물론 지금까지 설명한 것으로는 진짜로 미분을 어떻게 계산하는 지를 완벽하게 설명할 순 없다. 

요점은 s가 미분을 계산하기 위한 재료를 계속 가지고 다닌다는 것이다. 

실제로 Pytorch 개발자들은 sum()과 + 연산 자체가 스스로 gradient를 계산하는 방법을 알고, back propagation 알고리즘을 수행할 수 있도록 고안했다. 

더 자세한 내용은 이 튜토리얼의 범위를 벗어나므로 여기까지만 설명하겠다.

이제 직접 Pytorch로 gradient를 계산하고 위에서 설명한 것과 맞는지 확인해보자. 

참고로, 만약 아래 cell을 여러 번 실행한다면 gradient는 누적 합산된다. 

이것은 Pytorch가 의도한 설계로, gradient를 .grad로 누적 시키는 것이 여러 모델에서 편리하기 때문이다.

In [11]:
# calling .backward() on any variable will run backprop, starting from it.
s.backward()
print(x.grad)

tensor([1., 1., 1.])


좋은 딥러닝 프로그래머가 되려면 아래 cell에서 어떤 일이 일어나는 지를 꼭 잘 이해해야 한다.

In [12]:
x = torch.randn(2, 2)
y = torch.randn(2, 2)
# By default, user created Tensors have ``requires_grad=False``
print(x.requires_grad, y.requires_grad)
z = x + y
# So you can't backprop through z
print(z.grad_fn)

# ``.requires_grad_( ... )`` changes an existing Tensor's ``requires_grad``
# flag in-place. The input flag defaults to ``True`` if not given.
x = x.requires_grad_()
y = y.requires_grad_()
# z contains enough information to compute gradients, as we saw above
z = x + y
print(z.grad_fn)
# If any input to an operation has ``requires_grad=True``, so will the output
print(z.requires_grad)

# Now z has the computation history that relates itself to x and y
# Can we just take its values, and **detach** it from its history?
new_z = z.detach()

# ... does new_z have information to backprop to x and y?
# NO!
print(new_z.grad_fn)
# And how could it? ``z.detach()`` returns a tensor that shares the same storage
# as ``z``, but with the computation history forgotten. It doesn't know anything
# about how it was computed.
# In essence, we have broken the Tensor away from its past history

False False
None
<AddBackward0 object at 0x0000025B91136588>
True
None


torch.no_grad ()로 코드 블록을 감싸서, .requires_grad ''= True를 사용하여 Tensor에서 히스토리 추적을 중지 할 수도 있습니다.

In [13]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False
