# PYTORCH?

Python 기반의 과학 연산 패키지로 다음과 같은 두 집단을 대상으로 합니다:

* NumPy를 대체하면서 GPU를 이용한 연산이 필요한 경우
* 최대한의 유연성과 속도를 제공하는 딥러닝 연구 플랫폼이 필요한 경우

# 시작하기

In [1]:
from __future__ import print_function
import torch

In [2]:
# 초기화되지 않은 5x3 행렬을 생성합니다:
x = torch.empty(5,3)
print(x)

tensor([[9.2755e-39, 1.0561e-38, 7.8061e-39],
        [9.2755e-39, 8.4490e-39, 1.0102e-38],
        [9.0919e-39, 1.0102e-38, 8.9082e-39],
        [8.4489e-39, 9.6429e-39, 8.4490e-39],
        [9.6429e-39, 9.2755e-39, 1.0286e-38]])


In [3]:
# 무작위로 초기화된 행렬을 생성합니다:
x = torch.rand(5,3)
print(x)

tensor([[0.1095, 0.5156, 0.6988],
        [0.8760, 0.1545, 0.0918],
        [0.4903, 0.0691, 0.9781],
        [0.7454, 0.3286, 0.5765],
        [0.7253, 0.6313, 0.3568]])


In [4]:
# dtype이 long이고 0으로 채워진 행렬을 생성합니다:
x = torch.zeros(5,3, dtype = torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [5]:
# 데이터로부터 tensor를 직접 생성합니다
x = torch.tensor([5.5,3])
print(x)

tensor([5.5000, 3.0000])


In [6]:
# 기존 tensor를 바탕으로 새로운 tensor를 만듭니다. 이들 메소드(method)는 사용자로부터 새로운 값을 제공받지 않은 한, 
# 입력 tensor의 속성들(예. dtype)을 재사용합니다.

x = x.new_ones(5,3, dtype = torch.double)
print(x)

x = torch.randn_like(x, dtype = torch.float)
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[ 0.6018, -0.5243,  2.1538],
        [-0.5393,  1.0955, -1.5897],
        [-1.0502, -0.4310,  0.1149],
        [ 0.2870,  1.5991, -0.8101],
        [-0.1683,  1.5675, -0.9646]])


In [7]:
# 행렬의 크기를 구합니다
print(x.size())

torch.Size([5, 3])


# 연산(Operations)

In [8]:
# 덧셈: 문법1
y = torch.rand(5, 3)
print(x + y)

tensor([[ 1.1220,  0.2961,  2.9013],
        [ 0.2438,  1.1031, -1.2197],
        [-0.9781,  0.2612,  0.5278],
        [ 1.1255,  1.9653,  0.0999],
        [ 0.5181,  1.7943, -0.3811]])


In [9]:
# 덧셈: 문법2
print(torch.add(x, y))

tensor([[ 1.1220,  0.2961,  2.9013],
        [ 0.2438,  1.1031, -1.2197],
        [-0.9781,  0.2612,  0.5278],
        [ 1.1255,  1.9653,  0.0999],
        [ 0.5181,  1.7943, -0.3811]])


In [10]:
# 덧셈: 결과 tensor를 인자로 제공
result = torch.empty(5, 3)
torch.add(x, y, out = result)
print(result)

tensor([[ 1.1220,  0.2961,  2.9013],
        [ 0.2438,  1.1031, -1.2197],
        [-0.9781,  0.2612,  0.5278],
        [ 1.1255,  1.9653,  0.0999],
        [ 0.5181,  1.7943, -0.3811]])


In [11]:
# 덧셈: 바꿔치기(in-place) 방식
# y에 x 더하기
y.add(x)
print(y)

tensor([[0.5202, 0.8204, 0.7475],
        [0.7832, 0.0076, 0.3701],
        [0.0721, 0.6922, 0.4129],
        [0.8385, 0.3662, 0.9100],
        [0.6865, 0.2268, 0.5835]])


In [12]:
# 크기 변경: tensor의 크기(size)나 모양(shape)을 변경하고 싶다면 torch.view 를 사용합니다
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


In [13]:
# 만약 tensor에 하나의 값만 존재한다면, .item() 을 사용하면 숫자 값을 얻을 수 있습니다.
x = torch.randn(1)
print(x)
print(x.item())

tensor([0.7407])
0.740706741809845


# NumPy 변환(Bridge)
* Torch Tensor를 NumPy 배열(array)로 변환하거나, 그 반대로 하는 것은 매우 쉽습니다.

* (Torch Tensor가 CPU 상에 있다면) Torch Tensor와 NumPy 배열은 메모리 공간을 공유하기 때문에, 하나를 변경하면 다른 하나도 변경됩니다.

In [14]:
# Torch Tensor를 NumPy 배열로 변환하기
a = torch.ones(5)
print(a)

tensor([1., 1., 1., 1., 1.])


In [15]:
b = a.numpy()
print(b)

[1. 1. 1. 1. 1.]


In [16]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


In [17]:
# NumPy 배열을 Torch Tensor로 변환하기
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out = a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


In [18]:
# CharTensor를 제외한 CPU 상의 모든 Tensor는 NumPy로 변환할 수 있고, (NumPy에서 Tensor로의) 반대 변환도 가능합니다.

# CUDA Tensors
* .to 메소드를 사용하여 Tensor를 어떠한 장치로도 옮길 수 있습니다.

In [19]:
if torch.cuda.is_available():
    device = torch.device("cuda")
    y = torch.ones_like(x, device = device)
    x = x.to(device)
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))

tensor([1.7407], device='cuda:0')
tensor([1.7407], dtype=torch.float64)


# AUTOGRAD: 자동 미분

PyTorch의 모든 신경망의 중심에는 autograd 패키지가 있습니다. 먼저 이것을 가볍게 살펴본 뒤, 첫번째 신경망을 학습시켜보겠습니다.

autograd 패키지는 Tensor의 모든 연산에 대해 자동 미분을 제공합니다. 이는 실행-기반-정의(define-by-run) 프레임워크로, 이는 코드를 어떻게 작성하여 실행하느냐에 따라 역전파가 정의된다는 뜻이며, 역전파는 학습 과정의 매 단계마다 달라집니다.

더 간단한 용어로 몇 가지 예를 살펴보겠습니다.


## Tensor

패키지의 중심에는 torch.Tensor 클래스가 있습니다. 만약 .requires_grad 속성을 True 로 설정하면, 그 tensor에서 이뤄진 모든 연산들을 추적(track)하기 시작합니다. 계산이 완료된 후 .backward() 를 호출하여 모든 변화도(gradient)를 자동으로 계산할 수 있습니다. 이 Tensor의 변화도는 .grad 속성에 누적됩니다.

Tensor가 기록을 추적하는 것을 중단하게 하려면, .detach() 를 호출하여 연산 기록으로부터 분리(detach)하여 이후 연산들이 추적되는 것을 방지할 수 있습니다.

기록을 추적하는 것(과 메모리를 사용하는 것)을 방지하기 위해, 코드 블럭을 with torch.no_grad(): 로 감쌀 수 있습니다. 이는 특히 변화도(gradient)는 필요없지만, requires_grad=True 가 설정되어 학습 가능한 매개변수를 갖는 모델을 평가(evaluate)할 때 유용합니다.

Autograd 구현에서 매우 중요한 클래스가 하나 더 있는데, 이것은 바로 Function 클래스입니다.

Tensor 와 Function 은 서로 연결되어 있으며, 모든 연산 과정을 부호화(encode)하여 순환하지 않는 그래프(acyclic graph)를 생성합니다. 각 tensor는 .grad_fn 속성을 갖고 있는데, 이는 Tensor 를 생성한 Function 을 참조하고 있습니다. (단, 사용자가 만든 Tensor는 예외로, 이 때 grad_fn 은 None 입니다.)

도함수를 계산하기 위해서는 Tensor 의 .backward() 를 호출하면 됩니다. 만약 Tensor 가 스칼라(scalar)인 경우(예. 하나의 요소 값만 갖는 등)에는 backward 에 인자를 정해줄 필요가 없습니다. 하지만 여러 개의 요소를 갖고 있을 때는 tensor의 모양을 gradient 의 인자로 지정할 필요가 있습니다.



In [20]:
import torch

In [21]:
# tensor를 생성하고 requires_grad=True 를 설정하여 연산을 기록합니다.
x = torch.ones(2,2, requires_grad = True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [22]:
# tensor에 연산을 수행합니다.
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


In [23]:
# y 는 연산의 결과로 생성된 것이므로 grad_fn 을 갖습니다.
print(y.grad_fn)

<AddBackward0 object at 0x00000264CFEA4948>


In [24]:
# y 에 다른 연산을 수행합니다.
z = y * y * 3
out = z.mean()

print(z, out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [29]:
# .requires_grad_( ... ) 는 기존 Tensor의 requires_grad 값을 바꿔치기 (in-place)하여 변경합니다. 
# 입력값이 지정되지 않으면 기본값은 False 입니다.

a = torch.randn(2, 2)
a = ((a*3) / (a-1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x00000264CFEAB148>


# 변화도(Gradient)

이제 역전파(backprop)를 해보겠습니다. out 은 하나의 스칼라 값만 갖고 있기 때문에,

out.backward() 는 out.backward(torch.tensor(1.)) 과 동일합니다.

In [30]:
out.backward()

In [31]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


* 일반적으로, torch.autograd 는 벡터-야코비안 곱을 계산하는 엔진입니다. 
* 벡터-야코비안 곱의 이러한 특성은 스칼라가 아닌 출력을 갖는 모델에 외부 변화도를 제공(feed)하는 것을 매우 편리하게 해줍니다.

In [32]:
# 벡터-야코비안 곱의 예제를 살펴보도록 하겠습니다:

x = torch.randn(3, requires_grad = True)
y = x * 2
while y.data.norm() < 1000:
    y = y * 2
print(y)

tensor([  867.9491,   455.8497, -1497.9010], grad_fn=<MulBackward0>)


In [34]:
# 이 경우 y 는 더 이상 스칼라 값이 아닙니다. torch.autograd 는 전체 야코비안을 직접 계산할수는 없지만, 
# 벡터-야코비안 곱은 간단히 backward 에 해당 벡터를 인자로 제공하여 얻을 수 있습니다

v = torch.tensor([0.1, 1.0, 0.0001], dtype = torch.float)
y.backward(v)

print(x.grad)

tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])


In [35]:
# 또한 with torch.no_grad(): 로 코드 블럭을 감싸서 autograd가 
# .requires_grad=True 인 Tensor들의 연산 기록을 추적하는 것을 멈출 수 있습니다.

print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)


True
True
False


In [36]:
# 또는 .detach() 를 호출하여 내용물(content)은 같지만 require_grad가 다른 새로운 Tensor를 가져옵니다:

print(x.requires_grad)
y = x.detach()
print(y.requires_grad)
print(x.eq(y).all())

True
False
tensor(True)
