# PyTorch로 딥러닝하기 : 60분만에 끝장내기

reference : https://tutorials.pytorch.kr/beginner/deep_learning_60min_blitz.html

### Tutorial의 목표
- PyTorch의 Tensor Library와 신경망을 이해한다.
- 이미지를 분류하는 작은 신경망을 학습시킨다.

In [1]:
# version check
!pip freeze | findstr torch
!pip freeze | findstr torchvision

torch==1.8.1
torchvision==0.9.1
torchvision==0.9.1


In [2]:
# install torch, torchvision
# !pip install torch
# !pip install torchvision

## 1. PyTorch가 무엇인가?

Python 기반의 연산 패키지로 다음 두 상황을 대상으로 한다.
- numpy를 대체하면서 GPU를 이용한 연산이 필요한 경우
- 최대한의 유연성과 속도를 제공하는 딥러닝 연구 플랫폼이 필요한 경우

### 1.1 Tensors
- Tensor는 Numpy의 ndarray와 유사하며, GPU를 사용한 "연산 가속"도 가능하다.

In [3]:
from __future__ import print_function

In [4]:
import torch

In [5]:
# 초기화되지 않은 행렬을 생성
x = torch.empty(5, 3)
print(x)

tensor([[1.9349e-19, 4.5445e+30, 4.7429e+30],
        [3.0570e+32, 1.8469e+25, 8.7126e-04],
        [7.3154e+34, 1.7288e+28, 3.2952e-15],
        [7.3988e+31, 4.4849e+21, 2.7370e+20],
        [6.4640e-04, 7.9290e+29, 7.5546e+31]])


In [6]:
# 무작위로 초기화된 행렬을 생성
x = torch.rand(5, 3)
print(x)

tensor([[0.5670, 0.0493, 0.9731],
        [0.7960, 0.1943, 0.0140],
        [0.3885, 0.0652, 0.6272],
        [0.1484, 0.3374, 0.8849],
        [0.8038, 0.0625, 0.6505]])


In [7]:
# type : long, value : 0 로 채워진 행렬을 생성
x = torch.zeros(5, 3, dtype = torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [8]:
# data를 직접 넣어 tensor를 생성
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


In [9]:
# 기존 tensor를 바탕으로 새로운 tensor를 생성
# 새로운 값을 제공받지 않는 한, 입력 tensor의 속성(dtype, ...)들을 재사용한다.

# new_* : 크기를 입력으로 받는다.
x = x.new_ones(5, 3, dtype = torch.double)
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


In [10]:
# dtype은 Override 한다.
# 결과는 동일한 크기를 갖는다.
x = torch.randn_like(x, dtype = torch.float)
print(x)

tensor([[-0.4121, -0.1865,  0.3836],
        [-0.1929, -0.6331,  0.6119],
        [-0.3199, -0.9287,  0.7241],
        [ 0.0665,  0.9417, -1.3038],
        [-0.4469, -2.1109,  1.5115]])


In [11]:
# 행렬의 size print
# size type은 tuple, 모든 tuple 연산을 지원함
print(x.size())

torch.Size([5, 3])


### 1.2 연산 (Operations)
연산을 위한 여러가지 문법을 제공한다.
- 덧셈
- 인덱싱
- 크기 변경  

다른 연산 문법은 다음 https://pytorch.org/docs/stable/torch.html 참조

#### 덧셈 연산

In [12]:
# 덧셈 연산 ver 1
x = torch.rand(5, 3)
y = torch.rand(5, 3)

print(x + y)

tensor([[1.2992, 1.0927, 1.3163],
        [1.4578, 1.3460, 0.8640],
        [1.1502, 1.0358, 0.6358],
        [0.9516, 1.0418, 1.1592],
        [0.2290, 1.4459, 1.4041]])


In [13]:
# 덧셈 연산 ver 2
print(torch.add(x, y))

tensor([[1.2992, 1.0927, 1.3163],
        [1.4578, 1.3460, 0.8640],
        [1.1502, 1.0358, 0.6358],
        [0.9516, 1.0418, 1.1592],
        [0.2290, 1.4459, 1.4041]])


In [14]:
# 덧셈 결과는 tensor 인자로 제공
result = torch.empty(5, 3)
torch.add(x, y, out = result)
print(result)

tensor([[1.2992, 1.0927, 1.3163],
        [1.4578, 1.3460, 0.8640],
        [1.1502, 1.0358, 0.6358],
        [0.9516, 1.0418, 1.1592],
        [0.2290, 1.4459, 1.4041]])


In [15]:
# 덧셈 in-place
# in-place 방식은 메소드 뒤에 '_' 가 붙는다.
y.add_(x)
print(y)

tensor([[1.2992, 1.0927, 1.3163],
        [1.4578, 1.3460, 0.8640],
        [1.1502, 1.0358, 0.6358],
        [0.9516, 1.0418, 1.1592],
        [0.2290, 1.4459, 1.4041]])


#### tensor인덱싱

In [16]:
# numpy 처럼 인덱싱 표기 방법 사용 가능!!
print(x[:, 1])

tensor([0.3181, 0.5167, 0.7828, 0.2496, 0.8877])


#### tensor size 변경

In [17]:
# tensor 크기 변경
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8) # -1은 다른 차원에서 유추!!

print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


In [18]:
# 하나의 값을 가지는 tensor의 경우 .item() 메소드를 이용하여 하나의 숫자 값을 얻을 수 있다.
x = torch.randn(1)
print(x)
print(x.item())

tensor([-0.0107])
-0.010661723092198372


### 1.3 Torch Tensor -> Numpy Array

In [19]:
a = torch.ones(5)
print(a)

tensor([1., 1., 1., 1., 1.])


In [20]:
b = a.numpy()
print(b)

[1. 1. 1. 1. 1.]


In [21]:
# Torch Tensor가 CPU 상에 있다면
# Torch Tensor와 Numpy Array가 메모리 공간을 공유하기 때문에,
# 하나를 변경하면 다른 하나도 변경 됨
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


### 1.4 Numpy Array -> Torch Tensor

In [22]:
import numpy as np

a = np.ones(5)
b = torch.from_numpy(a)
print(b)

tensor([1., 1., 1., 1., 1.], dtype=torch.float64)


In [23]:
np.add(a, 1, out = a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


### 1.5 CUDA Tensors

In [24]:
# .to 메소드를 사용하여 Tensor를 어떠한 장치로도 이동 가능!!!

## 'torch.device' 를 사용하여 tensort를 GPU 안팎으로 이동
if torch.cuda.is_available():
    device = torch.device('cuda')
    y = torch.ones_like(x, device = device)
    x = x.to(device)
    z = x + y
    print(z)
    print(z.to('cpu', torch.double))

In [25]:
torch.cuda.is_available()

False

In [26]:
torch.cuda.device_count()

0



## 2. AUTOGRAD : 자동 미분

- PyTorch의 모든 신경망의 중심에는 autograd 패키지가 있다.
- autograd 패키지는 Tensor의 모든 연산에 대해 자동 미분을 제공함
- define-by-run 프레임워크 : 코드를 어떻게 작성하여 실행하느냐에 따라 역전파가 정의


- Tensor의 .requires_grad 속성을 True로 설정 하면 해당 tensor에서 이뤄진 모든 연산들을 추적한다.
- 계산 완료 후 .backward()를 호출하면 모든 gradient를 자동으로 계산
- 해당 tensor의 gradient는 .grad 속성에 누적
- tensor의 기록 추적 중단하려면 .detach()를 호출하여 연산 기록으로부터 분리 (이후 연산들이 추적되는 것을 방지 가능)
- 기록을 추적하는 것을 방지하기 위해 with torch.no_grad(): 로 코드를 감쌀 수 있다. -> gradient는 필요없지만, requires_grad=True가 설정 되어 학습 가능한 매개변수를 갖는 모델을 평가할 때 유용하다.

- Autograd 구현 시 Function 클래스의 중요도가 높다.
- Tensor와 Function은 서로 연결되어 있음
- 모든 연산 과정을 부호화하여 순환하지 않는 그래프를 생성 (acyclic graph)
- 각 tensor는 .grad_fn 속성을 가지고 있음, 이는 tensor를 생성한 function을 참조하고 있다.
- 단, 사용자가 만든 Tensor는 예외 -> 이때 grad_fn은 None으로 설정 됨

In [27]:
import torch

In [28]:
# tensor의 속성 requires_grad = True 로 설정하여 연산을 기록한다.
x = torch.ones(2, 2, requires_grad = True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [29]:
# add 연산 수행
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


In [30]:
# 연산의 결과로 생성된 tensor이기 때문에 grad_fn을 갖는다.
print(y.grad_fn)

<AddBackward0 object at 0x0000029DF55CBC40>


In [31]:
# 사용자가 정의한 tensor이기 때문에 grad_fn은 None 값을 가진다.
print(x.grad_fn)

None


In [32]:
# y tensor에 다른 연산 수행
z = y * y * 3
out = z.mean()

print(z, out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [35]:
# requires_grad_(...) 는 기존 tensor의 requires_grad 값을 in-place 하여 변경한다.
# 입력값이 지정되지 않으면 기본 값은 False 이다.
a = torch.randn(2, 2)
a = ((a *3) / (a - 1))
print(a.requires_grad)

a.requires_grad_(True)
print(a.requires_grad)

b = (a * a).sum()
print(b.grad_fn)
print(a.grad_fn)

False
True
<SumBackward0 object at 0x0000029DF14F2AC0>
None


### Gradient

In [36]:
# out : scalar value
# out.backward() == out.backward(torch.tensor(1.))
out.backward()

In [37]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


4.5 로 이루어진 행렬을 확인할 수 있습니다. out 을 Tensor “o” 라고 하면, 다음과 같이 구할 수 있습니다. o=14∑izi 이고, zi=3(xi+2)2 이므로 zi∣∣xi=1=27 입니다. 따라서, ∂o∂xi=32(xi+2) 이므로, ∂o∂xi∣∣xi=1=92=4.5 입니다.

In [39]:
# out = y * y * 3
# y = x + 2
# x = [[1, 1],
#      [1, 1]]
# 즉, out = 3(x+2)^2
# dout / dx = 6(x+2)
print(x)
print(out)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
tensor(27., grad_fn=<MeanBackward0>)


In [54]:
x = torch.randn(3, requires_grad = True)
y = x * 2

while y.data.norm() < 1000:
    y = y * 2
    
print(y)

tensor([-1102.3069, -1487.0493,    -5.5580], grad_fn=<MulBackward0>)


In [48]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

tensor([5.1200e+01, 5.1200e+02, 5.1200e-02])


In [50]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


In [51]:
print(x.requires_grad)
y = x.detach()
print(y.requires_grad)
print(x.eq(y).all())

True
False
tensor(True)
