# **[HW1.1] PyTorch Tutorial**
1. Install packages
2. Tensor
3. AutoGrad

딥러닝 실습은, 수업시간에 배웠던 개념들을 직접 코드로 옮겨보며 이를 폭넓게 이해하는 데에 초점을 맞추고 있습니다. 실습에서 사용한 예시 외에도, 다양한 architecture를 직접 구성해보며 각 node와 function의 역할을 명확히 이해해보시길 바랍니다.

이번 실습에서는 딥러닝 모델을 만들때 사용하는 PyTorch library에 대한 기본 개념들을 익혀보도록 하겠습니다.

# 1. Import packages

> 필요한 package를 설치하고 import합니다

런타임의 유형을 변경해줍니다.

상단 메뉴에서 [런타임]->[런타임유형변경]->[하드웨어가속기]->[GPU]

변경 이후 아래의 cell을 실행 시켰을 때, torch.cuda.is_avialable()이 True가 나와야 합니다.



In [1]:
import torch
print(torch.__version__)
print(torch.cuda.is_available())

1.9.0+cu102
True


In [2]:
import matplotlib.pyplot as plt
import numpy as np
import scipy as sp

np.set_printoptions(precision=3)
np.set_printoptions(suppress=True)

# 2. Tensor operations


텐서(tensor)는 배열(array)이나 행렬(matrix)과 매우 유사한 특수한 자료구조입니다. PyTorch에서는 텐서를 사용하여 모델의 입력과 출력뿐만 아니라 모델의 파라미터를 나타냅니다.

GPU나 다른 연산 가속을 위한 특수한 하드웨어에서 실행할 수 있다는 점을 제외하면, 텐서는 NumPy의 ndarray와 매우 유사합니다. 

##텐서 초기화하기

데이터로부터 직접 생성하기

In [3]:
data = [[1, 2],[3, 4]]
x = torch.tensor(data)
x

tensor([[1, 2],
        [3, 4]])

Numpy array로부터 생성하기

In [4]:
np_array = np.array(data)
x = torch.from_numpy(np_array)
x

tensor([[1, 2],
        [3, 4]])

Tensor에서 Numpy array로 변환하기

In [5]:
x.numpy()

array([[1, 2],
       [3, 4]])

다른 텐서와 같은 모양의 텐서 초기화하기

In [6]:
x_ones = torch.ones_like(x) # x_data의 속성을 유지합니다.
print(f"Ones Tensor: \n {x_ones} \n")

x_rand = torch.rand_like(x, dtype=torch.float) # x_data의 속성을 덮어씁니다.
print(f"Random Tensor: \n {x_rand} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 

Random Tensor: 
 tensor([[0.0179, 0.0047],
        [0.9736, 0.1019]]) 



주어진 shape으로 초기화하기

In [7]:
shape = (3,4)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

Random Tensor: 
 tensor([[0.2703, 0.5848, 0.0052, 0.9647],
        [0.3242, 0.3206, 0.5032, 0.2871],
        [0.6243, 0.5831, 0.5295, 0.1740]]) 

Ones Tensor: 
 tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])


## 텐서의 속성

텐서의 속성은 텐서의 모양(shape), 자료형(datatype) 및 어느 장치에 저장되는지를 나타냅니다.



In [8]:
tensor = torch.rand(3,4)

print(f"Shape of tensor: {tensor.shape}")
print(f"Datatype of tensor: {tensor.dtype}")
print(f"Device tensor is stored on: {tensor.device}")

Shape of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32
Device tensor is stored on: cpu


아래와 같이 cpu에 할당되어 있는 tensor를 gpu에 옮길 수 있습니다.

In [9]:
device = torch.device('cuda')
tensor = tensor.to(device)
print(f"Device tensor is stored on: {tensor.device}")

Device tensor is stored on: cuda:0


## 텐서 연산

Numpy식의 인덱싱과 슬라이싱

In [10]:
tensor = torch.ones(3, 4)
tensor[:,1] = 0
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


텐서 합치기

In [11]:
t1 = torch.cat([tensor, tensor, tensor], dim=0)
print(t1)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [12]:
t1 = torch.cat([tensor, tensor, tensor], dim=1)
print(t1)

tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])


텐서 곱하기

In [13]:
# 요소별 곱(element-wise product)을 계산합니다
print(f"tensor.mul(tensor) \n {tensor.mul(tensor)} \n")

# 다른 문법:
print(f"tensor * tensor \n {tensor * tensor}")

tensor.mul(tensor) 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor * tensor 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


텐서간 matrix multiplication 진행하기

In [14]:
print(f"tensor.matmul(tensor.T) \n {tensor.matmul(tensor.T)} \n")
# 다른 문법:
print(f"tensor @ tensor.T \n {tensor @ tensor.T}")

tensor.matmul(tensor.T) 
 tensor([[3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.]]) 

tensor @ tensor.T 
 tensor([[3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.]])


# 3. AUTOGRAD

PyTorch에는 torch.autograd라고 불리는 자동 미분 엔진이 내장되어 있습니다. 
이는 모든 node에 대한 미분 값을 자동으로 계산해주게 됩니다.

입력 X, 파라미터 W , 그리고 cross-entropy loss를 사용하는 logistic regression model의 gradient를 autograd를 이용해서 구해보도록 하겠습니다.

## 입력 및 파라미터 초기화

In [15]:
x = torch.ones(5)  # input tensor
y = torch.zeros(3)  # expected output
w = torch.randn(5, 3, requires_grad=True)
b = torch.randn(3, requires_grad=True)
print(x)
print(y)
print(w)
print(b)

tensor([1., 1., 1., 1., 1.])
tensor([0., 0., 0.])
tensor([[-0.0802, -1.1405, -0.7121],
        [-0.1358, -0.6840,  0.4886],
        [-0.2076, -0.5850,  0.4255],
        [ 0.4640, -2.6366, -1.5647],
        [-0.1706,  0.4467, -1.2228]], requires_grad=True)
tensor([1.7224, 2.3998, 0.0393], requires_grad=True)


## Forward

In [16]:
z = torch.matmul(x,w)+b
z

tensor([ 1.5923, -2.1996, -2.5461], grad_fn=<AddBackward0>)

## Loss Function

PyTorch에서는 node를 크게 2가지의 방법의 api를 활용해서 사용합니다.

1. [torch.nn](https://pytorch.org/docs/stable/nn.html)
2. [torch.nn.functional](https://pytorch.org/docs/stable/nn.functional.html)

torch.nn은 사전에 node를 초기화 시켜놓고, 해당 node에 텐서를 통과시켜 값을 받는 형태인 반면, torch.nn.functional은 사전에 초기화없이 바로 함수처럼 사용하는 방식입니다.

코딩 스타일에 맞춰 원하시는 api를 선택하셔서 사용하시면 됩니다.


In [17]:
loss_fn = torch.nn.BCEWithLogitsLoss()
loss = loss_fn(z, y)
loss

tensor(0.6527, grad_fn=<BinaryCrossEntropyWithLogitsBackward>)

In [18]:
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y)
loss

tensor(0.6527, grad_fn=<BinaryCrossEntropyWithLogitsBackward>)

## Backward

모델에서 매개변수의 가중치를 최적화하려면 파라미터에 대한 loss function의 도함수(derivative)를 계산해야 합니다. 
이러한 도함수를 계산하기 위해, loss.backward() 를 호출한 다음 w.grad와 b.grad에서 값을 가져옵니다

In [19]:
loss.backward()
print(x.grad)
print(w.grad)
print(b.grad)

None
tensor([[0.2770, 0.0333, 0.0242],
        [0.2770, 0.0333, 0.0242],
        [0.2770, 0.0333, 0.0242],
        [0.2770, 0.0333, 0.0242],
        [0.2770, 0.0333, 0.0242]])
tensor([0.2770, 0.0333, 0.0242])


기본적으로, requires_grad=True인 모든 텐서들은 연산 기록을 추적하고 미분 계산을 지원합니다. 그러나 모델을 학습한 뒤 입력 데이터를 단순히 적용하기만 하는 경우와 같이 forward 연산만 필요한 경우에는, 미분 연산을 위한 값들을 저장해두는 것이 속력 및 메모리의 저하를 가져올 수 있습니다. 연산 코드를 torch.no_grad() 블록으로 둘러싸서 미분 추적을 멈출 수 있습니다:

In [20]:
z = torch.matmul(x, w)+b
print(z.requires_grad)

with torch.no_grad():
    z = torch.matmul(x, w)+b
print(z.requires_grad)

True
False


# Reference

1. https://tutorials.pytorch.kr/index.html