# Short Tutorial

## Tensor

In [1]:
import torch

x = torch.Tensor(2, 2) # 2x2 matrix
x = torch.Tensor([[1, 2], [3, 4]])

x

tensor([[1., 2.],
        [3., 4.]])

In [2]:
import numpy as np

x = [[1, 2], [3, 4]]
x = np.array(x)
x = torch.from_numpy(x)

x

tensor([[1, 2],
        [3, 4]])

$$x=\begin{bmatrix}
1, 2 \\
3, 4
\end{bmatrix}$$

## Autograd

In [3]:
import torch

x = torch.FloatTensor(2, 2)
y = torch.FloatTensor(2, 2)
y.requires_grad_(True) # if gradients need to be computed for this Tensor; autograd에 모든 연산들을 추적해야 된다고 얘기

z = (x + y) + torch.FloatTensor(2, 2) # x+y에 해당하는 텐서가 생성되어 연산 그래프에 할당되고 새롭게 생성된 텐서를 더해준 뒤 z에 할당
                                      # z로부터 역전파 수행  -> 이미 생성된 연산 그래프를 따라서 미분 값을 전달 할 수 있음

In [4]:
import torch

x = torch.FloatTensor(2, 2)
y = torch.FloatTensor(2, 2)
y.requires_grad_(True)

with torch.no_grad(): # 기울기(gradient)를 구할 필요가 없을 때
                      # 역전파 알고리즘 수행이 필요없는 비 학습 과정(prediction, inference(추론))등을 수행할 때 유용
    z = (x + y) + torch.FloatTensor(2, 2)

## Feed-forward

$$\begin{gathered}
y = xW+ b \\
\text{where }x\in\mathbb{R}^{M\times N},W\in\mathbb{R}^{N\times P}\text{ and }b\in\mathbb{R}^P. \\
\text{Thus, }y\in\mathbb{R}^{M\times P}.
\end{gathered}$$

$$\begin{aligned}
y&=f(x; \theta)\text{ where }\theta=\{W, b\}
\end{aligned}$$

In [5]:
import torch

# 이 경우엔 역전파 알고리즘을 통한 학습 불가

def linear(x, W, b):
    y = torch.mm(x, W) + b

    return y

x = torch.FloatTensor(16, 10)
W = torch.FloatTensor(10, 5)
b = torch.FloatTensor(5)

y = linear(x, W, b)

## nn.Module

In [6]:
import torch
import torch.nn as nn

# 앞서 구현한 linear 함수 대신에 myLinear라는 클래스를 nn.Module을 상속받아 선언하고, 이를 사용하여 똑같은 기능 구현

class MyLinear(nn.Module): # 상속

    def __init__(self, input_size, output_size):
        super().__init__()

        self.W = torch.FloatTensor(input_size, output_size)
        self.b = torch.FloatTensor(output_size)

    def forward(self, x): # Feed-forward랑 같은 함수
        y = torch.mm(x, self.W) + self.b

        return y

In [7]:
x = torch.FloatTensor(16, 10) # 10개의 element를 가진 벡터를 16개 가진 행렬
linear = MyLinear(10, 5) # 10 = input_size, 5 = output_size
y = linear(x)

In [8]:
params = [p.size() for p in linear.parameters()] # parameters() is an iterator that returns the parameters that need training in the called module
print(params) # linear 모듈 내의 학습이 필요한 파라미터들의 크기를 size() 함수를 통해 확인
# 빈 리스트가 뜸 = linear 모듈 내에 학습 가능한 파라미터가 없음

[]


참고: http://pytorch.org/docs/master/nn.html?highlight=parameter#parameters

In [9]:
class MyLinear(nn.Module):

    def __init__(self, input_size, output_size):
        super(MyLinear, self).__init__()
        
        # 신경망의 학습 파라미터는 단순한 텐서가 아님 -> 파라미터로 등록되어야 함 -> 텐서를 Parameter 클래스로 감싸야 함
        self.W = nn.Parameter(torch.FloatTensor(input_size, output_size), requires_grad=True)
        self.b = nn.Parameter(torch.FloatTensor(output_size), requires_grad=True)

    def forward(self, x):
        y = torch.mm(x, self.W) + self.b

        return y

In [10]:
linear = MyLinear(10, 5)
params = [p.size() for p in linear.parameters()]
print(params)

[torch.Size([10, 5]), torch.Size([5])]


In [11]:
class MyLinear(nn.Module):

    def __init__(self, input_size, output_size):
        super(MyLinear, self).__init__()

        self.linear = nn.Linear(input_size, output_size) # 간단하게 nn.Linear 클래스를 사용해 W와 b 대체

    def forward(self, x):
        y = self.linear(x)

        return y

In [12]:
linear = MyLinear(10, 5)
print(linear)

MyLinear(
  (linear): Linear(in_features=10, out_features=5, bias=True)
)


## Backward (Back-propagation)

In [13]:
objective = 100 # 원하는 값

x = torch.FloatTensor(16, 10)
linear = MyLinear(10, 5)
y = linear(x) # forward한 결과값
loss = (objective - y.sum())**2 # 오류

# 여기서 기울기는 오차임 왜냐면 gradient descent 그래프에서 기울기가 오차라서
loss.backward() # 기울기(=loss) 구하기, loss는 scalar여야함 (벡터, 행렬 x)

## train() and eval()

In [14]:
# Training...
linear.eval()
# Do some inference process.
linear.train()
# Restart training, again.

MyLinear(
  (linear): Linear(in_features=10, out_features=5, bias=True)
)

## Linear regression example

$$\mathcal{L}_{\text{MSE}}(\hat{y}, y)=\frac{1}{N}\sum^N_{i=1}{(\hat{y}_i - y_i)^2}$$

In [15]:
import random

import torch
import torch.nn as nn

# MyModel이라는 모듈 선언
class MyModel(nn.Module):

    def __init__(self, input_size, output_size):
        super(MyModel, self).__init__()

        self.linear = nn.Linear(input_size, output_size)

    def forward(self, x):
        y = self.linear(x)

        return y

# 임의의 함수 f가 동작한다고 가정 -> 이때 함수 f가 내부적으로 어떻게 동작하는지 알고자 함 -> 그럼 loss function을 최소로 만드는 파라미터 theta를 찾아서 함수 f를 근사해야 함

$$\begin{gathered}
y=f(x_1, x_2, x_3) = 3x_1 + x_2 - 2x_3 \\
\hat{y}=\tilde{f}(x_1,x_2,x_3;\theta) \\
\hat{\theta}=\underset{\theta\in\Theta}{\text{argmin }}\mathcal{L}(\hat{y},y)
\end{gathered}$$

In [16]:
# 위의 함수를 파이썬으로 구현하기
def ground_truth(x): # y
    return 3 * x[:, 0] + x[:, 1] - 2 * x[:, 2]

In [17]:
# 모델과 텐서를 입력받아 feed-forwarding한 후, back-propagation algorithm을 수행하여 G.D.의 한 스텝을 수행하는 함수
def train(model, x, y, optim):
    # initialize gradients in all parameters in module.
    optim.zero_grad()

    # feed-forward
    y_hat = model(x)
    # get error between answer and inferenced.
    loss = ((y - y_hat)**2).sum() / x.size(0)

    # back-propagation
    loss.backward()

    # one-step of gradient descent
    optim.step()

    return loss.data

In [18]:
# hyperparameter 설정
batch_size = 1
n_epochs = 1000
n_iter = 10000

model = MyModel(3, 1)
optim = torch.optim.SGD(model.parameters(), lr=0.0001, momentum=0.1)

print(model)

MyModel(
  (linear): Linear(in_features=3, out_features=1, bias=True)
)


In [19]:
# 위의 값을 사용하여 평균 손실값이 0.001보다 작아질 때까지 훈련
for epoch in range(n_epochs):
    avg_loss = 0

    for i in range(n_iter):
        x = torch.rand(batch_size, 3) # Returns a tensor filled with random numbers from a uniform distribution on the interval [0,1)
                                      # torch.rand(2,3) = 2 x 1 tensor with 3 elements in each matrix
        y = ground_truth(x.data) # y will be a Tensor that shares the same data with x, 
                                 # is unrelated with the computation history of x, and has requires_grad=False.

        loss = train(model, x, y, optim)

        avg_loss += loss
        avg_loss = avg_loss / n_iter

    # simple test sample to check the network.
    x_valid = torch.FloatTensor([[.3, .2, .1]])
    y_valid = ground_truth(x_valid.data)

    model.eval()
    y_hat = model(x_valid)
    model.train()

    print(avg_loss, y_valid.data[0], y_hat.data[0, 0])

    if avg_loss < .001: # finish the training if the loss is smaller than .001.
        break

tensor(6.0449e-06) tensor(0.9000) tensor(0.8689)


## Use GPU

In [21]:
# Note that tensor is declared in torch.cuda.
x = torch.cuda.FloatTensor(16, 10)
linear = MyLinear(10, 5)
# .cuda() let module move to GPU memory.
linear.cuda()
y = linear(x)

TypeError: type torch.cuda.FloatTensor not available. Torch not compiled with CUDA enabled.