# 3장 Hello 파이토치

In [2]:
import torch
import numpy as np

In [25]:
torch.__version__

'1.4.0'

## 3.3.1 텐서

In [4]:
x = torch.Tensor([[1,2],[3,4]])
print(x)
x = torch.from_numpy(np.array([[1,2],[3,4]]))
print(x)
x = np.array([[1,2],[3,4]])
print(x)

tensor([[1., 2.],
        [3., 4.]])
tensor([[1, 2],
        [3, 4]], dtype=torch.int32)
[[1 2]
 [3 4]]


torch.Tensor를 통해 선언하면 디폴트 타입인 torch.FloatTensor로 선언하는 것과 같다.

## 3.3.3 Autograd

In [8]:
x = torch.FloatTensor(2,2)
y = torch.FloatTensor(2,2)
y.requires_grad_(True)

z = (x+y) + torch.FloatTensor(2,2)
print(z)

tensor([[0.0000e+00, 1.0597e-05],
        [1.3526e-01, 9.1816e-41]], grad_fn=<AddBackward0>)


파이토치에서는 정해진 연산이라는 것은 없고, 모델은 배워야 하는 파라미터 텐서만 미리 알고 있을 뿐, 그 가중치 파라미터들이 어떠한 연산을 통해 학습 또는 연산에 관여하는지는 알 수 없음. 연산이 수행된 직후에 알 수 있음

기울기를 구할 필요가 없는 연산에 대해서는 with 문법을 사용하여 연산을 수행할 수 있음

- 역전파 알고리즘 수행이 필요 없는 비 학습 과정 (예측, 추론) 등을 할 때 유용
- 기울기를 구하기 위한 사전 작업을 생략할 수 있음

=> 연산 속도 및 메모리 사용 측면에서도 큰 이점

In [10]:
x = torch.FloatTensor(2,2)
y = torch.FloatTensor(2,2)
y.requires_grad_(True)

with torch.no_grad():
    z= (x+y)+torch.FloatTensor(2,2)
print(z)

tensor([[0.0000e+00, 1.0597e-05],
        [2.0289e-01, 1.3772e-40]])


## 3.3.3 피드포워드

$$\begin{gathered}
y = xW+ b \\
\text{where }x\in\mathbb{R}^{M\times N},W\in\mathbb{R}^{N\times P}\text{ and }b\in\mathbb{R}^P. \\
\text{Thus, }y\in\mathbb{R}^{M\times P}.
\end{gathered}$$

$$\begin{aligned}
y&=f(x; \theta)\text{ where }\theta=\{W, b\}
\end{aligned}$$

In [13]:
def linear(x,W,b):
    y = torch.mm(x,W)+b #matrix multiplication
    
    return y

x= torch.FloatTensor(16,10)
W = torch.FloatTensor(10,5)
b = torch.FloatTensor(5)

y = linear(x,W,b)
print(y.shape)
print(y)

torch.Size([16, 5])
tensor([[1.7131e-05, 2.8064e+00, 7.1395e+00, 9.7797e+00, 5.1319e+02],
        [1.6963e-05, 7.3140e+00, 7.5135e+00, 1.9973e+01, 2.6434e+02],
        [2.8563e-05, 3.6495e+00, 3.7729e+00, 9.9869e+00, 1.9484e+02],
        [2.8075e-05, 3.6501e+00, 3.2566e+00, 9.7785e+00, 3.7730e+02],
        [1.6478e-05, 3.1232e+00, 3.8120e+00, 9.7787e+00, 4.6653e+02],
        [1.3391e-05, 3.4152e+00, 3.7083e+00, 9.9864e+00, 2.4841e+02],
        [2.9243e-05, 3.6498e+00, 3.7795e+00, 9.7802e+00, 2.4937e+02],
        [3.3225e-05, 3.6495e+00, 7.3155e+00, 9.7790e+00, 2.4940e+02],
        [2.7526e-05, 3.6492e+00, 3.8419e+00, 9.7799e+00, 1.3486e+02],
        [1.5825e-05, 7.0624e+00, 3.0358e+00, 9.7792e+00, 2.6332e+02],
        [1.6415e-05, 3.6498e+00, 3.7222e+00, 9.9867e+00, 2.4936e+02],
        [3.4856e-06, 6.5156e+00, 3.6786e+00, 9.7784e+00, 4.9655e+02],
        [2.9263e-05, 6.2719e-03, 3.8512e+00, 1.8926e+01, 1.4218e+02],
        [2.8448e-05, 3.6486e+00, 3.6402e+00, 9.7783e+00, 1.7946e+01],


선형 계층의 기능을 위와 같이 파이토치로 구현 가능. 다만 이 경우에는 역전파 알고리즘을 통한 학습은 할 수 없음

## 3.3.4 nn.Module

nn.Module 이라는 클래스를 사용하여 사용자가 그 클래스 위에서 필요한 모델 구조를 구현할 수 있도록 함

nn.Module을 상속한 사용자 정의 클래스는 다시 내부에 nn.Module을 상속한 클래스 객체를 선언하여 소유할 수 있음

- nn.Module의 forward() 함수를 오버라이드해서 피드포워드 구현 가능
- 이외에도 nn.Module 특징을 이용해서 한 번에 신경망 가중치 파라미터들을 저장 및 불러오기를 수행 가능

In [35]:
import torch.nn as nn

class MyLinear(nn.Module):
    def __init__(self,input_size, output_size):
        super().__init__()
        self.W = torch.FloatTensor(input_size, output_size)
        self.b = torch.FloatTensor(output_size)

    def forward(self,x):
        y = torch.mm(x, self.W) + self.b
        
        return y

nn.Module의 forward() 함수를 오버라이드하여 피드포워드를 구현할 수 있음

* 오버라이드 (override)

In [36]:
x = torch.FloatTensor(16,10)
linear = MyLinear(10,5)
y = linear(x)
print(y.shape)
print(y)

torch.Size([16, 5])
tensor([[3.5487e-06, 7.2876e+00, 1.9539e-02, 6.3154e-03, 2.9904e+01],
        [9.0550e-07, 2.5775e-03, 9.7295e-01, 6.3149e-03, 6.2317e+01],
        [9.0546e-07, 4.1129e-03, 9.9674e-01, 2.5981e+00, 4.6839e+02],
        [3.4893e-06, 9.7563e-01, 1.8105e-02, 6.3150e-03, 4.1345e+00],
        [2.7492e-06, 2.5913e-03, 2.9653e+00, 2.6157e+00, 6.2705e+01],
        [3.4883e-06, 9.7598e-01, 1.8101e-02, 6.3150e-03, 4.1360e+00],
        [9.1135e-07, 3.8590e-03, 9.9917e-01, 2.6156e+00, 4.0071e+02],
        [3.5585e-06, 6.2352e+00, 1.9388e-02, 6.3153e-03, 2.5607e+01],
        [9.1138e-07, 2.5913e-03, 9.7956e-01, 2.6158e+00, 6.2707e+01],
        [1.0001e-05, 9.7557e-01, 4.7162e-02, 6.3150e-03, 4.1343e+00],
        [9.1021e-07, 2.5913e-03, 9.7829e-01, 2.6112e+00, 6.2709e+01],
        [3.4846e-06, 9.7455e-01, 1.8084e-02, 6.3150e-03, 4.1301e+00],
        [8.9300e-07, 2.5742e-03, 9.5940e-01, 6.3149e-03, 6.1438e+01],
        [8.9308e-07, 3.0322e-03, 9.6710e-01, 8.3539e+00, 1.8026e+02],


In [37]:
params = [p.size() for p in linear.parameters()]
print(params)

[]


참고: http://pytorch.org/docs/master/nn.html?highlight=parameter#parameters

위와 같이 W,b를 선언하면 문제가 있음

- linear 모듈 내에서는 학습 가능한 파라미터가 없음
- 신경망의 학습 파라미터는 단순한 텐서가 아니기 때문에 파라미터로 등록되어야 한다.

In [38]:
class MyLinear(nn.Module):
    def __init__(self,input_size, output_size):
        super(MyLinear,self).__init__()
        
        self.W = nn.Parameter(torch.FloatTensor(input_size, output_size),requires_grad=True)
        self.b = nn.Parameter(torch.FloatTensor(output_size),requires_grad=True)

    def forward(self,x):
        y = torch.mm(x, self.W) + self.b
        
        return y

In [42]:
linear = MyLinear(10,5)
params = [p.size() for p in linear.parameters()]
print(params)

[torch.Size([10, 5]), torch.Size([5])]


다시 깔끔하게 만들기!!

In [43]:
class MyLinear(nn.Module):
    
    def __init__(self,input_size,output_size):
        super(MyLinear,self).__init__()
        
        self.linear = nn.Linear(input_size,output_size)
        
    def forward(self,x):
        y = self.linear(x)
        
        return y

In [44]:
linear = MyLinear(10,5)
print(linear)

MyLinear(
  (linear): Linear(in_features=10, out_features=5, bias=True)
)


## 3.3.5 역전파 수행

In [113]:
objective= 100

x=  torch.FloatTensor(16,10)
linear = MyLinear(10,5)
y = linear(x)
loss = (objective - y.sum())**2
loss.backward()
print(loss)

tensor(9779.7529, grad_fn=<PowBackward0>)


에러(손실) 값은 스칼라로 표현되어야 한다. 벡터나 행렬의 형태여서는 안 됨

## 3.3.6 train() 과 eval()

In [116]:
#training...
linear.eval()
#do some inference process
linear.train()
#restart training,again.

MyLinear(
  (linear): Linear(in_features=10, out_features=5, bias=True)
)

train()과 eval()을 통해서 사용자는 필요에 따라 모델에 대해 훈련 시와 추론 시의 모드를 쉽게 전환할 수 있다.

- nn.Module을 상속받아 구현하고 생성한 객체는 기본적으로 훈련 모드이다.
- eval()을 사용하여 추론 모드로 바꿔어주면, 드롭아웃, 배치 정규화와 같은 학습과 추론 시 서로 다른 forward() 동작을 하는 모듈들에 대해서도 각 상황에 따라 올바르게 동작함
- 다만 추론이 끝나면 다시 train()을 선언하여 원래의 훈련 모드로 돌아가게 해줘야 함

## 3.3.7 선형회귀분석 예제

$$\mathcal{L}_{\text{MSE}}(\hat{y}, y)=\frac{1}{N}\sum^N_{i=1}{(\hat{y}_i - y_i)^2}$$

In [128]:
import random

import torch
import torch.nn as nn

class MyModel(nn.Module):
    
    def __init__(self,input_size, output_size):
        super(MyModel,self).__init__()
        
        self.linear = nn.Linear(input_size, output_size)
        
    def forward(self,x):
        y = self.linear(x)
        
        return y

$$\begin{gathered}
y=f(x_1, x_2, x_3) = 3x_1 + x_2 - 2x_3 \\
\hat{y}=\tilde{f}(x_1,x_2,x_3;\theta) \\
\hat{\theta}=\underset{\theta\in\Theta}{\text{argmin }}\mathcal{L}(\hat{y},y)
\end{gathered}$$

In [129]:
def ground_truth(x):
    return 3*x[:,0]+x[:,1]-2*x[:,2]

In [130]:
def train(model,x,y,optim):
    #initialize gradients in all parameters in module
    optim.zero_grad()
    
    #feed-forward
    y_hat= model(x)
    #get error between anser and inferenced.
    loss = ((y-y_hat)**2).sum() / x.size(0)
    
    #back-propagation
    loss.backward()
    
    #one-step of gradient descent
    optim.step()
    
    return loss.data    

In [131]:
batch_size= 1
n_epochs= 1000
n_iter =10000

model = MyModel(3,1)
optim = torch.optim.SGD(model.parameters(),lr= 0.0001, momentum = 0.1)
print(model)

MyModel(
  (linear): Linear(in_features=3, out_features=1, bias=True)
)


In [136]:
for epoch in range(n_epochs):
    avg_loss =0
    
    for i in range(n_iter):
        x= torch.rand(batch_size,3)
        y= ground_truth(x.data)
        loss =train(model, x, y, optim)
        
        avg_loss +=loss
    avg_loss = avg_loss /n_iter
        
    #simple test sample to check the network
    x_valid = torch.FloatTensor([[.3,.2,.1]])
    y_valid = ground_truth(x_valid.data)
    
    model.eval()
    y_hat = model(x_valid)
    model.train()
    
    print(avg_loss, y_valid.data[0],y_hat.data[0,0])
    
    if avg_loss <.001: #finish the training if the loss is smaller than .001.
        break

tensor(0.0020) tensor(0.9000) tensor(0.9524)
tensor(0.0015) tensor(0.9000) tensor(0.9466)
tensor(0.0011) tensor(0.9000) tensor(0.9427)
tensor(0.0009) tensor(0.9000) tensor(0.9391)


파이토치에서 딥러닝을 수행하는 과정을 다음과 같이 요약 가능

1. nn.Module 클래스를 상속받아 (forward 함수를 통해) 모델 아키텍쳐 클래스 선언
2. 해당 클래스 객체 생성
3. SGD나 Adam 등의 옵티마이저를 생성하고, 생성한 모델의 파라미터를 최적화 대상으로 등록
4. 데이터로 미니배치를 구성하여 피드포워드 연산 그래프 생성
5. 손실 함수를 통해 최종 결과값(scalar)과 손실값(loss) 계산
6. 손실에 대해서 backward() 호출- > 연산 그래프 상의 텐서들의 기울기가 채워짐
7. 3번의 옵티마이저에서 step()을 호출하여 경사하강법 1스탭 수행
8. 4번으로 돌아가 수렴 조건이 만족할 때까지 반복 수행

## 3.3.8 GPU 사용하기

In [138]:
#note that tensor is declared in torch.cuda.
x= torch.cuda.FloatTensor(16,10)
linear = Mylinear(10,5)
# .cuda() let module move to GPU memory
linear.cuda()
y = linear(x)

TypeError: type torch.cuda.FloatTensor not available. Torch not compiled with CUDA enabled.

=> pytorch 설치 시 cpu only version을 설치했기에 나타난 오류로 보임

cuda() 함수를 통해서 원하는 객체를 (텐서의 경우) GPU 메모리에 복사하거나 (nn.Module의 하위 클래스인 경우)이동시킬 수 있음

cpu() 함수를 통해서 다시 pc의 메모리로 복사하거나 이동할 수 있음

이 밖에도 to() 함수를 사용해서 텐서 또는 모듈을 원하는 디바이스로 보낼 수 있음