### 3.3.1 텐서

In [None]:
import torch
import numpy as np

In [None]:
x = torch.Tensor([[1, 2], [3, 4]])
print(x)
x = torch.from_numpy(np.array([[1, 2], [3, 4]]))
print(x)

tensor([[1., 2.],
        [3., 4.]])
tensor([[1, 2],
        [3, 4]])


In [None]:
x = np.array([[1, 2], [3, 4]])
print(x)

[[1 2]
 [3 4]]


In [None]:
x = torch.IntTensor([[1, 2], [3, 4]])
x

tensor([[1, 2],
        [3, 4]], dtype=torch.int32)

### 3.3.2 Autograd

In [None]:
import torch

In [None]:
x = torch.FloatTensor(2, 2)
print(x)

tensor([[2.0250e-05, 3.0789e-41],
        [0.0000e+00, 0.0000e+00]])


In [None]:
y = torch.FloatTensor(2, 2)
print(y)

tensor([[2.0250e-05, 3.0789e-41],
        [1.5975e-43, 1.3873e-43]])


In [None]:
y.requires_grad_(True)
print(y)

tensor([[2.0250e-05, 3.0789e-41],
        [1.5975e-43, 1.3873e-43]], requires_grad=True)


In [None]:
z = (x + y) + torch.FloatTensor(2, 2)
print(z)

tensor([[6.0750e-05, 9.2368e-41],
        [3.1950e-43, 2.7746e-43]], grad_fn=<AddBackward0>)


In [None]:
import torch

In [None]:
x = torch.FloatTensor(2, 2)
y = torch.FloatTensor(2, 2)
y.requires_grad_(True)

with torch.no_grad():  # 기울기를 구하지 않아도 되는 공간
    z = (x + y) + torch.FloatTensor(2, 2)

In [None]:
print(z)

tensor([[5.5035e-05, 9.2368e-41],
        [7.9874e-43, 6.9364e-43]])


### 3.3.3 피드포워드

In [None]:
import torch

In [None]:
def linear(x, W, b):
    y = torch.mm(x, W) + b

    return y

x = torch.FloatTensor(16, 10)
W = torch.FloatTensor(10, 5)
b = torch.FloatTensor(5)

In [None]:
print(x)
print(W)
print(b)

tensor([[ 2.0064e-05,  3.0789e-41,  1.6789e+31,  4.5703e-41,         nan,
                 nan,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 1.3448e-08,  3.0789e-41,  3.2230e-44,  0.0000e+00,  1.0549e-05,
          3.0789e-41, -2.9993e-33,  4.5705e-41, -2.7950e-29,  4.5705e-41],
        [-3.1067e-33,  4.5705e-41,  0.0000e+00,  0.0000e+00,  2.0051e-05,
          3.0789e-41,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 1.4013e-45,  0.0000e+00,  0.0000e+00,  0.0000e+00,  4.7084e-43,
          2.7746e-43,  0.0000e+00,  0.0000e+00,  1.7096e-43,  4.1198e-43],
        [ 0.0000e+00,  1.6956e-43,  3.5313e-43,  0.0000e+00,  0.0000e+00,
          0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,
          0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00,
          0.0000e+00,  0.0000e+0

In [None]:
y = linear(x, W, b)
print(y)

tensor([[       nan,        nan,        nan,        nan,        nan],
        [1.4535e-05, 3.3022e-12, 1.2126e+19, 3.2576e+24, 5.9797e-10],
        [1.4535e-05, 2.2215e-18, 2.3050e+19, 6.1919e+24, 5.9797e-10],
        [1.4535e-05, 2.0019e-20, 8.1889e-14, 1.4540e-13, 5.3886e-12],
        [1.4535e-05, 6.0808e-21, 1.5975e-43, 2.9835e-22, 9.3322e-23],
        [1.4535e-05, 3.0789e-41, 1.5975e-43, 1.3873e-43, 1.4574e-43],
        [1.4535e-05, 3.0789e-41, 1.5975e-43, 1.3873e-43, 1.4574e-43],
        [1.4535e-05, 3.0789e-41, 1.5975e-43, 1.3873e-43, 1.4574e-43],
        [1.4535e-05, 3.0789e-41, 1.5975e-43, 1.3873e-43, 1.4574e-43],
        [1.4535e-05, 3.0789e-41, 1.5975e-43, 1.3873e-43, 1.4574e-43],
        [1.4535e-05, 3.0789e-41, 1.5975e-43, 1.3873e-43, 1.4574e-43],
        [       inf, 1.0499e+28,        inf,        inf, 4.4978e+22],
        [2.5194e+23, 2.3092e+14, 2.6163e+23, 1.5033e+13, 3.5438e+12],
        [       inf,        inf,        inf,        inf,        inf],
        [       inf,

### 3.3.4 nn.Module

In [None]:
import torch
import torch.nn as nn

In [None]:
class MyLinear(nn.Module):

    def __init__(self, input_size, output_size):
        super().__init__()

        self.W = torch.FloatTensor(input_size, output_size)
        self.b = torch.FloatTensor(output_size)

    def forward(self, x):
        y = torch.mm(x, self.W) + self.b

        return y

In [None]:
x = torch.FloatTensor(16, 10)
linear = MyLinear(10, 5)
y = linear(x)

In [None]:
print(y)

tensor([[        nan,         nan,         nan,         nan,         nan],
        [        inf,  1.0378e+28,         inf,         inf,         nan],
        [ 5.4040e+18,  2.2215e-18,  2.3040e+19,  6.1894e+24,         nan],
        [ 2.0250e-05,  1.0111e-22,  3.9806e-16,  8.6547e-15,         nan],
        [ 2.0250e-05,  3.0789e-41,  3.3631e-44,  0.0000e+00,         nan],
        [ 2.0250e-05,  3.0789e-41,  3.3631e-44,  0.0000e+00,         nan],
        [ 2.0250e-05, -5.8332e-38,  1.2021e-20, -1.8732e-38,         nan],
        [-5.0367e+15, -4.0332e-19, -3.7630e-21,  0.0000e+00,         nan],
        [ 2.0250e-05, -2.5640e-38,  1.2021e-20, -8.2394e-39,         nan],
        [ 1.0274e+24,  8.2272e-11,  7.6832e-13,  1.1087e-17,         nan],
        [        inf,         inf,  9.8804e+18,         inf,         nan],
        [        inf,         inf,         inf,         inf,         nan],
        [ 3.7033e+12, -2.3209e-11,  2.6163e+23,  3.7033e+12,         nan],
        [        inf,    

In [30]:
params = [p.size() for p in linear.parameters()]
print(params)

[]


In [32]:
class MyLinear(nn.Module):

    def __init__(self, input_size, output_size):
        super(MyLinear, self).__init__()

        self.W = nn.Parameter(torch.FloatTensor(input_size, output_size), requires_grad=True)
        self.b = nn.Parameter(torch.FloatTensor(output_size), requires_grad=True)

    def forward(self ,x):
        y = torch.mm(x, self.W) + self.b

        return y

In [38]:
x = torch.FloatTensor(16, 10)
linear = MyLinear(10, 5)
y = linear(x)

In [39]:
params = [p.size() for p in linear.parameters()]
print(params)

[torch.Size([10, 5]), torch.Size([5])]


In [40]:
class MyLinear(nn.Module):

    def __init__(self, input_size, output_size):
        super(MyLinear, self).__init__()

        self.linear = nn.Linear(input_size, output_size)

    def forward(self, x):
        y = self.linear(x)

        return y

In [42]:
x = torch.FloatTensor(16, 10)
linear = MyLinear(10, 5)
y = linear(x)

In [43]:
print(linear)

MyLinear(
  (linear): Linear(in_features=10, out_features=5, bias=True)
)


### 3.3.5 역전파 수행

In [45]:
objective = 100

x = torch.FloatTensor(16, 10)
linear = MyLinear(10, 5)
y = linear(x)
loss = (objective - y.sum())**2
loss.backward()

In [46]:
loss

tensor(inf, grad_fn=<PowBackward0>)

In [48]:
objective - y.sum()

tensor(1.7945e+36, grad_fn=<RsubBackward1>)

### 3.3.6 train() 과 eval()

In [49]:
# Training...
linear.eval()
# Do some inference process.
linear.train()
# Restart training, agian.

MyLinear(
  (linear): Linear(in_features=10, out_features=5, bias=True)
)

### 3.3.7 선형회귀분석 예제

1. 임의로 생성한 텐서들을
2. 근사하고자 하는 정답 함수에 넣어 정답(y)을 구하고,
3. 그 정답과 신경망을 통과한 $\hat{y}$ 과의 차이(error)를 평균제곱오차(MSE)를 통해 구하여
4. 확률적 경사하강법(Stochastic Gradient Desent, SGD)을 통해 최적화 해보겠습니다.

MSE 수식은 다음과 같습니다.

$$\mathcal{L}_{MSE}(\hat{y}, y) = \frac{1}{N} \sum^{N}_{i=1}(\hat{y}_i - y_i)^2$$

In [1]:
import random

import torch
import torch.nn as nn

In [2]:
# 먼저 1개의 선형 계층을 가진 MyModel 이라는 모듈(module)을 선언합니다.

class MyModel(nn.Module):

    def __init__(self, input_size, output_size):
        super(MyModel, self).__init__()

        self.linear = nn.Linear(input_size, output_size)

    def forward(self, x):
        y = self.linear(x)

        return y

그리고 다음과 같이 임의의 함수 $f$가 동작한다고 가정합니다.

이때 함수 $f$가 내부적으로 어떻게 동작하는지 알고자 합니다.

그러면 손실함수를 최소로 만드는 파라미터 $\theta$를 찾아서 함수 $f$를 근사해야 합니다.

$$y = f(x_1, x_2, x_3) = 3x_1 + x_2 - 2x_3$$
$$\hat{y} = \hat{f}(x_1, x_2, x_3;\theta)$$
$$\hat{\theta} = \underset{\theta \in \Theta}{argmin} \mathcal{L}(\hat{y}, y)$$

In [3]:
# 해당 함수를 파이썬으로 구현하면 다음과 같습니다.
# 물론 신경망 입장에서는 내부 동작 내용을 알 수 없는 함수입니다.

def ground_truth(x):
    return 3 * x[:, 0] + x[:, 1] - 2 * x[:, 2]

In [4]:
# 다음은 모델과 텐서를 입력받아 피드포워딩한 후, 역전파 알고리즘을 수행하여 경사하강법의 한 스텝을 수행하는 함수입니다.

def train(model, x, y, optim):
    # initialize gradients in all parameters in module.
    optim.zero_grad()

    # feed-forward
    y_hat = model(x)
    # get error between answer and inferenced.
    loss = ((y - y_hat)**2).sum() / x.size(0)

    # back-propagation
    loss.backward()

    # one-step of gradient descent
    optim.step()

    return loss.data

In [5]:
# 그럼 앞의 함수들을 사용하기 위해 하이퍼파라미터(hyperparameter)를 설정하겠습니다.

batch_size = 1
n_epochs = 1000
n_iter = 10000

model = MyModel(3, 1)
optim = torch.optim.SGD(model.parameters(), lr=0.0001, momentum=0.1)

print(model)

MyModel(
  (linear): Linear(in_features=3, out_features=1, bias=True)
)


In [6]:
# 이 값을 사용하여 평균 손실값이 .001보다 작아질 때까지 훈련시킵니다.

for epoch in range(n_epochs):
    avg_loss = 0

    for i in range(n_iter):
        x = torch.rand(batch_size, 3)
        y = ground_truth(x.data)

        loss = train(model, x, y, optim)

        avg_loss += loss
    avg_loss = avg_loss / n_iter

    # simple test sample to check the network.
    x_valid = torch.FloatTensor([[.3, .2, .1]])
    y_valid = ground_truth(x_valid.data)

    model.eval()
    y_hat = model(x_valid)
    model.train()

    print(avg_loss, y_valid.data[0], y_hat.data[0, 0])

    if avg_loss < .001:  # finish the training if the loss is smaller than .001.
        break

tensor(0.9065) tensor(0.9000) tensor(0.4916)
tensor(0.5618) tensor(0.9000) tensor(0.5665)
tensor(0.3853) tensor(0.9000) tensor(0.6209)
tensor(0.2650) tensor(0.9000) tensor(0.6742)
tensor(0.1830) tensor(0.9000) tensor(0.7109)
tensor(0.1262) tensor(0.9000) tensor(0.7454)
tensor(0.0873) tensor(0.9000) tensor(0.7700)
tensor(0.0598) tensor(0.9000) tensor(0.7935)
tensor(0.0428) tensor(0.9000) tensor(0.8087)
tensor(0.0294) tensor(0.9000) tensor(0.8233)
tensor(0.0201) tensor(0.9000) tensor(0.8354)
tensor(0.0137) tensor(0.9000) tensor(0.8480)
tensor(0.0096) tensor(0.9000) tensor(0.8576)
tensor(0.0066) tensor(0.9000) tensor(0.8643)
tensor(0.0045) tensor(0.9000) tensor(0.8715)
tensor(0.0031) tensor(0.9000) tensor(0.8759)
tensor(0.0022) tensor(0.9000) tensor(0.8798)
tensor(0.0015) tensor(0.9000) tensor(0.8829)
tensor(0.0010) tensor(0.9000) tensor(0.8861)
tensor(0.0007) tensor(0.9000) tensor(0.8889)


사실 내부에 계층이 1개 뿐이고, 비선형 활성화 함수(non-linear activation function)가 포함되지 않으므로, 비선형적인 신경망이라기보단 선형 함수(linear function)라고 봐야 합니다. 하지만 앞으로 책에서 다룰 아키텍처(architecture)들과 훈련 방법들도 이 예제의 연장 선상에 지나지 않습니다.

> 이제까지 다룬 내용을 바탕으로 파이토치에서 딥러닝을 수행하는 과정을 다음과 같이 요약할 수 있습니다.

1. nn.Module 클래스를 상속받아 (forward 함수를 통해) 모델 아키텍처 클래스 선언
2. 해당 클래스 객체 생성
3. SGD 나 Adam 등의 옵티마이저를 생성하고, 생성한 모델의 파라미터를 최적화 대상으로 등록
4. 데이터로 미니배치를 구성하여 피드포워드 연산 그래프 생성
5. 손실 함수를 통해 최종 결괏값(scalar)과 손실값(loss) 계산
6. 손실에 대해서 backward() 호출 -> 연산 그래프 상의 텐서들의 기울기(gradient)가 채워짐
7. 3번의 옵티마이저에서 step()을 호출하여 경사하강법 1 스텝 수행
8. 4번으로 돌아가 수렴 조건이 만족할 때까지 반복 수행

### 3.3.8 GPU 사용하기

cuda() 함수를 통해서 원하는 객체를 (텐서의 경우) GPU 메모리에 복사하거나 (nn.Module의 하위 클래스인 경우) 이동시킬 수 있습니다.



In [7]:
# Note that tensor is declared in torch.cuda.
x = torch.cuda.FloatTensor(16, 10)
linear = MyModel(10, 5)
# .cuda() let module move to GPU memory.
linear.cuda()
y = linear(x)

In [8]:
print(y)

tensor([[ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122],
        [ 0.1143,  0.2775, -0.2161, -0.1764,  0.3122]], device='cuda:0',
       grad_fn=<AddmmBackward0>)


또한 cpu() 함수를 통해서 다시 PC의 메모리로 복사하거나 이동시킬 수 있습니다. 이 밖에도 to() 함수를 사용해서 텐서 또는 모듈을 원하는 디바이스로 보낼 수 있습니다.