In [1]:
import torch


dtype = torch.float
device = torch.device("cpu")
# dtype = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 무작위로 가중치를 초기화합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)


In [6]:
learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum().item()
    print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 경사하강법(Gradient Descent)를 사용하여 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 30828400.0
1 26655776.0
2 24684694.0
3 21559380.0
4 16926232.0
5 11716808.0
6 7462650.5
7 4559639.5
8 2836723.0
9 1853847.5
10 1297497.375
11 968479.625
12 761816.75
13 622264.0625
14 521430.4375
15 444408.78125
16 383233.21875
17 333165.125
18 291573.09375
19 256397.25
20 226391.03125
21 200608.71875
22 178340.0
23 158993.609375
24 142134.78125
25 127373.65625
26 114404.671875
27 102959.5
28 92838.78125
29 83865.7421875
30 75882.53125
31 68775.625
32 62430.27734375
33 56745.95703125
34 51647.41796875
35 47065.8984375
36 42942.09765625
37 39223.38671875
38 35866.23046875
39 32828.3046875
40 30076.78515625
41 27581.302734375
42 25314.89453125
43 23255.017578125
44 21379.435546875
45 19670.69140625
46 18112.5703125
47 16689.357421875
48 15388.888671875
49 14201.671875
50 13113.1484375
51 12115.3720703125
52 11200.0849609375
53 10359.5244140625
54 9587.2568359375
55 8877.380859375
56 8224.2412109375
57 7623.1591796875
58 7069.3154296875
59 6558.6044921875
60 6088.5078125
61 5654.7646484

Autograd

In [7]:
# -*- coding: utf-8 -*-
import torch

dtype = torch.float
device = torch.device("cpu")
# dtype = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다:
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장(Hold)하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
# requires_grade=False로 설정하여 역전파 중에 이 Tensor들에 대한 변화도를 계산할
# 필요가 없음을 나타냅니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 가중치를 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
# requires_grad=True로 설정하여 역전파 중에 이 Tensor들에 대한
# 변화도를 계산할 필요가 있음을 나타냅니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: Tensor 연산을 사용하여 y 값을 예측합니다. 이는 Tensor를 사용한
    # 순전파 단계와 완전히 동일하지만, 역전파 단계를 별도로 구현하지 않아도 되므로 
    # 중간값들(Intermediate Value)에 대한 참조(Reference)를 갖고 있을 필요가 없습니다.
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # Tensor 연산을 사용하여 손실을 계산하고 출력합니다.
    # loss는 (1,) 모양을 갖는 Variable이며, loss.data는 (1,) 모양의 Tensor입니다;
    # loss.data[0]은 손실(loss)의 스칼라 값입니다.
    # loss.item()은 loss의 스칼라 값입니다.
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # autograde를 사용하여 역전파 단계를 계산합니다. 이는 requires_grad=True를
    # 갖는 모든 Tensor에 대한 손실의 변화도를 계산합니다. 이후 w1.grad와 w2.grad는
    # w1과 w2 각각에 대한 손실의 변화도를 갖는 Tensor가 됩니다.
    loss.backward()

    # 경사하강법(Gradient Descent)을 사용하여 가중치를 수동으로 갱신합니다.
    # torch.no_grad()로 감싸는 이유는 가중치들이 requires_grad=True인데 
    # autograd에서는 이를 추적할 필요가 없기 때문입니다.
    # 다른 방법은 weight.data 및 weight.grad.data 를 조작(Operate)하는 방법입니다.
    # tensor.data 가 tensor의 저장공간(Storage)을 공유하기는 하지만, 이력을
    # 추적하지 않는다는 것을 기억하십시오.
    # 또한, 이것을 달성하기 위해 torch.optim.SGD 를 사용할 수도 있습니다.
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 가중치 갱신 후에는 수동으로 변화도를 0으로 만듭니다.
        w1.grad.zero_()
        w2.grad.zero_()

0 36872712.0
1 37363516.0
2 44075560.0
3 47367700.0
4 39525984.0
5 23093826.0
6 10314526.0
7 4410440.0
8 2336496.0
9 1574255.5
10 1219933.0
11 1003119.875
12 845409.9375
13 721172.8125
14 619914.0
15 536215.9375
16 466231.0
17 407203.125
18 357109.53125
19 314381.65625
20 277722.875
21 246147.578125
22 218831.671875
23 195098.875
24 174400.84375
25 156298.3125
26 140406.140625
27 126405.078125
28 114042.375
29 103089.421875
30 93354.1640625
31 84686.28125
32 76950.046875
33 70034.1796875
34 63833.87890625
35 58269.0546875
36 53269.0625
37 48761.55859375
38 44691.56640625
39 41011.734375
40 37679.60546875
41 34658.6484375
42 31913.29296875
43 29415.318359375
44 27141.181640625
45 25066.220703125
46 23170.63671875
47 21437.232421875
48 19850.96875
49 18396.8515625
50 17063.72265625
51 15839.39453125
52 14713.5556640625
53 13678.0087890625
54 12724.5546875
55 11845.8173828125
56 11035.544921875
57 10287.4580078125
58 9596.296875
59 8957.0595703125
60 8365.826171875
61 7818.0634765625
62 7

479 0.0004074446624144912
480 0.0003975869040004909
481 0.0003886098857037723
482 0.0003807556349784136
483 0.0003732116019818932
484 0.0003640745999291539
485 0.0003572348796296865
486 0.000350186979630962
487 0.00034238427178934216
488 0.0003344907017890364
489 0.0003285759885329753
490 0.0003217067278455943
491 0.0003147374663967639
492 0.0003083011251874268
493 0.0003014812828041613
494 0.00029515300411731005
495 0.00028971058782190084
496 0.00028411924722604454
497 0.00027843844145536423
498 0.0002725995727814734
499 0.0002666980726644397
