# 예제로 배우는 Pytorch

In [1]:
# -*- coding: utf-8 -*-
import numpy as np

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 무작위로 가중치를 초기화합니다.
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 30061669.623119168
1 27366573.27863901
2 30261797.968237713
3 33686324.35612969
4 32415405.546559818
5 24741883.941801757
6 14622832.264283085
7 7264929.252548361
8 3495529.366869027
9 1877353.5116870236
10 1186043.8862889954
11 859540.3718446505
12 677935.6296390345
13 559437.7228443931
14 472494.0414020042
15 404236.00536880817
16 348704.3729999702
17 302663.85881084995
18 263947.27952400566
19 231118.81675098726
20 203121.33690288063
21 179104.2671514184
22 158392.98251437308
23 140466.52366245684
24 124877.15296855643
25 111265.05910528995
26 99353.04705739034
27 88890.25637843448
28 79680.25126793723
29 71556.46011738648
30 64358.43563706883
31 57974.348651699984
32 52301.324880507935
33 47248.15749950598
34 42742.182735611495
35 38716.884652466404
36 35111.98016392364
37 31881.78129148438
38 28987.15683792362
39 26384.015730766085
40 24036.17465820568
41 21918.522702965496
42 20006.67788569714
43 18278.98102895529
44 16716.254865635212
45 15299.638447710804
46 14014.870075556
4

425 2.107223160902211e-06
426 1.9982160984967174e-06
427 1.8948503749342511e-06
428 1.7968756426830258e-06
429 1.704018086849835e-06
430 1.6160017049441145e-06
431 1.532505219935936e-06
432 1.4533210617511136e-06
433 1.3782416793978746e-06
434 1.3070513657538786e-06
435 1.239571378588573e-06
436 1.1755736895582747e-06
437 1.1149032845221854e-06
438 1.057363229703724e-06
439 1.002812801828971e-06
440 9.510707766124044e-07
441 9.02032333233823e-07
442 8.555131617776987e-07
443 8.114256349071602e-07
444 7.695928382724214e-07
445 7.299458811264058e-07
446 6.923395070408693e-07
447 6.566856509738726e-07
448 6.228612136932838e-07
449 5.90786063594594e-07
450 5.603683315665672e-07
451 5.315166681408124e-07
452 5.041642306532427e-07
453 4.782212446853314e-07
454 4.5362010710592446e-07
455 4.302833407048599e-07
456 4.0816045870791593e-07
457 3.87167671938873e-07
458 3.6726387463172955e-07
459 3.483850423188012e-07
460 3.304854617906696e-07
461 3.1350160896017956e-07
462 2.9739319483846657e-07
4

In [2]:
# -*- coding: utf-8 -*-

import torch


dtype = torch.float
device = torch.device("cpu")
device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 무작위로 가중치를 초기화합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 경사하강법(gradient descent)를 사용하여 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

99 805.1572875976562
199 8.362775802612305
299 0.13000306487083435
399 0.002532659564167261
499 0.00017801027570385486
