# Pytorch Tutorial
[link](https://tutorials.pytorch.kr/beginner/pytorch_with_examples.html)

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"></ul></div>

In [4]:
import numpy as np
s
# N: 배치 크기, D_in: 입력 차원
# H: 은닉층 차원, D_out: 출력 차원
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력층 초기화
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 가중치 초기화
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

lr = 1e-6
for t in range(500):
    # 순전파
    h = x.dot(w1)
    h_relu = np.maximum(0, h)
    y_pred = h_relu.dot(w2)
    
    # 손실 계산
    loss = np.square(y_pred - y).sum()
    print(loss)
    
    # 손실에 따른 w1, w2 역전파
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h<0] = 0
    grad_w1 = x.T.dot(grad_h)
    
    # 가중치 계산
    w1 -= lr * grad_w1
    w2 -= lr * grad_w2

28488828.82019531
23627324.272432216
23765099.74747278
25004844.935229268
24761982.576983403
21299720.60021481
15665412.184892796
9905926.669476625
5752252.176409002
3269080.641902507
1938764.4967791028
1241608.3698037434
867157.1485157821
652650.0388074194
519173.35405051
428644.25681796647
362476.31607448263
311420.57970997365
270287.9535419372
236263.64285252453
207630.40608957474
183232.88274974082
162262.77454638242
144127.479938837
128403.01195042717
114699.79373712523
102727.62501319713
92216.85047132836
82941.45701827895
74742.65675925507
67471.57784996854
61006.77086191731
55241.72935426456
50092.9003801666
45485.81266380315
41357.332849126135
37654.68468207795
34324.20705418727
31323.9669685153
28616.097902522535
26169.494153751395
23955.93097987987
21949.906702548968
20130.292403708307
18477.478275083402
16974.624069265574
15606.409488713489
14359.329106831894
13222.18500770892
12183.666395250912
11233.892847302617
10364.899454976123
9569.04428982025
8839.749280835818
8170.6

2.5818720202748635e-07
2.4390716117480017e-07
2.304198334624341e-07
2.1769012206853212e-07
2.0565719015064515e-07
1.9429251158268432e-07
1.8355412087937144e-07
1.7341284368930772e-07
1.638318150017731e-07
1.547859755771584e-07
1.4623567356451794e-07
1.381594163558201e-07
1.3052911325617268e-07
1.2332186907605948e-07
1.1651411423405544e-07
1.1008295755481706e-07
1.0400650358297409e-07
9.826590986163484e-08
9.284273727676116e-08
8.772363248164371e-08
8.288490128411154e-08
7.831303468726931e-08
7.399474885473733e-08
6.991411733141633e-08
6.605896938628762e-08
6.241696379991999e-08
5.897569099079362e-08
5.572467608718992e-08
5.265568380058004e-08
4.975632582137976e-08
4.7015273369790496e-08
4.4424939865487366e-08
4.1977370532870225e-08
3.9664995818139826e-08
3.748054425857561e-08
3.541653710178243e-08
3.346634148260821e-08
3.162373337356735e-08
2.9883370829174815e-08
2.823957904043322e-08
2.6685321734840787e-08
2.5216956112550223e-08
2.382928471731099e-08
2.2518346192613778e-08
2.127958479

In [5]:
import torch

dtype = torch.float
device = torch.device('cpu')
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

N, D_in, H, D_out = 64, 1000, 100, 10

# 입력값 초기화
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 가중치 초기화
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

lr = 1e-6

for t in range(500):
    h = x.mm(w1)
    h_relu = h.clamp(min = 0)
    y_pred = h_relu.mm(w2)
    
    # 손실 계산
    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)
        
    # 역전파
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h<0] = 0
    grad_w1 = x.t().mm(grad_h)
    
    # 경사하강법으로 가중치 갱신
    w1 -= lr * grad_w1
    w2 -= lr * grad_w2 

99 428.4494934082031
199 1.2586909532546997
299 0.006428949534893036
399 0.0001756727579049766
499 3.310446845716797e-05


In [3]:
import torch
dtype = torch.float
device = torch.device('cpu')

N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

lr = 1e-6
for t in range(500):
    # 순전파 단계: Tensor 연산을 사용하여 예상되는 y 값을 계산합니다. 이는 Tensor를
    # 사용한 순전파 단계와 완전히 동일하지만, 역전파 단계를 별도로 구현하지 않아도
    # 되므로 중간값들에 대한 참조(reference)를 갖고 있을 필요가 없습니다.
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # Tensor 연산을 사용하여 손실을 계산하고 출력합니다.
    # loss는 (1,) 형태의 Tensor이며, loss.item()은 loss의 스칼라 값입니다.
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    # autograd를 사용하여 역전파 단계를 계산합니다. 이는 requires_grad=True를
    # 갖는 모든 Tensor에 대해 손실의 변화도를 계산합니다. 이후 w1.grad와 w2.grad는
    # w1과 w2 각각에 대한 손실의 변화도를 갖는 Tensor가 됩니다.
    loss.backward()

    # 경사하강법(gradient descent)을 사용하여 가중치를 수동으로 갱신합니다.
    # torch.no_grad()로 감싸는 이유는 가중치들이 requires_grad=True이지만
    # autograd에서는 이를 추적할 필요가 없기 때문입니다.
    # 다른 방법은 weight.data 및 weight.grad.data를 조작하는 방법입니다.
    # tensor.data가 tensor의 저장공간을 공유하기는 하지만, 이력을
    # 추적하지 않는다는 것을 기억하십시오.
    # 또한, 이를 위해 torch.optim.SGD 를 사용할 수도 있습니다.
    with torch.no_grad():
        w1 -= lr * w1.grad
        w2 -= lr * w2.grad

        # 가중치 갱신 후에는 수동으로 변화도를 0으로 만듭니다.
        w1.grad.zero_()
        w2.grad.zero_()

99 243.3212890625
199 0.5425722599029541
299 0.0024480971042066813
399 9.67758460319601e-05
499 2.3534221327281557e-05
