# Pytorch
파이토치가 제공하는 2가지 중요한 특징:
    - 넘파이와 유하사지만 GPU에서 실행가능한 다차원 텐서
    - 신경망을 구성하는 학습하는 과정에서의 자동 미분
    
예제에서는 완전히 연결된 ReLU 네트워크를 사용할 것이다. 네트워크는 하나의 은닉층을 가지고, 네트워크의 출력과 실제 정답 사이의 유클리드 거리를 최소화함으로써 무작위로 데이터를 맞추는 경사하강법을 사용하여 학습할 것.

### Tensors

#### warm-up : numpy
파이토치를 소개하기 전에 먼저 넘파이를 이용하여 신견망을 구성해보자

넘파이는 다차원 배열 객체를 제공하고 이러한 배열을 다루기위한 많은 함수를 제공한다.

넘파이는 과학적 계산을 위한 포괄적인 프레임워크다. 넘파이는 그래프의 계산 ,딥러닝, 그라디언트에 대해서는 어떤것도 알지 못한다.

하지만 우리는 넘파이 연산으로 forward와 backward를 직접 구현한 네트워크를 통과시켜, 2계층 신경망이 무작위 데이터를 맞추도록 넘파이를 쉽게 사용할 수 있다.

In [1]:
import numpy as np

# N : 배치 크기, D_in : 입력의 차원
# H : 은닉 계층의 차원, D_out : 출력의 차원
N, D_in, H, D_out = 64, 1000, 100, 10

x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 가중치 랜점 초기화
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # forward. y(예측값) 계산
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)
    
    # 손실(loss) 계산
    loss = np.square(y_pred - y).sum()
    print(t, loss)
    
    # backward
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)
    
    # 가중치 갱신
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 30262256.916362323
1 23473602.97509784
2 22730995.04951535
3 23935095.094198048
4 24276730.113256495
5 21981334.261570953
6 17045957.574770954
7 11400340.311965141
8 6863783.726732015
9 3968586.8136479016
10 2345500.3436110253
11 1481160.9032310215
12 1017012.5329853042
13 754798.458943434
14 594873.5067220735
15 488524.8615940203
16 411965.1108717624
17 353427.6875642193
18 306582.3052648377
19 267931.8930706798
20 235424.5466645396
21 207723.51677287184
22 183915.51177747836
23 163322.99553618854
24 145413.7310984482
25 129778.50218542985
26 116070.23309869003
27 104018.46689614185
28 93392.7668175271
29 83995.75959773999
30 75665.88240905324
31 68263.97096719182
32 61676.0519088419
33 55802.034112993526
34 50561.85864719958
35 45881.73815063755
36 41674.27716563735
37 37897.63915596936
38 34503.0088818191
39 31447.19009868056
40 28691.14005765172
41 26202.736386296918
42 23953.62113805389
43 21917.353261688113
44 20073.00383973011
45 18399.992441881575
46 16881.31118022083
47 1549

382 7.346248357832508e-05
383 6.981466927996911e-05
384 6.634997775843052e-05
385 6.306049610464297e-05
386 5.993250996352527e-05
387 5.6960501060825396e-05
388 5.4136981168236215e-05
389 5.1455364631394565e-05
390 4.8906736743368226e-05
391 4.648501356674638e-05
392 4.4183672691839156e-05
393 4.1996911215670785e-05
394 3.991951619272067e-05
395 3.794555371436995e-05
396 3.606889618130675e-05
397 3.4285345768597756e-05
398 3.259258125623527e-05
399 3.098229466709016e-05
400 2.9451792341024873e-05
401 2.7997808599199205e-05
402 2.66163141140672e-05
403 2.5302699493965564e-05
404 2.405485775769748e-05
405 2.286867303645453e-05
406 2.174110976141333e-05
407 2.066969393217313e-05
408 1.9651555042838688e-05
409 1.868315509724922e-05
410 1.7763251921711667e-05
411 1.688938468157794e-05
412 1.605790726806795e-05
413 1.5267619030949284e-05
414 1.451680450940777e-05
415 1.3803222872536795e-05
416 1.3124626675520516e-05
417 1.247963716053126e-05
418 1.186647459916165e-05
419 1.1283771578194108e-

### pytorch : Tensor
Numpy는 GPU로 수치 연산을 가속화 할 수 없다. 현대 심층신경망(DND)에서는 GPU는 50배 이상의 속도를 내기도 하기 때문에 Numpy는 별루..

이제 Pytorch의 텐서를 해보겠다. 파이토치 텐서는 개념상으로 넘파이 배열과 동일. 텐서는 다차원 배열이고, 파이토치는 텐서 연산을 위한 다양한 함수를 제공한다. 또한 텐서는 계산 그래프와 그라디언트를 알 수 있지만, 과학분야에 유용한 포괄적인 도구다.

넘파이와 달리, 파이토치 텐서는 GPU를 이용해 수치연산 가속 가능. GPU에서 파이토치 텐서를 실행하기 위해서는 단순히 새로운 데이터 타입으로 캐스트(cast)해주기만 하면 된다.

파이토치 텐서를 이용하여 2계층 신경망이 무작위 데이터를 맞추도록 했다. 넘파이 예제처럼 forward와 backward는 직접 구현했다

In [5]:
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0")

N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)
print('X = ', x)
print('Y = ', y)

w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # Forward 과정
    h = x.mm(w1) # 행렬의 곱셉은 .mm을 사용
    h_relu = h.clamp(min=0) # .clamp로 ReLU함수(활성함수)를 구현할 수 있다. h_relu는 2계층 입력으로 들어간다.
    y_pred = h_relu.mm(w2)
    
    loss = (y_pred -y).pow(2).sum().item()
    print(t, loss)
    
    # Backprop 과정
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)
    
    # 가중친 갱신
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

X =  tensor([[-0.5817, -0.0364, -1.2925,  ..., -1.8984,  1.0645, -0.9967],
        [-1.6643, -1.2365,  1.5570,  ..., -0.7930,  0.7943,  0.3759],
        [ 0.3578,  0.5992,  0.6678,  ...,  0.0229,  1.1560,  1.2054],
        ...,
        [ 0.5476,  0.2551,  0.9399,  ...,  1.3071,  1.2662, -0.4699],
        [-1.3907, -1.0863, -0.1009,  ..., -0.2745, -1.3111, -0.3467],
        [ 1.1840, -0.5123,  0.3305,  ...,  0.4301,  0.1311, -0.5690]])
Y =  tensor([[ 1.2235e+00, -2.4334e+00,  1.5729e-01, -9.9561e-01, -1.2518e-01,
          2.0720e+00,  3.9138e-01,  5.1497e-02,  4.4802e-01, -4.1835e-02],
        [ 1.6013e+00,  5.4435e-01, -6.0697e-01,  1.9072e+00, -2.6042e+00,
          1.3410e+00,  1.1641e+00, -9.7491e-02,  1.0344e+00, -5.3237e-01],
        [-1.1886e+00, -2.3562e-01, -3.0873e-02, -1.5351e+00,  1.8430e-01,
         -2.9287e-01, -1.6085e+00, -7.1802e-01,  8.0771e-01,  7.8835e-01],
        [-2.1150e-01,  6.0460e-01,  4.1218e-01, -6.6024e-01,  6.4488e-01,
          4.5350e-01,  4.7955e-01, 

147 19.641149520874023
148 18.473703384399414
149 17.375850677490234
150 16.34465217590332
151 15.375687599182129
152 14.465312004089355
153 13.60997486114502
154 12.806024551391602
155 12.050591468811035
156 11.34029769897461
157 10.672993659973145
158 10.044975280761719
159 9.454642295837402
160 8.899787902832031
161 8.378515243530273
162 7.887721061706543
163 7.426133155822754
164 6.992437362670898
165 6.584689140319824
166 6.200699806213379
167 5.839212894439697
168 5.499605178833008
169 5.1798787117004395
170 4.879177093505859
171 4.596172332763672
172 4.329953193664551
173 4.0791521072387695
174 3.843294858932495
175 3.6212432384490967
176 3.4123220443725586
177 3.2154483795166016
178 3.030236005783081
179 2.8558969497680664
180 2.6917362213134766
181 2.5369882583618164
182 2.391634464263916
183 2.25451922416687
184 2.1252214908599854
185 2.0036909580230713
186 1.8890137672424316
187 1.7811437845230103
188 1.6796047687530518
189 1.5838851928710938
190 1.4936658143997192
191 1.408

490 3.010757063748315e-05
491 2.9855182219762355e-05
492 2.9607705073431134e-05
493 2.9316805012058467e-05
494 2.902486448874697e-05
495 2.869170202757232e-05
496 2.8452745027607307e-05
497 2.818200664478354e-05
498 2.7877242246177047e-05
499 2.7595913707045838e-05


### pytorch : Tensors and autograd
위의 예제처럼 역전파를 수동으로 구현했지만 이게 복잡해지면 너무 어려워지지만 pytorch에서는 autograd로 자동 미분을 사용하여 신경망의 역전파단계를 자동화 할 수 있다.

autograd를 사용할 때, 네트워크의 forward 단계는 연산 그래프(computational graph)를 정의할 것이다. 그래프의 노드는 텐서, 엣지는 입력텐서로부터 출력텐서를 만들어내는 함수다. 이 그래프를 통해 역전파하게되면 그라디언트를 쉽게 계산할 수 있다.

매우 간단히 사용가능하다. 계산 그래픙서 노드는 텐서로 표현. 만약 x가 x.requires_grad=True인 텐서라면, x.grad는 어떤 스칼라 값에대해 x의 변화값을 가지는 또 다른 텐서.(당연한 얘기)

pytorch에서 tensor와 autograd를 이용해 2계층 긴경망을 구현했다.

In [9]:
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0")

N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)
# print('X = ', x)
# print('Y = ', y)

w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    y_pred = x.mm(w1).clamp(min=0).mm(w2) # 위의 y_pred값을 한줄로 표현
    
     
    print(t, loss.item())
    
    loss.backward()  # autograd를 사용하여 역전파 단계를 자동으로 계산
    
    # 가중치 갱신
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        
        # 가중치 갱신 후에는 수동으로 그라디언트를 0으로 만들어줌
        w1.grad.zero_()
        w2.grad.zero_()

0 30005880.0
1 23297392.0
2 19775694.0
3 16750320.0
4 13429097.0
5 10077462.0
6 7138812.0
7 4892817.5
8 3330600.0
9 2305232.5
10 1645274.75
11 1219264.875
12 937674.75
13 745038.4375
14 608174.25
15 506918.25
16 429302.9375
17 368031.53125
18 318455.96875
19 277552.5
20 243325.96875
21 214341.78125
22 189544.59375
23 168206.6875
24 149735.734375
25 133671.71875
26 119640.8125
27 107334.8125
28 96503.703125
29 86934.28125
30 78465.1640625
31 70954.390625
32 64265.46875
33 58297.4375
34 52956.828125
35 48177.40625
36 43889.453125
37 40033.28125
38 36560.00390625
39 33426.3203125
40 30596.40234375
41 28038.328125
42 25720.61328125
43 23617.07421875
44 21704.671875
45 19964.103515625
46 18378.58984375
47 16932.728515625
48 15613.11328125
49 14406.734375
50 13303.125
51 12292.9306640625
52 11367.2001953125
53 10518.5126953125
54 9738.646484375
55 9022.30078125
56 8363.62890625
57 7757.2939453125
58 7199.1552734375
59 6684.6533203125
60 6210.36083984375
61 5772.451171875
62 5368.05078125
63 

463 0.0001266470062546432
464 0.00012466013140510768
465 0.00012241819058544934
466 0.00012068903015460819
467 0.00011857781646540388
468 0.00011657586583169177
469 0.00011425600678194314
470 0.00011297166929580271
471 0.00011056315270252526
472 0.00010880144691327587
473 0.00010704927262850106
474 0.00010498306073714048
475 0.00010297261906089261
476 0.00010162164107896388
477 9.995650179916993e-05
478 9.830699127633125e-05
479 9.643981320550665e-05
480 9.48602391872555e-05
481 9.35093266889453e-05
482 9.187099931295961e-05
483 9.043465252034366e-05
484 8.947918831836432e-05
485 8.822882227832451e-05
486 8.666914072819054e-05
487 8.515468653058633e-05
488 8.406203414779156e-05
489 8.2770551671274e-05
490 8.115256059681997e-05
491 8.030791650526226e-05
492 7.898351759649813e-05
493 7.766348426230252e-05
494 7.666891906410456e-05
495 7.591736357426271e-05
496 7.447025564033538e-05
497 7.333115354413167e-05
498 7.216500671347603e-05
499 7.083815580699593e-05


### Pytorch : 새로운 자동 미분함수 정의
autograd는 텐서를 연산하는 두 함수를 기반으로 한다.
forward function은 입력텐서로부터 출력 텐서를 계산, 역전파 함수는 어떤 스칼라 값에 대한 출력텐서의 그라디언트를 입력받아 이에 대한 입력텐서의 변화도를 계산한다.

Pytorch에서 torch.autograd.Function의 서브클래스를 정의하고, forward와 backward를 구현함으로써 '사용자 정의 자동미분 연산자'를 쉽게 정의할 수 있다. 그리고 인스턴스를 생성하고, 함수처럼 호출하고, 입력데이터를 포함하는 텐서로 전달함으로써 새롭게 정의한 자동미분 연산자를 사용할 수 있다.

이번 예제에서는 비선형성 ReLU를 실행하기 위해 사용자 정의 자동미분함수를 정의하고, 2계층 신경망에 이를 사용해보았다.

In [12]:
import torch

class MyReLU(torch.autograd.Function):
    #torch.autograd.Function을 상속받아 사용자 정의 자동미분 함수 구현
    
    @staticmethod
    def forward(ctx, input):
        ctx.save_for_backward(input) #역전파 단계에서 사용할 오브젝트 저장
        return input.clamp(min=0)  #relu 적용한 값 리턴
    
    @staticmethod
    def backward(ctx, grad_output):
        input, = ctx.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input
    
dtype = torch.float
device = torch.device("cpu")

N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)
# print('X = ', x)
# print('Y = ', y)

w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    
    relu = MyReLU.apply # Funtion.apply 메소드를 사용하여 사용자 정의 함수 구현
    
    
    y_pred = x.mm(w1).clamp(min=0).mm(w2) # 위의 y_pred값을 한줄로 표현
    
    loss = (y_pred - y).pow(2).sum() 
    print(t, loss.item())
    
    loss.backward()  # autograd를 사용하여 역전파 단계를 자동으로 계산
    
    # 가중치 갱신
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        
        # 가중치 갱신 후에는 수동으로 그라디언트를 0으로 만들어줌
        w1.grad.zero_()
        w2.grad.zero_()

0 29360216.0
1 23355980.0
2 20980046.0
3 19058100.0
4 16433467.0
5 12985886.0
6 9456446.0
7 6447071.0
8 4265678.0
9 2812760.5
10 1902349.5
11 1337710.0
12 984926.6875
13 757309.0
14 604516.125
15 497129.03125
16 418095.65625
17 357558.75
18 309524.78125
19 270395.0625
20 237892.703125
21 210439.65625
22 186979.78125
23 166750.71875
24 149186.4375
25 133863.84375
26 120423.59375
27 108578.265625
28 98110.546875
29 88842.5546875
30 80595.2109375
31 73239.453125
32 66680.6875
33 60810.0234375
34 55540.6640625
35 50797.17578125
36 46522.6953125
37 42659.359375
38 39161.796875
39 35990.18359375
40 33110.43359375
41 30490.119140625
42 28102.876953125
43 25925.541015625
44 23937.39453125
45 22120.291015625
46 20457.701171875
47 18934.888671875
48 17538.57421875
49 16256.275390625
50 15077.7021484375
51 13994.27734375
52 12996.611328125
53 12077.123046875
54 11229.537109375
55 10447.41796875
56 9725.1767578125
57 9057.4423828125
58 8441.0302734375
59 7870.13232421875
60 7341.208984375
61 6851.