<a href="https://colab.research.google.com/github/tylee33/PyTorch-FastCampus/blob/master/Pytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# -*- coding: utf-8 -*-
import numpy as np

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다:
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 무작위로 가중치를 초기화합니다.
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 36077331.917431034
1 35230547.31321952
2 42378542.96614976
3 48382546.21146379
4 43887089.01010695
5 27754581.973346412
6 12612457.24969273
7 4970460.32344208
8 2288441.4937728504
9 1380678.662546148
10 1011523.9789296822
11 810385.6195566723
12 673463.3758597325
13 569175.7056823696
14 485540.8071793084
15 416949.36783567036
16 359966.9615628916
17 312179.96768830915
18 271864.044369292
19 237638.09594550263
20 208497.7305017326
21 183561.97001204002
22 162100.50259445512
23 143569.20250825578
24 127489.96982872313
25 113476.32574908822
26 101243.5718758911
27 90519.36120879129
28 81089.92458701017
29 72780.30654516643
30 65434.16646442605
31 58929.53411270818
32 53156.680008203126
33 48019.636596790966
34 43438.38478229376
35 39346.68330854492
36 35686.355427817136
37 32405.540668389174
38 29462.942272007618
39 26818.439829599665
40 24437.516331017476
41 22290.93217414735
42 20353.0016272471
43 18601.211684380123
44 17015.750153857138
45 15578.713828293709
46 14277.327512181533
47 

In [0]:
# http://pytorch.org/
from os.path import exists
from wheel.pep425tags import get_abbr_impl, get_impl_ver, get_abi_tag
platform = '{}{}-{}'.format(get_abbr_impl(), get_impl_ver(), get_abi_tag())
cuda_output = !ldconfig -p|grep cudart.so|sed -e 's/.*\.\([0-9]*\)\.\([0-9]*\)$/cu\1\2/'
accelerator = cuda_output[0] if exists('/dev/nvidia0') else 'cpu'

!pip install -q http://download.pytorch.org/whl/{accelerator}/torch-0.4.1-{platform}-linux_x86_64.whl torchvision
import torch

In [5]:
# -*- coding: utf-8 -*-

import torch


dtype = torch.float
device = torch.device("cpu")
# dtype = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 무작위로 가중치를 초기화합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum().item()
    print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 경사하강법(Gradient Descent)를 사용하여 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 24259790.0
1 17568092.0
2 13922248.0
3 11370570.0
4 9262850.0
5 7380701.5
6 5752000.5
7 4392273.0
8 3319544.5
9 2499293.5
10 1892067.875
11 1447240.875
12 1123798.5
13 887449.8125
14 713498.0625
15 583544.3125
16 484918.03125
17 408725.21875
18 348813.75
19 300871.15625
20 261834.03125
21 229639.53125
22 202769.328125
23 180039.59375
24 160620.765625
25 143896.828125
26 129401.1640625
27 116743.453125
28 105626.796875
29 95816.453125
30 87121.21875
31 79381.515625
32 72480.2890625
33 66301.90625
34 60753.2109375
35 55756.0546875
36 51246.671875
37 47170.64453125
38 43474.83203125
39 40117.796875
40 37063.171875
41 34278.79296875
42 31737.4453125
43 29413.95703125
44 27288.607421875
45 25340.015625
46 23550.939453125
47 21906.130859375
48 20392.666015625
49 18998.72265625
50 17714.1171875
51 16527.84375
52 15431.7744140625
53 14417.6923828125
54 13478.7001953125
55 12608.416015625
56 11801.2802734375
57 11051.849609375
58 10355.7353515625
59 9708.4794921875
60 9106.298828125
61 8545.6

In [6]:
# -*- coding: utf-8 -*-
import torch

dtype = torch.float
device = torch.device("cpu")
# dtype = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다:
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장(Hold)하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
# requires_grade=False로 설정하여 역전파 중에 이 Tensor들에 대한 변화도를 계산할
# 필요가 없음을 나타냅니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 가중치를 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
# requires_grad=True로 설정하여 역전파 중에 이 Tensor들에 대한
# 변화도를 계산할 필요가 있음을 나타냅니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: Tensor 연산을 사용하여 y 값을 예측합니다. 이는 Tensor를 사용한
    # 순전파 단계와 완전히 동일하지만, 역전파 단계를 별도로 구현하지 않기 위해 중간
    # 값들(Intermediate Value)에 대한 참조(Reference)를 갖고 있을 필요가 없습니다.
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # Tensor 연산을 사용하여 손실을 계산하고 출력합니다.
    # loss는 (1,) 모양을 갖는 Variable이며, loss.data는 (1,) 모양의 Tensor입니다;
    # loss.data[0]은 손실(loss)의 스칼라 값입니다.
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # autograde를 사용하여 역전파 단계를 계산합니다. 이는 requires_grad=True를
    # 갖는 모든 Tensor에 대한 손실의 변화도를 계산합니다. 이후 w1.grad와 w2.grad는
    # w1과 w2 각각에 대한 손실의 변화도를 갖는 Tensor가 됩니다.
    loss.backward()

    # 경사하강법(Gradient Descent)을 사용하여 가중치를 수동으로 갱신합니다.
    # 가중치들이 requires_grad=True 이기 때문에 torch.no_grad() 로 감싸지만,
    # autograd 내에서 이를 추적할 필요는 없습니다.
    # 다른 방법은 weight.data 및 weight.grad.data 를 조작(Operate)하는 방법입니다.
    # tensor.data 가 tensor의 저장공간(Storage)을 공유하기는 하지만, 이력을
    # 추적하지 않는다는 것을 기억하십시오.
    # 또한, 이것을 달성하기 위해 torch.optim.SGD 를 사용할 수도 있습니다.
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 가중치 갱신 후에는 수동으로 변화도를 0으로 만듭니다.
        w1.grad.zero_()
        w2.grad.zero_()

0 29815682.0
1 25559922.0
2 24466066.0
3 22746086.0
4 19239138.0
5 14233055.0
6 9467232.0
7 5844038.5
8 3575273.5
9 2256478.25
10 1515121.875
11 1087202.875
12 828279.3125
13 660556.0625
14 544453.875
15 459107.03125
16 393406.125
17 340932.9375
18 297982.96875
19 262065.890625
20 231688.375
21 205724.90625
22 183355.9375
23 163958.4375
24 147039.484375
25 132271.03125
26 119280.953125
27 107822.515625
28 97720.6328125
29 88743.4140625
30 80741.2734375
31 73589.6484375
32 67181.4140625
33 61438.53125
34 56269.34375
35 51604.43359375
36 47398.58203125
37 43597.609375
38 40147.00390625
39 37011.1015625
40 34154.69140625
41 31551.935546875
42 29175.158203125
43 27001.248046875
44 25010.771484375
45 23186.607421875
46 21513.88671875
47 19977.15625
48 18563.4296875
49 17261.326171875
50 16061.49609375
51 14954.130859375
52 13931.09765625
53 12985.740234375
54 12111.3310546875
55 11301.8232421875
56 10551.8642578125
57 9856.5732421875
58 9211.88671875
59 8615.8212890625
60 8062.17138671875
6

In [7]:
# -*- coding: utf-8 -*-
import torch


class MyReLU(torch.autograd.Function):
    """
    torch.autograd.Function을 상속받아 사용자 정의 autograd 함수를 구현하고,
    Tensor 연산을 하는 순전파와 역전파 단계를 구현하겠습니다.
    """

    @staticmethod
    def forward(ctx, input):
        """
        순전파 단계에서는 입력을 갖는 Tensor를 받아 출력을 갖는 Tensor를 반환합니다.
        ctx는 역전파 연산을 위한 정보를 저장하기 위해 사용하는 Context Object입니다.
        ctx.save_for_backward method를 사용하여 역전파 단계에서 사용할 어떠한
        객체(object)도 저장(cache)해 둘 수 있습니다.
        """
        ctx.save_for_backward(input)
        return input.clamp(min=0)

    @staticmethod
    def backward(ctx, grad_output):
        """
        역전파 단계에서는 출력에 대한 손실의 변화도를 갖는 Tensor를 받고, 입력에
        대한 손실의 변화도를 계산합니다.
        """
        input, = ctx.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input


dtype = torch.float
device = torch.device("cpu")
# dtype = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장(Hold)하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 가중치를 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 사용자 정의 함수를 적용하기 위해 Function.apply method를 사용합니다.
    # 이를 'relu'라고 이름(alias) 붙였습니다.
    relu = MyReLU.apply

    # 순전파 단계: Tensor 연산을 사용하여 y 값을 예측합니다;
    # 사용자 정의 autograd 연산을 사용하여 ReLU를 계산합니다.
    y_pred = relu(x.mm(w1)).mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # autograde를 사용하여 역전파 단계를 계산합니다.
    loss.backward()

    # 경사하강법(Gradient Descent)을 사용하여 가중치를 갱신합니다.
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 가중치 갱신 후에는 수동으로 변화도를 0으로 만듭니다.
        w1.grad.zero_()
        w2.grad.zero_()

0 31138834.0
1 26861340.0
2 28994272.0
3 32798236.0
4 33913720.0
5 29019150.0
6 19925706.0
7 11206124.0
8 5721204.0
9 2955849.25
10 1694597.625
11 1107916.125
12 811324.3125
13 640734.75
14 529158.6875
15 448296.46875
16 385575.34375
17 334762.125
18 292645.53125
19 257182.34375
20 227018.84375
21 201162.5625
22 178900.640625
23 159627.78125
24 142851.234375
25 128189.53125
26 115317.1484375
27 103983.8515625
28 93982.8984375
29 85108.359375
30 77217.109375
31 70193.484375
32 63921.25390625
33 58305.15234375
34 53265.90234375
35 48731.87890625
36 44647.3203125
37 40962.546875
38 37632.953125
39 34621.8125
40 31889.333984375
41 29407.970703125
42 27146.353515625
43 25082.8671875
44 23200.0078125
45 21477.1171875
46 19899.24609375
47 18452.451171875
48 17123.94921875
49 15902.8173828125
50 14779.712890625
51 13749.943359375
52 12799.21484375
53 11922.09375
54 11111.5732421875
55 10362.431640625
56 9669.013671875
57 9026.7451171875
58 8431.4580078125
59 7880.515625
60 7369.0537109375
61 6

In [8]:
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.init as init
from torch.autograd import Variable

# visdom is a visualization tool from facebook

from visdom import Visdom
viz = Visdom()

# Generate Data
num_data = 1000 
num_epoch = 1000

noise = init.normal(torch.FloatTensor(num_data,1),std=1)
x = init.uniform(torch.Tensor(num_data,1),-10,10)

y = 2*x+3
y_noise = 2*x+3+noise

# visualize data with visdom

input_data = torch.cat([x,y_noise],1)

win=viz.scatter(
    X = input_data,
    opts=dict(
        xtickmin=-10,
        xtickmax=10,
        xtickstep=1,
        ytickmin=-20,
        ytickmax=20,
        ytickstep=1,
        markersymbol='dot',
        markersize=5,
        markercolor=np.random.randint(0, 255, num_data),
    ),
)

viz.updateTrace(
    X = x,
    Y = y,
    win=win,
)

# Model & Optimizer
model = nn.Linear(1,1)
output = model(Variable(x))

loss_func = nn.MSELoss()
optimizer = optim.SGD(model.parameters(),lr=0.01)

# Train
loss_arr =[]
label = Variable(y_noise)
for i in range(num_epoch):
    optimizer.zero_grad()
    output = model(Variable(x))
    
    loss = loss_func(output,label)
    loss.backward()
    optimizer.step()
    
    if i % 10 == 0:
        print(loss)
        
    loss_arr.append(loss.data.numpy()[0])
    
# check trained parameters
param_list = list(model.parameters())
print(param_list[0].data,param_list[1].data)

# Visualize output
win_2=viz.scatter(
    X = input_data,
    opts=dict(
        xtickmin=-10,
        xtickmax=10,
        xtickstep=1,
        ytickmin=-20,
        ytickmax=20,
        ytickstep=1,
        markersymbol='dot',
        markercolor=np.random.randint(0, 255, num_data),
        markersize=5,
    ),
)

viz.updateTrace(
    X = x,
    Y = output.data,
    win = win_2,
    opts=dict(
        xtickmin=-15,
        xtickmax=10,
        xtickstep=1,
        ytickmin=-300,
        ytickmax=200,
        ytickstep=1,
        markersymbol='dot',
    ),
)

# Visualize Loss Graph
x = np.reshape([i for i in range(num_epoch)],newshape=[num_epoch,1])
loss_data = np.reshape(loss_arr,newshape=[num_epoch,1])

win2=viz.line(
    X = x,
    Y = loss_data,
)

ModuleNotFoundError: ignored