출처 https://9bow.github.io/PyTorch-tutorials-kr-0.3.1/beginner/pytorch_with_examples.html

In [2]:
#numpy basic
#implementation of simple forward propagation and backward propagation
import numpy as np

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10
#random data
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

#random weight initalization
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

lr = 1e-6
epoch = 500
for t in range(500):
  #activation function으로 relu 사용, 비선형성 추가
  h = x.dot(w1)
  h_relu = np.maximum(h, 0)
  y_pred = h_relu.dot(w2)

  #loss 계산
  loss = np.square(y_pred - y).sum()
  print(t, loss)

  #미분 후 gradient vanishing
  grad_y_pred = 2.0 * (y_pred - y)
  grad_w2 = h_relu.T.dot(grad_y_pred)
  #relu 함수 미분 후 곱
  grad_h_relu = grad_y_pred.dot(w2.T)
  grad_h = grad_h_relu.copy()
  grad_h[h<0] = 0
  grad_w1 = x.T.dot(grad_h)

  #가중치 update
  w1 -= lr * grad_w1
  w2 -= lr * grad_w2

0 36312269.99712775
1 37233265.7683799
2 41837463.376104094
3 41528423.896581456
4 31614431.442042857
5 17816139.326493245
6 8155064.752150523
7 3748502.823993016
8 2058623.423022627
9 1383188.5024660688
10 1056326.2199324921
11 858207.9275171063
12 717235.8862017994
13 608268.5864492815
14 520602.0943568836
15 448625.6374931629
16 388936.82087701873
17 338887.0510368574
18 296635.0303418093
19 260740.49787632513
20 230068.92587784526
21 203741.97955685988
22 181048.1461599989
23 161393.70045778912
24 144313.34328940243
25 129413.57291610545
26 116363.09569480146
27 104892.59853147736
28 94779.73034949708
29 85862.83953112463
30 77954.43487122293
31 70916.00121486299
32 64635.05081269349
33 59021.47062742173
34 53995.01793685478
35 49477.929361736125
36 45409.394752223554
37 41736.445482913026
38 38414.52552961425
39 35412.527418565354
40 32690.18669698539
41 30217.658125768277
42 27964.76631164504
43 25913.190760410027
44 24041.01405451815
45 22327.01038671301
46 20756.846825616794
47

In [4]:
# Tensor
# numpy와 구조는 비슷하나 gpu를 이용해 연산 가속화할 수 있다는 점이 차이
#implementation of simple forward propagation and backward propagation
import torch

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

#dtype = torch.FloatTensor
#gpu option
dtype = torch.cuda.FloatTensor

#random data
#gpu 기능으로 인해 type 부분 추가
x = torch.randn(N, D_in).type(dtype)
y = torch.randn(N, D_out).type(dtype)

#random weight initalization
w1 = torch.randn(D_in, H).type(dtype)
w2 = torch.randn(H, D_out).type(dtype)

lr = 1e-6
epoch = 500
for t in range(500):
  #activation function으로 relu 사용, 비선형성 추가
  h = x.mm(w1)
  h_relu = h.clamp(min=0)
  y_pred = h_relu.mm(w2)

  #loss 계산
  loss = (y_pred - y).pow(2).sum()
  print(t, loss)

  #미분 후 gradient vanishing
  grad_y_pred = 2.0 * (y_pred - y)
  grad_w2 = h_relu.t().mm(grad_y_pred)
  #relu 함수 미분 후 곱
  grad_h_relu = grad_y_pred.mm(w2.t())
  grad_h = grad_h_relu.clone()
  grad_h[h<0] = 0
  grad_w1 = x.t().mm(grad_h)

  #가중치 update
  w1 -= lr * grad_w1
  w2 -= lr * grad_w2

0 tensor(26751450., device='cuda:0')
1 tensor(18817020., device='cuda:0')
2 tensor(15941882., device='cuda:0')
3 tensor(15167600., device='cuda:0')
4 tensor(15130948., device='cuda:0')
5 tensor(14813342., device='cuda:0')
6 tensor(13745960., device='cuda:0')
7 tensor(11726988., device='cuda:0')
8 tensor(9254583., device='cuda:0')
9 tensor(6774817.5000, device='cuda:0')
10 tensor(4736502.5000, device='cuda:0')
11 tensor(3211801., device='cuda:0')
12 tensor(2176233.2500, device='cuda:0')
13 tensor(1493826.8750, device='cuda:0')
14 tensor(1056563.5000, device='cuda:0')
15 tensor(773740.5000, device='cuda:0')
16 tensor(588773.8750, device='cuda:0')
17 tensor(463985.3125, device='cuda:0')
18 tensor(376997.5312, device='cuda:0')
19 tensor(313970., device='cuda:0')
20 tensor(266604.9688, device='cuda:0')
21 tensor(229693.9688, device='cuda:0')
22 tensor(200068.4375, device='cuda:0')
23 tensor(175680.2344, device='cuda:0')
24 tensor(155232.7500, device='cuda:0')
25 tensor(137851.0938, device='

In [7]:
# 위의 두 셀은 backward/forward propagation을 수기로 구현했으나 pytorch에서는 autograd를 통해 이 부분을 자동화함
# pytorch tensor를 variable로 감싸면 variable이 node로 표현된다. x가 variable이면 x.data는 값을 갖는 tensor, x.grad는 어떤 스칼라 값에 대해 x의 변화도를 저장하는 변수

import torch
from torch.autograd import Variable

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

#dtype = torch.FloatTensor
#gpu option
dtype = torch.cuda.FloatTensor

#random data
#gpu 기능으로 인해 type 부분 추가
x = Variable(torch.randn(N, D_in).type(dtype), requires_grad = False)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad = False)

#random weight initalization
w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad = True)
w2 = Variable(torch.randn(H,D_out).type(dtype), requires_grad = True)

lr = 1e-6
epoch = 500
for t in range(500):
  # h = x.mm(w1)
  # h_relu = h.clamp(min=0)
  # y_pred = h_relu.mm(w2)
  y_pred = x.mm(w1).clamp(min=0).mm(w2)

  #loss 계산
  loss = (y_pred - y).pow(2).sum()
  print(t, loss.data)

  #미분 후 gradient vanishing
  # grad_y_pred = 2.0 * (y_pred - y)
  # grad_w2 = h_relu.t().mm(grad_y_pred)
  # grad_h_relu = grad_y_pred.mm(w2.t())
  # grad_h = grad_h_relu.clone()
  # grad_h[h<0] = 0
  # grad_w1 = x.t().mm(grad_h)
  loss.backward()

  #가중치 update
  w1.data -= lr * w1.grad.data
  w2.data -= lr * w2.grad.data

  # 가중치 이용후에는 grad 다시 0으로 해야함
  w1.grad.data.zero_()
  w2.grad.data.zero_()

0 tensor(23745962., device='cuda:0')
1 tensor(18734284., device='cuda:0')
2 tensor(19043232., device='cuda:0')
3 tensor(22224638., device='cuda:0')
4 tensor(26292282., device='cuda:0')
5 tensor(28351084., device='cuda:0')
6 tensor(25993268., device='cuda:0')
7 tensor(19391220., device='cuda:0')
8 tensor(11894871., device='cuda:0')
9 tensor(6378310.5000, device='cuda:0')
10 tensor(3290425.5000, device='cuda:0')
11 tensor(1781136.3750, device='cuda:0')
12 tensor(1074345.3750, device='cuda:0')
13 tensor(731863.7500, device='cuda:0')
14 tensor(551470.7500, device='cuda:0')
15 tensor(444680., device='cuda:0')
16 tensor(373420.1250, device='cuda:0')
17 tensor(320995.1875, device='cuda:0')
18 tensor(279822.7500, device='cuda:0')
19 tensor(246035.6250, device='cuda:0')
20 tensor(217541.1875, device='cuda:0')
21 tensor(193146.4688, device='cuda:0')
22 tensor(172060.8438, device='cuda:0')
23 tensor(153755.1250, device='cuda:0')
24 tensor(137769.5000, device='cuda:0')
25 tensor(123735.2969, devic

In [8]:
# 위의 두 셀은 backward/forward propagation을 수기로 구현했으나 pytorch에서는 autograd를 통해 이 부분을 자동화함
# pytorch tensor를 variable로 감싸면 variable이 node로 표현된다. x가 variable이면 x.data는 값을 갖는 tensor, x.grad는 어떤 스칼라 값에 대해 x의 변화도를 저장하는 변수

import torch
from torch.autograd import Variable

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

#dtype = torch.FloatTensor
#gpu option
dtype = torch.cuda.FloatTensor

#random data
#gpu 기능으로 인해 type 부분 추가
x = Variable(torch.randn(N, D_in).type(dtype), requires_grad = False)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad = False)

#random weight initalization
w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad = True)
w2 = Variable(torch.randn(H,D_out).type(dtype), requires_grad = True)

lr = 1e-6
epoch = 500
for t in range(500):
  # h = x.mm(w1)
  # h_relu = h.clamp(min=0)
  # y_pred = h_relu.mm(w2)
  y_pred = x.mm(w1).clamp(min=0).mm(w2)

  #loss 계산
  loss = (y_pred - y).pow(2).sum()
  print(t, loss.data)

  #미분 후 gradient vanishing
  # grad_y_pred = 2.0 * (y_pred - y)
  # grad_w2 = h_relu.t().mm(grad_y_pred)
  # grad_h_relu = grad_y_pred.mm(w2.t())
  # grad_h = grad_h_relu.clone()
  # grad_h[h<0] = 0
  # grad_w1 = x.t().mm(grad_h)
  loss.backward()

  #가중치 update
  w1.data -= lr * w1.grad.data
  w2.data -= lr * w2.grad.data

  # 가중치 이용후에는 grad 다시 0으로 해야함
  # 안바꾼 경우
  # w1.grad.data.zero_()
  # w2.grad.data.zero_()

0 tensor(30245244., device='cuda:0')
1 tensor(25594424., device='cuda:0')
2 tensor(8588671., device='cuda:0')
3 tensor(12442819., device='cuda:0')
4 tensor(9592304., device='cuda:0')
5 tensor(11102883., device='cuda:0')
6 tensor(17529518., device='cuda:0')
7 tensor(6412584., device='cuda:0')
8 tensor(10628680., device='cuda:0')
9 tensor(9726959., device='cuda:0')
10 tensor(3083255.5000, device='cuda:0')
11 tensor(3806197., device='cuda:0')
12 tensor(7823182., device='cuda:0')
13 tensor(8047768., device='cuda:0')
14 tensor(5407481., device='cuda:0')
15 tensor(3403827.7500, device='cuda:0')
16 tensor(2908539.5000, device='cuda:0')
17 tensor(3124788., device='cuda:0')
18 tensor(3253109.7500, device='cuda:0')
19 tensor(2974540.5000, device='cuda:0')
20 tensor(2399228.5000, device='cuda:0')
21 tensor(1848234.2500, device='cuda:0')
22 tensor(1503439.7500, device='cuda:0')
23 tensor(1338686., device='cuda:0')
24 tensor(1248197.3750, device='cuda:0')
25 tensor(1140638.8750, device='cuda:0')
26

In [11]:
# 새 autograd func 직접 정의하기
import torch
from torch.autograd import Variable

#relu 부분만 class 로 구현
class MyReLU(torch.autograd.Function):
  @staticmethod
  #staticmethod는 꾸밈의 기반이 되는 함수
  #decorator 기존의 함수를 추가로 정의. 이를 이용해 입력 인수와 반환 값을 접근하거나 수정

  def forward(ctx, input):
    #ctx 정보 저장을 위해 사용되는 context object
    ctx.save_for_backward(input)
    return input.clamp(min=0)
  @staticmethod
  def backward(ctx, grad_output):
    #, 안하면 오류
    input, = ctx.saved_tensors
    grad_input = grad_output.clone()
    grad_input[input<0] = 0
    return grad_input

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

#dtype = torch.FloatTensor
#gpu option
dtype = torch.cuda.FloatTensor

#random data
#gpu 기능으로 인해 type 부분 추가
x = Variable(torch.randn(N, D_in).type(dtype), requires_grad = False)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad = False)

#random weight initalization
w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad = True)
w2 = Variable(torch.randn(H,D_out).type(dtype), requires_grad = True)

lr = 1e-6
epoch = 500
for t in range(500):
  relu = MyReLU.apply
  # h = x.mm(w1)
  # h_relu = h.clamp(min=0)
  # y_pred = h_relu.mm(w2)
  y_pred = relu(x.mm(w1)).mm(w2)

  #loss 계산
  loss = (y_pred - y).pow(2).sum()
  print(t, loss.data)

  loss.backward()

  #가중치 update
  w1.data -= lr * w1.grad.data
  w2.data -= lr * w2.grad.data

  # 가중치 이용후에는 grad 다시 0으로 해야함
  w1.grad.data.zero_()
  w2.grad.data.zero_()

0 tensor(31060644., device='cuda:0')
1 tensor(24433822., device='cuda:0')
2 tensor(19916090., device='cuda:0')
3 tensor(15303526., device='cuda:0')
4 tensor(10993780., device='cuda:0')
5 tensor(7388429., device='cuda:0')
6 tensor(4868395.5000, device='cuda:0')
7 tensor(3227946.5000, device='cuda:0')
8 tensor(2223375., device='cuda:0')
9 tensor(1603389.5000, device='cuda:0')
10 tensor(1213689.7500, device='cuda:0')
11 tensor(955983.6250, device='cuda:0')
12 tensor(776581.4375, device='cuda:0')
13 tensor(645473.6250, device='cuda:0')
14 tensor(545462.0625, device='cuda:0')
15 tensor(466337.8750, device='cuda:0')
16 tensor(402225.2500, device='cuda:0')
17 tensor(349383.9688, device='cuda:0')
18 tensor(305248.6562, device='cuda:0')
19 tensor(268014., device='cuda:0')
20 tensor(236330.4531, device='cuda:0')
21 tensor(209205.9688, device='cuda:0')
22 tensor(185825.7344, device='cuda:0')
23 tensor(165563.4531, device='cuda:0')
24 tensor(147941.2969, device='cuda:0')
25 tensor(132545.2188, dev

In [2]:
# tensorflow는 static이고, pytorch는 dynamic graph를 이용한다는 차이
# tensorflow에서는 연산 graph 한번 정의 후 동일한 그래프를 계속해서 실행하며 가능한 다른 입력 데이터 전달하나, pytorch는 각 순전파 단게에서 새로운 연산 graph 정의
# tensorflow 이용 2-계층 신경망 구현
import tensorflow.compat.v1 as tf
import numpy as np
tf.disable_v2_behavior()
N, D_in, H, D_out = 64, 1000, 100, 10
# 어떤 형태로 주어져야 하는지, 선언 후 추후에 주어진 data를 tensor에 mapping하여 사
x = tf.placeholder(tf.float32, shape = (None, D_in))
y = tf.placeholder(tf.float32, shape = (None, D_out))
# 기존에는 placeholder였으나 현재는 tf 버전 업데이트로 다른 사용

# random으로 표준분포 만들어 사용
w1 = tf.Variable(tf.random.normal((D_in, H)))
w2 = tf.Variable(tf.random.normal((H, D_out)))

h = tf.matmul(x, w1)
h_relu = tf.maximum(h, tf.zeros(1))
y_pred = tf.matmul(h_relu, w2)
#reduce_sum 차원 줄이며 tensor의 모든 성분의 총합 계
loss = tf.reduce_sum((y-y_pred)**2.0)
grad_w1, grad_w2 = tf.gradients(loss, [w1, w2])

#pytorch와는 달리 tensorflow에서는 gradient update 부분이 그래프의 일부 pytorch는 loop
lr = 1e-6
new_w1 = w1.assign(w1-lr*grad_w1)
new_w2 = w2.assign(w2-lr*grad_w2)

with tf.Session() as sess:
  sess.run(tf.global_variables_initializer())
  x_value = np.random.randn(N, D_in)
  y_value = np.random.randn(N, D_out)
  for _ in range(500):
    loss_value, _, _=sess.run([loss, new_w1, new_w2], feed_dict = {x:x_value, y:y_value})
    print(loss_value)

32766516.0
29287476.0
29882576.0
29373236.0
25277212.0
18137992.0
11115116.0
6199654.5
3457566.2
2066869.4
1369994.9
1000652.44
785714.1
646433.5
547244.5
471478.25
410827.8
360811.5
318825.0
283085.44
252327.06
225676.69
202449.1
182110.88
164226.75
148449.14
134489.97
122108.14
111076.55
101218.28
92387.305
84459.45
77319.89
70879.875
65059.074
59785.344
55003.426
50661.594
46708.703
43105.957
39821.67
36822.332
34078.344
31565.02
29260.328
27143.637
25198.9
23409.574
21762.145
20244.078
18843.938
17551.363
16357.046
15252.952
14231.062
13284.891
12408.084
11595.398
10842.226
10142.816
9493.225
8889.58
8327.988
7805.434
7318.8037
6865.5938
6443.1953
6049.259
5681.7246
5338.646
5018.14
4718.6406
4439.045
4177.6714
3933.1467
3704.2988
3489.8796
3288.997
3100.756
2924.4868
2759.1592
2604.0176
2458.4146
2321.6482
2193.179
2072.441
1958.9386
1852.1626
1751.7456
1657.2313
1568.2097
1484.3983
1405.4242
1331.0293
1260.9186
1194.8079
1132.4313
1073.58
1018.0466
965.5947
916.0813
869.306
825.1

In [3]:
# nn module
# autograd를 이용해 gradient 계산이 편리해졌으나 규모가 큰 신경망에서는 잘 사용하지 않음

import torch
from torch.autograd import Variable

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

dtype = torch.FloatTensor
#gpu option
#dtype = torch.cuda.FloatTensor

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad = False)

# nn 패키지 이용해 모델을 sequence of layer 형태로 정의
model = torch.nn.Sequential(
      torch.nn.Linear(D_in, H),
      torch.nn.ReLU(),
      torch.nn.Linear(H, D_out),
)
loss_fn = torch.nn.MSELoss(size_average = False)
lr = 1e-4
for t in range(500):
  y_pred = model(x)
  loss = loss_fn(y_pred, y)
  print(t, loss.data)
  #기존의 w1, w2.zero_와 같은 기능
  model.zero_grad()
  loss.backward()
  for param in model.parameters():
    param.data -= lr*param.grad.data



0 tensor(637.5850)
1 tensor(593.0015)
2 tensor(554.0260)
3 tensor(519.4199)
4 tensor(488.3977)
5 tensor(460.4672)
6 tensor(435.0357)
7 tensor(411.6090)
8 tensor(389.9638)
9 tensor(369.7617)
10 tensor(350.7563)
11 tensor(332.7258)
12 tensor(315.6566)
13 tensor(299.5256)
14 tensor(284.2741)
15 tensor(269.7724)
16 tensor(256.0128)
17 tensor(242.9517)
18 tensor(230.5293)
19 tensor(218.7139)
20 tensor(207.5008)
21 tensor(196.8168)
22 tensor(186.6365)
23 tensor(176.9125)
24 tensor(167.6476)
25 tensor(158.8585)
26 tensor(150.4865)
27 tensor(142.5121)
28 tensor(134.9406)
29 tensor(127.7552)
30 tensor(120.9057)
31 tensor(114.4060)
32 tensor(108.2334)
33 tensor(102.3661)
34 tensor(96.8025)
35 tensor(91.5224)
36 tensor(86.5190)
37 tensor(81.7774)
38 tensor(77.2901)
39 tensor(73.0467)
40 tensor(69.0233)
41 tensor(65.2210)
42 tensor(61.6266)
43 tensor(58.2356)
44 tensor(55.0296)
45 tensor(51.9969)
46 tensor(49.1385)
47 tensor(46.4414)
48 tensor(43.8989)
49 tensor(41.5053)
50 tensor(39.2492)
51 tens

In [4]:
# optimization
# 정교한 optimizer를 이용하는 방법
import torch
from torch.autograd import Variable

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

dtype = torch.FloatTensor
#gpu option
#dtype = torch.cuda.FloatTensor

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad = False)

# nn 패키지 이용해 모델을 sequence of layer 형태로 정의
model = torch.nn.Sequential(
      torch.nn.Linear(D_in, H),
      torch.nn.ReLU(),
      torch.nn.Linear(H, D_out),
)
loss_fn = torch.nn.MSELoss(size_average = False)
lr = 1e-4
optimizer = torch.optim.Adam(model.parameters(), lr)
for t in range(500):
  y_pred = model(x)
  loss = loss_fn(y_pred, y)
  print(t, loss.data)
  #이부분 기존 nn 모델과 차이
  optimizer.zero_grad()
  loss.backward()
  optimizer.step()



0 tensor(700.0343)
1 tensor(682.4671)
2 tensor(665.3930)
3 tensor(648.8881)
4 tensor(632.8909)
5 tensor(617.3331)
6 tensor(602.1501)
7 tensor(587.3640)
8 tensor(572.9391)
9 tensor(558.9795)
10 tensor(545.3789)
11 tensor(532.1569)
12 tensor(519.4445)
13 tensor(507.0793)
14 tensor(495.0335)
15 tensor(483.3661)
16 tensor(471.9324)
17 tensor(460.8087)
18 tensor(449.9781)
19 tensor(439.4537)
20 tensor(429.2845)
21 tensor(419.3970)
22 tensor(409.7291)
23 tensor(400.3513)
24 tensor(391.2419)
25 tensor(382.3948)
26 tensor(373.8032)
27 tensor(365.4584)
28 tensor(357.3817)
29 tensor(349.4839)
30 tensor(341.7939)
31 tensor(334.3124)
32 tensor(327.0190)
33 tensor(319.8564)
34 tensor(312.8684)
35 tensor(306.0341)
36 tensor(299.3569)
37 tensor(292.8062)
38 tensor(286.3855)
39 tensor(280.0683)
40 tensor(273.8727)
41 tensor(267.8105)
42 tensor(261.8675)
43 tensor(256.0333)
44 tensor(250.3099)
45 tensor(244.7126)
46 tensor(239.2298)
47 tensor(233.8474)
48 tensor(228.5775)
49 tensor(223.4222)
50 tensor(

In [6]:
# 사용자 정의 nn module
# nn.Module의 subclass로 새 module 정의하
import torch
from torch.autograd import Variable
class TwoLayerNet(torch.nn.Module):
  def __init__(self, D_in, H, D_out):
    # constructor, 초기화에 사용, instance 생성 시 무조건 호
    super(TwoLayerNet, self).__init__()
    self.linear1 = torch.nn.Linear(D_in, H)
    self.linear2 = torch.nn.Linear(H, D_out)
  def forward(self, x):
    h_relu = self.linear1(x).clamp(min=0)
    y_pred = self.linear2(h_relu)
    return y_pred

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad = False)

# nn 패키지 이용해 모델을 sequence of layer 형태로 정의
model = TwoLayerNet(D_in, H, D_out)
criterion = torch.nn.MSELoss(size_average = False)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4)
for t in range(500):
  y_pred = model(x)
  loss = criterion(y_pred, y)
  print(t, loss.data)

  #이부분 기존 nn 모델과 차이
  optimizer.zero_grad()
  loss.backward()
  optimizer.step()



0 tensor(627.7404)
1 tensor(581.0605)
2 tensor(540.8556)
3 tensor(505.7212)
4 tensor(474.3274)
5 tensor(446.0116)
6 tensor(420.1284)
7 tensor(396.4894)
8 tensor(374.7614)
9 tensor(354.4830)
10 tensor(335.4808)
11 tensor(317.6245)
12 tensor(300.8044)
13 tensor(284.9989)
14 tensor(269.9933)
15 tensor(255.7269)
16 tensor(242.2106)
17 tensor(229.3524)
18 tensor(217.0672)
19 tensor(205.3478)
20 tensor(194.1722)
21 tensor(183.5369)
22 tensor(173.4452)
23 tensor(163.8407)
24 tensor(154.6728)
25 tensor(145.9359)
26 tensor(137.6332)
27 tensor(129.7390)
28 tensor(122.2267)
29 tensor(115.1009)
30 tensor(108.3591)
31 tensor(101.9688)
32 tensor(95.9129)
33 tensor(90.1866)
34 tensor(84.7807)
35 tensor(79.6837)
36 tensor(74.8946)
37 tensor(70.3737)
38 tensor(66.1236)
39 tensor(62.1401)
40 tensor(58.3946)
41 tensor(54.8680)
42 tensor(51.5550)
43 tensor(48.4428)
44 tensor(45.5188)
45 tensor(42.7748)
46 tensor(40.2053)
47 tensor(37.7912)
48 tensor(35.5252)
49 tensor(33.3990)
50 tensor(31.4091)
51 tensor

In [9]:
# control flow + weight sharing
# Layer에 각 실행마다 random noise(?) 추가하기

import random
import torch
from torch.autograd import Variable
class DynamicNet(torch.nn.Module):
  def __init__(self, D_in, H, D_out):
    # constructor, 초기화에 사용, instance 생성 시 무조건 호출
    # init에서 학습에 사용될 모델
    super(DynamicNet, self).__init__()
    self.linear1 = torch.nn.Linear(D_in, H)
    self.linear2 = torch.nn.Linear(H, H)
    self.linear3 = torch.nn.Linear(H, D_out)

  def forward(self, x):
    # feed forwarding
    h_relu = self.linear1(x).clamp(min=0)
    for _ in range(random.randint(0,3)):
      h_relu = self.linear2(h_relu).clamp(min=0)
    y_pred = self.linear3(h_relu)
    return y_pred

# N 배치 크기, D_in 입력 차원, H 은닉 계층 차원
N, D_in, H, D_out = 64, 1000, 100, 10

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad = False)

# nn 패키지 이용해 모델을 sequence of layer 형태로 정의
model = DynamicNet(D_in, H, D_out)
criterion = torch.nn.MSELoss(size_average = False)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4, momentum=0.9)

for t in range(500):
  y_pred = model(x)
  loss = criterion(y_pred, y)
  print(t, loss.data)

  #이부분 기존 nn 모델과 차이
  optimizer.zero_grad()
  loss.backward()
  optimizer.step()



0 tensor(654.1215)
1 tensor(653.5604)
2 tensor(652.5424)
3 tensor(649.2234)
4 tensor(645.7310)
5 tensor(655.0363)
6 tensor(637.6519)
7 tensor(633.5164)
8 tensor(666.7773)
9 tensor(626.9495)
10 tensor(623.1489)
11 tensor(542.3976)
12 tensor(602.5470)
13 tensor(639.7336)
14 tensor(638.9145)
15 tensor(572.9897)
16 tensor(636.7394)
17 tensor(635.2174)
18 tensor(608.1840)
19 tensor(523.0894)
20 tensor(505.1979)
21 tensor(481.1304)
22 tensor(620.5652)
23 tensor(263.6324)
24 tensor(239.8982)
25 tensor(610.0109)
26 tensor(550.7269)
27 tensor(590.3697)
28 tensor(513.6649)
29 tensor(488.2586)
30 tensor(531.2174)
31 tensor(134.7116)
32 tensor(121.3500)
33 tensor(97.0241)
34 tensor(403.2314)
35 tensor(60.3325)
36 tensor(373.0814)
37 tensor(254.1577)
38 tensor(404.7973)
39 tensor(292.7830)
40 tensor(262.6116)
41 tensor(311.4159)
42 tensor(116.2599)
43 tensor(187.4432)
44 tensor(92.4988)
45 tensor(264.9646)
46 tensor(65.1703)
47 tensor(178.9381)
48 tensor(172.3309)
49 tensor(228.5314)
50 tensor(167.