In [10]:
#Numpy를 사용한 신경망 구성(ppt 12p)
# -*- coding: utf-8 -*-
import numpy as np

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 무작위로 가중치를 초기화합니다.
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 30168433.92405428
1 24542104.87006099
2 22253567.924964923
3 19887953.997748602
4 16300494.487796482
5 12027108.305943988
6 8086396.229705072
7 5141974.102040187
8 3222969.0547732995
9 2064811.7455517296
10 1384458.9957868294
11 980968.9914972956
12 733346.5184179352
13 573659.4268765401
14 464790.1919424674
15 386328.72182872327
16 327058.6671979148
17 280609.86345606635
18 243152.44109284287
19 212258.11117653575
20 186384.24447976163
21 164449.3162485674
22 145690.25940186734
23 129507.52695405146
24 115474.91968652813
25 103249.57638227844
26 92543.35994955277
27 83137.87092980962
28 74846.52103585168
29 67520.57640839557
30 61041.29141520457
31 55283.06063068736
32 50149.94703657917
33 45566.86930750497
34 41463.71408529411
35 37783.25843333444
36 34476.8386888496
37 31500.62073614105
38 28817.71290489302
39 26393.08762342327
40 24199.82399984905
41 22212.96646858239
42 20409.425111040597
43 18771.571910760944
44 17281.254441022604
45 15923.544267780946
46 14684.2932537786
47 13

363 0.002056395427440762
364 0.001972810486675389
365 0.0018926421471034106
366 0.0018157512546645494
367 0.0017419969530487504
368 0.0016712559483561115
369 0.0016034291378968888
370 0.0015383488055836629
371 0.0014759178655601509
372 0.0014160321874857195
373 0.001358588455702754
374 0.0013034868260092239
375 0.001250633230681981
376 0.001199930752997159
377 0.0011512997440763656
378 0.0011046438719663893
379 0.001059887424574844
380 0.0010169533026275677
381 0.0009757652923519574
382 0.0009362641601637723
383 0.0008983609055467587
384 0.0008619981618747696
385 0.0008271155436032195
386 0.0007936521536810561
387 0.0007615504123197028
388 0.000730747204556138
389 0.000701195871797739
390 0.0006728436268438736
391 0.0006456425490691464
392 0.0006195457325254176
393 0.0005945096189781545
394 0.0005704919026617194
395 0.0005474517177356134
396 0.0005253388995283829
397 0.0005041232798126631
398 0.000483767957370306
399 0.00046423706246659173
400 0.0004454977240680871
401 0.00042751779930

In [26]:
#Tensor를 사용한 신경망 구성(ppt 13p)
# -*- coding: utf-8 

import torch


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 무작위로 가중치를 초기화합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum().item()
    print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 경사하강법(gradient descent)를 사용하여 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 36260556.0
1 39129888.0
2 45526988.0
3 44810464.0
4 32529744.0
5 16608294.0
6 6963236.0
7 3131073.25
8 1810432.125
9 1290916.25
10 1023152.0
11 847727.4375
12 716465.25
13 611981.25
14 526731.5625
15 456156.4375
16 397104.0625
17 347331.4375
18 305121.28125
19 269080.125
20 238143.921875
21 211443.796875
22 188309.421875
23 168210.84375
24 150660.375
25 135265.640625
26 121727.9453125
27 109778.8046875
28 99205.140625
29 89824.6875
30 81475.7890625
31 74044.421875
32 67407.90625
33 61464.8515625
34 56125.24609375
35 51320.984375
36 46988.78515625
37 43077.2265625
38 39540.33203125
39 36338.3359375
40 33434.5078125
41 30796.5078125
42 28396.865234375
43 26209.66015625
44 24214.37890625
45 22390.96484375
46 20723.89453125
47 19196.826171875
48 17797.6796875
49 16513.60546875
50 15335.0703125
51 14251.375
52 13254.0205078125
53 12334.8896484375
54 11487.71875
55 10705.5224609375
56 9983.27734375
57 9315.224609375
58 8696.685546875
59 8123.7431640625
60 7592.49609375
61 7099.76171875
62 

396 0.0016821601893752813
397 0.0016254652291536331
398 0.0015749476151540875
399 0.001525234431028366
400 0.001474960707128048
401 0.0014298749156296253
402 0.001385753508657217
403 0.0013418745948001742
404 0.0013026765082031488
405 0.0012617744505405426
406 0.0012232098961248994
407 0.001185207162052393
408 0.0011495959479361773
409 0.00111553561873734
410 0.001084539107978344
411 0.0010527996346354485
412 0.0010217740200459957
413 0.0009924639016389847
414 0.0009633276495151222
415 0.0009351374465040863
416 0.0009078881703317165
417 0.0008822624222375453
418 0.0008572190417908132
419 0.0008352932636626065
420 0.0008107650792226195
421 0.0007888434338383377
422 0.0007675255183130503
423 0.0007464329246431589
424 0.0007256073877215385
425 0.0007063083467073739
426 0.0006886015180498362
427 0.0006695838528685272
428 0.0006506362115032971
429 0.0006343303248286247
430 0.0006181694334372878
431 0.0006007730262354016
432 0.0005862939287908375
433 0.0005718710599467158
434 0.0005572953959

In [14]:
#Tensor와 autograd를 사용한 신경망(ppt 14p)
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
# requires_grad=False로 설정하여 역전파 중에 이 Tensor들에 대한 변화도를 계산할
# 필요가 없음을 나타냅니다. (requres_grad의 기본값이 False이므로 아래 코드에는
# 이를 반영하지 않았습니다.)
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 가중치를 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
# requires_grad=True로 설정하여 역전파 중에 이 Tensor들에 대한
# 변화도를 계산할 필요가 있음을 나타냅니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: Tensor 연산을 사용하여 예상되는 y 값을 계산합니다. 이는 Tensor를
    # 사용한 순전파 단계와 완전히 동일하지만, 역전파 단계를 별도로 구현하지 않아도
    # 되므로 중간값들에 대한 참조(reference)를 갖고 있을 필요가 없습니다.
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # Tensor 연산을 사용하여 손실을 계산하고 출력합니다.
    # loss는 (1,) 형태의 Tensor이며, loss.item()은 loss의 스칼라 값입니다.
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # autograd를 사용하여 역전파 단계를 계산합니다. 이는 requires_grad=True를
    # 갖는 모든 Tensor에 대해 손실의 변화도를 계산합니다. 이후 w1.grad와 w2.grad는
    # w1과 w2 각각에 대한 손실의 변화도를 갖는 Tensor가 됩니다.
    loss.backward()

    # 경사하강법(gradient descent)을 사용하여 가중치를 수동으로 갱신합니다.
    # torch.no_grad()로 감싸는 이유는 가중치들이 requires_grad=True이지만
    # autograd에서는 이를 추적할 필요가 없기 때문입니다.
    # 다른 방법은 weight.data 및 weight.grad.data를 조작하는 방법입니다.
    # tensor.data가 tensor의 저장공간을 공유하기는 하지만, 이력을
    # 추적하지 않는다는 것을 기억하십시오.
    # 또한, 이를 위해 torch.optim.SGD 를 사용할 수도 있습니다.
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 가중치 갱신 후에는 수동으로 변화도를 0으로 만듭니다.
        w1.grad.zero_()
        w2.grad.zero_()

0 33879552.0
1 35144328.0
2 40267632.0
3 40891788.0
4 32356498.0
5 18696562.0
6 8624855.0
7 3816730.0
8 1964986.375
9 1244585.375
10 916673.0625
11 730944.5
12 604831.3125
13 509687.15625
14 434290.8125
15 372886.65625
16 322072.59375
17 279710.90625
18 244114.78125
19 214004.71875
20 188347.859375
21 166370.53125
22 147458.21875
23 131123.734375
24 116949.5078125
25 104620.6015625
26 93854.0390625
27 84406.953125
28 76094.53125
29 68764.5390625
30 62280.98828125
31 56516.48046875
32 51379.77734375
33 46792.7109375
34 42687.671875
35 39006.140625
36 35692.80078125
37 32705.296875
38 30005.3203125
39 27561.37109375
40 25347.3203125
41 23338.005859375
42 21510.521484375
43 19845.275390625
44 18326.693359375
45 16940.33984375
46 15672.216796875
47 14510.80859375
48 13445.5390625
49 12467.2822265625
50 11568.4853515625
51 10741.572265625
52 9980.7197265625
53 9278.5986328125
54 8631.2548828125
55 8033.6552734375
56 7481.1171875
57 6970.32958984375
58 6497.51171875
59 6059.79150390625
60 56

457 8.734289440326393e-05
458 8.566450560465455e-05
459 8.427090506302193e-05
460 8.272210834547877e-05
461 8.111347415251657e-05
462 7.957714115036651e-05
463 7.83625291660428e-05
464 7.690851634833962e-05
465 7.559984805993736e-05
466 7.458833715645596e-05
467 7.326616469072178e-05
468 7.177137740654871e-05
469 7.059671042952687e-05
470 6.940193998161703e-05
471 6.821868009865284e-05
472 6.724429113091901e-05
473 6.611106800846756e-05
474 6.49686116958037e-05
475 6.39939826214686e-05
476 6.307630974333733e-05
477 6.17390323895961e-05
478 6.063824548618868e-05
479 5.9796220739372075e-05
480 5.865429193363525e-05
481 5.811507435282692e-05
482 5.7252011174568906e-05
483 5.6421304179821163e-05
484 5.560977660934441e-05
485 5.4571359214605764e-05
486 5.38077401870396e-05
487 5.265368235995993e-05
488 5.1889001042582095e-05
489 5.1280501793371513e-05
490 5.050922482041642e-05
491 4.97412183904089e-05
492 4.8996229452313855e-05
493 4.820764297619462e-05
494 4.75244851259049e-05
495 4.670946

In [17]:
#ReLU로 비선형적으로 동작하는 사용자 정의 autograd(ppt 15p)
import torch


class MyReLU(torch.autograd.Function):
    @staticmethod
    def forward(ctx, input):
        ctx.save_for_backward(input)
        return input.clamp(min=0)

    @staticmethod
    def backward(ctx, grad_output):
        input, = ctx.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input


dtype = torch.float
device = torch.device("cpu")

N, D_in, H, D_out = 64, 1000, 100, 10
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    relu = MyReLU.apply

    y_pred = relu(x.mm(w1)).mm(w2)

    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    loss.backward()

    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        w1.grad.zero_()
        w2.grad.zero_()


0 30230070.0
1 25202984.0
2 25747116.0
3 27733998.0
4 27627206.0
5 23784120.0
6 16894426.0
7 10292329.0
8 5696042.0
9 3164103.0
10 1880654.875
11 1240632.875
12 901462.6875
13 703951.125
14 575569.9375
15 483809.4375
16 413566.9375
17 357229.0625
18 310743.3125
19 271684.65625
20 238528.4375
21 210159.5625
22 185730.5625
23 164609.28125
24 146268.3125
25 130276.921875
26 116298.140625
27 104032.1875
28 93235.90625
29 83715.3984375
30 75310.3046875
31 67866.890625
32 61260.25390625
33 55381.30859375
34 50142.3359375
35 45463.828125
36 41275.703125
37 37520.50390625
38 34147.953125
39 31117.255859375
40 28387.71875
41 25925.9296875
42 23702.892578125
43 21690.8984375
44 19867.87890625
45 18214.69921875
46 16712.794921875
47 15342.85546875
48 14099.51953125
49 12967.5107421875
50 11935.6416015625
51 10994.1826171875
52 10134.0390625
53 9347.9921875
54 8628.5107421875
55 7969.716796875
56 7365.62060546875
57 6811.48876953125
58 6302.64794921875
59 5835.037109375
60 5405.25048828125
61 5009

In [19]:
#nn 패키지의 활용(ppt 16p)
# -*- coding: utf-8 -*-
import torch

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# nn 패키지를 사용하여 모델을 순차적 계층(sequence of layers)으로 정의합니다.
# nn.Sequential은 다른 Module들을 포함하는 Module로, 그 Module들을 순차적으로
# 적용하여 출력을 생성합니다. 각각의 Linear Module은 선형 함수를 사용하여
# 입력으로부터 출력을 계산하고, 내부 Tensor에 가중치와 편향을 저장합니다.
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

# 또한 nn 패키지에는 널리 사용하는 손실 함수들에 대한 정의도 포함하고 있습니다;
# 여기에서는 평균 제곱 오차(MSE; Mean Squared Error)를 손실 함수로 사용하겠습니다.
loss_fn = torch.nn.MSELoss(reduction='sum')

learning_rate = 1e-4
for t in range(500):
    # 순전파 단계: 모델에 x를 전달하여 예상되는 y 값을 계산합니다. Module 객체는
    # __call__ 연산자를 덮어써(override) 함수처럼 호출할 수 있게 합니다.
    # 이렇게 함으로써 입력 데이터의 Tensor를 Module에 전달하여 출력 데이터의
    # Tensor를 생성합니다.
    y_pred = model(x)

    # 손실을 계산하고 출력합니다. 예측한 y와 정답인 y를 갖는 Tensor들을 전달하고,
    # 손실 함수는 손실 값을 갖는 Tensor를 반환합니다.
    loss = loss_fn(y_pred, y)
    print(t, loss.item())

    # 역전파 단계를 실행하기 전에 변화도를 0으로 만듭니다.
    model.zero_grad()

    # 역전파 단계: 모델의 학습 가능한 모든 매개변수에 대해 손실의 변화도를
    # 계산합니다. 내부적으로 각 Module의 매개변수는 requires_grad=True 일 때
    # Tensor 내에 저장되므로, 이 호출은 모든 모델의 모든 학습 가능한 매개변수의
    # 변화도를 계산하게 됩니다.
    loss.backward()

    # 경사하강법(gradient descent)를 사용하여 가중치를 갱신합니다. 각 매개변수는
    # Tensor이므로 이전에 했던 것과 같이 변화도에 접근할 수 있습니다.
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad


0 682.2491455078125
1 634.35205078125
2 592.9074096679688
3 556.3314819335938
4 523.4736938476562
5 493.4969482421875
6 466.0244445800781
7 440.6562805175781
8 417.12353515625
9 395.0384826660156
10 374.197021484375
11 354.5400390625
12 335.9761657714844
13 318.3549499511719
14 301.5140380859375
15 285.46392822265625
16 270.1981201171875
17 255.64572143554688
18 241.8213653564453
19 228.6401824951172
20 216.02700805664062
21 203.96524047851562
22 192.43975830078125
23 181.46685791015625
24 171.04054260253906
25 161.13113403320312
26 151.72518920898438
27 142.778564453125
28 134.2759246826172
29 126.2290267944336
30 118.61138916015625
31 111.4321517944336
32 104.63601684570312
33 98.22862243652344
34 92.18360137939453
35 86.51065826416016
36 81.16575622558594
37 76.15743255615234
38 71.45620727539062
39 67.04847717285156
40 62.90892791748047
41 59.02996063232422
42 55.39828872680664
43 51.99351119995117
44 48.80507278442383
45 45.82244873046875
46 43.029640197753906
47 40.41304779052734

407 3.614353045122698e-05
408 3.500455568428151e-05
409 3.389922494534403e-05
410 3.28277783410158e-05
411 3.179113264195621e-05
412 3.0790517485002056e-05
413 2.981757825182285e-05
414 2.888053859351203e-05
415 2.7969455913989805e-05
416 2.7089503419119865e-05
417 2.6234780307277106e-05
418 2.540991954447236e-05
419 2.4606855731690302e-05
420 2.3833299565012567e-05
421 2.308688090124633e-05
422 2.2362448362400755e-05
423 2.1663810912286863e-05
424 2.0984669390600175e-05
425 2.032906013482716e-05
426 1.969210643437691e-05
427 1.907606201712042e-05
428 1.847874591476284e-05
429 1.790308851923328e-05
430 1.7343125364277512e-05
431 1.6800071534817107e-05
432 1.627391429792624e-05
433 1.5766519936732948e-05
434 1.5274372344720177e-05
435 1.479650291003054e-05
436 1.4333638318930753e-05
437 1.3886739907320589e-05
438 1.3454100553644821e-05
439 1.3034778930887114e-05
440 1.2626720490516163e-05
441 1.2233856068633031e-05
442 1.1853419891849626e-05
443 1.148283263319172e-05
444 1.1124589036626

In [21]:
#optim 패키지가 제공하는 adam 옵티마이저 활용(ppt 17p)
# -*- coding: utf-8 -*-
import torch

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# nn 패키지를 사용하여 모델과 손실 함수를 정의합니다.
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)
loss_fn = torch.nn.MSELoss(reduction='sum')

# optim 패키지를 사용하여 모델의 가중치를 갱신할 Optimizer를 정의합니다.
# 여기서는 Adam을 사용하겠습니다; optim 패키지는 다른 다양한 최적화 알고리즘을
# 포함하고 있습니다. Adam 생성자의 첫번째 인자는 어떤 Tensor가 갱신되어야 하는지
# 알려줍니다.
learning_rate = 1e-4
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
for t in range(500):
    # 순전파 단계: 모델에 x를 전달하여 예상되는 y 값을 계산합니다.
    y_pred = model(x)

    # 손실을 계산하고 출력합니다.
    loss = loss_fn(y_pred, y)
    print(t, loss.item())

    # 역전파 단계 전에, Optimizer 객체를 사용하여 (모델의 학습 가능한 가중치인)
    # 갱신할 변수들에 대한 모든 변화도를 0으로 만듭니다. 이렇게 하는 이유는
    # 기본적으로 .backward()를 호출할 때마다 변화도가 버퍼(buffer)에 (덮어쓰지 않고)
    # 누적되기 때문입니다. 더 자세한 내용은 torch.autograd.backward에 대한 문서를
    # 참조하세요.
    optimizer.zero_grad()

    # 역전파 단계: 모델의 매개변수에 대한 손실의 변화도를 계산합니다.
    loss.backward()

    # Optimizer의 step 함수를 호출하면 매개변수가 갱신됩니다.
    optimizer.step()

0 718.328857421875
1 700.1650390625
2 682.463623046875
3 665.3062744140625
4 648.6083984375
5 632.4580688476562
6 616.7861328125
7 601.5977783203125
8 586.843017578125
9 572.5950927734375
10 558.820068359375
11 545.4866943359375
12 532.505615234375
13 519.8849487304688
14 507.5215148925781
15 495.45001220703125
16 483.7677001953125
17 472.4457092285156
18 461.4499816894531
19 450.74163818359375
20 440.27130126953125
21 430.1374816894531
22 420.28070068359375
23 410.6038818359375
24 401.1672058105469
25 391.9395751953125
26 382.9339599609375
27 374.1667785644531
28 365.5720520019531
29 357.1414794921875
30 348.8700866699219
31 340.7496337890625
32 332.83758544921875
33 325.09619140625
34 317.49554443359375
35 310.0271911621094
36 302.7166442871094
37 295.5619812011719
38 288.54620361328125
39 281.7073974609375
40 275.0262756347656
41 268.47515869140625
42 262.04205322265625
43 255.73312377929688
44 249.59234619140625
45 243.5795135498047
46 237.67288208007812
47 231.86883544921875
48 22

423 2.4657263111294014e-06
424 2.3256231997947907e-06
425 2.1932492018095218e-06
426 2.0686957213911228e-06
427 1.951805870703538e-06
428 1.8403391095489496e-06
429 1.7358910326947807e-06
430 1.6369913282687776e-06
431 1.5436511375810369e-06
432 1.4564304819941754e-06
433 1.3735216271015815e-06
434 1.2953736359122558e-06
435 1.2220525604789145e-06
436 1.152091726908111e-06
437 1.0871854101424105e-06
438 1.0254560720568406e-06
439 9.672974101704312e-07
440 9.123135669142357e-07
441 8.603460628364701e-07
442 8.115668492791883e-07
443 7.656529987798422e-07
444 7.217982442853099e-07
445 6.810350328123604e-07
446 6.424589287234994e-07
447 6.059262318558467e-07
448 5.715043016607524e-07
449 5.388465069700032e-07
450 5.085389602754731e-07
451 4.798245072379359e-07
452 4.5222267885947076e-07
453 4.2666147237468977e-07
454 4.025187649858708e-07
455 3.7965517662996717e-07
456 3.5790000652013987e-07
457 3.3777615726648946e-07
458 3.184989907367708e-07
459 3.0043645438126987e-07
460 2.833703263149

In [23]:
#nn.Module 서브클래스 구현(ppt 18p)
# -*- coding: utf-8 -*-
import torch


class TwoLayerNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        생성자에서 2개의 nn.Linear 모듈을 생성하고, 멤버 변수로 지정합니다.
        """
        super(TwoLayerNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_in, H)
        self.linear2 = torch.nn.Linear(H, D_out)

    def forward(self, x):
        """
        순전파 함수에서는 입력 데이터의 Tensor를 받고 출력 데이터의 Tensor를
        반환해야 합니다. Tensor 상의 임의의 연산자뿐만 아니라 생성자에서 정의한
        Module도 사용할 수 있습니다.
        """
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred


# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 앞에서 정의한 클래스를 생성하여 모델을 구성합니다.
model = TwoLayerNet(D_in, H, D_out)

# 손실 함수와 Optimizer를 만듭니다. SGD 생성자에 model.parameters()를 호출하면
# 모델의 멤버인 2개의 nn.Linear 모듈의 학습 가능한 매개변수들이 포함됩니다.
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4)
for t in range(500):
    # 순전파 단계: 모델에 x를 전달하여 예상되는 y 값을 계산합니다.
    y_pred = model(x)

    # 손실을 계산하고 출력합니다.
    loss = criterion(y_pred, y)
    print(t, loss.item())

    # 변화도를 0으로 만들고, 역전파 단계를 수행하고, 가중치를 갱신합니다.
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

0 691.5057373046875
1 643.7177124023438
2 601.8855590820312
3 565.20068359375
4 532.5328979492188
5 502.78326416015625
6 475.60821533203125
7 450.4493103027344
8 426.9801330566406
9 404.99755859375
10 384.3141174316406
11 364.8726806640625
12 346.44598388671875
13 328.7873840332031
14 311.935791015625
15 295.75994873046875
16 280.4377136230469
17 265.8594970703125
18 251.931396484375
19 238.6143341064453
20 225.88795471191406
21 213.7564239501953
22 202.14761352539062
23 191.027099609375
24 180.39337158203125
25 170.24819946289062
26 160.61932373046875
27 151.45521545410156
28 142.72596740722656
29 134.4398956298828
30 126.56427001953125
31 119.0953369140625
32 112.03524780273438
33 105.36739349365234
34 99.06084442138672
35 93.10750579833984
36 87.48711395263672
37 82.18421173095703
38 77.20060729980469
39 72.52629852294922
40 68.12267303466797
41 63.976722717285156
42 60.08894729614258
43 56.43720626831055
44 53.01973342895508
45 49.8038215637207
46 46.79058074951172
47 43.9693069458

356 0.00026781007181853056
357 0.00025949289556592703
358 0.0002514401567168534
359 0.0002436433278489858
360 0.000236092324485071
361 0.0002287931856699288
362 0.0002217062283307314
363 0.00021484833268914372
364 0.00020820424833800644
365 0.00020177100668661296
366 0.00019554125901777297
367 0.0001894989109132439
368 0.000183652009582147
369 0.00017799093620851636
370 0.00017250789096578956
371 0.00016719575796741992
372 0.0001620538969291374
373 0.00015706273552495986
374 0.00015224210801534355
375 0.00014757057942915708
376 0.00014303886564448476
377 0.00013863926869817078
378 0.00013439082249533385
379 0.00013026931264903396
380 0.00012627353135030717
381 0.00012240666546858847
382 0.00011865796113852412
383 0.00011502570851007476
384 0.00011151083162985742
385 0.00010810570529429242
386 0.00010479718184797093
387 0.00010159837256651372
388 9.849566413322464e-05
389 9.548937669023871e-05
390 9.258468344341964e-05
391 8.976207755040377e-05
392 8.702589548192918e-05
393 8.4382540080

In [25]:
#제어 흐름과 가중치 공유를 사용한 모델을 상속받는 서브클래스 구현(ppt 19p)
# -*- coding: utf-8 -*-
import random
import torch


class DynamicNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        생성자에서 순전파 단계에서 사용할 3개의 nn.Linear 인스턴스를 생성합니다.
        """
        super(DynamicNet, self).__init__()
        self.input_linear = torch.nn.Linear(D_in, H)
        self.middle_linear = torch.nn.Linear(H, H)
        self.output_linear = torch.nn.Linear(H, D_out)

    def forward(self, x):
        """
        모델의 순전파 단계에서, 무작위로 0, 1, 2 또는 3 중에 하나를 선택하고
        은닉층을 계산하기 위해 여러번 사용한 middle_linear Module을 재사용합니다.

        각 순전파 단계는 동적 연산 그래프를 구성하기 때문에, 모델의 순전파 단계를
        정의할 때 반복문이나 조건문과 같은 일반적인 Python 제어 흐름 연산자를 사용할
        수 있습니다.

        여기에서 연산 그래프를 정의할 때 동일 Module을 여러번 재사용하는 것이
        완벽히 안전하다는 것을 알 수 있습니다. 이것이 각 Module을 한 번씩만 사용할
        수 있었던 Lua Torch보다 크게 개선된 부분입니다.
        """
        h_relu = self.input_linear(x).clamp(min=0)
        for _ in range(random.randint(0, 3)):
            h_relu = self.middle_linear(h_relu).clamp(min=0)
        y_pred = self.output_linear(h_relu)
        return y_pred


# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 앞서 정의한 클래스를 생성(instantiating)하여 모델을 구성합니다.
model = DynamicNet(D_in, H, D_out)

# 손실함수와 Optimizer를 만듭니다. 이 이상한 모델을 순수한 확률적 경사 하강법
# (stochastic gradient decent)으로 학습하는 것은 어려우므로, 모멘텀(momentum)을
# 사용합니다.
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4, momentum=0.9)
for t in range(500):
    # 순전파 단계: 모델에 x를 전달하여 예상되는 y 값을 계산합니다.
    y_pred = model(x)

    # 손실을 계산하고 출력합니다.
    loss = criterion(y_pred, y)
    print(t, loss.item())

    # 변화도를 0으로 만들고, 역전파 단계를 수행하고, 가중치를 갱신합니다.
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


0 649.6943969726562
1 623.2005615234375
2 562.3232421875
3 606.6149291992188
4 614.536865234375
5 582.6126098632812
6 378.6232604980469
7 609.0259399414062
8 609.154541015625
9 540.3336181640625
10 272.0088195800781
11 244.84213256835938
12 605.7559814453125
13 604.8405151367188
14 490.4465026855469
15 473.35748291015625
16 121.1352767944336
17 600.2303466796875
18 579.6287231445312
19 80.37773895263672
20 70.96879577636719
21 553.6882934570312
22 331.7407531738281
23 306.23486328125
24 504.04998779296875
25 242.55160522460938
26 209.03497314453125
27 96.0732421875
28 95.39552307128906
29 363.05596923828125
30 72.1589584350586
31 312.0638122558594
32 410.1420593261719
33 254.56735229492188
34 221.73777770996094
35 290.6672058105469
36 120.99588012695312
37 222.84620666503906
38 194.68043518066406
39 77.16815185546875
40 142.4069366455078
41 120.85267639160156
42 154.43527221679688
43 103.11292266845703
44 72.10437774658203
45 580.0013427734375
46 383.6424255371094
47 341.0157470703125


459 0.2911495268344879
460 0.06555371731519699
461 0.5264791250228882
462 0.29638439416885376
463 0.4793793559074402
464 0.40649768710136414
465 0.3307681381702423
466 0.11819446831941605
467 0.4127310514450073
468 0.237562358379364
469 0.13416340947151184
470 0.3369741141796112
471 0.7944223284721375
472 0.20597711205482483
473 0.1268736571073532
474 0.2079993039369583
475 0.2655843496322632
476 0.7054819464683533
477 0.19209425151348114
478 0.09609847515821457
479 0.29017460346221924
480 0.27799639105796814
481 0.0713868960738182
482 0.3015247881412506
483 0.19422830641269684
484 0.19090424478054047
485 0.5544294714927673
486 0.1736455261707306
487 0.11361761391162872
488 0.3384968042373657
489 0.08753371983766556
490 0.06968110054731369
491 0.6881382465362549
492 0.04396694153547287
493 0.035219211131334305
494 0.02936427854001522
495 0.4673805236816406
496 0.7014986872673035
497 0.05879870802164078
498 0.6912527084350586
499 0.5719440579414368


In [15]:
# CNN 코드

from __future__ import print_function
import argparse
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.autograd import Variable

batch_size = 64

train_dataset = datasets.MNIST(root='./data/',
                               train=True,
                               transform=transforms.ToTensor(),
                               download=True)

test_dataset = datasets.MNIST(root='./data/',
                              train=False,
                              transform=transforms.ToTensor())

train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
                                           batch_size=batch_size,
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset,
                                          batch_size=batch_size,
                                          shuffle=False)


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
        self.mp = nn.MaxPool2d(2)
        self.fc = nn.Linear(320, 10)

    def forward(self, x):
        in_size = x.size(0)
        x = F.relu(self.mp(self.conv1(x)))
        x = F.relu(self.mp(self.conv2(x)))
        x = x.view(in_size, -1)
        x = self.fc(x)
        return F.log_softmax(x)


model = Net()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)

def train(epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = Variable(data), Variable(target)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 10 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))
            
def test():
    model.eval()
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        data, target = Variable(data, volatile=True), Variable(target)
        output = model(data)
        # sum up batch loss
        test_loss += F.nll_loss(output, target, size_average=False).data
        # get the index of the max log-probability
        pred = output.data.max(1, keepdim=True)[1]
        correct += pred.eq(target.data.view_as(pred)).cpu().sum()

    test_loss /= len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))


for epoch in range(1, 10):
    train(epoch)
    test()








Test set: Average loss: 0.1834, Accuracy: 9421/10000 (94%)


Test set: Average loss: 0.1166, Accuracy: 9657/10000 (96%)




Test set: Average loss: 0.0824, Accuracy: 9738/10000 (97%)


Test set: Average loss: 0.0784, Accuracy: 9760/10000 (97%)




Test set: Average loss: 0.0637, Accuracy: 9799/10000 (97%)


Test set: Average loss: 0.0632, Accuracy: 9812/10000 (98%)




Test set: Average loss: 0.0557, Accuracy: 9828/10000 (98%)




Test set: Average loss: 0.0521, Accuracy: 9840/10000 (98%)


Test set: Average loss: 0.0591, Accuracy: 9817/10000 (98%)



In [15]:
#lstm

import torch
from torch import nn, optim
from torchtext import data, datasets
import numpy as np
import random

from datetime import datetime
from progress.bar import Bar

torch.manual_seed(12)
torch.cuda.manual_seed(12)
np.random.seed(12)
random.seed(12)

USE_GPU=0

device = torch.device('cuda' if (torch.cuda.is_available() and USE_GPU) else 'cpu')

def tokenize(text):
    """Simple tokenizer, change for something more sophisticated
    """
    return text.lower().split()


def accuracy(preds, y):
    """
    Returns accuracy per batch, i.e. if you get 8/10 right, this returns 0.8, NOT 8
    """
    # apply softmax
    preds = torch.nn.functional.softmax(preds, dim=1)
    # get max values along rows
    _, indices = preds.max(dim=1)
    # values, indices = torch.max(tensor, 0)
    correct = (indices == y).float()  # convert into float for division
    acc = correct.sum()/len(correct)
    return acc

##### Read the data

# set up fields
TEXT = data.Field(lower=True,
                  include_lengths=True,
                  tokenize=tokenize)
LABEL = data.LabelField()

# make splits for data
train_ds, valid_ds = datasets.IMDB.splits(TEXT, LABEL)
# take a portion of datasets, for testing :)
# train_ds, _ = train_ds.split(0.5)
# valid_ds, _ = valid_ds.split(0.5)
print(f'train={len(train_ds)} valid={len(valid_ds)}')

# build the vocabulary
TEXT.build_vocab(train_ds,
                 min_freq=10,
                 max_size=10000 ) #, vectors=GloVe(name='6B', dim=300))
LABEL.build_vocab(train_ds)

print(TEXT.vocab.freqs.most_common(10))
print(TEXT.vocab.freqs.most_common()[:-11:-1])
vocab = TEXT.vocab

vocab_size = len(vocab)
print(f'vocab_size={vocab_size}')
print(list(vocab.stoi.keys())[0:10])

print(LABEL.vocab.stoi.keys())

#hidden size
n_hid=256
# embed size
n_embed=100
# number of layers
n_layers=1
batch_size = 8

input_dim = vocab_size # =10002
output_dim = len(LABEL.vocab) # =2

train_iter = data.BucketIterator(
    train_ds,
    batch_size=batch_size,
    sort_key=lambda x: len(x.text),
    sort_within_batch=True, device=device)

valid_iter = data.BucketIterator(
    valid_ds, batch_size=batch_size,
    sort_key=lambda x: len(x.text),
    sort_within_batch=True, device=device)


print("-"*80)
print(f'model params')
print(f'input_dim={input_dim}, output={output_dim}')
print(f'n_layers={n_layers}, n_hid={n_hid} embed={n_embed}')
print(f'batch={batch_size}')

class SeqRNN(nn.Module):

    def __init__(self, input_dim,
                 output_dim, embed_size,
                 hidden_size, num_layers=1,
                 dropout=0.1,vectors=None ):
        super().__init__()

        self.embed_size = embed_size
        self.hidden_size = hidden_size
        self.output_dim = output_dim
        self.num_layers = num_layers

        self.embed = nn.Embedding(input_dim, embed_size)
        # if we want to copy embedding vectors
        if vectors:
            self.embed.weight.data.copy_(vectors)

        #after the embedding we can add dropout
        self.drop = nn.Dropout(dropout)

        self.rnn = nn.LSTM(embed_size, hidden_size,
                            num_layers, batch_first=False)
        #output linear layer
        self.linear = nn.Linear(hidden_size, output_dim)

    def forward(self, seq):
        # Embed word ids to vectors
        len_seq, bs = seq.shape
        w_embed = self.embed(seq)
        w_embed = self.drop(w_embed)
    
        output, _ = self.rnn(w_embed)
        
        # this does .squeeze(0) now hidden has size [batch, hid dim]
        last_output = output[-1, :, :]
        # apply dropout
        last_output = self.drop(last_output)

        out = self.linear(last_output)
        return out

model = SeqRNN(input_dim=input_dim,
               output_dim=output_dim,
               embed_size=n_embed, hidden_size=n_hid)
model.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

epoch_loss = 0
epoch_acc = 0
epoch = 10

for e in range(epoch):

    start_time = datetime.now()
    # train loop
    model.train()
    # progress
    bar = Bar(f'Training Epoch {e}/{epoch}', max=len(train_iter))
    for batch_idx, batch in enumerate(train_iter):

        model.zero_grad()
        # move data to device (GPU if enabled, else CPU do nothing)
        batch_text = batch.text[0].to(device) # include lengths at [1]
        batch_label = batch.label.to(device)
        
        predictions = model(batch_text)
        # compute loss
        loss = criterion(predictions, batch_label)
        epoch_loss += loss.item()

        # do back propagation for bptt steps in time
        loss.backward()
        optimizer.step()

        bar.next()

    bar.finish()
    # mean epoch loss
    epoch_loss = epoch_loss / len(train_iter)

    time_elapsed = datetime.now() - start_time

    # progress
    bar = Bar(f'Validation Epoch {e}/{epoch}', max=len(valid_iter))
    # evaluation loop
    model.eval()
    with torch.no_grad():
        for batch_idx, batch in enumerate(valid_iter):
            # print(f'batch_idx={batch_idx}')
            batch_text = batch.text[0] #batch.text is a tuple
            batch_label = batch.label
            # get model output
            predictions = model(batch_text)
            # compute batch validation accuracy
            acc = accuracy(predictions, batch_label)

            epoch_acc += acc
            bar.next()

    epoch_acc = epoch_acc/len(valid_iter)
    bar.finish()

    # show summary
    print(
        f'Epoch {e}/{epoch} loss={epoch_loss} acc={epoch_acc} time={time_elapsed}')
    epoch_loss = 0
    epoch_acc = 0

train=25000 valid=25000
[('the', 322198), ('a', 159953), ('and', 158572), ('of', 144462), ('to', 133967), ('is', 104171), ('in', 90527), ('i', 70480), ('this', 69714), ('that', 66292)]
[("shite'", 1), ('18,000', 1), ('whelk.<br', 1), ('chronicles.<br', 1), ('lascivious/decadent', 1), ("me'...", 1), ('american-canadian', 1), ("'inferno'", 1), ("'irreversible'-style", 1), ('intensity!', 1)]
vocab_size=10002
['<unk>', '<pad>', 'the', 'a', 'and', 'of', 'to', 'is', 'in', 'i']
dict_keys(['neg', 'pos'])
--------------------------------------------------------------------------------
model params
input_dim=10002, output=2
n_layers=1, n_hid=256 embed=100
batch=8
Epoch 0/10 loss=0.634299971575737 acc=0.755079984664917 time=0:21:20.982472
Epoch 1/10 loss=0.4012510151231289 acc=0.8662800192832947 time=0:18:50.133786


KeyboardInterrupt: 

In [19]:
# GAN

import os
import torch
import torch.nn as nn
import torch.utils as utils
import torch.nn.init as init
import torchvision.utils as v_utils
import torchvision.datasets as dset
import torchvision.transforms as transforms
import numpy as np
import matplotlib.pyplot as plt
from collections import OrderedDict

# 참고
# 전치 컨볼루션 연산으로 이미지 크기를 2배로 늘리는 방법 2가지
# 둘중에 kernel_size=4,stride=2,padding=1 세팅이 체커보드 아티팩트가 덜합니다.

test = torch.ones(1,1,16,16)
conv1 = nn.ConvTranspose2d(1,1,kernel_size=4,stride=2,padding=1)
out = conv1(test)

conv1 = nn.ConvTranspose2d(1,1,kernel_size=3,stride=2,padding=1,output_padding=1)
out = conv1(test)

epoch = 50
batch_size = 512
learning_rate = 0.0002
num_gpus = 1
z_size = 50
middle_size = 200

mnist_train = dset.MNIST("./", train=True, transform=transforms.ToTensor(), target_transform=None, download=True)
train_loader = torch.utils.data.DataLoader(dataset=mnist_train,batch_size=batch_size,shuffle=True,drop_last=True)

# Generator receives random noise z and create 1x28x28 image
# OrderedDict를 사용해 해당 연산의 이름을 지정할 수 있습니다.

class Generator(nn.Module):
    def __init__(self):
        super(Generator,self).__init__()
        self.layer1 = nn.Sequential(OrderedDict([
                        ('fc1',nn.Linear(z_size,middle_size)),
                        ('bn1',nn.BatchNorm1d(middle_size)),
                        ('act1',nn.ReLU()),
        ]))
        self.layer2 = nn.Sequential(OrderedDict([
                        ('fc2', nn.Linear(middle_size,784)),
                        #('bn2', nn.BatchNorm1d(784)),
                        ('tanh', nn.Tanh()),
        ]))
    def forward(self,z):
        out = self.layer1(z)
        out = self.layer2(out)
        out = out.view(batch_size,1,28,28)
        return out

# Discriminator receives 1x28x28 image and returns a float number 0~1
# we can name each layer using OrderedDict

class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator,self).__init__()
        self.layer1 = nn.Sequential(OrderedDict([
                        ('fc1',nn.Linear(784,middle_size)),
                        #('bn1',nn.BatchNorm1d(middle_size)),
                        ('act1',nn.LeakyReLU()),  
            
        ]))
        self.layer2 = nn.Sequential(OrderedDict([
                        ('fc2', nn.Linear(middle_size,1)),
                        ('bn2', nn.BatchNorm1d(1)),
                        ('act2', nn.Sigmoid()),
        ]))
                                    
    def forward(self,x):
        out = x.view(batch_size, -1)
        out = self.layer1(out)
        out = self.layer2(out)
        return out
    
# Put class objects on Multiple GPUs using 
# torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)
# device_ids: default all devices / output_device: default device 0 
# along with .cuda()

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
print(device)

generator = nn.DataParallel(Generator()).to(device)
discriminator = nn.DataParallel(Discriminator()).to(device)

# Get parameter list by using class.state_dict().keys()

gen_params = generator.state_dict().keys()
dis_params = discriminator.state_dict().keys()

for i in gen_params:
    print(i)

# loss function, optimizers, and labels for training

loss_func = nn.MSELoss()
gen_optim = torch.optim.Adam(generator.parameters(), lr=learning_rate,betas=(0.5,0.999))
dis_optim = torch.optim.Adam(discriminator.parameters(), lr=learning_rate,betas=(0.5,0.999))

ones_label = torch.ones(batch_size,1).to(device)
zeros_label = torch.zeros(batch_size,1).to(device)

# train

for i in range(epoch):
    for j,(image,label) in enumerate(train_loader):
        image = image.to(device)
        
        # 구분자 학습
        dis_optim.zero_grad()
      
        # Fake Data 
        # 랜덤한 z를 샘플링해줍니다.
        z = init.normal_(torch.Tensor(batch_size,z_size),mean=0,std=0.1).to(device)
        gen_fake = generator.forward(z)
        dis_fake = discriminator.forward(gen_fake)
        
        # Real Data
        dis_real = discriminator.forward(image)
        
        # 두 손실을 더해 최종손실에 대해 기울기 게산을 합니다.
        dis_loss = torch.sum(loss_func(dis_fake,zeros_label)) + torch.sum(loss_func(dis_real,ones_label))
        dis_loss.backward(retain_graph=True)
        dis_optim.step()
        
        # 생성자 학습
        gen_optim.zero_grad()
        
        # Fake Data
        z = init.normal_(torch.Tensor(batch_size,z_size),mean=0,std=0.1).to(device)
        gen_fake = generator.forward(z)
        dis_fake = discriminator.forward(gen_fake)
        
        gen_loss = torch.sum(loss_func(dis_fake,ones_label)) # fake classified as real
        gen_loss.backward()
        gen_optim.step()
    
        # model save
        if j % 100 == 0:
            print(gen_loss,dis_loss)
            torch.save([generator,discriminator],'./model/vanilla_gan.pkl')            
            v_utils.save_image(gen_fake.cpu().data[0:25],"./result/gen_{}_{}.png".format(i,j), nrow=5)
            print("{}th epoch gen_loss: {} dis_loss: {}".format(i,gen_loss.data,dis_loss.data))
            
from glob import glob 

for i in range(epoch):
  print(i)
  file_list = glob("./result/gen_{}_*.png".format(i))
  img_per_epoch = len(file_list)
  for idx,j in enumerate(file_list):
    img = plt.imread(j)
    plt.subplot(1,img_per_epoch,idx+1)
    plt.imshow(img)
  plt.show()

cuda
module.layer1.fc1.weight
module.layer1.fc1.bias
module.layer1.bn1.weight
module.layer1.bn1.bias
module.layer1.bn1.running_mean
module.layer1.bn1.running_var
module.layer1.bn1.num_batches_tracked
module.layer2.fc2.weight
module.layer2.fc2.bias
tensor(0.2942, device='cuda:0', grad_fn=<SumBackward0>) tensor(0.5929, device='cuda:0', grad_fn=<AddBackward0>)
0th epoch gen_loss: 0.29424265027046204 dis_loss: 0.5928618311882019
tensor(0.2947, device='cuda:0', grad_fn=<SumBackward0>) tensor(0.5183, device='cuda:0', grad_fn=<AddBackward0>)
0th epoch gen_loss: 0.29465562105178833 dis_loss: 0.5182761549949646
tensor(0.2924, device='cuda:0', grad_fn=<SumBackward0>) tensor(0.5084, device='cuda:0', grad_fn=<AddBackward0>)
1th epoch gen_loss: 0.2924443483352661 dis_loss: 0.5084043741226196


KeyboardInterrupt: 