# nn module
### Pytorch : nn

계산그래프(computational graph)와 autograd는 복잡한 연산자를 정의하고 자동으로 도함수를 계산하는 강력한 패러다임이다. 하지만 규모가 크면 autograd자체는 너무 수준이 낮아진다.

신경망을 구죽할 때, 우리는 '레이어'에 연산을 배열하는 것으로 생각하곤하는데, 이 중 일부는 학습도중 최적화될 수 있는 '학습 가능한 파라미터'를 가지고 있다.

텐서플로우에서는 keras, tensorflow-slim, tflearn과 같은 패키지들은 수준 놓은 계산그래프를 제공하여 신경망을 구축하는데 유용하다.

파이토치에서는 nn패키지가 이러한 기능을 한다. nn패키지는 신경망 레이어와 거의 동일한 모듈의 집합을 정의한다. 모듈은 입력텐서를 받아 출력텐서를 계산하거나 학습가능한 파라미터를 포함하는 텐서와 같은 상태를 갖는다. 또한, nn패키지는 신경망을 학습할 때 일반적으로 사용하는 유용한 손실함수를 정의한다.

In [1]:
import torch

N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# nn패키지를 사용하여 모델의 레이어를 순차적으로 정의한다. 순차적 모델
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

loss_fn = torch.nn.MSELoss(size_average=False)

learning_rate = 1e-4
for t in range(500):
    
    y_pred = model(x)
    
    loss = loss_fn(y_pred, y)
    print(t, loss.item())
    
    # backward를 실행하기 전에, 그라디언트를 0으로 한다.
    model.zero_grad()
    
    loss.backward()
    
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad



0 740.9263305664062
1 685.3340454101562
2 637.1879272460938
3 594.8462524414062
4 557.4482421875
5 523.9111938476562
6 493.69732666015625
7 466.1807556152344
8 440.74560546875
9 417.0259094238281
10 394.83636474609375
11 374.0304260253906
12 354.36114501953125
13 335.7261047363281
14 317.945556640625
15 301.00537109375
16 284.8198547363281
17 269.3831787109375
18 254.63693237304688
19 240.45053100585938
20 226.9087371826172
21 214.03976440429688
22 201.7952880859375
23 190.1329803466797
24 179.05465698242188
25 168.56471252441406
26 158.544677734375
27 149.04945373535156
28 140.0684814453125
29 131.59475708007812
30 123.60114288330078
31 116.06769561767578
32 108.97225952148438
33 102.30086517333984
34 96.02540588378906
35 90.15975189208984
36 84.64796447753906
37 79.48361206054688
38 74.64413452148438
39 70.11302947998047
40 65.87298583984375
41 61.91410446166992
42 58.20219039916992
43 54.73047637939453
44 51.487571716308594
45 48.45311737060547
46 45.61896896362305
47 42.96718215942

381 0.0002560898137744516
382 0.0002486287266947329
383 0.0002413932525087148
384 0.00023438245989382267
385 0.00022758122941013426
386 0.0002209852827945724
387 0.0002145988546544686
388 0.0002084000443574041
389 0.00020238914294168353
390 0.0001965619740076363
391 0.00019090510613750666
392 0.00018542322504799813
393 0.00018010579515248537
394 0.00017495648353360593
395 0.00016995759506244212
396 0.0001651058264542371
397 0.00016039900947362185
398 0.0001558394287712872
399 0.00015140781761147082
400 0.0001471093128202483
401 0.00014294330321718007
402 0.000138900795718655
403 0.00013497512554749846
404 0.00013116565241944045
405 0.00012746824359055609
406 0.00012389017501845956
407 0.00012040958972647786
408 0.00011703398922691122
409 0.00011375436588423327
410 0.00011057427764171734
411 0.00010748426575446501
412 0.00010449083492858335
413 0.00010157937504118308
414 9.875433170236647e-05
415 9.60125689744018e-05
416 9.334987407783046e-05
417 9.076695278054103e-05
418 8.825923578115

### pytorch : optim
지금까지는 학습가능한 파라미터는 가지고 텐서를 직접 조각하여 모델의 가중치를 갱신했다.(torch.mo_grad() 또는 .data를 사용하여 자동미분의 추적기록을 피하면서). 이것읜 확률적 경사하강법(SGD_과 같은 간단한 최적화 알고리즘에는 큰 부담이 되지 않지만, 실제로 신경망을 학습할 때는 AdaGrad, RMSProp, Adam과 같은 더 복잡한 최적화를 사용한다.

파이토치의 optim 패키지는 최적화 알고리즘을 추상화하고, 일반적으로 사용하는 최적화 알고리즘을 제공한다.

이번 예제에서는 앞의 예제처럼 nn패키지를 사용하여 모델을 정의하고, optim패키지가 제공하는 Adam 알고리즘을 사용하여 모델을 최적화 시켰다

In [3]:
import torch

N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)
loss_fn = torch.nn.MSELoss(size_average=False)

learning_rate = 1e-4

# optim 패키지의 Adam을 사용하여 파라미터 최적화
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
for t in range(500):
    y_pred = model(x)
    
    loss = loss_fn(y_pred, y)
    print(t, loss.item())
    
    optimizer.zero_grad()
    
    loss.backward()
    
    optimizer.step()



0 708.0479125976562
1 691.3763427734375
2 675.2777099609375
3 659.6292114257812
4 644.3910522460938
5 629.650146484375
6 615.2802124023438
7 601.2588500976562
8 587.6319580078125
9 574.4555053710938
10 561.6749267578125
11 549.3156127929688
12 537.35595703125
13 525.7467651367188
14 514.4303588867188
15 503.4140625
16 492.771240234375
17 482.3714904785156
18 472.2387390136719
19 462.3877258300781
20 452.7875061035156
21 443.4497985839844
22 434.3331604003906
23 425.42144775390625
24 416.7156677246094
25 408.22540283203125
26 399.9067687988281
27 391.7839050292969
28 383.8852844238281
29 376.21087646484375
30 368.7275390625
31 361.38818359375
32 354.1837158203125
33 347.1236267089844
34 340.2204284667969
35 333.43890380859375
36 326.7752380371094
37 320.2895812988281
38 313.9484558105469
39 307.7338562011719
40 301.641357421875
41 295.6922302246094
42 289.8677978515625
43 284.139892578125
44 278.51123046875
45 272.9801025390625
46 267.5591735839844
47 262.21087646484375
48 256.943786621

422 6.058482085791184e-06
423 5.68516725252266e-06
424 5.334110937837977e-06
425 5.0050439313054085e-06
426 4.696635642176261e-06
427 4.406455445860047e-06
428 4.1348766899318434e-06
429 3.879054474964505e-06
430 3.6403835110832006e-06
431 3.415353830860113e-06
432 3.2045891202869825e-06
433 3.0074045298533747e-06
434 2.820993813656969e-06
435 2.6473792331671575e-06
436 2.482929630787112e-06
437 2.3302359295485076e-06
438 2.1857313186046667e-06
439 2.0508887246251106e-06
440 1.9240769688622095e-06
441 1.805083002182073e-06
442 1.6934912991928286e-06
443 1.5890285567365936e-06
444 1.4908923731127288e-06
445 1.3986194744575187e-06
446 1.312430867983494e-06
447 1.2312208355069743e-06
448 1.1551461511771777e-06
449 1.0836414503501146e-06
450 1.0171380608881009e-06
451 9.54030042521481e-07
452 8.950021879172709e-07
453 8.398289423894312e-07
454 7.881255896791117e-07
455 7.392114866888733e-07
456 6.93803656304226e-07
457 6.510261982839438e-07
458 6.10599613537488e-07
459 5.729910981244757e-0

### Pytorch : Custom nn Modules

가끔은 순차적인 기존의 모듈보다 더 복잡한 모듈을 구현해야할 때가 있다. 이러한 경우, nn.Module의 서브클래스로 사용자-모듈을 정의하고, 입력텐서를 받아 다른 모듈을 사용하거나 텐서의 자동미분 연산을 사용하여 출력텐서를 생성하는 forward를 정의해야한다.

한마디로 따로 사용자 정의 모듈(클래스)을 만들어서 입력텐서를 만들어야한다.?

아래 구조는 자주 사용하게 될 구조!

In [5]:
import torch

# 사용자 정의 모듈
class TwoLayerNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        super(TwoLayerNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_in, H)
        self.linear2 = torch.nn.Linear(H, D_out)
        
    def forward(self, x):
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred
    
N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

model = TwoLayerNet(D_in, H, D_out)

# 손실함수 최적화
criterion = torch.nn.MSELoss(size_average=False)

learning_rate = 1e-4

# optim 패키지의 Adam을 사용하여 파라미터 최적화
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)
for t in range(500):
    y_pred = model(x)
    
    loss = criterion(y_pred, y)
    print(t, loss.item())
    
    optimizer.zero_grad()
    
    loss.backward()
    
    optimizer.step()



0 702.7286376953125
1 652.2814331054688
2 608.120361328125
3 569.0491333007812
4 534.16455078125
5 502.9087829589844
6 474.4524230957031
7 448.310302734375
8 423.89288330078125
9 400.93365478515625
10 379.269775390625
11 358.66082763671875
12 339.20306396484375
13 320.6654968261719
14 303.0470275878906
15 286.4004211425781
16 270.54925537109375
17 255.420166015625
18 240.98338317871094
19 227.2051544189453
20 214.0262908935547
21 201.52186584472656
22 189.62413024902344
23 178.28814697265625
24 167.55885314941406
25 157.3946533203125
26 147.7670440673828
27 138.6680145263672
28 130.08792114257812
29 121.9583511352539
30 114.3000717163086
31 107.0910415649414
32 100.31575775146484
33 93.9466781616211
34 87.97864532470703
35 82.37395477294922
36 77.12355041503906
37 72.21207427978516
38 67.60869598388672
39 63.31269836425781
40 59.29498291015625
41 55.535579681396484
42 52.02395248413086
43 48.74589920043945
44 45.683902740478516
45 42.82164764404297
46 40.13796615600586
47 37.6303253173

378 8.488741877954453e-05
379 8.220839663408697e-05
380 7.961178926052526e-05
381 7.709576311754063e-05
382 7.46639198041521e-05
383 7.230904157040641e-05
384 7.003081555012614e-05
385 6.782230775570497e-05
386 6.568343087565154e-05
387 6.361316627589986e-05
388 6.160915654618293e-05
389 5.966475873719901e-05
390 5.778546983492561e-05
391 5.5964836064958945e-05
392 5.4203253966988996e-05
393 5.249784589977935e-05
394 5.084418080514297e-05
395 4.924511813442223e-05
396 4.769661245518364e-05
397 4.619730680133216e-05
398 4.4747070205630735e-05
399 4.334114055382088e-05
400 4.197863381705247e-05
401 4.065932080266066e-05
402 3.938112786272541e-05
403 3.814505907939747e-05
404 3.695164923556149e-05
405 3.579297481337562e-05
406 3.467054557404481e-05
407 3.358243338880129e-05
408 3.252911847084761e-05
409 3.151192140649073e-05
410 3.0522587621817365e-05
411 2.956587377411779e-05
412 2.863963891286403e-05
413 2.774550193862524e-05
414 2.687487176444847e-05
415 2.6033314497908577e-05
416 2.52