# Pytorch : Tensor

Numpy는 GPU를 사용하여 수치 연산을 할 수가 없습니다. 그렇기 때문에 속도가 중유한 Deeplearning 에선 Numpy를 사용하기는 힘듭니다.  

이번에는 Pytorch의 기본적인 개념인 Tensor에 대해 알아보겠습니다.  
Pytorch Tensor는 기본적으로 Numpy 배열과 동일합니다. : Tensor는 N차원 배열이며, Pytorch Tensor는 연산을 위한 함수들을 제공합니다.  
Numpy 배열과 같이 Pytorch Tensor는 딥러닝이나 연산 그래프, 변화도는 알지못하고, 과학적 분야의 연산을 이한 포괄적 도구 입니니다.

그러나 Numpy와는 달리 Pytorch Tensor는 GPU를 활용하여 연산을 가속화할 수 있습니다.  
GPU에서 Pytorch Tensor를 실행하기 위해서는 단지 새로운 자료형으로 Casting 해주기만 하면 됩니다.  

여기에서는 Pytorch Tensor를 이용하여 2-계층의 신경망이 무작위 데이터를 맞추는 예제를 알아보겠습니다. 

In [6]:
# -*- coding: utf-8 -*-

import torch


dtype = torch.FloatTensor
dtype = torch.cuda.FloatTensor # GPU에서 실행하려면 이 주석을 제거하세요.

위와 같이 Tensor는 CPU Tensor GPU Tensor가 따로 존재 합니다. 서로의 연산은 불가합니다.  

In [7]:
# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다:
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = torch.randn(N, D_in).type(dtype)
y = torch.randn(N, D_out).type(dtype)

# 무작위로 가중치를 초기화합니다.
w1 = torch.randn(D_in, H).type(dtype)
w2 = torch.randn(H, D_out).type(dtype)

learning_rate = 1e-6

In [8]:
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum()
    print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 경사하강법(Gradient Descent)를 사용하여 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 tensor(34562896., device='cuda:0')
1 tensor(32339172., device='cuda:0')
2 tensor(33135676., device='cuda:0')
3 tensor(31322528., device='cuda:0')
4 tensor(24819392., device='cuda:0')
5 tensor(15951545., device='cuda:0')
6 tensor(8803535., device='cuda:0')
7 tensor(4619951.5000, device='cuda:0')
8 tensor(2569621.5000, device='cuda:0')
9 tensor(1604507.5000, device='cuda:0')
10 tensor(1126430., device='cuda:0')
11 tensor(861136.7500, device='cuda:0')
12 tensor(693623.2500, device='cuda:0')
13 tensor(575766.4375, device='cuda:0')
14 tensor(486400.3750, device='cuda:0')
15 tensor(415509.4375, device='cuda:0')
16 tensor(357708.4062, device='cuda:0')
17 tensor(309767.0938, device='cuda:0')
18 tensor(269534.6250, device='cuda:0')
19 tensor(235641.6406, device='cuda:0')
20 tensor(206788.9375, device='cuda:0')
21 tensor(182117., device='cuda:0')
22 tensor(160865.4844, device='cuda:0')
23 tensor(142508.7188, device='cuda:0')
24 tensor(126587.3750, device='cuda:0')
25 tensor(112740.2969, device

218 tensor(0.4984, device='cuda:0')
219 tensor(0.4739, device='cuda:0')
220 tensor(0.4508, device='cuda:0')
221 tensor(0.4287, device='cuda:0')
222 tensor(0.4078, device='cuda:0')
223 tensor(0.3879, device='cuda:0')
224 tensor(0.3690, device='cuda:0')
225 tensor(0.3511, device='cuda:0')
226 tensor(0.3340, device='cuda:0')
227 tensor(0.3178, device='cuda:0')
228 tensor(0.3024, device='cuda:0')
229 tensor(0.2878, device='cuda:0')
230 tensor(0.2739, device='cuda:0')
231 tensor(0.2606, device='cuda:0')
232 tensor(0.2480, device='cuda:0')
233 tensor(0.2360, device='cuda:0')
234 tensor(0.2247, device='cuda:0')
235 tensor(0.2139, device='cuda:0')
236 tensor(0.2036, device='cuda:0')
237 tensor(0.1938, device='cuda:0')
238 tensor(0.1845, device='cuda:0')
239 tensor(0.1757, device='cuda:0')
240 tensor(0.1673, device='cuda:0')
241 tensor(0.1593, device='cuda:0')
242 tensor(0.1517, device='cuda:0')
243 tensor(0.1444, device='cuda:0')
244 tensor(0.1375, device='cuda:0')
245 tensor(0.1310, device='c

445 tensor(0.0001, device='cuda:0')
446 tensor(0.0001, device='cuda:0')
447 tensor(0.0001, device='cuda:0')
448 tensor(0.0001, device='cuda:0')
449 tensor(0.0001, device='cuda:0')
450 tensor(0.0001, device='cuda:0')
451 tensor(9.8954e-05, device='cuda:0')
452 tensor(9.7234e-05, device='cuda:0')
453 tensor(9.5974e-05, device='cuda:0')
454 tensor(9.4319e-05, device='cuda:0')
455 tensor(9.2771e-05, device='cuda:0')
456 tensor(9.1190e-05, device='cuda:0')
457 tensor(8.9928e-05, device='cuda:0')
458 tensor(8.8430e-05, device='cuda:0')
459 tensor(8.7281e-05, device='cuda:0')
460 tensor(8.6014e-05, device='cuda:0')
461 tensor(8.4562e-05, device='cuda:0')
462 tensor(8.3350e-05, device='cuda:0')
463 tensor(8.1975e-05, device='cuda:0')
464 tensor(8.0821e-05, device='cuda:0')
465 tensor(7.9701e-05, device='cuda:0')
466 tensor(7.8050e-05, device='cuda:0')
467 tensor(7.7056e-05, device='cuda:0')
468 tensor(7.5922e-05, device='cuda:0')
469 tensor(7.4874e-05, device='cuda:0')
470 tensor(7.3708e-05, d

***

# Autograd

### Pytorch : Variables 과 autograd

위의 예제에서 우리는 신경망의 순전파 단계와 역전파 단계를 수동으로 구현하였습니다. 작은 2-계층 신경망에서 역전파 단계를 직접 구현하는것은 쉬운일입니다. 하지만 대규모의복잡한 신경망에서는 어려운일일 수도 있습니다.  

다행이도 자동 미분을 사용하면 신경망에서 역전파 단계의 연산의 자동화가 가능합니다. Pytorch의 autograd패키지는 이기능을 정확히 제공합니다. Autograd를 사용할 때, 신경망의 순전파 단계는 연산 그래프를 정의합니다.  그래프의 노드(node)는 Tensor이며, Edge는 입력 Tensor로부터 출력 Tensor를 만들어내는 함수입니다. 이 그래프를 통해 역전파를 하게 되면 변화도를 쉽게 계산할 수 있습니다.  

이 는 복잡해 보이지만 실제로 사용하는것은 간단합니다. Pytorch Tensor를 Variable 객체로 감싸게 되면 이 Variable 이 연산 그래프에서 노드로 represent됩니다.x가 Variable 일떄, x.data는 그 값을 갖는 Tensor이며 x.grad는 어떤 스칼라 값에 대해 x에 대한 변화도를 갖는 또 다른 Variable입니다.  

PyTorch Variable 은 Pytorch Tensor 와 동일한 API를 제공합니다. Tensor에서 할 수 있는 (거의) 모든 연산은 Variable에서도 할 수 있습니다. 차이점은 연산 그래프를 정의할 떄 Variable을 사용하면, 자동으로 변화도를 계산할 수 있다는 것입니다.  

여기에서는 Pytorch Variable과 autograd를 사용하여 2-계층 신경망을 구현합니다. 이제 더이상 신경망의 역전파 단계를 직접 구현할 필요가 없습니다.  


In [13]:
import torch
from torch.autograd import Variable

dtype = torch.FloatTensor
# dtype = torch.cuda.FloatTensor #GPU에서 실행하려면 이 주석을 제거하세요

# N은 배치 크기이며, D_in은 입력의 차원
# H는 은닉 계층의 차원이며, D_out은 출력 차원

N,D_in,H,D_out = 64,1000,100,10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor 를 생성하고, Variable로 감쌉니다.
# requires_grade = False로 설정하여 역전파중에 이 Variable들에 대한 변화도를 계산할 필요가 없음을 나타냅니다.
x = Variable(torch.randn(N,D_in).type(dtype), requires_grad=False)
y = Variable(torch.randn(N,D_out).type(dtype), requires_grad=False)

# 가중치를 저장하기 위해 무작위 값을 갖는 Tensor를 생성하고, Variable로 감쌉니다.
# requires_grad = True 로 설정하여 역전파 중에 이 Variable들에 대한 변화도를 계산할 필요가 있음을 나타냅니다.

w1 = Variable(torch.randn(D_in, H).type(dtype),requires_grad=True)
w2 = Variable(torch.randn(H, D_out).type(dtype),requires_grad=True)


learning_rate = 1e-6
for t in range(500) :
    # 순전파 단계 : Variable 연산을 사용하여 y 값을 예측합니다. 이는 Tensor를 사용한
    # 순전파 단계와 완전히 동일하지만, 역전파 단계를 별도로 구현하지 않기 위함입니다.
    # 값들 (Intermediate Value)에 대한 참조(Reference) 를 갖고 있을 필요가 없습니다.
    
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    # Variable 연산을 사용하여 손실을 계한하고 출력합니다.
    # Loss 는 (1,) 모양을 갖는 Variable이며, Loss.data는 (1,) 모양의 Tensor입니다.
    # Loss.data[0]는 손실(Loss)의 스칼라 값입니다.
    
    loss = (y_pred - y).pow(2).sum()
    print(t)
    print(loss)
    
    # autograde를 사용하여 역전파 단계를 계산합니다. 이는 requires_grad = True를
    # 갖는 모든 Variable에 대한 손실의 변화도를 계산합니다. 이후 w1.grad와 w2.grad는 
    # w1과 w2 각각에 대한 손실의 변화도를 갖는 Variable이 됩니다.
    
    loss.backward()
    
    # 경사하강법(Gradient Descent) 을 사용하여 가중치를 갱신합니다. 
    # w1.data 와 w2.data는 Tensor이며, w1.grad와 w2.grad는 Variable이고, 
    # w1.grad.data와 w2.grad.data 또한 Tensor입니다.
    
    w1.data -= learning_rate * w1.grad.data
    w2.data -= learning_rate * w2.grad.data
    
    # 가중치 갱신 후에는 수동으로 변화도를 0으로 만들어줍니다.
    w1.grad.data.zero_()
    w2.grad.data.zero_()

0
tensor(37168900., grad_fn=<SumBackward0>)
1
tensor(30610004., grad_fn=<SumBackward0>)
2
tensor(28078846., grad_fn=<SumBackward0>)
3
tensor(24716638., grad_fn=<SumBackward0>)
4
tensor(19395418., grad_fn=<SumBackward0>)
5
tensor(13310531., grad_fn=<SumBackward0>)
6
tensor(8276153.5000, grad_fn=<SumBackward0>)
7
tensor(4943476.5000, grad_fn=<SumBackward0>)
8
tensor(3016792.7500, grad_fn=<SumBackward0>)
9
tensor(1957507.2500, grad_fn=<SumBackward0>)
10
tensor(1367625.3750, grad_fn=<SumBackward0>)
11
tensor(1020840.5625, grad_fn=<SumBackward0>)
12
tensor(801120.8125, grad_fn=<SumBackward0>)
13
tensor(650637.5625, grad_fn=<SumBackward0>)
14
tensor(540531.7500, grad_fn=<SumBackward0>)
15
tensor(455873.9375, grad_fn=<SumBackward0>)
16
tensor(388558.9375, grad_fn=<SumBackward0>)
17
tensor(333845.0938, grad_fn=<SumBackward0>)
18
tensor(288591., grad_fn=<SumBackward0>)
19
tensor(250741.7188, grad_fn=<SumBackward0>)
20
tensor(218881.1250, grad_fn=<SumBackward0>)
21
tensor(191858.1406, grad_fn=<S

182
tensor(10.4629, grad_fn=<SumBackward0>)
183
tensor(9.9951, grad_fn=<SumBackward0>)
184
tensor(9.5495, grad_fn=<SumBackward0>)
185
tensor(9.1238, grad_fn=<SumBackward0>)
186
tensor(8.7173, grad_fn=<SumBackward0>)
187
tensor(8.3297, grad_fn=<SumBackward0>)
188
tensor(7.9595, grad_fn=<SumBackward0>)
189
tensor(7.6058, grad_fn=<SumBackward0>)
190
tensor(7.2682, grad_fn=<SumBackward0>)
191
tensor(6.9459, grad_fn=<SumBackward0>)
192
tensor(6.6384, grad_fn=<SumBackward0>)
193
tensor(6.3449, grad_fn=<SumBackward0>)
194
tensor(6.0640, grad_fn=<SumBackward0>)
195
tensor(5.7962, grad_fn=<SumBackward0>)
196
tensor(5.5402, grad_fn=<SumBackward0>)
197
tensor(5.2957, grad_fn=<SumBackward0>)
198
tensor(5.0623, grad_fn=<SumBackward0>)
199
tensor(4.8394, grad_fn=<SumBackward0>)
200
tensor(4.6261, grad_fn=<SumBackward0>)
201
tensor(4.4227, grad_fn=<SumBackward0>)
202
tensor(4.2281, grad_fn=<SumBackward0>)
203
tensor(4.0426, grad_fn=<SumBackward0>)
204
tensor(3.8654, grad_fn=<SumBackward0>)
205
tensor

tensor(0.0031, grad_fn=<SumBackward0>)
373
tensor(0.0030, grad_fn=<SumBackward0>)
374
tensor(0.0029, grad_fn=<SumBackward0>)
375
tensor(0.0028, grad_fn=<SumBackward0>)
376
tensor(0.0027, grad_fn=<SumBackward0>)
377
tensor(0.0026, grad_fn=<SumBackward0>)
378
tensor(0.0025, grad_fn=<SumBackward0>)
379
tensor(0.0024, grad_fn=<SumBackward0>)
380
tensor(0.0023, grad_fn=<SumBackward0>)
381
tensor(0.0022, grad_fn=<SumBackward0>)
382
tensor(0.0021, grad_fn=<SumBackward0>)
383
tensor(0.0021, grad_fn=<SumBackward0>)
384
tensor(0.0020, grad_fn=<SumBackward0>)
385
tensor(0.0019, grad_fn=<SumBackward0>)
386
tensor(0.0019, grad_fn=<SumBackward0>)
387
tensor(0.0018, grad_fn=<SumBackward0>)
388
tensor(0.0017, grad_fn=<SumBackward0>)
389
tensor(0.0017, grad_fn=<SumBackward0>)
390
tensor(0.0016, grad_fn=<SumBackward0>)
391
tensor(0.0016, grad_fn=<SumBackward0>)
392
tensor(0.0015, grad_fn=<SumBackward0>)
393
tensor(0.0015, grad_fn=<SumBackward0>)
394
tensor(0.0014, grad_fn=<SumBackward0>)
395
tensor(0.00

# Pytorch : 새 autograd 함수 정의하기

Under the hood, autograd의 기본(primitive)연산자는 실제로 Tensor를 조작하는 2개의 함수입니다. foward함수는 입력 Tensor로부터 출력 Tensor를 계산합니다. backward함수는 출력 Tensor의 변화도를 받고 입력 Tensor의 변화도를 계산합니다.  

Pytorch에서 torch.autograd.Function의 서브클래스를 정의하고 foward와 backward함수를 구현함으로써 쉽게 사용자 정의 autograd연산자를 정의할 수 있습니다. 그 후 , 인스턴스(instance)를 생성하고 함수처럼 호출하여 입력 데이터를 포함하는 Variable을 전달하는 식으로 새로운 autograd 연산자를 쉽게 사용할 수 있습니다. 

이 예제에서는 ReLU 비선형성(nonlinearity)을 수행하기 위한 사용자 정의 autograd함수를 정희하고, 2-계층 신경망에 이를 적용해 보도록 하겠습니다.  


In [22]:
import torch
from torch.autograd import Variable

class MyReLU(torch.autograd.Function) :
    """
    torch.autograd.Function을 상속받아 사용자 정의 autograd 함수를 구현하고,
    Tensor 연산을 하는 순전파와 역전파 단계를 구현해보자!!
    """
    
    @staticmethod
    def forward(ctx, input) :
        """
        순전파 단계에서는 입력을 갖는 Tensor를 받아 출력을 갖는 Tensor를 반환합니다.
        ctx는 역전파 연산을 위한 정보를 저장하기 위해 사용하는 Context Object입니다.
        ctx.save_for_backward method를 사용하여 역전파 단계에서 사용할!!어떠한 
        객체 (object) 도 저장 (cache)해 둘 수 있습니다.
        """
        ctx.save_for_backward(input)
        return input.clamp(min=0)
        
    @staticmethod
    def backward(ctx, grad_output) :
        """
        역전파 단계에서는 출력에 대한 손실의 변화도를 갖는 Tensor를 받고, 입력에 대한 손실의 변화도를 계산합니다.
        """
        input, = ctx.saved_tensors
        grad_input = grad_output.clone()
        grad_input[input < 0] = 0
        return grad_input
    

dtype = torch.FloatTensor
# dtype = torch.cuda.FloatTensor # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다:

N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성하고, Variable로 감쌉니다.

x = Variable(torch.randn(N, D_in).type(dtype), requires_grad=False)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad=False)

# 가중치를 저장하기 위해 무작위 값을 갖는 Tensor를 생성하고, Variable로
# 감쌉니다.
w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad=True)
w2 = Variable(torch.randn(H, D_out).type(dtype), requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    """
    여기 집중 위와 달라짐
    """
    # 사용자 정의 함수를 적용하기 위해 Function.apply method를 사용합니다.
    # 이를 'relu'라고 이름(alias) 붙였습니다.
    relu = MyReLU.apply

    # 순전파 단계: Variable 연산을 사용하여 y 값을 예측합니다;
    # 사용자 정의 autograd 연산을 사용하여 ReLU를 계산합니다.
    y_pred = relu(x.mm(w1)).mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.data)

    # autograde를 사용하여 역전파 단계를 계산합니다.
    loss.backward()

    # 경사하강법(Gradient Descent)을 사용하여 가중치를 갱신합니다.
    w1.data -= learning_rate * w1.grad.data
    w2.data -= learning_rate * w2.grad.data

    # 가중치 갱신 후에는 수동으로 변화도를 0으로 만듭니다.
    w1.grad.data.zero_()
    w2.grad.data.zero_()

0 tensor(30190504.)
1 tensor(28334216.)
2 tensor(31392220.)
3 tensor(34249056.)
4 tensor(31809564.)
5 tensor(23565708.)
6 tensor(13724072.)
7 tensor(6880701.5000)
8 tensor(3389391.7500)
9 tensor(1859037.3750)
10 tensor(1191202.8750)
11 tensor(870814.2500)
12 tensor(691008.2500)
13 tensor(572969.5000)
14 tensor(486089.9688)
15 tensor(417671.5312)
16 tensor(361755.7500)
17 tensor(315197.1875)
18 tensor(275898.7188)
19 tensor(242445.4375)
20 tensor(213795.4375)
21 tensor(189165.8438)
22 tensor(167884.6406)
23 tensor(149383.0938)
24 tensor(133247.9219)
25 tensor(119120.0938)
26 tensor(106722.6875)
27 tensor(95808.1172)
28 tensor(86166.4844)
29 tensor(77637.6250)
30 tensor(70074.2500)
31 tensor(63343.5391)
32 tensor(57348.2969)
33 tensor(51996.8789)
34 tensor(47208.3516)
35 tensor(42917.2188)
36 tensor(39065.9961)
37 tensor(35603.1328)
38 tensor(32485.8711)
39 tensor(29676.1406)
40 tensor(27138.0273)
41 tensor(24847.4961)
42 tensor(22772.9082)
43 tensor(20892.0801)
44 tensor(19185.5371)
45 

412 tensor(0.0006)
413 tensor(0.0006)
414 tensor(0.0006)
415 tensor(0.0006)
416 tensor(0.0005)
417 tensor(0.0005)
418 tensor(0.0005)
419 tensor(0.0005)
420 tensor(0.0005)
421 tensor(0.0005)
422 tensor(0.0005)
423 tensor(0.0004)
424 tensor(0.0004)
425 tensor(0.0004)
426 tensor(0.0004)
427 tensor(0.0004)
428 tensor(0.0004)
429 tensor(0.0004)
430 tensor(0.0004)
431 tensor(0.0004)
432 tensor(0.0004)
433 tensor(0.0003)
434 tensor(0.0003)
435 tensor(0.0003)
436 tensor(0.0003)
437 tensor(0.0003)
438 tensor(0.0003)
439 tensor(0.0003)
440 tensor(0.0003)
441 tensor(0.0003)
442 tensor(0.0003)
443 tensor(0.0003)
444 tensor(0.0003)
445 tensor(0.0003)
446 tensor(0.0003)
447 tensor(0.0003)
448 tensor(0.0003)
449 tensor(0.0002)
450 tensor(0.0002)
451 tensor(0.0002)
452 tensor(0.0002)
453 tensor(0.0002)
454 tensor(0.0002)
455 tensor(0.0002)
456 tensor(0.0002)
457 tensor(0.0002)
458 tensor(0.0002)
459 tensor(0.0002)
460 tensor(0.0002)
461 tensor(0.0002)
462 tensor(0.0002)
463 tensor(0.0002)
464 tensor(0

# TensorFlow : 정적 그래프 (Static Graph)

Pytorch autograd는 Tensorflow와 많이 닮아 보입니다. 두 프레임워크 모두 연산 그래프를 정의하며, 자동 미분을 사용하여 변화도를 계산합니다. 두 프레임워크의 가장 큰 차이점은 Tensorflow의 연산 그래프는 Tensorflow 연산의 그래프느 ㄴ정적이며, Pytorch는 동적그래프를 사용합니다.  

Tensorflow에서는 연산 그래프를 한 번 정의한 후 동일한 그래프를 계속해서 실행하며 가능한 다른 입력 데이터를 전달합니다. Pytorch에서는 각각의 순전파 단게에서 새로운 연산 그래프를 정의합니다.  

정적 그래프는 먼저(Up-front) 그래프를 최적화 할 수 있기 때문에 좋습니다. 예를 들어 프레임워크가 효율을 위해 일부 그래프 연산을 합치거나, 여러 GPU나 시스템에 그래프를 배포하는 전략을 제시할 수 있습니다. 만약 동일한 그래프를 계속 재사용하면, 같은 그래프가 반복되면서 비싼 최적화 비용을 잠재적으로 상환할 수 있습니다.  

정적 그래프와 동적 그래프는 제어 흐름(Control flow)측면에서도 다릅니다. 어떤 모델에서 각 데이터 지점마다 다른 연산 연산을 수행하고 싶을 수 있습니다. 예를 들어 순환 신경망에서 각각의 데이터 지점마다 서로 다른 횟수만큼 펼칠수 있습니다. 이러한 펼침은 반복문 Loop로 구현이 가능합니다. 정적 그래프에서 반복문은 그래프의 일부가 돼야 합니다. 이러한 이유는 Tensorflow는 그래프 내에 반복문을 포함하기 위해 tf.scan과 같은 연산자를 제공합니다. 동적 그래프에서는 이러한 상황이 더 단순해 집니다.  각 예제에 대한 그래프를 즉석에서 작성하기 때문에, 동적 그래프에서는 이러한 상황이 더 단순합니다. 각 예제에 대한 그래프를 즉성(on the fly)에서 작성하기 떄문에 일반적인 명령혁(imperative)제어 흐름을 사용하여 각각의 입력에 따라 다른 계산을 수행할 수 있습니다.  
위 Pytorch autograd 예제들과는 다르게 Tensorflow를 사용하여 2계층 신경망을 구성하겠습니다.

In [23]:
import tensorflow as tf
import numpy as np

# 먼저 연산 그래프를 구성하겠습니다:

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다:
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 정답(target) 데이터를 위한 Placeholder를 생성합니다; 이는 우리가 그래프를
# 실행할 때 실제 데이터로 채워질 것입니다.
x = tf.placeholder(tf.float32, shape=(None, D_in))
y = tf.placeholder(tf.float32, shape=(None, D_out))

# 가중치를 저장하기 위한 Variable을 생성하고 무작위 데이터로 초기화합니다.
# Tensorflow의 Variable은 그래프가 실행되는 동안 그 값이 유지됩니다.
w1 = tf.Variable(tf.random_normal((D_in, H)))
w2 = tf.Variable(tf.random_normal((H, D_out)))

# 순전파 단계: Tensorflow의 Tensor 연산을 사용하여 y 값을 예측합니다.
# 이 코드가 어떠한 수치 연산을 실제로 수행하지는 않는다는 것을 유의하세요;
# 이 단계에서는 나중에 실행할 연산 그래프를 구성하기만 합니다.
h = tf.matmul(x, w1)
h_relu = tf.maximum(h, tf.zeros(1))
y_pred = tf.matmul(h_relu, w2)

# Tensorflow의 Tensor 연산을 사용하여 손실(loss)을 계산합니다.
loss = tf.reduce_sum((y - y_pred) ** 2.0)

# 손실에 따른 w1, w2의 변화도(Gradient)를 계산합니다.
grad_w1, grad_w2 = tf.gradients(loss, [w1, w2])

# 경사하강법(Gradient Descent)을 사용하여 가중치를 갱신합니다. 실제로 가중치를
# 갱신하기 위해서는 그래프가 실행될 때 new_w1과 new_w2 계산(evaluate)해야 합니다.
# Tensorflow에서 가중치의 값을 갱신하는 작업은 연산 그래프의 일부임을 유의하십시오;
# PyTorch에서는 이 작업이 연산 그래프의 밖에서 일어납니다.
learning_rate = 1e-6
new_w1 = w1.assign(w1 - learning_rate * grad_w1)
new_w2 = w2.assign(w2 - learning_rate * grad_w2)

# 지금까지 우리는 연산 그래프를 구성하였으므로, 실제로 그래프를 실행하기 위해 이제
# Tensorflow 세션(Session)에 들어가보겠습니다.
with tf.Session() as sess:
    # 그래프를 한 번 실행하여 Variable w1과 w2를 초기화합니다.
    sess.run(tf.global_variables_initializer())

    # 입력 데이터 x와 정답 데이터 y를 저장하기 위한 NumPy 배열을 생성합니다.
    x_value = np.random.randn(N, D_in)
    y_value = np.random.randn(N, D_out)
    for _ in range(500):
        # 그래프를 여러 번 실행합니다. 매번 그래프가 실행할 때마다 feed_dict
        # 인자(argument)로 명시하여 x_value를 x에, y_value를 y에 할당(bind)하고자
        # 합니다. 또한, 그래프를 실행할 때마다 손실과 new_w1, new_w2 값을
        # 계산하려고 합니다; 이러한 Tensor들의 값은 NumPy 배열로 반환됩니다.
        loss_value, _, _ = sess.run([loss, new_w1, new_w2],
                                    feed_dict={x: x_value, y: y_value})
        print(loss_value)

W1028 00:25:31.558885 13376 deprecation.py:323] From C:\Users\ashgh\Anaconda3\lib\site-packages\tensorflow\python\ops\math_grad.py:1205: add_dispatch_support.<locals>.wrapper (from tensorflow.python.ops.array_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where


37365444.0
39971130.0
51104520.0
66525110.0
125327210.0
447432600.0
1542089600.0
6407015000.0
5389994000.0
1375581500000.0
1.02887934e+18
1.1878478e+36
inf
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan


# nn 모듈

### Pytorch : nn

연산 그래프와 autograd는 복잡한 연산자를 정의하고 도함수 (derivative)를 자동으로 계산하는데 매우 강력한 패러다임(paradigm)입니다. 하지만 규모가 큰 신경망에서는 autograd 그 자체만으로는 너무 낮은 수준일 수 있습니다. 

신경망을 구성할 때 종종 연산을 여러 계층 으로 배열하는 것으로 생각하게 되는데, 이중 일부는 학습도중 최적화가ㅏ 될 학습 가능한 매개변수를 갖고 있습니다.   

Tensorflow 에서 Keras, TensorFlow-Slim,나 TFLearn 같은 패키지는 원초적인 연산 그래프보다 더 높은 수준의 추상화를 제공하여 신경망을 구축하는데 있어 유용합니다.  

Pytorch에선 nn패키지가 동일한 기능을 제공합니다. nn패키지는 대략 신경망 계층들과 동일한 모듈의 집합을 정의합니다.  모듈은 입력 Variable을 받고 출력 Variable을 계산하는 한편, 학습 가능한 매개변수를 포함하는 Variable과 같은 내부 상태(internal state)를 갖습니다. 또한 nn패키지는 신경망을 학습시킬 때 주로 사용하는 유용한 손실 함수들도 정의합니다.  

In [27]:
import torch
from torch.autograd import Variable

N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성하고 Variable로 감쌉니다.
x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out),requires_grad=False)

# nn 패키지를 사용하여 모델을 순차적인 계층(sequence of Layers)로 정의합니다.
# nn.sequential 은 다른 모듈들을 포함하는 모듈로, 그 모듈들을 순차적으로 적용하여 출력을 생성합니다. 
# 각각의 선형(Linear) 모듈은 선형 함수를 사용하여 입력으로 부터 출력을 계산하고, 가중치와 편향을 저장하기 위한 내부적인 Variable을 갖습니다.

model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

# 또한, nn 패키지에는 널리 사용하는 손실 함수들에 대한 정의도 포함하고 있습니다.
# 여기에서는 평균 제곱 오차(MSE; Mean Squard Error)를 손실 함수로 사용하겠습니다.

loss_fn = torch.nn.MSELoss(size_average=False)

learning_rate = 1e-4 
for t in range(500) :
    # 순전파 단계 : 모델에 x를 전달하여 예쌍하는 y값을 계산,
    # 모듈 객체는 __call__연산자를 덮어써서(Override) 함수처럼 호출할 수 있게 합니다.
    # 그렇게 함으로써 입력 데이터의 Variable을 모듈에 전달하고 출력 데이터의 Variable을 생성합니다.
    y_pred = model(x)
    
    
    # 손실을 계산하고 출력합니다. 예측한 y값과 정답 y를 갖는 Variable들을 전달하고,
    # 손실 함수는 손실(loss)를 갖는Variable을 반환합니다.
    loss = loss_fn(y_pred, y)
    print(t, loss.data)
    
    # 역전파 단계를 실행하기 전에 변화도를 0으로 만듭니다.
    model.zero_grad()
    
    # 역전파 단계 : 모델의 학습 가능한 모든 매개변수에 대해서 손실의 변화도를 계산합니다
    # 내부적으로 각 모듈의 매개변수는 requires_grad = True 일때, Variable 내에 저장되므로,
    # 이 호출은 모든 모델의 모든 학습 가능한 매개변수의 변화도를 계산하게 됩니다.
    
    loss.backward()
    
    # 경사하강법(Gradient Descent) 를 사용하여 가중치를 갱신합니다. 
    # 각 매개변수는 Variable이므로 이전에 햇던 것과 같이 데이터와 변화도에 접근할 수 있습니다.
    
    for param in model.parameters() :
        param.data -= learning_rate * param.grad.data

0 tensor(680.2180)
1 tensor(631.7173)
2 tensor(589.7276)
3 tensor(553.4382)
4 tensor(520.8665)
5 tensor(491.5690)
6 tensor(464.9676)
7 tensor(440.5335)
8 tensor(417.9570)
9 tensor(397.0676)
10 tensor(377.4464)
11 tensor(358.9196)
12 tensor(341.3716)
13 tensor(324.7317)
14 tensor(308.8842)
15 tensor(293.6805)
16 tensor(279.1624)
17 tensor(265.3292)
18 tensor(252.1141)
19 tensor(239.4323)
20 tensor(227.2652)
21 tensor(215.5932)
22 tensor(204.4180)
23 tensor(193.7264)
24 tensor(183.4973)
25 tensor(173.7191)
26 tensor(164.4105)
27 tensor(155.5480)
28 tensor(147.1022)
29 tensor(139.0709)
30 tensor(131.4287)
31 tensor(124.1679)
32 tensor(117.2948)
33 tensor(110.7769)
34 tensor(104.6021)
35 tensor(98.7648)
36 tensor(93.2394)
37 tensor(88.0140)
38 tensor(83.0841)
39 tensor(78.4275)
40 tensor(74.0373)
41 tensor(69.8993)
42 tensor(65.9902)
43 tensor(62.3054)
44 tensor(58.8296)
45 tensor(55.5383)
46 tensor(52.4422)
47 tensor(49.5305)
48 tensor(46.7888)
49 tensor(44.2091)
50 tensor(41.7795)
51 ten

428 tensor(7.5046e-05)
429 tensor(7.2979e-05)
430 tensor(7.0962e-05)
431 tensor(6.9011e-05)
432 tensor(6.7108e-05)
433 tensor(6.5261e-05)
434 tensor(6.3465e-05)
435 tensor(6.1719e-05)
436 tensor(6.0020e-05)
437 tensor(5.8369e-05)
438 tensor(5.6762e-05)
439 tensor(5.5202e-05)
440 tensor(5.3686e-05)
441 tensor(5.2210e-05)
442 tensor(5.0776e-05)
443 tensor(4.9382e-05)
444 tensor(4.8026e-05)
445 tensor(4.6708e-05)
446 tensor(4.5426e-05)
447 tensor(4.4179e-05)
448 tensor(4.2968e-05)
449 tensor(4.1791e-05)
450 tensor(4.0645e-05)
451 tensor(3.9532e-05)
452 tensor(3.8445e-05)
453 tensor(3.7392e-05)
454 tensor(3.6369e-05)
455 tensor(3.5375e-05)
456 tensor(3.4408e-05)
457 tensor(3.3464e-05)
458 tensor(3.2549e-05)
459 tensor(3.1660e-05)
460 tensor(3.0793e-05)
461 tensor(2.9953e-05)
462 tensor(2.9133e-05)
463 tensor(2.8338e-05)
464 tensor(2.7564e-05)
465 tensor(2.6813e-05)
466 tensor(2.6082e-05)
467 tensor(2.5370e-05)
468 tensor(2.4677e-05)
469 tensor(2.4003e-05)
470 tensor(2.3348e-05)
471 tensor(

# Pytorch : optim

지금 까지는 학습 가능한 매개변수를 갖는 Variable의 .data멤버를 직접 조작하여 모델의 가중치를 갱신했습니다. 이는 확률적 경사 하강법(SGD)과 같은 간단한 최적화 알괴즘에는 크게 부담이 되지는 않지만, 실제로 신경망을 학습할 떄는 주로 AdaGrad, RMSProp, Adam등과 같은 좀더 정교한 Optimizer를 사용합니다.  

Pytorch의 optim 패키지는 최적화 알고리즘의 아이디어를 추상화 하고 일반적으로 사용하는 최적화 알고리즘의 구현체 (implementation)을 제공합니다.  

이 예제에서는 앞에서와 같이 nn패키지를 사용하여 모델을 정의하지만 optim 패키지가 제공하는 adam알고리즘을 이용하여 모델을 최적화 합니다.  

In [30]:
import torch
from torch.autograd import Variable

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉 계층의 차원이며, D_out은 출력 차원입니다:
N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성하고, Variable로
# 감쌉니다.
x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad=False)

## nn패키지를 사용하여 모델과 손실함수를 정의
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

loss_fn = torch.nn.MSELoss(size_average=False)

# optim 패키지를 사용하여 모델의 가중치를 갱신할 Optimizer를 정의합니다.
# 여기서는 Adam을 사용합니다. optim 패키지는 다른 다양한 최적화 알고리즘을 포함하고 있습니다.
# Adam 생성자의 첫 인자는 갱신해야 하는 Variable을 Optimizer에 알려줍니다.


learning_rate = 1e-4
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

for t in range(500) :
    # 순전파 단계: 모델에 x를 전달하여 예상하는 y 값을 계산합니다.
    y_pred = model(x)

    # 손실을 계산하고 출력합니다.
    loss = loss_fn(y_pred, y)
    print(t, loss.data)

    # 역전파 단계 전에, Optimizer 객체를 사용하여 (모델의 학습 가능한 가중치인)
    # 갱신할 Variable들에 대한 모든 변화도를 0으로 만듭니다. 이는 기본적으로,
    # .backward()를 호출할 때마다 변화도가 버퍼(Buffer)에 (덮어쓰지 않고) 누적되기
    # 때문입니다. 더 자세한 내용은 torch.autograd.backward에 대한 문서를 참조하세요.
    optimizer.zero_grad()

    # 역전파 단계: 모델의 매개변수에 대한 손실의 변화도를 계산합니다.
    loss.backward()

    # Optimizer의 step 함수를 호출하면 매개변수가 갱신됩니다.
    optimizer.step()

0 tensor(705.6899)
1 tensor(688.6937)
2 tensor(672.2026)
3 tensor(656.2902)
4 tensor(640.9213)
5 tensor(626.0710)
6 tensor(611.6686)
7 tensor(597.7643)
8 tensor(584.2377)
9 tensor(571.1834)
10 tensor(558.5079)
11 tensor(546.2013)
12 tensor(534.2230)
13 tensor(522.5577)
14 tensor(511.2400)
15 tensor(500.2384)
16 tensor(489.5085)
17 tensor(479.0529)
18 tensor(468.9060)
19 tensor(459.0239)
20 tensor(449.4133)
21 tensor(440.0491)
22 tensor(430.9098)
23 tensor(422.0637)
24 tensor(413.4578)
25 tensor(405.0930)
26 tensor(396.9392)
27 tensor(388.9657)
28 tensor(381.1513)
29 tensor(373.4888)
30 tensor(365.9742)
31 tensor(358.6213)
32 tensor(351.4160)
33 tensor(344.3523)
34 tensor(337.3904)
35 tensor(330.5706)
36 tensor(323.8667)
37 tensor(317.2492)
38 tensor(310.7351)
39 tensor(304.3399)
40 tensor(298.0602)
41 tensor(291.8943)
42 tensor(285.8506)
43 tensor(279.9000)
44 tensor(274.0649)
45 tensor(268.3406)
46 tensor(262.7173)
47 tensor(257.2001)
48 tensor(251.7941)
49 tensor(246.4758)
50 tensor(

416 tensor(8.8287e-06)
417 tensor(8.2639e-06)
418 tensor(7.7342e-06)
419 tensor(7.2397e-06)
420 tensor(6.7745e-06)
421 tensor(6.3387e-06)
422 tensor(5.9330e-06)
423 tensor(5.5508e-06)
424 tensor(5.1921e-06)
425 tensor(4.8576e-06)
426 tensor(4.5431e-06)
427 tensor(4.2508e-06)
428 tensor(3.9742e-06)
429 tensor(3.7169e-06)
430 tensor(3.4766e-06)
431 tensor(3.2499e-06)
432 tensor(3.0384e-06)
433 tensor(2.8398e-06)
434 tensor(2.6555e-06)
435 tensor(2.4826e-06)
436 tensor(2.3196e-06)
437 tensor(2.1683e-06)
438 tensor(2.0261e-06)
439 tensor(1.8927e-06)
440 tensor(1.7696e-06)
441 tensor(1.6526e-06)
442 tensor(1.5439e-06)
443 tensor(1.4426e-06)
444 tensor(1.3474e-06)
445 tensor(1.2584e-06)
446 tensor(1.1753e-06)
447 tensor(1.0978e-06)
448 tensor(1.0251e-06)
449 tensor(9.5764e-07)
450 tensor(8.9379e-07)
451 tensor(8.3461e-07)
452 tensor(7.7864e-07)
453 tensor(7.2722e-07)
454 tensor(6.7877e-07)
455 tensor(6.3348e-07)
456 tensor(5.9139e-07)
457 tensor(5.5197e-07)
458 tensor(5.1516e-07)
459 tensor(

# PyTorch : 사용자 정의 nn 모듈

가끔은 기존 모듈의 순차적 구성보다 더 복잡한 모델을 구성해야 할 때가 있습니다; 이럴 떄는 nn.Module의 서브클래스로 새 모듈을 정의하고, 입력 Variable 을 받아 다른 모듈 또는 Variable의 autograd 연산을 사용하여 출력 Variable을 생성하는 foward를 정의합니다.  

이 예제에서는 2-계층 신경망을 사용자 정의 Module의 서브 클래스로 구현합니다.

In [32]:
import torch
from torch.autograd import Variable

class TwoLayerNet(torch.nn.Module) :
    def __init__(self, D_in, H, D_out) :
        """
        생성자에서 2개의 nn.Linear 모듈을 생성(Instantiate) 하고, 멤버 변수로 지정합니다.
        """
        super(TwoLayerNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_in, H)
        self.linear2 = torch.nn.Linear(H, D_out)
        
    def forward(self, x) :
        """
        순전파 함수에서는 입력 데이터의 Variable을 받아서 출력 데이터의 Variable을 반환해야 합니다.
        Variable 상의 임의의 연산자뿐만 아니라 생성자에서 정의한 모듈을 사용할 수 있습니다.
        """
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred
    
# N은 배치 크기이며, D_in은 입력의 차원이다.
# H는 은닉 계층의 차원이며, D_out은 출력 차원이다.

N, D_in, H, D_out = 64, 1000, 100, 10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성하고, Variable로
# 감쌉니다.
x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad=False)

# 앞에서 정의한 클래스를 생성(Instantiating)해서 모델을 구성!!합니다.
model = TwoLayerNet(D_in, H, D_out)

# 손실함수와 Optimizer를 만듭니다. SGD 생성자에서 model.parameters()를 호출하면
# 모델의 멤버인 2개의 nnLinear 모듈의 학습 가능한 매개변수들이 포함됩니다.
criterion = torch.nn.MSELoss(size_average=False)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4)

for t in range(500) :
    # 순전파 단계 : 모델에 x를 전달 하여 예상하는 y값을 계산합니다.
    y_pred = model(x)
    
    # 손실을 계산하고 출력합니다.
    loss = criterion(y_pred, y)
    print(t, loss.data)
    
    # 변화도를 0으로 만들고, 역전파 단계를 수행하고, 가중치를 갱신합니다.
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

0 tensor(773.8176)
1 tensor(714.5993)
2 tensor(663.2770)
3 tensor(618.1769)
4 tensor(578.0924)
5 tensor(541.9462)
6 tensor(508.9998)
7 tensor(478.8720)
8 tensor(451.3778)
9 tensor(425.8236)
10 tensor(401.9220)
11 tensor(379.5479)
12 tensor(358.5653)
13 tensor(338.7312)
14 tensor(319.9577)
15 tensor(302.0431)
16 tensor(285.0070)
17 tensor(268.8488)
18 tensor(253.5112)
19 tensor(238.9655)
20 tensor(225.1216)
21 tensor(211.9780)
22 tensor(199.5020)
23 tensor(187.7109)
24 tensor(176.5349)
25 tensor(165.9437)
26 tensor(155.8990)
27 tensor(146.4039)
28 tensor(137.4297)
29 tensor(128.9574)
30 tensor(120.9555)
31 tensor(113.4236)
32 tensor(106.3435)
33 tensor(99.6567)
34 tensor(93.3956)
35 tensor(87.4652)
36 tensor(81.9112)
37 tensor(76.7008)
38 tensor(71.8178)
39 tensor(67.2404)
40 tensor(62.9282)
41 tensor(58.9027)
42 tensor(55.1428)
43 tensor(51.6382)
44 tensor(48.3680)
45 tensor(45.3114)
46 tensor(42.4581)
47 tensor(39.7938)
48 tensor(37.3071)
49 tensor(34.9872)
50 tensor(32.8255)
51 tenso

419 tensor(1.4978e-05)
420 tensor(1.4513e-05)
421 tensor(1.4064e-05)
422 tensor(1.3627e-05)
423 tensor(1.3205e-05)
424 tensor(1.2796e-05)
425 tensor(1.2400e-05)
426 tensor(1.2017e-05)
427 tensor(1.1645e-05)
428 tensor(1.1285e-05)
429 tensor(1.0938e-05)
430 tensor(1.0598e-05)
431 tensor(1.0271e-05)
432 tensor(9.9542e-06)
433 tensor(9.6473e-06)
434 tensor(9.3505e-06)
435 tensor(9.0616e-06)
436 tensor(8.7832e-06)
437 tensor(8.5120e-06)
438 tensor(8.2504e-06)
439 tensor(7.9967e-06)
440 tensor(7.7512e-06)
441 tensor(7.5130e-06)
442 tensor(7.2829e-06)
443 tensor(7.0583e-06)
444 tensor(6.8429e-06)
445 tensor(6.6319e-06)
446 tensor(6.4294e-06)
447 tensor(6.2306e-06)
448 tensor(6.0403e-06)
449 tensor(5.8548e-06)
450 tensor(5.6754e-06)
451 tensor(5.5023e-06)
452 tensor(5.3347e-06)
453 tensor(5.1723e-06)
454 tensor(5.0125e-06)
455 tensor(4.8609e-06)
456 tensor(4.7118e-06)
457 tensor(4.5675e-06)
458 tensor(4.4288e-06)
459 tensor(4.2941e-06)
460 tensor(4.1619e-06)
461 tensor(4.0354e-06)
462 tensor(

# Pytorch : 제어흐름 (Control Flow) + 가중치 공유( Weight Sharing) 

각각의 순전파 단계에서 많은 은닉 계층을 갖는 완전히 연결(Fully-connected)된 ReLU 신경망이 무작위로 1 ~ 4 사이의 숫자를 선택하고, 동일한 가중치를 여러 번 재사용하여 가장 안쪽(Innermost)에 있는 은닉 계층들을 계산합니다.

이 모델에서는 반복문을 구현하기 위해 일반적인 Python 제어 흐름을 사용하고, 순전파 단계를 정의할 때 단지 동일한 모듈을 여러번 재사용함으로써 내부(innermost) 계층들 간의 가중치 공유를 구현할 수 있습니다.

이 모델은 간단히 Module을 상속받는 서브클래스로 구현해보겠습니다: