# 제3절 Nural Network

## 01 Tensor

### (1) Warm up : Numpy
Numpy를 활용한 2 layer network 만들기

In [1]:
from time import time

In [2]:
# N : 배치 사이즈
# H : hidden layer
# D_in : 입력 dim
# D_out : 출력 dim
N, H, D_in , D_out = 64, 100, 1000, 10

In [3]:
# 랜덤 데이터로 생성
import numpy as np
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

In [4]:
# 랜덤한 weight 초기값 지정
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6

In [5]:
# 학습모델 생성하기
t0 = time()
for t in range(5001):
    # Forward 모형 만들기 
    h = x.dot(w1)  
    h_relu = np.maximum(h,0)
    y_pred = h_relu.dot(w2)
    
    # Loss 함수 계산
    loss = np.square(y_pred - y).sum()
    #print(t,loss)

    # w1, w2로 계산된 모델의 Backprop 를 계산
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h<0] = 0
    grad_w1 = x.T.dot(grad_h)

    # Update weight (회귀식의 weight 값 바꾸기)
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2
    
    if t % 250 == 0:
        print(" {0:4}  loss {1:6f}  w1[0][0]: {2:8f} w1[0][0]: {3:8f}".format(
                t,loss, w1[0][0], w2[0][0]))
print(int(time()-t0), 'sec')

    0  loss 24655411.825640  w1[0][0]: -1.431834 w1[0][0]: 1.317450
  250  loss 0.124313  w1[0][0]: -1.407407 w1[0][0]: 0.961950
  500  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
  750  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 1000  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 1250  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 1500  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 1750  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 2000  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 2250  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 2500  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 2750  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 3000  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 3250  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 3500  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 3750  loss 0.000000  w1[0][0]: -1.407407 w1[0][0]: 0.962001
 4000  loss 0.000

In [6]:
w1[0][0]

-1.4074073965209111

In [7]:
# numpy.dot()  # 배열 곱 (내적)
import numpy as np
a = [ [2,0], [0,3] ]
b = [ [4,1], [2,5] ]
np.dot(a,b)  

array([[ 8,  2],
       [ 6, 15]])

In [8]:
# numpy.maximum()  # 최대 우도값을 갖는 배열의 값
np.maximum([2,3,4], [1,5,2])

array([2, 5, 4])

### (2) Pytorch Tensor

In [9]:
import torch
dtype = torch.FloatTensor
# dtype = torch.cuda.FloatTensor # GPU 활용을 위한 객체정의
N, H, D_in , D_out = 64, 100, 1000, 10

In [10]:
# 랜덤함수로 nput, output data 생성하기
x = torch.randn(N, D_in).type(dtype)
y = torch.randn(N, D_out).type(dtype)

In [11]:
# 학습모델의 초기값을 난수함수를 활용
w1 = torch.randn(D_in, H).type(dtype)
w2 = torch.randn(H, D_out).type(dtype)
learning_rate = 1e-6

In [12]:
t0 = time()
# 학습모델 생성하기
for t in range(5001):
    # Forward 모델 실행
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)
    
    # loss 함수 실행
    loss = (y_pred - y).pow(2).sum()
    #print(t, loss)
    
    # backprop 계산
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[ h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # w1, w2 값을 바꿔가며 학습
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2    
    
    if t % 250 == 0:
        print(" {0:4}  loss {1:6f}  w1[0][0]: {2:8f} w1[0][0]: {3:8f}".format(
                t,loss, w1[0][0], w2[0][0]))
print(int(time()-t0), 'sec')

    0  loss 25133330.768107  w1[0][0]: -0.421055 w1[0][0]: 1.084256
  250  loss 0.139304  w1[0][0]: -0.444530 w1[0][0]: 0.455891
  500  loss 0.000053  w1[0][0]: -0.444532 w1[0][0]: 0.455908
  750  loss 0.000009  w1[0][0]: -0.444532 w1[0][0]: 0.455909
 1000  loss 0.000004  w1[0][0]: -0.444532 w1[0][0]: 0.455909
 1250  loss 0.000003  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 1500  loss 0.000002  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 1750  loss 0.000002  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 2000  loss 0.000001  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 2250  loss 0.000001  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 2500  loss 0.000001  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 2750  loss 0.000001  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 3000  loss 0.000001  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 3250  loss 0.000001  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 3500  loss 0.000000  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 3750  loss 0.000000  w1[0][0]: -0.444532 w1[0][0]: 0.455910
 4000  loss 0.000

### (2) Pytorch Tensor - GPU

In [13]:
import torch
# dtype = torch.FloatTensor
dtype = torch.cuda.FloatTensor # GPU 활용을 위한 객체정의
N, H, D_in , D_out = 64, 100, 1000, 10

In [14]:
# 랜덤함수로 nput, output data 생성하기
x = torch.randn(N, D_in).type(dtype)
y = torch.randn(N, D_out).type(dtype)

In [15]:
# 학습모델의 초기값을 난수함수를 활용
w1 = torch.randn(D_in, H).type(dtype)
w2 = torch.randn(H, D_out).type(dtype)
learning_rate = 1e-6

In [16]:
t0 = time()
# 학습모델 생성하기
for t in range(5001):
    # Forward 모델 실행
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)
    
    # loss 함수 실행
    loss = (y_pred - y).pow(2).sum()
    #print(t, loss)
    
    # backprop 계산
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[ h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # w1, w2 값을 바꿔가며 학습
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2    
    
    if t % 250 == 0:
        print(" {0:4}  loss {1:6f}  w1[0][0]: {2:8f} w1[0][0]: {3:8f}".format(
                t,loss, w1[0][0], w2[0][0]))
print(int(time()-t0), 'sec')

    0  loss 35619076.000000  w1[0][0]: -0.702226 w1[0][0]: -1.751028
  250  loss 0.034436  w1[0][0]: -0.657332 w1[0][0]: -1.514559
  500  loss 0.000021  w1[0][0]: -0.657334 w1[0][0]: -1.514532
  750  loss 0.000005  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 1000  loss 0.000003  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 1250  loss 0.000002  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 1500  loss 0.000001  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 1750  loss 0.000001  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 2000  loss 0.000001  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 2250  loss 0.000001  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 2500  loss 0.000001  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 2750  loss 0.000000  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 3000  loss 0.000000  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 3250  loss 0.000000  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 3500  loss 0.000000  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 3750  loss 0.000000  w1[0][0]: -0.657334 w1[0][0]: -1.514532
 

## 02 Auto Gradient

### (1) Variables 와 autograd
<p>autograd 패키지 사용시 forward pass 는 계산그래프로 저장</p></br>
<p>Node 는 Tensor,  edge 는 입/출력 Tensor를 생성하는 함수가 된다.</p></br>
<p>Pytorch의 Variable은 Pytorch의 Tensor와 동일 API를 갖는다. </p></br>
<p>단 차이는 Variable을 사용하면 계산 그래프를 정한다.</p></br>
<p>위의 2 layer의 Nural Network를 작성해보자 (backward pass 를 따로 매뉴얼로 처리할 필요가 없다)</p></br>

In [17]:
import torch
from torch.autograd import Variable

In [18]:
import torch
from torch.autograd import Variable
# dtype = torch.FloatTensor
dtype = torch.cuda.FloatTensor # GPU 활용을 위한 객체정의
N, H, D_in , D_out = 64, 100, 1000, 10

In [19]:
x = Variable(torch.randn(N, D_in).type(dtype), requires_grad=False)
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad=False)

w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad=True) 
w2 = Variable(torch.randn(H, D_out).type(dtype), requires_grad=True)

learning_rate = 1e-6

In [20]:
for t in range(501):
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    loss = (y_pred - y).pow(2).sum()
    
    loss.backward() # backward pass를 계산하는 함수 - 1줄로 처리 끝!!
    
    w1.data -= learning_rate * w1.grad.data
    w2.data -= learning_rate * w2.grad.data
    
    w1.grad.data.zero_() #weight 갱신 후, gradient를 0으로 초기화
    w2.grad.data.zero_()
    
    if t % 25 == 0:
        print(" {0:4}  loss {1:8f}  ".format(
                t,loss.data[0]))

    0  loss 32834778.000000  
   25  loss 149842.562500  
   50  loss 17918.035156  
   75  loss 3263.335938  
  100  loss 705.739319  
  125  loss 169.641891  
  150  loss 43.786037  
  175  loss 11.928554  
  200  loss 3.377903  
  225  loss 0.984798  
  250  loss 0.293466  
  275  loss 0.089065  
  300  loss 0.027453  
  325  loss 0.008713  
  350  loss 0.002943  
  375  loss 0.001119  
  400  loss 0.000490  
  425  loss 0.000247  
  450  loss 0.000139  
  475  loss 0.000086  
  500  loss 0.000058  


## 03 nn (module)
http://pytorch.org/tutorials/beginner/examples_nn/two_layer_net_nn.html

### (1) Pytorch : nn
<p>대규모 Nural Network에서는 raw_autograd 값이 너무 작은 값을 출력하게 된다.</p></br>
<p>개별 학습시 다양한 고도화 모듈을 쉽게 적용하기 위한 Tensorflow-slim, TFLearn등이 있다</p></br>
<p>Pytorch의 'nn 패키지'는 모듈의 세트를 정의하는데, Nural Network의 Layer와 유사하다</p></br>
<p>nn 모듈은 '입력 Variable' 과 '출력 Variable'을 계산하는 'internal state를 갖는다</p></br>
<p>nn 모듈에서 loss function은 세트로 정의를 한다</p></br>
<p>위의 2 layer의 Nural Network를 'nn 패키지'로 작성해보자

    A fully-connected ReLU network with one hidden layer, 
    trained to predict y from x by minimizing squared Euclidean distance.

In [21]:
import torch
from torch.autograd import Variable

#dtype = torch.cuda.FloatTensor # GPU 활용을 위한 객체정의
N, H, D_in , D_out = 64, 100, 1000, 10

In [28]:
x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad=False)
# x = Variable(torch.randn(N, D_in).type(dtype))
# y = Variable(torch.randn(N, D_out).type(dtype), requires_grad=False)

# 평균제곱오차 (mean squared error between n elements) 로 loss 함수를 정의한다
loss_fn = torch.nn.MSELoss(size_average=False)  # loss_fn = torch.nn.MSELoss(size_average=False).type(dtype)
learning_rate = 1e-4

In [23]:
# w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad=True) 
# w2 = Variable(torch.randn(H, D_out).type(dtype), requires_grad=True)

# torch.nn.Sequential()은 내부에 정의된 모듈들을 시퀀스로 적용한다
# 각각의 선형 모듈은 선형함수로 입출력을 계산하며, 내부 Variable 에 weight와 bias를 값을 저장한다
model = torch.nn.Sequential(
          torch.nn.Linear(D_in, H),     # 입력 Edge
          torch.nn.ReLU(),              # Hidden Edge
          torch.nn.Linear(H, D_out),)   # 출력 Edge

In [24]:
for t in range(501):
    y_pred = model(x)
    loss = loss_fn(y_pred, y)
    
    model.zero_grad() # backward pass를 계산하기 전에 gradient를 초기화 한다 
    loss.backward()   # y 의 requires_grad=True를 설정하면 개별 파라미터의 계산 과정들이 저장된다 (용량과 메모리 압박이 문제)
    
    if t % 25 == 0:
        print(" {0:4}  loss {1:8f}  ".format(
                t,loss.data[0]))
    for param in model.parameters():
        param.data -= learning_rate * param.grad.data

    0  loss 644.098145  
   25  loss 150.609634  
   50  loss 30.325203  
   75  loss 7.045473  
  100  loss 2.007695  
  125  loss 0.682817  
  150  loss 0.266137  
  175  loss 0.113361  
  200  loss 0.051243  
  225  loss 0.024188  
  250  loss 0.011997  
  275  loss 0.006231  
  300  loss 0.003360  
  325  loss 0.001870  
  350  loss 0.001069  
  375  loss 0.000624  
  400  loss 0.000371  
  425  loss 0.000223  
  450  loss 0.000136  
  475  loss 0.000083  
  500  loss 0.000051  


### (2) Pytorch : optim
<p>지금까지 파라미터의 Variable의 .data 맴버들을 수작업으로 계산을 하며 weight를 업데이트 했다</p></br>
<p>단순 모델이 아닌 AdaGrad, PMSProp, Adam과 같은 복잡한 optimizer에는 비효율적이다.</p></br>
<p>Pytorch의 'optim 패키지'를 통해서 Adam 알고리즘을 이용하여 모델을 최적화 해보자

In [25]:
import torch
from torch.autograd import Variable
N, H, D_in , D_out = 64, 100, 1000, 10

x = Variable(torch.randn(N, D_in))
y = Variable(torch.randn(N, D_out), requires_grad=False)

loss_fn = torch.nn.MSELoss(size_average=False)
learning_rate = 1e-4

model = torch.nn.Sequential(
          torch.nn.Linear(D_in, H),     # 입력 Edge
          torch.nn.ReLU(),              # Hidden Edge
          torch.nn.Linear(H, D_out),)   # 출력 Edge

In [26]:
# optim 패키지에는 여러 최적화 알고리즘이 포함되어 있다 (이를 통해서 weight를 업데이트 한다)
# Adam 알고리즘을 사용하고, 첫 argument는 Variable의 최초 작동을 명령한다.
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

In [27]:
for t in range(500):
    y_pred = model(x)
    loss = loss_fn(y_pred, y)
    # backward pass를 계산하기 전 위에서는 모델 전체를 초기화 했지만 cf) model.zero_grad(),
    # 여기는 optimizer 만 초기화 한다
    optimizer.zero_grad()  
    loss.backward()
    optimizer.step()  # 파라미터를 업데이트 하는 optimizer 의 step function을 호출한다
    if t % 25 == 0:
        print(" {0:4}  loss {1:9f}  ".format(
                t,loss.data[0]))

    0  loss 735.333313  
   25  loss 412.624908  
   50  loss 243.404099  
   75  loss 136.422836  
  100  loss 68.768234  
  125  loss 30.495417  
  150  loss 11.748485  
  175  loss  4.069880  
  200  loss  1.327747  
  225  loss  0.428611  
  250  loss  0.139654  
  275  loss  0.045835  
  300  loss  0.015115  
  325  loss  0.004961  
  350  loss  0.001596  
  375  loss  0.000499  
  400  loss  0.000151  
  425  loss  0.000044  
  450  loss  0.000012  
  475  loss  0.000003  
