## 예제로 배우는 파이토치(Pytorch)

### 특징

- Numpy와 유사하지만 GPU 상에서 실행 가능한 N차원 Tensor
- 신경망을 구성하고 학습하는 과정에서의 자동 미분

## Pytorch Network Training

### Input

1. Independent variable realization
2. Initial values of all weights 
3. Forward function (network)  
4. Dependent variable realization
5. Loss function


### Output

1. Updated all weights 

### Process
For $i$ = 1:  
1. Calculate Forward values using Initial values(2), Forward function(3) and Independent variable realization(1) 
2. Calculate Loss values using Forward values, Loss function(5) and Dependent variable realization(4) 
3. Calculate Gradient
4. Update all weights


## Calculate Gradient



### 1) Data Matrix

<br>

$$ X = \begin{bmatrix} x_{11} &...& x_{1p} \\ & \vdots & \\ x
_{n1}&  ... & x_{np}  \end{bmatrix}  $ : $n \times p$$

<br>
$$ Y = \begin{bmatrix} y_{11} &...& y_{1k} \\ & \vdots & \\ y
_{n1}&  ... & y_{nk}  \end{bmatrix}  $ : $n \times k$$
<br>

$$where,$$
<br>

$$y_{ij} \in \{ 0,1 \}$$

$$and$$ 
$$\sum_{j=1}^k y_{ij} = 1$$

<br>

$$ W_1 = \begin{bmatrix} w_{111} & w_{112} &...& w_{11h} \\ & & \vdots & \\ w
_{1p1}& w_{1p2} & ... & w_{1ph}  \end{bmatrix} : p \times h$$


<br>

$$ W_2 = \begin{bmatrix} w_{211} & w_{212} &...& w_{21k} \\& & \vdots & \\ w_{2h1}& w_{2h2} & ... & w_{2hk}  \end{bmatrix}  : h \times k$$


<br>


### 2) Feed Forward

<br>

$$ H = X \cdot W_1$ : $n \times h$$

$$ H_{relu} = ReLU(H) $ : $n \times h$$

$$ Y_{pred} = H_{relu} \cdot W_2 $ : $n \times k$$


<br>



### 3) Back Propagation

<br>

$$ l(W_1, W_2) =  Tr[(Y_{pred} - Y )^T (Y_{pred} - Y)] = \sum_{i=1}^{n} \sum_{j=1}^{k} (y_{ij}^{pred} -y_{ij} )^2    : Scalar $$

</center>

<br>

<br>

$$W_{2}^{(t)} = W_{2}^{(t-1)} - \eta {\partial l(W_1, W_2) \over \partial W_{2} }$$ 

<br>

- grad_w2

$${\partial l(W_1, W_2) \over \partial W_{2} } =  \begin{bmatrix} {\partial l(W_1, W_2) \over \partial w_{211} } & {\partial l(W_1, W_2) \over \partial w_{212} } &...&   {\partial l(W_1, W_2) \over \partial w_{21k} } \\& & \vdots & \\ {\partial l(W_1, W_2) \over \partial w_{2h1} }& {\partial l(W_1, W_2) \over \partial w_{2h2} } & ... &  {\partial l(W_1, W_2) \over \partial w_{2hk} }  \end{bmatrix}  :h \times k $$


<br>

#### [Chain Rule]

$${\partial l(W_1, W_2) \over \partial w_{2im} } =  {\partial l(W_1, W_2) \over \partial y_{im}^{pred}} \cdot {\partial y_{im}^{pred} \over \partial w_{2im}}  $$

<br>

$${\partial y_{im}^{pred} \over \partial w_{2jm}} = h_{ij}^{relu} ,  \forall m \in \{1, ..., k\}$$

<br>

- grad_y_pred(usually calcuated by using a numerical differentiation)

$$  2(Y_{pred} - Y) 
= \begin{bmatrix} 2(y_{11}^{pred} - y_{11}) & 2(y_{12}^{pred} - y_{12}) &...&   2(y_{1k}^{pred} - y_{1k}) \\& & \vdots & \\ 2(y_{n1}^{pred} - y_{n1}) & 2(y_{n2}^{pred} - y_{n2}) & ... & 2(y_{nk}^{pred} - y_{nk}) \end{bmatrix}
= \begin{bmatrix} {\partial l(W_1, W_2) \over \partial y_{11}^{pred} } & {\partial l(W_1, W_2) \over \partial y_{12}^{pred} } &...&   {\partial l(W_1, W_2) \over \partial y_{1k}^{pred} } \\& & \vdots & \\ {\partial l(W_1, W_2) \over  \partial y_{n1}^{pred} }& {\partial l(W_1, W_2) \over \partial y_{n2}^{pred}} & ... &  {\partial l(W_1, W_2) \over \partial y_{nk}^{pred} }  \end{bmatrix} : n \times  k$$


<br>

- h_relu

$$ H_{relu} 
= \begin{bmatrix} h_{11}^{relu} & h_{12}^{relu} &...&   h_{1h}^{relu} \\& & \vdots & \\ h_{n1}^{relu} & h_{n2}^{relu} &...&   h_{nh}^{relu} \end{bmatrix}: n \times h
$$

<br>

$\Rightarrow$ we can obtain grad_w2 by h_relu.T.dot(grad_y_pred) in below python code.



<br>
<br>

$$W_{1}^{(t)} = W_{1}^{(t-1)} + \eta {\partial l(W_1, W_2) \over \partial W_{1} }$$

$${\partial l(W_1, W_2) \over \partial W_1} =  [{\partial H \over \partial W_1}]^T \cdot  { H_{relu} \over \partial H} ( {\partial l(W_1, W_2) \over \partial Y_{pred}} \cdot [{\partial Y_{pred}  \over \partial H_{relu}}]^T ) = [{\partial H \over \partial W_1}]^T \cdot  { H_{relu} \over \partial H} = [{\partial H \over \partial W_1}]^T \cdot grad_h
  $$


$\Rightarrow$ We only define the grad_h_relu as backword function in activation class.

# Numpy

In [None]:
import numpy as np

# N은 배치 크기이며, D_in은 입력의 차원입니다.
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.

N, D_in, H, D_out = 64,1000,100,10

# 무작위의 입력과 출력 데이터를 생성합니다

x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 무작위로 가중치를 초기화합니다.

w1 = np.random.randn(D_in , H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6

for t in range(500):
  # 순전파 단계 : 예측값 y를 계산합니다.
  h = x.dot(w1) # N * H
  h_relu = np.maximum(h,0) # N*H
  y_pred = h_relu.dot(w2) # N*D_out

  # 손실(loss)을 계산하고 출력합니다.
  loss = np.square(y_pred - y).sum() # N * D_out
  if t % 100 == 99:
    print(t, loss)

  # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
  grad_y_pred = 2.0 * (y_pred - y)  # N * D_out
  grad_w2 = h_relu.T.dot(grad_y_pred) # H * D_out
  grad_h_relu = grad_y_pred.dot(w2.T) # N * H
  grad_h = grad_h_relu.copy() # N * H
  grad_h[h < 0] = 0
  grad_w1 = x.T.dot(grad_h) # D_in * H

  # 가중치를 갱신합니다.
  w1 -= learning_rate * grad_w1
  w2 -= learning_rate * grad_w2

99 433.71103070297227
199 3.1559642286243528
299 0.033146207348907226
399 0.00038765745433218225
499 4.774241528752624e-06


# PyTorch: Tensors

In [None]:
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요.

# N은 배치 크기이며, D_in은 입력의 차원입니다;
# H는 은닉층의 차원이며, D_out은 출력 차원입니다.
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터를 생성합니다.
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 무작위로 가중치를 초기화합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 손실(loss)을 계산하고 출력합니다.
    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)

    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 경사하강법(gradient descent)를 사용하여 가중치를 갱신합니다.
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

99 613.2025146484375
199 6.058787822723389
299 0.10109394788742065
399 0.0023142341524362564
499 0.000183345444384031


## Autograd

## Pytorch Network Training

### Input

1. Independent variable realization
2. Initial values of all weights 
3. Forward function (network)  
4. Dependent variable realization
5. Loss function


### Output

1. Updated all weights 

### Process
For $i$ = 1:  
1. Calculate Forward values using Initial values(2), Forward function(3) and Independent variable realization(1) 
2. Calculate Loss values using Forward values, Loss function(5) and Dependent variable realization(4) 
3. Calculate Gradient
4. Update all weights

End


In [None]:
import torch

dtype = torch.float
device = torch.device("cpu")

N,D_in,H,D_out = 64,1000, 100, 10

x = torch.randn(N,D_in, device= device, dtype = dtype) # requires_grad = False (default): don't calculate gradient
y = torch.randn(N,D_out, device = device, dtype=dtype) # requires_grad = False (default) 

w1 = torch.randn(D_in,H, device=device, dtype=dtype, requires_grad = True) # requires_grad = True: calculate gradient
w2 = torch.randn(H,D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # forward
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # loss
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t,loss.item())

    # backward
    loss.backward()

    # Manually weight update
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # After updating gradient, we have to make gradient zero.
        w1.grad.zero_()
        w2.grad.zero_()

99 327.573974609375
199 1.3231446743011475
299 0.008650809526443481
399 0.00019808311481028795
499 3.4747117751976475e-05


# Pytorch: 새 autograd 함수 정의하기
내부적으로, autograd의 기본 연산자는 실제로 Tensor를 조작하는 2개의 함수이다. `forward` 함수는 입력 Tensor로부터 출력 Tensor를 계산합니다.
`backward` 함수는 어떤 스칼라 값에 대한 출력 Tensor의 변화도를 전달받고, 동일한 스칼라 값에 대한 입력 Tensor의 변화도를 계산합니다.

In [None]:
import torch

# Define Activation Function
class MyReLU(torch.autograd.Function):

  @staticmethod # decorator 
  def forward(ctx, input):
    '''
    순전파 단계에서는 입력을 갖는 Tensor를 받아 출력을 갖는 Tensor를 반환합니다.
    ctx는 컨텍스트 객체(context object)로 역전파 연산을 위한 정보 저장에
    사용합니다. ctx.save_for_backward method를 사용하여 역전파 단계에서 사용할 어떠한
    객체도 저장(cache)해 둘 수 있습니다.
    '''
    ctx.save_for_backward(input)
    return input.clamp(min=0)
  
  @staticmethod
  def backward(ctx, grad_output):
    '''
    역전파 단계에서는 출력에 대한 손실의 변화도를 갖는 Tensor를 받고, 입력에 대한 손실의 변화도를 계산합니다.
    '''
    input, = ctx.saved_tensors
    grad_input = grad_output.clone()
    grad_input[input<0] =0 # grad_h
    return grad_input
  
dtype = torch.float
device = torch.device("cpu")

# N은 배치 크기이며, D_in은 입력의 차원입니다.
# H는 은닉층의 차원이며, D_out 출력 차원입니다.

N, D_in, H, D_out = 64,1000,100,10

# 입력과 출력을 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
x= torch.randn(N,D_in, device= device, dtype=dtype)
y= torch.randn(N,D_out, device = device, dtype=dtype)

# 가중치를 저장하기 위해 무작위 값을 갖는 Tensor를 생성합니다.
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H,D_out, device=device, dtype=dtype,requires_grad=True)
# 가중치만 밖에 나가 있으면 됨?

learning_rate = 1e-6
for t in range(500):
  # 사용자 정의 Function을 적용하기 위해 Function.apply 메소드를 사용합니다.
  relu = MyReLU.apply

  # 순전파 단계 : Tensor 연산을 사용하여 예상되는 y 값을 계산합니다;
  # 사용자 정의 autograd 연산을 사용하여 Relu 를 계산합니다.
  y_pred = relu(x.mm(w1)).mm(w2)

  # 손실을 계산하고 출력합니다.
  loss = (y_pred - y).pow(2).sum()
  if t % 100 ==99:
    print(t ,loss)

  # autograd를 사용하여 역전파 단계를 계산합니다.
  loss.backward()

  # 경사 하강법(gradient descent)을 사용하여 가중치를 갱신합니다.
  with torch.no_grad():
    w1 -= learning_rate * w1.grad
    w2 -= learning_rate * w2.grad

    # 가중치 갱신 후에는 수동으로 변화도를 0으로 만듭니다.
    w1.grad.zero_()
    w2.grad.zero_()