# Momentum

- 일반적인 Gradient Descent Methods : 𝒘^𝑡=𝒘^(𝑡−1)−𝜂𝒈^𝑡<br>  *𝒈^𝑡:  시간 t에서의 기울기<br>
- Momentum Gradient Descent Methods :<br>
  𝒎^𝑡=𝛾〖 𝒎〗^(𝑡−1)+𝜂𝒈^𝑡<br>
  𝒘^𝑡=𝒘^(𝑡−1)−𝒎^𝑡<br>
  결국, 𝒎^𝑡=𝜂𝒈^𝑡+𝛾 𝜂𝒈^(𝑡−1)+𝛾^2 𝜂𝒈^(𝑡−2)+…<br>
<br>
- Momentum이란 : Update parameters considering both the momentum and the gradient of the current position.
![image.png](https://github.com/tenjumh/GraduateSchool/blob/master/DeepLearning/image/momentum%20update.png?raw=true)
- Momentum의 단점은<br>
 1) miss the position where to stop<br>
 2) Simple addition of momentum may cause excessive update

[Tasks 1]<br>
학습데이터로 (1.0,-0.5,1.0) 하나만 있다. Error function은 MSE이다. 초기의 모든 연결 가중치는 1이다. Activation function이 ReLU이고, Momentum을 이용하여 학습한다. Momentum rate과 learning rate이 각각 1이다. NN의 구조는 아래와 같다. 참고로 학습데이터가 n개 있을 때 MSE의 정의는 E=1/2∑(o_i-t_i )^2 이다. t_i, o_i는 i번째 학습데이터가 주어졌을 때 NN가 출력해야 할 목표값과 NN이 실제로 출력한 값을 의미한다.
![image.png](https://github.com/tenjumh/GraduateSchool/blob/master/DeepLearning/image/momentum%20task.png?raw=true)
1 epoch 후 w1,w3 값을 구하시오. 풀이를 제시하시오.<br>
2 epoch 후 w1,w3 값을 구하시오. 풀이를 제시하시오.<br>


[풀이]<br>

[1 epoch]<br>
<b>(foward)</b><br>
net1 = x1*w1 + x2*w2 + b = 1*1 + (-0.5)*1 = 0.5<br>
h1 = ReLu(net1) = 0.5<br>
net2 = h1*w3 = 0.5<br>
O = ReLu(net2) = 0.5<br>
<b>(backward)</b><br>
dE/dW3 = dE/dO*dO/dnet2*dnet2/dw3 = -(T-O)*(1 or 0)*h1 = -0.25<br>
dE/dw1 = dE/dO*dO/dnet2*dnet2/dh1*dh1/dnet1*dnet1/dw1 = -(T-O)*(1 or 0)*w3*(1 or 0)*x1 = -0.5<br>
dE/dw2 = dE/dO*dO/dnet2*dnet2/dh1*dh1/dnet1*dnet1/dw2 = -(T-O)*(1 or 0)*w3*(1 or 0)*x2 = 0.25<br>
<br>
M3 = rM(=0) + Lr*dE/dw3 = -0.25<br>
w3 = W3 - M3 = 1.25<br>
M1 = rM(=0) + Lr*dE/dw1 = -0.5<br>
W1 = W1 - M1 = 1.5<br>
M2 = rM(=0) + Lr*dE/dw2 = 0.25<br>
w2 = W2 - M2 = 0.75<br>
<br>
[2 epoch]<br>
<b>(foward)</b><br>
net1 = x1*w1 + x2*w2 + b = 1*1.5 + (-0.5)*0.75 = 1.125<br>
h1 = ReLu(net1) = 1.125<br>
net2 = h1*w3 = 1.125*1.25 = 1.406<br>
O = ReLu(net2) = 1.406<br>
<b>(backward)</b><br>
dE/dW3 = dE/dO*dO/dnet2*dnet2/dw3 = -(T-O)*(1 or 0)*h1 = 0.457<br>
dE/dw1 = dE/dO*dO/dnet2*dnet2/dh1*dh1/dnet1*dnet1/dw1 = -(T-O)*(1 or 0)*w3*(1 or 0)*x1 = 0.508<br>
dE/dw2 = dE/dO*dO/dnet2*dnet2/dh1*dh1/dnet1*dnet1/dw2 = -(T-O)*(1 or 0)*w3*(1 or 0)*x2 = -0.254<br>
<br>
M3 = rM(=0) + Lr*dE/dw3 = 0.207<br>
w3 = W3 - M3 = 1.043<br>
M1 = rM(=0) + Lr*dE/dw1 = 0.008<br>
W1 = W1 - M1 = 1.492<br>
M2 = rM(=0) + Lr*dE/dw2 = -0.004<br>
w2 = W2 - M2 = 0.754<br>

In [13]:
import numpy as np
import matplotlib.pyplot as plt

lr = 1 #Learning rate
iteration = 2
Mr = 1 #momentum rate

def ReLu(x):
    return np.maximum(0,x)

X = np.array([[1.0, -0.5]])
Y = np.array([[1.0]])

w1, w2, w3 = 1, 1, 1
w = np.array([[-0.089, 0.098], [0.028, -0.07]])
b = 0

for i in range(iteration):
    net1 = np.dot(X, w) + b
    h1 = ReLu(net1)
    net2 = np.dot(h1, w) + b
    h2 = sigmoid(net2)
    o2 = h2

    dE_db_V = (Y - o2) * o2 * (1 - o2)
    sum_dE_db_V = -np.sum(dE_db_V, axis=0, keepdims=True)
    dE_dV = -h1 * dE_db_V
    sum_dE_dV = np.dot(-h1.T, dE_db_V)
    dE_db_W = np.dot(dE_db_V, V.T) * h1 * (1 - h1)
    sum_dE_db_W = -np.sum(dE_db_W, axis=0, keepdims=True)
    dE_dW = -X * dE_db_W
    sum_dE_dW = -np.dot(X.T, dE_db_W)

    V = V - sum_dE_dV * lr
    b_V = b_V - sum_dE_db_V * lr
    W = W - sum_dE_dW * lr
    b_W = b_W - sum_dE_db_W * lr


1e-11