# **Gradient Descent + Momentum**

## Problem

$$f(w_1, w_2) = 0.1w_1^2 + 2w_2^2 \;\;\;\;\;\;\;(1)$$

In [1]:
import numpy as np

### Momentum

In [2]:
def df_w(w):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    dW = np.array([0.2*w[0], 4*w[1]], dtype=np.float32)
    return dW

In [3]:
def sgd_momentum(W, dW, lr, V, beta):
    """
    Thực hiện thuật tóan Gradient Descent + Momentum để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    beta -- float: hệ số long-range average
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    """

    V = beta * V + (1 - beta) * dW
    W = W - lr * V
    return W, V

In [6]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    beta = 0.5
    results = [W]
    for epoch in range(epochs):
        dW = df_w(W)
        W, V = optimizer(W, dW, lr, V, beta)
        results.append(W)
    return results

In [7]:
train_p1(sgd_momentum, lr=0.6, epochs=30)

[array([-5., -2.], dtype=float32),
 array([-4.7      ,  0.4000001], dtype=float32),
 array([-4.2679996,  1.12     ], dtype=float32),
 array([-3.7959197 ,  0.13599992], dtype=float32),
 array([-3.3321245, -0.5192   ], dtype=float32),
 array([-2.9002995 , -0.22375995], dtype=float32),
 array([-2.510369  ,  0.19247207], dtype=float32),
 array([-2.1647816 ,  0.16962159], dtype=float32),
 array([-1.862101  , -0.04534957], dtype=float32),
 array([-1.5990345 , -0.09841566], dtype=float32),
 array([-1.3715593 , -0.00684991], dtype=float32),
 array([-1.175528  ,  0.04715286], dtype=float32),
 array([-1.0069808 ,  0.01757081], dtype=float32),
 array([-0.8622883 , -0.01830519], dtype=float32),
 array([-0.7382048 , -0.01427696], dtype=float32),
 array([-0.63187075,  0.0048695 ], dtype=float32),
 array([-0.54079145,  0.00859933], dtype=float32),
 array([-4.6280432e-01,  1.4504697e-04], dtype=float32),
 array([-0.3960425 , -0.00425615], dtype=float32),
 array([-0.33889902, -0.00134937], dtype=float3