## Problem

$$f(w_1, w_2) = 0.1w_1^2 + 2w_2^2 \;\;\;\;\;\;\;(1)$$

In [1]:
import numpy as np

### Momentum

In [2]:
def df_w(W):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    #################### YOUR CODE HERE ####################

    dW = np.array([0.2 * W[0], 4 * W[1]])

    ########################################################

    return dW

In [3]:
def sgd_momentum(W, dW, lr, V, beta):
    """
    Thực hiện thuật tóan Gradient Descent + Momentum để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    beta -- float: hệ số long-range average
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    """
    #################### YOUR CODE HERE ####################

    V = beta * V + (1 - beta) * dW
    W = W - lr * V

    ########################################################
    return W, V

In [4]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    results = [W]
    #################### YOUR CODE HERE ####################
    # Tạo vòng lặp theo số lần epochs
    # tìm gradient dW gồm dw1 và dw2
    # dùng thuật toán optimization cập nhật w1, w2, v1, v2
    # append cặp [w1, w2] vào list results

    for epoch in range(epochs):
        dW = df_w(W)
        W, V = sgd_momentum(W, dW, lr, W, 0.9)
        results.append(W)

    ########################################################
    return results

In [5]:
train_p1(sgd_momentum, lr=0.6, epochs=30)

[array([-5., -2.], dtype=float32),
 array([-2.24      , -0.44000003]),
 array([-1.00352   , -0.09680001]),
 array([-0.44957696, -0.021296  ]),
 array([-0.20141048, -0.00468512]),
 array([-0.09023189, -0.00103073]),
 array([-0.04042389, -0.00022676]),
 array([-1.81099021e-02, -4.98871610e-05]),
 array([-8.11323614e-03, -1.09751754e-05]),
 array([-3.63472979e-03, -2.41453859e-06]),
 array([-1.62835895e-03, -5.31198490e-07]),
 array([-7.29504808e-04, -1.16863668e-07]),
 array([-3.26818154e-04, -2.57100069e-08]),
 array([-1.46414533e-04, -5.65620153e-09]),
 array([-6.55937107e-05, -1.24436434e-09]),
 array([-2.93859824e-05, -2.73760154e-10]),
 array([-1.31649201e-05, -6.02272338e-11]),
 array([-5.89788421e-06, -1.32499914e-11]),
 array([-2.64225213e-06, -2.91499812e-12]),
 array([-1.18372895e-06, -6.41299586e-13]),
 array([-5.30310571e-07, -1.41085909e-13]),
 array([-2.37579136e-07, -3.10389000e-14]),
 array([-1.06435453e-07, -6.82855799e-15]),
 array([-4.76830829e-08, -1.50228276e-15]),
 