$\begin{array}{cc}
\text{epoch 1} & \text{epoch 2} \\
df_w = [-1, -8] & df_w =  [-0.96000004, -7.2000001 ] \\
V_1 = [-0.1, -0.8] &  V_2 = [-0.186, -1.44000001] \\
S_1 = [0.001, 0.064] & S_2 = [0.0019206, 0.115776 ] \\
V_{corr} = [-1, -8.] & V_{corr} = [-0.97894739, -7.57894742] \\
S_{corr} = [ 1, 64.] & S_{corr} = [0.96078043, 57.9169592 ] \\
W_t = [-4.8000002  -1.80000002] & W_t = [-4.60025478, -1.60082451]
\end{array}$

## Problem

$$f(w_1, w_2) = 0.1w_1^2 + 2w_2^2 \;\;\;\;\;\;\;(1)$$

In [1]:
import numpy as np

### Adam

In [None]:
def df_w(W):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    theta = np.array([0.1, 2])
    dW = 2 * theta * W

    return dW

In [None]:
def Adam(W, dW, lr, V, S, beta1, beta2, t):
    """
    Thực hiện thuật tóan Adam để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients
    beta1 -- float: hệ số long-range average cho V
    beta2 -- float: hệ số long-range average cho S
    t -- int: lần thứ t update (bắt đầu bằng 1)
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients sau khi đã cập nhật
    """
    epsilon = 1e-6
    #################### YOUR CODE HERE ####################
    V = beta1 * V + (1 - beta1)*dW
    S = beta2 * S + (1 - beta2)*np.square(dW)

    V_corr = V / (1 - beta1**t)
    S_corr = S / (1 - beta2**t)
    W = W - lr * np.divide(V_corr ,(np.sqrt(S_corr) + epsilon))
    ########################################################
    return W, V, S

In [4]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    S = np.array([0, 0], dtype=np.float32)
    results = [W]
    #################### YOUR CODE HERE ####################
    # Tạo vòng lặp theo số lần epochs
    # tìm gradient dW gồm dw1 và dw2
    # dùng thuật toán optimization cập nhật w1, w2, s1, s2, v1, v2
    # append cặp [w1, w2] vào list results
    # các bạn lưu ý mỗi lần lặp nhớ lấy t (lần thứ t lặp) và t bất đầu bằng 1
    for t in range(1, 3):
        dW = df_w(W)
        beta1 = 0.9
        beta2 = 0.999
        W, V, S = optimizer(W, dW, lr, V, S, beta1, beta2, t)
        results.append(W)

    ########################################################
    return results

In [5]:
train_p1(Adam, lr=0.2, epochs=30)

df_w =  [-1. -8.]
V_t = [-0.1 -0.8]
S_t = [0.001 0.064]
V_corr = [-1. -8.]
S_corr = [ 1. 64.]
W_t = [-4.8000002  -1.80000002]
df_w =  [-0.96000004 -7.2000001 ]
V_t = [-0.186      -1.44000001]
S_t = [0.0019206 0.115776 ]
V_corr = [-0.97894739 -7.57894742]
S_corr = [ 0.96078043 57.9169592 ]
W_t = [-4.60025478 -1.60082451]


[array([-5., -2.], dtype=float32),
 array([-4.8000002 , -1.80000002]),
 array([-4.60025478, -1.60082451])]