$$f(w_1, w_2) = 0.1w_1^2 + 2w_2^2 \;\;\;\;\;\;\;(1)$$
$$V_t = \beta_1 V_{t-1} + (1-\beta_1)dW_t$$
$$S_t = \beta_2 S_{t-1} + (1-\beta_2)dW_t^2$$
$$V_{corr} = \frac{V_t}{1-\beta_1^t}$$
$$S_{corr} = \frac{S_t}{1-\beta_2^t}$$
$$W_t = W_t - \frac{\alpha}{\sqrt{S_{corr} + \epsilon}}*V_{corr}$$

In [51]:
import numpy as np

## Adam

In [52]:
def df_w(W):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    #################### YOUR CODE HERE ####################

    dw1 = 2*0.1*W[0]
    dw2 = 2*2*W[1]

    dW = np.array([dw1, dw2])
    ########################################################

    return dW

In [53]:
def Adam(W, dW, lr, V, S, beta1, beta2, t):
    """
    Thực hiện thuật tóan Adam để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients
    beta1 -- float: hệ số long-range average cho V
    beta2 -- float: hệ số long-range average cho S
    t -- int: lần thứ t update (bắt đầu bằng 1)
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients sau khi đã cập nhật
    """
    epsilon = 1e-6
    #################### YOUR CODE HERE ####################
    V = beta1*V + (1-beta1)*dW
    S = beta2*S + (1-beta2)*(dW**2)
    V_corr = V/(1-beta1**t)
    S_corr = S/(1-beta2**t)
    W = W - (lr/np.sqrt(S_corr+epsilon)) * V_corr
    ########################################################
    return W, V, S

In [55]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    S = np.array([0, 0], dtype=np.float32)
    t = 1
    results = [W]
    #################### YOUR CODE HERE ####################
    # Tạo vòng lặp theo số lần epochs
    # tìm gradient dW gồm dw1 và dw2
    # dùng thuật toán optimization cập nhật w1, w2, s1, s2, v1, v2
    # append cặp [w1, w2] vào list results
    # các bạn lưu ý mỗi lần lặp nhớ lấy t (lần thứ t lặp) và t bất đầu bằng 1
    for epoch in range(epochs):
        dW = df_w(W)
        W, V, S = optimizer(W, dW, lr, V, S, 0.9, 0.999, t)
        print(f"Epoch {t}: V = {V}, S = {S}")
        t += 1
        results.append(W)

    ########################################################
    return results

In [56]:
result = train_p1(Adam, lr=0.2, epochs=30)
result

Epoch 1: V = [-0.1 -0.8], S = [0.001 0.064]
Epoch 2: V = [-0.186 -1.44 ], S = [0.0019206 0.115776 ]
Epoch 3: V = [-0.25940509 -1.93632978], S = [0.00276517 0.15666245]
Epoch 4: V = [-0.32148355 -2.30396582], S = [0.00353714 0.18800808]
Epoch 5: V = [-0.37338074 -2.55672049], S = [0.00423997 0.21116358]
Epoch 6: V = [-0.41613166 -2.70741937], S = [0.00487715 0.22746615]
Epoch 7: V = [-0.45067221 -2.7680666 ], S = [0.00545222 0.23822056]
Epoch 8: V = [-0.47784932 -2.74999651], S = [0.00596869 0.2446768 ]
Epoch 9: V = [-0.4984301  -2.66400784], S = [0.00643011 0.24800464]
Epoch 10: V = [-0.51311002 -2.52047471], S = [0.00684    0.24926628]
Epoch 11: V = [-0.52252032 -2.32942657], S = [0.00720187 0.24938911]
Epoch 12: V = [-0.52723461 -2.10058912], S = [0.00751918 0.2491414 ]
Epoch 13: V = [-0.52777483 -1.8433799 ], S = [0.00779536 0.24911458]
Epoch 14: V = [-0.52461661 -1.56685716], S = [0.00803377 0.24971527]
Epoch 15: V = [-0.51819398 -1.27962787], S = [0.0082377  0.25116971]
Epoch 16: 

[array([-5., -2.], dtype=float32),
 array([-4.8000001, -1.8      ]),
 array([-4.60025458, -1.60082446]),
 array([-4.40094818, -1.40317255]),
 array([-4.20227724, -1.20787812]),
 array([-4.00444983, -1.01592732]),
 array([-3.80768579, -0.82847292]),
 array([-3.61221664, -0.64684142]),
 array([-3.41828545, -0.47252746]),
 array([-3.22614653, -0.30716913]),
 array([-3.03606497, -0.15249832]),
 array([-2.84831603, -0.01026302]),
 array([-2.66318433,  0.11787577]),
 array([-2.48096283,  0.23046186]),
 array([-2.30195156,  0.32635894]),
 array([-2.12645613,  0.40484216]),
 array([-1.95478597,  0.46564981]),
 array([-1.7872523 ,  0.50898816]),
 array([-1.62416583,  0.53549455]),
 array([-1.46583419,  0.54617153]),
 array([-1.31255919,  0.54230818]),
 array([-1.16463376,  0.52540208]),
 array([-1.02233886,  0.49709058]),
 array([-0.88594013,  0.45909505]),
 array([-0.75568468,  0.41317772]),
 array([-0.63179773,  0.36110878]),
 array([-0.51447945,  0.30464032]),
 array([-0.40390206,  0.2454839

In [57]:
def compute(W):
    return 0.1*W[0]**2 + 2*W[1]**2

f = compute(result[30])
f

0.010526831328532561