# **Adam**

## Problem

$$f(w_1, w_2) = 0.1w_1^2 + 2w_2^2 \;\;\;\;\;\;\;(1)$$

In [1]:
import numpy as np

### Adam

In [2]:
def df_w(w):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    dW = np.array([0.2*w[0], 4*w[1]], dtype=np.float32)
    return dW

In [3]:
def Adam(W, dW, lr, V, S, beta1, beta2, t):
    """
    Thực hiện thuật tóan Adam để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients
    beta1 -- float: hệ số long-range average cho V
    beta2 -- float: hệ số long-range average cho S
    t -- int: lần thứ t update (bắt đầu bằng 1)
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients sau khi đã cập nhật
    """
    epsilon = 1e-6
    V = beta1 * V + (1 - beta1) * dW
    S = beta2 * S + (1 - beta2) * dW ** 2
    V_hat = V / (1 - beta1 ** t)
    S_hat = S / (1 - beta2 ** t)
    W = W - lr * V_hat / (np.sqrt(S_hat) + epsilon)
    return W, V, S

In [4]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    S = np.array([0, 0], dtype=np.float32)
    results = [W]
    for epoch in range(epochs):
        dW = df_w(W)
        W, V, S = optimizer(W, dW, lr, V, S, beta1=0.9, beta2=0.999, t=epoch+1)
        results.append(W)
    return results

In [5]:
train_p1(Adam, lr=0.2, epochs=30)

[array([-5., -2.], dtype=float32),
 array([-4.8      , -1.8000001], dtype=float32),
 array([-4.600255 , -1.6008246], dtype=float32),
 array([-4.4009485, -1.4031727], dtype=float32),
 array([-4.2022777, -1.2078784], dtype=float32),
 array([-4.0044503, -1.0159276], dtype=float32),
 array([-3.8076863, -0.8284732], dtype=float32),
 array([-3.6122174 , -0.64684176], dtype=float32),
 array([-3.4182863 , -0.47252786], dtype=float32),
 array([-3.2261474 , -0.30716956], dtype=float32),
 array([-3.036066  , -0.15249878], dtype=float32),
 array([-2.8483171, -0.0102635], dtype=float32),
 array([-2.6631856 ,  0.11787525], dtype=float32),
 array([-2.4809642 ,  0.23046133], dtype=float32),
 array([-2.301953 ,  0.3263584], dtype=float32),
 array([-2.1264577 ,  0.40484163], dtype=float32),
 array([-1.9547876,  0.4656493], dtype=float32),
 array([-1.787254 ,  0.5089877], dtype=float32),
 array([-1.6241676 ,  0.53549415], dtype=float32),
 array([-1.4658359,  0.5461712], dtype=float32),
 array([-1.312561 