# 1. Gradient Descent

In [1]:
import numpy as np

In [6]:
def df_w(W):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    dW = np.array((0.2*W[0], 4*W[1]))
    return dW

In [7]:
def sgd(W, dW, lr):
    """
    Thực hiện thuật tóa Gradient Descent để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    """
    W = W - lr*dW
    return W

In [8]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epoch -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """

    # initial point
    W = np.array([-5, -2], dtype=np.float32)
    # list of results
    results = [W]
    for e in range(epochs):
        dW = df_w(W)
        W = optimizer(W, dW, lr)
        results.append(W)
    return results

In [9]:
train_p1(sgd, lr=0.4, epochs=30)

[array([-5., -2.], dtype=float32),
 array([-4.6,  1.2], dtype=float32),
 array([-4.232, -0.72 ], dtype=float32),
 array([-3.8934398 ,  0.43200004], dtype=float32),
 array([-3.5819645 , -0.25920004], dtype=float32),
 array([-3.2954073 ,  0.15552002], dtype=float32),
 array([-3.0317748 , -0.09331201], dtype=float32),
 array([-2.7892327 ,  0.05598721], dtype=float32),
 array([-2.5660942 , -0.03359233], dtype=float32),
 array([-2.3608067,  0.0201554], dtype=float32),
 array([-2.1719422 , -0.01209324], dtype=float32),
 array([-1.9981868 ,  0.00725594], dtype=float32),
 array([-1.8383319 , -0.00435357], dtype=float32),
 array([-1.6912653 ,  0.00261214], dtype=float32),
 array([-1.5559641 , -0.00156728], dtype=float32),
 array([-1.4314870e+00,  9.4037014e-04], dtype=float32),
 array([-1.316968e+00, -5.642221e-04], dtype=float32),
 array([-1.2116106e+00,  3.3853325e-04], dtype=float32),
 array([-1.1146817e+00, -2.0311994e-04], dtype=float32),
 array([-1.0255072e+00,  1.2187197e-04], dtype=floa

# 2. GD + Momentum

In [14]:
def df_w(w):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    dW = np.array((0.2*w[0], 4*w[1]))

    return dW

In [15]:
def sgd_momentum(W, dW, lr, V, beta):
    """
    Thực hiện thuật tóan Gradient Descent + Momentum để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    beta -- float: hệ số long-range average
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    """
    V = beta*V + (1-beta)*dW
    W = W - lr*V
    return W, V

In [16]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    results = [W]
    for e in range(epochs):
        dW = df_w(W)
        W, V = optimizer(W, dW, lr, V, beta=0.5)
        results.append(W)
    return results

In [17]:
train_p1(sgd_momentum, lr=0.6, epochs=30)

[array([-5., -2.], dtype=float32),
 array([-4.7      ,  0.4000001], dtype=float32),
 array([-4.2679996,  1.12     ], dtype=float32),
 array([-3.7959197 ,  0.13599992], dtype=float32),
 array([-3.3321245, -0.5192   ], dtype=float32),
 array([-2.9002993 , -0.22375995], dtype=float32),
 array([-2.5103688 ,  0.19247207], dtype=float32),
 array([-2.1647813 ,  0.16962159], dtype=float32),
 array([-1.8621007 , -0.04534957], dtype=float32),
 array([-1.5990343 , -0.09841566], dtype=float32),
 array([-1.371559  , -0.00684991], dtype=float32),
 array([-1.1755278 ,  0.04715286], dtype=float32),
 array([-1.0069805 ,  0.01757081], dtype=float32),
 array([-0.86228806, -0.01830519], dtype=float32),
 array([-0.73820454, -0.01427696], dtype=float32),
 array([-0.6318705,  0.0048695], dtype=float32),
 array([-0.5407913 ,  0.00859933], dtype=float32),
 array([-4.6280417e-01,  1.4504697e-04], dtype=float32),
 array([-0.39604235, -0.00425615], dtype=float32),
 array([-0.3388989 , -0.00134937], dtype=float32)

# 3. RMSProp

In [18]:
def df_w(w):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    dW = np.array((0.2*w[0], 4*w[1]))
    return dW

In [19]:
def RMSProp(W, dW, lr, S, gamma):
    """
    Thực hiện thuật tóan RMSProp để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients
    gamma -- float: hệ số long-range average
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients sau khi đã cập nhật
    """
    epsilon = 1e-6
    S = gamma*S + (1-gamma)*dW**2
    adapt_lr = lr/np.sqrt(S + epsilon)
    W = W - adapt_lr*dW
    return W, S

In [20]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    S = np.array([0, 0], dtype=np.float32)
    results = [W]
    for e in range(epochs):
        dW = df_w(W)
        W, S = optimizer(W, dW, lr, S, gamma=0.9)
        results.append(W)
    return results

In [21]:
train_p1(RMSProp, lr=0.3, epochs=30)

[array([-5., -2.], dtype=float32),
 array([-4.0513215, -1.0513167], dtype=float32),
 array([-3.4351976 , -0.59152335], dtype=float32),
 array([-2.958937  , -0.32943937], dtype=float32),
 array([-2.5654628 , -0.17756478], dtype=float32),
 array([-2.2292054 , -0.09163253], dtype=float32),
 array([-1.9362674 , -0.04494497], dtype=float32),
 array([-1.6781766 , -0.02081422], dtype=float32),
 array([-1.4493496 , -0.00903558], dtype=float32),
 array([-1.2458818, -0.0036459], dtype=float32),
 array([-1.0649028 , -0.00135351], dtype=float32),
 array([-9.0420204e-01, -4.5644364e-04], dtype=float32),
 array([-7.6199627e-01, -1.3756263e-04], dtype=float32),
 array([-6.3677830e-01, -3.6259997e-05], dtype=float32),
 array([-5.272150e-01, -8.113342e-06], dtype=float32),
 array([-4.3207830e-01, -1.4747266e-06], dtype=float32),
 array([-3.5019833e-01, -2.0278264e-07], dtype=float32),
 array([-2.8043449e-01, -1.8422952e-08], dtype=float32),
 array([-2.2165969e-01, -7.6773077e-10], dtype=float32),
 arra

# 4. Adam

In [22]:
def df_w(w):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    dW = np.array((0.2*w[0], 4*w[1]))

    return dW

In [23]:
def Adam(W, dW, lr, V, S, beta1, beta2, t):
    """
    Thực hiện thuật tóan Adam để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients
    beta1 -- float: hệ số long-range average cho V
    beta2 -- float: hệ số long-range average cho S
    t -- int: lần thứ t update (bắt đầu bằng 1)
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    S -- np.array: [s1, s2] Exponentially weighted averages bình phương gradients sau khi đã cập nhật
    """
    epsilon = 1e-6
    V = beta1*V + (1-beta1)*dW
    S = beta2*S + (1-beta2)*dW**2
    V_coor = V/(1-beta1**t)
    S_coor = S/(1-beta2**t)
    W = W - lr*V_coor/(np.sqrt(S_coor) + epsilon)
    return W, V, S

In [24]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    S = np.array([0, 0], dtype=np.float32)
    results = [W]
    for t, e in enumerate(range(epochs)):
        dW = df_w(W)
        W, V, S = optimizer(W, dW, lr, V, S, beta1=0.9, beta2=0.999, t=t+1)
        results.append(W)
    return results

In [25]:
train_p1(Adam, lr=0.2, epochs=30)

[array([-5., -2.], dtype=float32),
 array([-4.8      , -1.8000001], dtype=float32),
 array([-4.600255 , -1.6008246], dtype=float32),
 array([-4.4009485, -1.4031727], dtype=float32),
 array([-4.2022777, -1.2078784], dtype=float32),
 array([-4.0044503, -1.0159276], dtype=float32),
 array([-3.8076863, -0.8284732], dtype=float32),
 array([-3.6122174 , -0.64684176], dtype=float32),
 array([-3.4182863 , -0.47252786], dtype=float32),
 array([-3.2261477 , -0.30716956], dtype=float32),
 array([-3.0360663 , -0.15249878], dtype=float32),
 array([-2.8483174, -0.0102635], dtype=float32),
 array([-2.6631858 ,  0.11787525], dtype=float32),
 array([-2.4809644 ,  0.23046133], dtype=float32),
 array([-2.3019533,  0.3263584], dtype=float32),
 array([-2.126458  ,  0.40484163], dtype=float32),
 array([-1.9547879,  0.4656493], dtype=float32),
 array([-1.7872543,  0.5089877], dtype=float32),
 array([-1.6241679 ,  0.53549415], dtype=float32),
 array([-1.4658363,  0.5461712], dtype=float32),
 array([-1.3125613