# Gradient Descent

In [25]:
import numpy as np
def df_w(W):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    ################## YOUR CODE HERE ##################

    dW = np.array([0.2 * W[0], 4 * W[1]])

    #####################################################

    return dW

def sgd(W, dW, lr):
    """
    Thực hiện thuật toán Gradient Descent để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    """
    ################## YOUR CODE HERE ##################

    W = W - lr * dW

    #####################################################

    return W

def train_pl(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epoch -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial point
    W = np.array([-5, -2], dtype=np.float32)
    # list of results
    results = [W]
    ################## YOUR CODE HERE ##################
    # Tạo vòng lặp theo số lần epochs
    for epoch in range(epochs):
        # tìm gradient dW gồm dw1 và dw2
        dW = df_w(W)
        # dùng thuật toán optimization cập nhật w1 và w2
        W = optimizer(W, dW, lr)
        # append cặp [w1, w2] vào list results
        results.append(W)
    #####################################################

    return results

print(train_pl(sgd, 0.4, 2))
print(train_pl(sgd, 0.4, 30))


[array([-5., -2.], dtype=float32), array([-4.6,  1.2]), array([-4.232, -0.72 ])]
[array([-5., -2.], dtype=float32), array([-4.6,  1.2]), array([-4.232, -0.72 ]), array([-3.89344,  0.432  ]), array([-3.5819648, -0.2592   ]), array([-3.29540762,  0.15552   ]), array([-3.03177501, -0.093312  ]), array([-2.78923301,  0.0559872 ]), array([-2.56609437, -0.03359232]), array([-2.36080682,  0.02015539]), array([-2.17194227, -0.01209324]), array([-1.99818689,  0.00725594]), array([-1.83833194, -0.00435356]), array([-1.69126538,  0.00261214]), array([-1.55596415, -0.00156728]), array([-1.43148702e+00,  9.40369969e-04]), array([-1.31696806e+00, -5.64221981e-04]), array([-1.21161061e+00,  3.38533189e-04]), array([-1.11468176e+00, -2.03119913e-04]), array([-1.02550722e+00,  1.21871948e-04]), array([-9.43466646e-01, -7.31231688e-05]), array([-8.67989314e-01,  4.38739013e-05]), array([-7.98550169e-01, -2.63243408e-05]), array([-7.34666155e-01,  1.57946045e-05]), array([-6.75892863e-01, -9.47676268e-06

# Gradient Momentum

In [28]:
def sgd_momentum(df_w,v_prev, dr = 0.5):
  v_new = dr * v_prev + (1-dr) * df_w
  return v_new
def train_ph(optimizer,v_prev, lr, epochs):
  W = np.array([-5, -2], dtype=np.float32)
  for epoch in range(epochs):
    v_prev = sgd_momentum(df_w(W),v_prev)
    W = W - lr * v_prev
  return W
print(train_ph(sgd_momentum,np.array([0,0]),0.6,2))
print(train_ph(sgd_momentum,np.array([0,0]),0.6,30))


[-4.268  1.12 ]
[-6.10072592e-02  6.45162933e-05]


# RMSProp

In [30]:
def sgd_RMSProp(df_w,S, r = 0.9):
  S_new = r * S + (1-r) * ((df_w)**2)
  return S_new
def train_pk(optimizer,S, lr, epochs,epsilon= 10**(-6)):
  W = np.array([-5, -2], dtype=np.float32)
  for epoch in range(epochs):
    S = sgd_RMSProp(df_w(W),S)
    W = W - lr * df_w(W)/np.sqrt(S+epsilon)
  return W
print(train_pk(sgd_RMSProp,np.array([0,0]),0.3,2))
print(train_pk(sgd_RMSProp,np.array([0,0]),0.3,30))


[-3.43519754 -0.59152343]
[-3.00577081e-03 -3.00506084e-17]


# Adam

In [31]:
def sgd_adam(df_w,S,v_prev,dr = 0.9,r=0.99):
  S_new = r * S + (1-r) * ((df_w)**2)
  v_new = dr * v_prev + (1-dr) * df_w
  return S_new,v_new
def train_pa(optimizer, S, v_prev, lr, dr, r, epochs, epsilon):
  W = np.array([-5, -2], dtype=np.float32)
  for epoch in range(1,epochs+1):
    S,v_prev = optimizer(df_w(W),S,v_prev,dr,r)
    v_t = v_prev/(1 - dr**epoch)
    S_t = S/(1 - r**epoch)
    W = W - lr * v_t/np.sqrt(S_t) + epsilon
  return W
print(train_pa(sgd_adam,np.array([0,0]),np.array([0,0]),0.2,0.9,0.999,2,10**(-6)))
print(train_pa(sgd_adam,np.array([0,0]),np.array([0,0]),0.2,0.9,0.999,30,10**(-6)))

[-4.60025238 -1.60082246]
[-0.11383994  0.06793695]
