<a href="https://colab.research.google.com/github/nguyenanhtienabcd/AIO2024_EXERCISE/blob/feature%2FMODULE5-WEEK4/m05w04_ex2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Ex2: SGD + Momentum

cho một hàm số Loss ban đầu như dưới đây:
$$f(w_1, w_2) = 0.1w_1^2 + 2w_2^2 \;\;\;\;\;\;\;(1)$$ \\
Giá trị khởi tạo:
$$w1 = -5,\; w2 = -2,\; v1 = 0,\; v2 = 0,\; \alpha = 0.6,\; \beta = 0.5 = -5 $$ \\


**Epoch1**:

- **STEP1**: tính đạo hàm riêng cho hàm số \\
$$
\begin{aligned}
\frac{\partial f}{\partial w_1} & = 2 \cdot 0.1w_1 = 0.2w_1 = -1  \\
\frac{\partial f}{\partial w_2} & = 2 \cdot 2w_2 = 4w_2 = -8
\end{aligned}
$$

- **STEP2**: cập nhật biến số của hàm v \\
$$
\begin{aligned}
v_1^1 &= \beta \cdot v_1 + (1-\beta) \cdot \frac{\partial f}{\partial w_1}  = 0 + 0.5 \cdot (-1) = -0.5  \\
v_2^1&= \beta \cdot v_2 + (1-\beta) \cdot \frac{\partial f}{\partial w_2}  = 0+ 0.5 \cdot (-8) = -4
\end{aligned}
$$

- **STEP3**: cập nhật trọng số w \\
$$
\begin{aligned}
w_1^1 &= w_1 - \alpha \cdot v_1^1  = -5 - 0.6 \cdot (-0.5) = -4.7  \\
w_2^1 &= w_2 - \alpha \cdot v_2^1  = -2 - 0.6 \cdot (-4) = 0.4
\end{aligned}
$$ \\


**Epoch2**:

- **STEP1**: tính đạo hàm riêng cho hàm số \\
$$
\begin{aligned}
\frac{\partial f}{\partial w_1} & = 2 \cdot 0.1w_1 = 0.2w_1^1 = -0.94  \\
\frac{\partial f}{\partial w_2} & = 2 \cdot 2w_2 = 4w_2^1 = 1.6
\end{aligned}
$$

- **STEP2**: cập nhật biến số của hàm v \\
$$
\begin{aligned}
v_1^2 &= \beta \cdot v_1^1 + (1-\beta) \cdot \frac{\partial f}{\partial w_1}  = 0.5 \cdot (-0.5) + 0.5 \cdot (-0.94) = -0.72  \\
v_2^2 &= \beta \cdot v_2^1 + (1-\beta) \cdot \frac{\partial f}{\partial w_2}  = 0.5 \cdot (-4) + 0.5 \cdot 1.6 = -1.2
\end{aligned}
$$

- **STEP3**: cập nhật trọng số w \\
$$
\begin{aligned}
w_1^2 &= w_1^1 - \alpha \cdot v_1^2  = -4.7 - 0.6 \cdot (-0.72) = -4.628  \\
w_2^2 &= w_2^1 - \alpha \cdot v_2^2  = 0.4 - 0.6 \cdot (-1.2) = 1.12
\end{aligned}
$$


In [1]:
import numpy as np

In [2]:
def df_w(W):
    """
    Thực hiện tính gradient của dw1 và dw2
    Arguments:
    W -- np.array [w1, w2]
    Returns:
    dW -- np.array [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    """
    W = np.asarray(W)
    dW = np.array([0.2, 4])*W
    return dW

In [3]:
def sgd_momentum(W, dW, lr, V, beta):
    """
    Thực hiện thuật tóan Gradient Descent + Momentum để update w1 và w2
    Arguments:
    W -- np.array: [w1, w2]
    dW -- np.array: [dw1, dw2], array chứa giá trị đạo hàm theo w1 và w2
    lr -- float: learning rate
    V -- np.array: [v1, v2] Exponentially weighted averages gradients
    beta -- float: hệ số long-range average
    Returns:
    W -- np.array: [w1, w2] w1 và w2 sau khi đã update
    V -- np.array: [v1, v2] Exponentially weighted averages gradients sau khi đã cập nhật
    """
    V = beta*V + (1-beta)*dW
    W = W - lr*V

    return W, V

In [4]:
def train_p1(optimizer, lr, epochs):
    """
    Thực hiện tìm điểm minimum của function (1) dựa vào thuật toán
    được truyền vào từ optimizer
    Arguments:
    optimize : function thực hiện thuật toán optimization cụ thể
    lr -- float: learning rate
    epochs -- int: số lượng lần (epoch) lặp để tìm điểm minimum
    Returns:
    results -- list: list các cặp điểm [w1, w2] sau mỗi epoch (mỗi lần cập nhật)
    """
    # initial
    W = np.array([-5, -2], dtype=np.float32)
    V = np.array([0, 0], dtype=np.float32)
    results = [W]

    for i in range(epochs):
        dW = df_w(W)
        W, V = optimizer(W, dW, lr = 0.6, V = V, beta = 0.5)
        results.append(W)

    return results

In [5]:
train_p1(sgd_momentum, lr = 0.6, epochs = 30)

[array([-5., -2.], dtype=float32),
 array([-4.7,  0.4]),
 array([-4.268,  1.12 ]),
 array([-3.79592,  0.136  ]),
 array([-3.3321248, -0.5192   ]),
 array([-2.90029971, -0.22376   ]),
 array([-2.51036919,  0.192472  ]),
 array([-2.16478177,  0.1696216 ]),
 array([-1.86210116, -0.04534952]),
 array([-1.59903478, -0.09841566]),
 array([-1.37155951, -0.00684994]),
 array([-1.1755283 ,  0.04715285]),
 array([-1.006981  ,  0.01757082]),
 array([-0.86228849, -0.01830518]),
 array([-0.73820492, -0.01427696]),
 array([-0.63187084,  0.0048695 ]),
 array([-0.54079155,  0.00859933]),
 array([-4.62804416e-01,  1.45050014e-04]),
 array([-0.39604258, -0.00425615]),
 array([-0.33889911, -0.00134937]),
 array([-0.28999343,  0.00172326]),
 array([-0.24814098,  0.00119166]),
 array([-0.2123263 , -0.00050413]),
 array([-0.18167938, -0.00074707]),
 array([-1.55455157e-01,  2.79448010e-05]),
 array([-0.13301574,  0.00038192]),
 array([-1.13815082e-01,  1.00603444e-04]),
 array([-0.09738585, -0.00016078]),
 