In [2]:
import numpy as np

def function(w1, w2):
    # Hàm cần tối ưu hóa (thay thế bằng hàm thực tế của bạn)
    return w1**2 + w2**2

def df_w(w1, w2):
    # Đạo hàm của hàm trên theo w1 và w2
    dw1 = 2 * w1
    dw2 = 2 * w2
    return np.array([dw1, dw2])

def adam(grad, m, v, t, alpha, beta1, beta2, epsilon):
    """
    Hàm Adam Optimizer
    grad: Gradient tại bước hiện tại
    m: Biến trung bình bậc 1 (1st moment)
    v: Biến trung bình bậc 2 (2nd moment)
    t: Timestep
    alpha: Learning rate
    beta1: Hệ số decay cho m
    beta2: Hệ số decay cho v
    epsilon: Giá trị nhỏ để tránh chia cho 0
    """
    t += 1
    m = beta1 * m + (1 - beta1) * grad  # Cập nhật m
    v = beta2 * v + (1 - beta2) * grad**2  # Cập nhật v
    m_hat = m / (1 - beta1**t)  # Bias-corrected m
    v_hat = v / (1 - beta2**t)  # Bias-corrected v
    W = -alpha * m_hat / (np.sqrt(v_hat) + epsilon)  # Cập nhật tham số
    return W, m, v, t

def train_adam(learning_rate, beta1, beta2, epsilon, epochs, init_w1, init_w2):
    results = []  # Để lưu các điểm trong quá trình tối ưu
    w1, w2 = init_w1, init_w2
    m = np.array([0.0, 0.0])  # Biến trung bình bậc 1 khởi tạo ban đầu
    v = np.array([0.0, 0.0])  # Biến trung bình bậc 2 khởi tạo ban đầu
    t = 0  # Thời gian (timestep)

    for epoch in range(epochs):
        # Tính gradient
        grad = df_w(w1, w2)
        # Cập nhật Adam
        delta_W, m, v, t = adam(grad, m, v, t, learning_rate, beta1, beta2, epsilon)
        w1 += delta_W[0]
        w2 += delta_W[1]
        results.append([w1, w2])  # Lưu kết quả sau mỗi epoch

    return results

# Tham số đầu vào
learning_rate = 0.001
beta1 = 0.9
beta2 = 0.999
epsilon = 1e-8
epochs = 30
init_w1, init_w2 = -5, -2

# Thực thi bài toán
results = train_adam(learning_rate, beta1, beta2, epsilon, epochs, init_w1, init_w2)

# In kết quả
for i, (w1, w2) in enumerate(results):
    print(f"Epoch {i+1}: w1 = {w1:.6f}, w2 = {w2:.6f}")


Epoch 1: w1 = -4.999000, w2 = -1.999000
Epoch 2: w1 = -4.998000, w2 = -1.998000
Epoch 3: w1 = -4.997000, w2 = -1.997000
Epoch 4: w1 = -4.996000, w2 = -1.996000
Epoch 5: w1 = -4.995000, w2 = -1.995000
Epoch 6: w1 = -4.994000, w2 = -1.994000
Epoch 7: w1 = -4.993000, w2 = -1.993001
Epoch 8: w1 = -4.992000, w2 = -1.992001
Epoch 9: w1 = -4.991000, w2 = -1.991001
Epoch 10: w1 = -4.990001, w2 = -1.990002
Epoch 11: w1 = -4.989001, w2 = -1.989002
Epoch 12: w1 = -4.988001, w2 = -1.988003
Epoch 13: w1 = -4.987001, w2 = -1.987003
Epoch 14: w1 = -4.986002, w2 = -1.986004
Epoch 15: w1 = -4.985002, w2 = -1.985005
Epoch 16: w1 = -4.984003, w2 = -1.984006
Epoch 17: w1 = -4.983003, w2 = -1.983007
Epoch 18: w1 = -4.982004, w2 = -1.982009
Epoch 19: w1 = -4.981004, w2 = -1.981010
Epoch 20: w1 = -4.980005, w2 = -1.980012
Epoch 21: w1 = -4.979005, w2 = -1.979014
Epoch 22: w1 = -4.978006, w2 = -1.978016
Epoch 23: w1 = -4.977007, w2 = -1.977018
Epoch 24: w1 = -4.976008, w2 = -1.976020
Epoch 25: w1 = -4.975009,