In [None]:

import numpy as np

def adam(params, grads, lr=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8, t=1,
         m=None, v=None):
    """
    实现 Adam 优化算法

    参数:
    - params: 模型的参数, 表示为一个 numpy 数组
    - grads: 参数对应的梯度, 表示为一个 numpy 数组
    - lr: 学习率
    - beta1: 一阶矩估计的指数衰减率
    - beta2: 二阶矩估计的指数衰减率
    - epsilon: 为防止除零错误而添加的小常数
    - t: 当前的时间步/迭代步
    - m: 第一矩估计, 初始为 0, 形状与 params 相同
    - v: 第二矩估计, 初始为 0, 形状与 params 相同

    返回:
    - 更新后的参数 params 和 一阶/二阶矩估计 m, v
    """
    # 初始化一阶和二阶矩估计
    if m is None:
        m = np.zeros_like(params)
    if v is None:
        v = np.zeros_like(params)

    # 更新一阶矩估计
    m = beta1 * m + (1 - beta1) * grads
    # 更新二阶矩估计
    v = beta2 * v + (1 - beta2) * (grads ** 2)

    # 计算纠正偏差的一阶和二阶矩估计
    m_hat = m / (1 - beta1 ** t)
    v_hat = v / (1 - beta2 ** t)

    # 更新参数
    params -= lr * m_hat / (np.sqrt(v_hat) + epsilon)

    # 返回更新后的参数和矩估计
    return params, m, v, t + 1

# 示例

# 假设我们有一个参数向量的初始值和它的梯度
params = np.array([0.5, 1.0, -0.3])
grads = np.array([0.1, -0.2, 0.3])

# 初始化一阶和二阶矩估计
m = np.zeros_like(params)
v = np.zeros_like(params)

# 设置 Adam 的其他超参数
lr = 0.001
beta1 = 0.9
beta2 = 0.999
epsilon = 1e-8
t = 1

# 更新参数5次
for _ in range(5):
    params, m, v, t = adam(params, grads, lr, beta1, beta2, epsilon, t, m, v)

    print("更新后的参数:", params)
    print("更新后的一阶矩估计:", m)
    print("更新后的二阶矩估计:", v)
    print("更新后的时间步:", t)