# 01. Adam Optimizer

Adam（Adaptive Moment Estimation）は、適応的学習率を持つ最適化アルゴリズムです。

## アルゴリズム

$$
\begin{align*}
m_t &= \beta_1 m_{t-1} + (1 - \beta_1) g_t \\
v_t &= \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \\
\hat{m}_t &= \frac{m_t}{1 - \beta_1^t} \\
\hat{v}_t &= \frac{v_t}{1 - \beta_2^t} \\
\theta_t &= \theta_{t-1} - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t
\end{align*}
$$

ここで:
- $m_t$: 1次モーメント（平均）
- $v_t$: 2次モーメント（分散）
- $\beta_1$: 1次モーメントの減衰率（通常0.9）
- $\beta_2$: 2次モーメントの減衰率（通常0.999）
- $\epsilon$: 数値安定性のための小さな値（通常1e-8）

## 特徴

- Momentumの考え方を取り入れた1次モーメント
- RMSPropの考え方を取り入れた2次モーメント
- バイアス補正により初期段階の推定誤差を修正

In [None]:
import numpy as np
from notebook_setup import test

@test("11_advanced_optimizers.test_01_adam")
def adam_update(
    params: np.ndarray,
    grads: np.ndarray,
    m: np.ndarray,
    v: np.ndarray,
    t: int,
    lr: float = 0.001,
    beta1: float = 0.9,
    beta2: float = 0.999,
    eps: float = 1e-8
) -> tuple[np.ndarray, np.ndarray, np.ndarray]:
    """
    Adam最適化の1ステップ更新
    
    Parameters
    ----------
    params : np.ndarray - 現在のパラメータ
    grads  : np.ndarray - 勾配
    m      : np.ndarray - 1次モーメント
    v      : np.ndarray - 2次モーメント
    t      : int - タイムステップ（1から始まる）
    lr     : float - 学習率
    beta1  : float - 1次モーメントの減衰率
    beta2  : float - 2次モーメントの減衰率
    eps    : float - ゼロ除算防止の小さな値
    
    Returns
    -------
    updated_params : np.ndarray
    updated_m      : np.ndarray
    updated_v      : np.ndarray
    """
    updated_params = None
    updated_m = None
    updated_v = None
    
    # ここにコードを記述
    # ---------------------------------------- #
    # 1次モーメントと2次モーメントの更新
    updated_m = beta1 * m + (1 - beta1) * grads
    updated_v = beta2 * v + (1 - beta2) * (grads ** 2)
    
    # バイアス補正
    m_hat = updated_m / (1 - beta1 ** t)
    v_hat = updated_v / (1 - beta2 ** t)
    
    # パラメータ更新
    updated_params = params - lr * m_hat / (np.sqrt(v_hat) + eps)
    # ---------------------------------------- #
    
    return updated_params, updated_m, updated_v