# 进阶练习1：实现Adam优化器

## 练习目标

从零实现Adam（Adaptive Moment Estimation）优化器，深入理解其工作原理和数学原理。

## 任务说明

本练习要求你：
1. 深入理解Adam算法的数学原理和设计思想
2. 从零实现完整的Adam优化器类
3. 正确实现偏差修正（bias correction）
4. 在优化问题上测试Adam优化器
5. 对比不同超参数（beta1, beta2）的影响
6. 对比Adam与SGD、Momentum的性能差异

## 前置知识

- 已完成基础练习2和练习3（SGD和Momentum）
- 理解梯度下降的基本原理
- 理解Momentum算法的思想
- 熟悉Python类和对象
- 了解NumPy的基本操作

## 学习重点

- Adam算法的数学公式和物理直觉
- 一阶矩估计（m_t）和二阶矩估计（v_t）的作用
- 偏差修正的必要性和实现方法
- Adam如何结合Momentum和RMSprop的优点
- 超参数beta1和beta2的选择


In [None]:
# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt

# 设置中文字体，确保图表能正确显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 设置随机种子，确保结果可复现
np.random.seed(42)

print("环境准备完成！")
print("Python版本要求：3.7+")
print("主要依赖：numpy, matplotlib")


## 任务1：深入理解Adam算法

### Adam算法原理

**Adam（Adaptive Moment Estimation）**是一种结合了Momentum和RMSprop优点的自适应优化算法。

### 核心思想

1. **一阶矩估计（First Moment）**：类似Momentum，使用历史梯度的指数移动平均
   - m_t = β₁ * m_{t-1} + (1 - β₁) * g_t
   - 其中 g_t 是当前梯度

2. **二阶矩估计（Second Moment）**：类似RMSprop，使用历史梯度平方的指数移动平均
   - v_t = β₂ * v_{t-1} + (1 - β₂) * g_t²

3. **偏差修正（Bias Correction）**：修正初始化的偏差
   - m̂_t = m_t / (1 - β₁^t)
   - v̂_t = v_t / (1 - β₂^t)

4. **参数更新**：
   - θ_{t+1} = θ_t - η * m̂_t / (√v̂_t + ε)
   - 其中 η 是学习率，ε 是防止除零的小常数

### 算法优势

- ✅ **自适应学习率**：每个参数有自己的学习率
- ✅ **结合Momentum**：利用历史梯度信息，加速收敛
- ✅ **结合RMSprop**：适应不同参数的梯度尺度
- ✅ **偏差修正**：解决初始化偏差问题

### 超参数说明

- **learning_rate (η)**：学习率，通常0.001
- **beta1 (β₁)**：一阶矩衰减率，通常0.9
- **beta2 (β₂)**：二阶矩衰减率，通常0.999
- **epsilon (ε)**：防止除零的小常数，通常1e-8

### 任务要求

TODO: 阅读并理解上述Adam算法原理，思考以下问题：
1. 为什么需要偏差修正？如果不修正会有什么问题？
2. 一阶矩估计和二阶矩估计分别解决了什么问题？
3. Adam如何结合Momentum和RMSprop的优点？
4. 为什么Adam被称为"自适应"优化算法？


## 任务2：实现Adam优化器类

### 实现要求

TODO: 实现一个完整的Adam优化器类，包含以下功能：

1. **初始化方法（__init__）**：
   - 接收学习率、beta1、beta2、epsilon参数
   - 初始化一阶矩估计（m）和二阶矩估计（v）
   - 初始化时间步（t）

2. **更新方法（update）**：
   - 接收当前参数和梯度
   - 更新一阶矩估计和二阶矩估计
   - 实现偏差修正
   - 更新参数
   - 返回更新后的参数

### 实现要点

- **初始化**：m和v初始化为零向量，与参数形状相同
- **时间步**：每次update时递增
- **偏差修正**：必须正确实现 m̂_t = m_t / (1 - β₁^t)
- **数值稳定性**：在计算√v̂_t时加上epsilon
- **向量化**：支持多维参数

### 提示

- 参考公式：
  ```
  m_t = β₁ * m_{t-1} + (1 - β₁) * g_t
  v_t = β₂ * v_{t-1} + (1 - β₂) * g_t²
  m̂_t = m_t / (1 - β₁^t)
  v̂_t = v_t / (1 - β₂^t)
  θ_{t+1} = θ_t - η * m̂_t / (√v̂_t + ε)
  ```


In [None]:
# TODO: 实现Adam优化器类
class Adam:
    """
    Adam（Adaptive Moment Estimation）优化器
    
    参数:
        learning_rate (float): 学习率，默认0.001
        beta1 (float): 一阶矩衰减率，默认0.9
        beta2 (float): 二阶矩衰减率，默认0.999
        epsilon (float): 防止除零的小常数，默认1e-8
    """
    def __init__(self, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8):
        """
        初始化Adam优化器
        
        参数:
            learning_rate: 学习率，默认0.001
            beta1: 一阶矩衰减率，默认0.9
            beta2: 二阶矩衰减率，默认0.999
            epsilon: 防止除零的小常数，默认1e-8
        """
        # TODO: 保存超参数
        # self.lr = learning_rate
        # self.beta1 = beta1
        # self.beta2 = beta2
        # self.epsilon = epsilon
        
        # TODO: 初始化一阶矩估计和二阶矩估计（初始为None，第一次update时初始化）
        # self.m = None  # 一阶矩估计
        # self.v = None  # 二阶矩估计
        # self.t = 0     # 时间步
        pass
    
    def update(self, params, grads):
        """
        更新参数
        
        参数:
            params (numpy.ndarray): 当前参数值
            grads (numpy.ndarray): 梯度值
        
        返回:
            numpy.ndarray: 更新后的参数值
        """
        # TODO: 如果是第一次调用，初始化m和v
        # if self.m is None:
        #     self.m = np.zeros_like(params)
        #     self.v = np.zeros_like(params)
        
        # TODO: 增加时间步
        # self.t += 1
        
        # TODO: 更新一阶矩估计（指数移动平均）
        # self.m = self.beta1 * self.m + (1 - self.beta1) * grads
        
        # TODO: 更新二阶矩估计（指数移动平均）
        # self.v = self.beta2 * self.v + (1 - self.beta2) * grads**2
        
        # TODO: 偏差修正
        # m_hat = self.m / (1 - self.beta1**self.t)
        # v_hat = self.v / (1 - self.beta2**self.t)
        
        # TODO: 更新参数（注意数值稳定性：在√v_hat时加上epsilon）
        # params_new = params - self.lr * m_hat / (np.sqrt(v_hat) + self.epsilon)
        # return params_new
        pass


## 任务3：定义测试问题

### 测试函数：Rosenbrock函数

我们将使用经典的Rosenbrock函数来测试Adam优化器：

**Rosenbrock函数**：f(x, y) = (a - x)² + b * (y - x²)²
- 全局最小值在 (a, a²) 处，值为 0
- 这里我们设置 a=1, b=100
- 最优解在 (1, 1) 处

这个函数的特点是有一个狭窄的"山谷"，对优化算法有挑战性，适合测试Adam的自适应能力。

### 任务要求

TODO: 实现损失函数和梯度函数
