# 📌 tf.keras.optimizers 优化器 速查表
| 优化器                                                | 主要特点                               | 常用参数                                                                        | 适用场景               | 注意事项                        |
| -------------------------------------------------- | ---------------------------------- | --------------------------------------------------------------------------- | ------------------ | --------------------------- |
| **SGD** 
(`tf.keras.optimizers.SGD`)                | 最基本的随机梯度下降，可配合 Momentum / Nesterov | `learning_rate`, `momentum`, `nesterov`                                     | 适合简单任务或理论研究        | 对学习率敏感，收敛慢                  |
| **Momentum**
（SGD+Momentum）                         | 在 SGD 基础上增加动量，加快收敛                 | 同上                                                                          | 深度网络训练，加速梯度下降      | 需调 `momentum`（常用 0.9）       |
| **Nesterov**                                       | Momentum 改进版本，提前看梯度方向              | 同上（`nesterov=True`）                                                         | 深度网络，避免震荡          | 通常收敛速度更稳定                   |
| **Adagrad** 
(`tf.keras.optimizers.Adagrad`)        | 自适应学习率，稀疏特征表现好                     | `learning_rate`, `initial_accumulator_value`                                | NLP、稀疏特征训练         | 学习率会不断衰减，后期可能收敛过慢           |
| **RMSprop** 
(`tf.keras.optimizers.RMSprop`)        | 平滑梯度，自适应学习率，常用于 RNN                | `learning_rate`, `rho`, `momentum`, `centered`                              | RNN、序列数据           | 比 Adam 更适合某些循环任务            |
| **Adadelta** 
(`tf.keras.optimizers.Adadelta`)      | Adagrad 改进版，避免过快衰减                 | `learning_rate`, `rho`                                                      | 无需手动调大学习率          | 适合中等规模任务                    |
| **Adam** 
(`tf.keras.optimizers.Adam`)              | 结合 Momentum + RMSprop，自适应学习率       | `learning_rate`, `beta_1`, `beta_2`, `epsilon`, `amsgrad`                   | 绝大多数深度学习任务         | 默认参数通常好用（0.001, 0.9, 0.999） |
| **Adamax** 
(`tf.keras.optimizers.Adamax`)          | Adam 的无界版本，基于无穷范数                  | 同上（少 `amsgrad`）                                                             | 稳定性较好，适合稀疏梯度       | 收敛可能比 Adam 慢                |
| **Nadam** 
(`tf.keras.optimizers.Nadam`)            | Adam + Nesterov 动量                 | 同 Adam + `schedule_decay`                                                   | 可能比 Adam 收敛快       | 对序列任务效果好                    |
| **Ftrl** 
(`tf.keras.optimizers.Ftrl`)              | 适合大规模线性模型训练（广告 CTR 预测）             | `learning_rate`, `l1_regularization_strength`, `l2_regularization_strength` | 线上学习、稀疏特征          | 常用于推荐系统和广告业务                |
| **Lion** 
(`tf.keras.optimizers.experimental.Lion`) | Google 2023 新优化器，低内存，高性能           | `learning_rate`, `beta_1`, `beta_2`                                         | 大模型（如 Transformer） | 需要实验性 API                   |

# 📍 常用参数解释
| 参数                 | 类型                               | 作用                      |
| ------------------ | -------------------------------- | ----------------------- |
| **learning\_rate** | `float` / `LearningRateSchedule` | 学习率                     |
| **momentum**       | `float`                          | 动量因子（SGD、RMSprop 等）     |
| **nesterov**       | `bool`                           | 是否使用 Nesterov 动量        |
| **beta\_1**        | `float`                          | Adam/Nadam 一阶矩估计衰减率     |
| **beta\_2**        | `float`                          | Adam/Nadam 二阶矩估计衰减率     |
| **epsilon**        | `float`                          | 防止除零的小数值                |
| **rho**            | `float`                          | 平滑系数（RMSprop、Adadelta）  |
| **amsgrad**        | `bool`                           | 是否启用 AMSGrad 稳定版本（Adam） |
# 📌 使用示例

In [None]:
import tensorflow as tf

# 1. 使用 Adam
optimizer = tf.keras.optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999)

# 2. 使用带动量的 SGD
optimizer2 = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9, nesterov=True)

# 3. 在 compile 中使用
model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])


# 📚 选择建议
入门 / 通用 → Adam（大多数任务）

简单任务 / 理论分析 → SGD（可加 Momentum）

稀疏特征 → Adagrad / Ftrl

循环神经网络（RNN） → RMSprop / Nadam

大规模数据 → Adamax / Lion / Ftrl

# 1️⃣ 什么是优化器（Optimizer）？
在 TensorFlow 中，优化器（tf.keras.optimizers）是用来根据损失函数的梯度更新模型参数的算法。
简单来说：\
1、损失函数告诉我们模型预测的好坏\
2、梯度告诉我们如何调整参数才能变好\
3、优化器负责根据梯度来调整权重（权重更新规则）

# 2️⃣ 优化器模块结构
tf.keras.optimizers 提供的主要优化器分类：
| 分类           | 优化器                | 核心思想                              | 代表                  |
| ------------ | ------------------ | --------------------------------- | ------------------- |
| **基础型**      | SGD                | 固定学习率梯度下降                         | `SGD`               |
| **动量型**      | Momentum, Nesterov | 使用动量加速收敛                          | `SGD(momentum=0.9)` |
| **自适应型**     | 学习率随梯度变化           | `Adagrad`, `Adadelta`, `RMSprop`  |                     |
| **自适应动量型**   | 结合动量 + 自适应学习率      | `Adam`, `Adamax`, `Nadam`, `Lion` |                     |
| **大规模稀疏数据型** | 稀疏更新 + 正则化         | `Ftrl`                            |                     |
# 3️⃣ 常用优化器详细说明
| 优化器          | 原理简述               | 常用参数                                                      | 适用场景             | 注意事项                  |
| ------------ | ------------------ | --------------------------------------------------------- | ---------------- | --------------------- |
| **SGD**      | 固定学习率更新权重          | `learning_rate`, `momentum`, `nesterov`                   | 理论研究、简单模型        | 对学习率敏感                |
| **Momentum** | SGD + 动量，加速下降      | 同上                                                        | 深度网络，减少震荡        | 需调 `momentum`（0.9 常用） |
| **Nesterov** | 先看一步再更新            | 同上（`nesterov=True`）                                       | 比 Momentum 更稳定   |                       |
| **Adagrad**  | 学习率随梯度累积自动缩小       | `learning_rate`                                           | NLP 稀疏特征         | 学习率会衰减到极小             |
| **Adadelta** | Adagrad 改进版，避免衰减过快 | `learning_rate`, `rho`                                    | 无需手动大幅调学习率       |                       |
| **RMSprop**  | 平滑梯度，适合 RNN        | `learning_rate`, `rho`, `momentum`                        | 序列数据训练           |                       |
| **Adam**     | Momentum + RMSprop | `learning_rate`, `beta_1`, `beta_2`, `epsilon`, `amsgrad` | 绝大多数任务           | 默认参数通常可直接用            |
| **Adamax**   | Adam 改进版，无穷范数稳定    | 同 Adam                                                    | 稀疏梯度             |                       |
| **Nadam**    | Adam + Nesterov    | 同 Adam + `schedule_decay`                                 | RNN, LSTM        |                       |
| **Ftrl**     | 稀疏特征优化 + 正则        | `learning_rate`, `l1_regularization_strength`             | CTR 预测、推荐系统      |                       |
| **Lion**     | 2023 Google 新优化器   | `learning_rate`, `beta_1`, `beta_2`                       | 大模型（Transformer） | 实验性 API               |
## 4️⃣使用示例

In [None]:
import tensorflow as tf

# 1. 创建优化器
optimizer = tf.keras.optimizers.Adam(
    learning_rate=0.001,  # 学习率
    beta_1=0.9,           # 一阶动量系数
    beta_2=0.999,         # 二阶动量系数
    epsilon=1e-07         # 防止除零
)

# 2. 用在 compile
model.compile(
    optimizer=optimizer,
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

# 3. 也可以用 SGD + Momentum
optimizer2 = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9, nesterov=True)
