# 常见的训练优化器

## 1. SGD (Stochastic Gradient Descent)

**原理：**

SGD 是最简单的优化器之一，它使用随机梯度下降的方法来更新模型的参数。SGD 的更新规则是：

`w = w - lr * ∇L(w)`

其中 `w` 是模型的参数，`lr` 是学习率，`∇L(w)` 是损失函数的梯度。

**优缺点：**

- 优点：SGD 简单易实现，计算效率高。
- 缺点：SGD 的收敛速度慢，可能会陷入局部最优。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.01-0.1

**使用案例：**

> SGD 适用于简单的模型和小规模的数据集。



## 2. Momentum SGD

**原理：**

> Momentum SGD 是 SGD 的变种，它在更新规则中添加了一个动量项来帮助模型摆脱局部最优。Momentum SGD 的更新规则是：

`w = w - lr * ∇L(w) + momentum * v`

其中 `v` 是动量项，`momentum` 是动量的系数。

**优缺点：**

- 优点：Momentum SGD 可以帮助模型摆脱局部最优，收敛速度比 SGD 快。
- 缺点：Momentum SGD 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.01-0.1
* 动量 (`momentum`): 推荐值为 0.9-0.99

**使用案例：**

> Momentum SGD 适用于需要摆脱局部最优的模型和数据集。



## 3. Nesterov Accelerated Gradient (NAG)

**原理：**

> NAG 是 Momentum SGD 的变种，它在更新规则中添加了一个校正项来帮助模型更快地收敛。NAG 的更新规则是：

`w = w - lr * ∇L(w) + momentum * v - lr * ∇L(w + momentum * v)`

**优缺点：**

- 优点：NAG 可以帮助模型更快地收敛，收敛速度比 Momentum SGD 快。
- 缺点：NAG 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.01-0.1
* 动量 (`momentum`): 推荐值为 0.9-0.99

**使用案例：**

> NAG 适用于需要快速收敛的模型和数据集。



## 4. Adam

**原理：**

Adam 是一个自适应的优化器，它可以自动调整学习率和动量。Adam 的更新规则是：

`w = w - lr * ∇L(w) / sqrt(v + epsilon)`

其中 `v` 是动量项，`epsilon` 是一个小的正值。

**优缺点：**

- 优点：Adam 可以自动调整学习率和动量，收敛速度快。
- 缺点：Adam 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.001-0.01
* 动量 (`beta1`): 推荐值为 0.9-0.99
* 动量 (`beta2`): 推荐值为 0.99-0.999

**使用案例：**

> Adam 适用于需要自动调整学习率和动量的模型和数据集。



## 5. RMSProp

**原理：**

> RMSProp 是一个自适应的优化器，它可以自动调整学习率。RMSProp 的更新规则是：

`w = w - lr * ∇L(w) / sqrt(v + epsilon)`

其中 `v` 是动量项，`epsilon` 是一个小的正值。

**优缺点：**

- 优点：RMSProp 可以自动调整学习率，收敛速度快。
- 缺点：RMSProp 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.001-0.01
* 动量 (`gamma`): 推荐值为 0.9-0.99

**使用案例：**

> RMSProp 适用于需要自动调整学习率的模型和数据集。



## 6. Adagrad

**原理：**

Adagrad 是一个自适应的优化器，它可以自动调整学习率。Adagrad 的更新规则是：

`w = w - lr * ∇L(w) / sqrt(v + epsilon)`

其中 `v` 是动量项，`epsilon` 是一个小的正值。

**优缺点：**

- 优点：Adagrad 可以自动调整学习率，收敛速度快。

- 缺点：Adagrad 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.001-0.01
* 动量 (`gamma`): 推荐值为 0.9-0.99

**使用案例：**

> Adagrad 适用于需要自动调整学习率的模型和数据集。



## 7. Adadelta

**原理：**

Adadelta 是一个自适应的优化器，它可以自动调整学习率。Adadelta 的更新规则是：

`w = w - lr * ∇L(w) / sqrt(v + epsilon)`

其中 `v` 是动量项，`epsilon` 是一个小的正值。

**优缺点：**

- 优点：Adadelta 可以自动调整学习率，收敛速度快。
- 缺点：Adadelta 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.001-0.01
* 动量 (`gamma`): 推荐值为 0.9-0.99

**使用案例：**

> Adadelta 适用于需要自动调整学习率的模型和数据集。



## 8. Nadam

**原理：**

Nadam 是 Adam 的变种，它可以自动调整学习率和动量。Nadam 的更新规则是：

`w = w - lr * ∇L(w) / sqrt(v + epsilon)`

其中 `v` 是动量项，`epsilon` 是一个小的正值。

**优缺点：**

- 优点：Nadam 可以自动调整学习率和动量，收敛速度快。
- 缺点：Nadam 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.001-0.01
* 动量 (`beta1`): 推荐值为 0.9-0.99
* 动量 (`beta2`): 推荐值为 0.99-0.999

**使用案例：**

> Nadam 适用于需要自动调整学习率和动量的模型和数据集。



## 9. Adamax

**原理：**

Adamax 是 Adam 的变种，它可以自动调整学习率和动量。Adamax 的更新规则是：

`w = w - lr * ∇L(w) / sqrt(v + epsilon)`

其中 `v` 是动量项，`epsilon` 是一个小的正值。

**优缺点：**

- 优点：Adamax 可以自动调整学习率和动量，收敛速度快。
- 缺点：Adamax 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.001-0.01
* 动量 (`beta1`): 推荐值为 0.9-0.99
* 动量 (`beta2`): 推荐值为 0.99-0.999

**使用案例：**

> Adamax 适用于需要自动调整学习率和动量的模型和数据集。



## 10. ASGD

**原理：**

ASGD 是一个自适应的优化器，它可以自动调整学习率。ASGD 的更新规则是：

`w = w - lr * ∇L(w) / sqrt(v + epsilon)`

其中 `v` 是动量项，`epsilon` 是一个小的正值。

**优缺点：**

- 优点：ASGD 可以自动调整学习率，收敛速度快。
- 缺点：ASGD 的参数需要谨慎选择。

**参数使用：**

* 学习率 (`lr`): 推荐值为 0.001-0.01
* 动量 (`gamma`): 推荐值为 0.9-0.99

**使用案例：**

> ASGD 适用于需要自动调整学习率的模型和数据集。