In [1]:
import torch
import torch.optim as optim
import torch.optim.lr_scheduler as lr_scheduler

# lr_scheduler

**CLASSES：**
- builtins.object
    - ReduceLROnPlateau
    - \_LRScheduler
        - CosineAnnealingLR
        - CosineAnnealingWarmRestarts
        - CyclicLR
        - ExponentialLR
        - LambdaLR
        - MultiStepLR
        - MultiplicativeLR
        - OneCycleLR
        - StepLR

**FUNCTIONS：**
- bisect_right()

**DATA**
- EPOCH_DEPRECATION_WARNING
- SAVE_STATE_WARNING
- inf

**FILE**:  \torch\optim\lr_scheduler.py


# 

## lr_scheduler.ExponentialLR()
```python
lr_scheduler.ExponentialLR(
    optimizer,
    gamma,
    last_epoch=-1,
    verbose=False
)
```
**Docstring**：每个 epoch 对所有参数组的学习率衰减 gamma

**Args**:
- optimizer：打包的优化器
- gamma：应为浮点型，权重衰减所乘的因子；
- last_epoch：使用学习率方案的最后一个 epoch 的索引，默认 -1
- verbose：布尔值；默认 False；True 时将更新信息打印至 stdout；

**Type**:           type

## lr_scheduler.LambdaLR()
```python
lr_scheduler.LambdaLR(
    optimizer,
    lr_lambda,
    last_epoch=-1,
    verbose=False
)
```
**Docstring**：     将每个参数组的学习率设置为初始`lr`乘以给定函数，当`last_epoch=-1`时将初始`lr`设置为`lr`；

**Args**:
- optimizer：打包的优化器
- gamma：应为浮点型，权重衰减所乘的因子；
- lr_lambda：可以是一个函数或函数组成的列表；所有函数均以 epoch 作为输入并返回一个学习率所乘的因子；对于函数列表的情况，每个函数对应`optimizer.param_groups`中的一组参数；
- verbose：布尔值；默认 False；True 时将更新信息打印至 stdout；


**Type:**           type

**Example**:
```python
lambda1 = lambda epoch: epoch // 30
lambda2 = lambda epoch: 0.95 ** epoch
scheduler = LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])
for epoch in range(100):
    train(...)
    validate(...)
    scheduler.step()
```

## lr_scheduler.CosineAnnealingWarmRestarts()
```python
lr_scheduler.CosineAnnealingWarmRestarts(
    optimizer,
    T_0,
    T_mult=1,
    eta_min=0,
    last_epoch=-1,
    verbose=False,
)
```
**Docstring**：利用余弦退火方案对每个参数组的学习率进行配置；其中 $\eta_{max}$ 被设置为初始学习率，$T_{i}$ 为SGDR两次 warm 重启之间的 epoch 个数，$T_{cur}$ 为重启后 epoch 的数量；

$$
\eta_t = \eta_{min} + \frac{1}{2}(\eta_{max} - \eta_{min})\left(1 + \cos\left(\frac{T_{cur}}{T_{i}}\pi\right)\right)
$$
可以看出，$T_{cur}=0$ 时 $\eta_t=\eta_{max}$，$T_{cur}=T_{i}$ 时 $\eta_t = \eta_{min}$；更多细节参见文献 [SGDR: Stochastic Gradient Descent with Warm Restarts](https://arxiv.org/abs/1608.03983)；

**Args**:
- T_0：整型；第一次重启的迭代次数；
- T_mult：整型；重启后与 $T_{i}$ 相乘以增大 $T_{i}$ 的因子，默认 1；
- eta_min：浮点数；最小的学习率，默认 0.0；
- last_epoch：整型，最后一个 epoch，默认 -1；
- verbose：布尔值；默认 False；True 时将更新信息打印至 stdout；

**Type**:           type