In [1]:
import torch.optim as optim

# optim.SGD()
```python
optim.SGD(
    params,
    lr=<required parameter>,
    momentum=0,
    dampening=0,
    weight_decay=0,
    nesterov=False,
)
```

**Docstring**


实现随机梯度下降。注意，使用 Momentum/Nesterov 实现 SGD 与 Sutskever 等人以及其他一些框架中的对 SGD 的实现有些不同，考虑到动量的具体情况，更新可以写成：

$$
\begin{aligned}
    v_{t+1} & = \mu * v_{t} + g_{t+1}, \\
    p_{t+1} & = p_{t} - \text{lr} * v_{t+1},
\end{aligned}
$$

其中 $p, g, v, `\mu$ 分别代表参数、梯度、速度、动量，这不同于 Sutskever 等人及其他框架中的更新形式：

$$
\begin{aligned}
    v_{t+1} & = \mu * v_{t} + \text{lr} * g_{t+1}, \\
    p_{t+1} & = p_{t} - v_{t+1}.
\end{aligned}
$$

原论文：[Nesterov momentum](http://www.cs.toronto.edu/%7Ehinton/absps/momentum.pdf)

**Args**

- params: 要优化的可迭代的参数，或定义了参数组的字典

- lr: pass

- momentum: 动量因子，默认 0

- weight_decay: 权值衰减系数，即 L2 正则化的正则化系数，默认 0

- dampening: dampening for momentum, default: 0

- nesterov: 是否使用 Nesterov 动量模型，默认 Flase
 

**File**: \torch\optim\sgd.py

**Type**:           type

**Example**
```python
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
optimizer.zero_grad()
loss_fn(model(input), target).backward()
optimizer.step() 
```

## optim.SGD.step()
`<optim_name>.step(closure=None)`

**Docstring**

执行一个更新参数的过程

**Args**

- closure (callable, optional): 重新评估模型并返回损失的闭包(closure)

**File**: torch\optim\sgd.py

**Type**:      function

## optim.SGD.zero_grad()
`<optim_name>.zero_grad()`

清除所有需要优化的`torch.Tensor`的梯度，常用于训练神经网络时避免上一轮梯度更新影响下一轮梯度更新处

**Type**:      function

In [None]:
optim.SDG.

#  

#  

### optim.optimizer.state_dict

`optimizer.state_dict()`

**Docstring:**

返回优化器(optimizer)的状态字典，该字典包括两个条目:`state`——包含目前优化器的状态的字典，`param_groups`——包含所有参数组的字典

#  

#  

In [2]:
help(optim.lr_scheduler)

Help on module torch.optim.lr_scheduler in torch.optim:

NAME
    torch.optim.lr_scheduler

CLASSES
    builtins.object
        ReduceLROnPlateau
    _LRScheduler(builtins.object)
        CosineAnnealingLR
        CosineAnnealingWarmRestarts
        CyclicLR
        ExponentialLR
        LambdaLR
        MultiStepLR
        MultiplicativeLR
        OneCycleLR
        StepLR
    
    class CosineAnnealingLR(_LRScheduler)
     |  CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1, verbose=False)
     |  
     |  Set the learning rate of each parameter group using a cosine annealing
     |  schedule, where :math:`\eta_{max}` is set to the initial lr and
     |  :math:`T_{cur}` is the number of epochs since the last restart in SGDR:
     |  
     |  .. math::
     |      \begin{aligned}
     |          \eta_t & = \eta_{min} + \frac{1}{2}(\eta_{max} - \eta_{min})\left(1
     |          + \cos\left(\frac{T_{cur}}{T_{max}}\pi\right)\right),
     |          & T_{cur} \neq (2k+1)T_{ma

# optim.lr_scheduler.MultiStepLR()
```python
optim.lr_scheduler.MultiStepLR(
    optimizer,
    milestones,
    gamma=0.1,
    last_epoch=-1,
)
```

**Docstring**:     
当达到`miletones`指定 epoch 时，对每一个参数组的学习率以因子`gamma`进行衰减；需要注意的是，该 scheduler 设定的衰减可与外部的学习率衰减同时发生

**Args**:

- optimizer: Wrapped optimizer
- milestones: epoch 索引组成的列表，其元素必须为递增的
- gamma: 学习率衰减的乘积因子，默认 0.1
- last_epoch: 使用权重衰减的最后一个 epoch，默认为 -1，这种情况下设置初始学习率`lr`即为`lr`

**File**:      \torch\optim\lr_scheduler.py

**Type**:           type

### Example

假设初始 $lr = 0.05$，则当 $epoch < 30$ 时 $lr = 0.05$，当 $30 \le epoch \le 80$ 时 $lr = 0.005$，当 $epoch \ge 80$ 时 $lr = 0.0005$

```python
scheduler = MultiStepLR(optimizer, milestones=[30,80], gamma=0.1)
for epoch in range(100):
    # some operations ...
    scheduler.step()
```

In [6]:
from pathlib import Path
import pathlib

print(type(pathlib))

# for k, v in Path.__dict__.items():
#     print("key", k, sep="")
#     print("value", v, sep="")
#     print()

<class 'module'>
