# PyTorch中的优化器
- 在深度学习领域，优化算法的选择也是一个模型的重中之重即使在数据集和模型架构完全相同的情况下，采用不同的优化算法，也很可能导致截然不同的训练效果。
- PyTorch中的torch.optim是一个实现了各种优化算法的库。大部分常用的方法得到支持，并且接口具备足够的通用性，使得未来能够集成更加复杂的方法。
### 1、构建优化器：  
`optimizer = optim.SGD(model.parameters(),lr=0.01,momentum=0.9)`  
`optimizer = optim.Adam([var1, var2], lr = 0.0001)`
### 2、参数设置：  
```
optim.SGD(
    [
        {'params': model.base.parameters()},
        {'params': model.classifier.parameters(), 'lr': 1e-3}
    ], lr=1e-2, momentum=0.9)
```


In [4]:
import torch.nn as nn
from collections import OrderedDict
import torch.optim as optim


class Net(nn.Module):
    def __init__(self) -> None:
        super(Net,self).__init__()
        self.block = nn.Sequential(
            OrderedDict(
                [
                    ("conv1",nn.Conv2d(3,32,3,1,1)),
                    ("relu_1",nn.ReLU())
                ]
            )
        )
        self.module = nn.Sequential(
            OrderedDict(
                [
                    ("conv2",nn.Conv2d(3,32,3,1,1)),
                    ("relu_2",nn.ReLU())
                ]
            )
        )

    def forward(self,x):
        x = self.block(x)
        return x

model = Net()
print(model)
print(model.parameters())

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)

optim.SGD(
    [
        {'params': model.block.parameters()},
        {'params': model.module.parameters(), 'lr': 1e-3}
    ], lr=1e-2, momentum=0.9)

Net(
  (block): Sequential(
    (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu_1): ReLU()
  )
  (module): Sequential(
    (conv2): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu_2): ReLU()
  )
)
<generator object Module.parameters at 0x7fbc499c75f0>


SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    lr: 0.01
    maximize: False
    momentum: 0.9
    nesterov: False
    weight_decay: 0

Parameter Group 1
    dampening: 0
    differentiable: False
    foreach: None
    lr: 0.001
    maximize: False
    momentum: 0.9
    nesterov: False
    weight_decay: 0
)

### 3、优化器更新：三个步骤
- #### 优化器清零
- #### 损失计算及反向传播
- #### 优化器更新

In [5]:
"""
# 循环
for input, target in dataset:
    #优化器清零
    optimizer.zero_grad()
    #输出结果
    output = model(input)
    #计算损失
    loss = loss_fn(output, target)
    #反向传播
    loss.backward()
    #优化器更新
    optimizer.step()
"""

'\n# 循环\nfor input, target in dataset:\n    #优化器清零\n    optimizer.zero_grad()\n    #输出结果\n    output = model(input)\n    #计算损失\n    loss = loss_fn(output, target)\n    #反向传播\n    loss.backward()\n    #优化器更新\n    optimizer.step()\n'