#### Otimizadores no Pytorch

Os otimizadores no Pytorch são responsáveis por atualizar os parâmetros do modelo durante o treinamento ou seja iterativamente. Normalmente, eles são utilizados juntos com as loss functions e tem o objetivo de ajustar os pesos e vieses do modelo para minimizar essas funcoes de perda.

#### Importando otimizadores

Para utilizarmos um otimizador no Pytorch, precisamos importa-lo. E o módulo que contém as implementcoes dos otimizadores é o módulo `torch.optim` e é justamente este módulo que vamos utilizar para importar os otimizadores. Portanto, para importar os otimizadores devemos fazer o seguinte:

```python
    import torch.optim as optim
```
Ou podemos importar otimizadores de forma direta:

```python
    from torch import optim
```





Bom, entao para utilizarmos um otimizador no Pytorch, após termos importado o módulo, devemos criar uma instancia do otimizador. Vamos ver um exemplo na prática. 

Para este exemplo, vamos utilizar uma instância da classe `SGD` que é uma implementacao do algoritmo de otimizacao Stochastic Gradient Descent.

Logo, ao criar uma instancia do otimizador, devemos fornecer os parâmetros do modelo e também a learning rate como argumento. Além disso, é importante fornecer outros hiperparametros como argumento para o otimizador, pois dependendo do otimizador, eles podem ser necessários. Para o caso do SGD, devemos apenas fornecer os parâmetros do modelo e a learning rate.

In [2]:
import torch
from torch import optim

model = torch.nn.Linear(10, 1)
optimizer = optim.SGD(model.parameters(), lr=0.01)

Além do SGD, no Pytorch temos uma variedade de otimizadores disponíveis. Vamos ver alguns exemplos:

| Classe Otimizadora | Nome do Otimizador |
|--------------------|--------------------|
| SGD                | Descida de Gradiente Estocástico. O Otimizador de Momentum pode ser usado passando o argumento `momentum` para SGD. O Otimizador de Gradiente Acelerado de Nesterov (NAG) pode ser usado passando o argumento `nesterov=True` para SGD. |
| Adagrad            | Otimizador de Gradiente Adaptável. |
| RMSprop            | Otimizador de propagação da raiz quadrada média, mas é comumente conhecido como RMSProp. |
| Adam               | Otimizador de Estimativa de Momento Adaptativo, mas é comumente conhecido como Adam. |


#### Zero Grad

No Pytorch, por padrao os gradientes calculados durante o backpropagation no loop de treino continuam sendo acumulados. Como isso é algo indesejavél, é necessário zerar os gradientes após cada loop de treino. E para este contexto o método `zero_grad()` é muito útil. Pois, ele define todos os gradientes como 0 e este método é implementado por todos os otimizadores disponíveis no Pytorch.

In [3]:
optimizer.zero_grad()

#### Ajuste dos pesos

Após os gradientes serem calculados, devemos ajustar os pesos do modelo e isso pode ser feito com o método `step()`. Este método é implementado por todos os otimizadores disponíveis no Pytorch.

In [4]:
optimizer.step()