# Tópicos

1. Otimizando Parâmetros do Modelo

# Otimizando Parâmetros do Modelo

Treinar um modelo é processo iterativo. Em cada iteração, o modelo faz uma predição das saídas. calcula o erro da predição (loss), coleta as derivadas do erro com os respectivos parâmetros e **otimizar** este parâmetros usando gradiente descendente.

Considerando o modelo:

In [9]:
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor()
)

test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

train_dataloader = DataLoader(training_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

class NeuralNetwork(nn.Module):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 512),
            nn.ReLU(),
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10),
        )

    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits

model = NeuralNetwork()

# Hiperparâmetros

Hiperparâmetros são parâmetros ajustáveis que permite o controle do processo de otimização do modelo. Valores diferentes de hiperparâmetros podem impactar e razção de convergência. [Hyperparameter tuning](https://pytorch.org/tutorials/beginner/hyperparameter_tuning_tutorial.html).

Os hiperparâmetros para treinamento são:

* **Número de épocas**: Número de vezes para iterar sobre o dataset
* **Tamanho do batch**: Numero de amostras propadas através da rede antes da atualização dos parâmetros
* **Razão de Aprendizado**: Quanto atualizar os parâmetros dos modelos a cada batch e época. Valores menores reduzem velocidade de aprendizado, enquanto valores grandes podem resultar em compartamento inprevísivel durante treinamento.

In [10]:
lr = 1e-3
batch_size = 64
epochs = 5

# Laço de otimização

Uma vez definidos os hiperparâmetros, o modelo pode ser treinado e otimizado com um laço de otimização. Cada iteração do laço é chamado de época.

Cada época consiste de duas partes principais:

* **Laço principal**: Itera sobre o dataset de treinamento e tenta convergir para otimizar parâmetros
* **Laço de teste e validação**: Itera sobre o dataset para verificar se a performance do modelo está melhorando.

# Função de perda

Quando os dados de treinos são introduzidos ao modelo, a rede não treinada não dará a resposta certa. A função de perda mede o grau de dissimilaridade entre o resultado obtido e o valor esperado. [Funções de perda](https://pytorch.org/docs/stable/nn.html#loss-functions).

In [11]:
# Initialize the loss function
loss_fn = nn.CrossEntropyLoss()

# Otimizador

Otimização é o processo de ajustar os parâmetros do modelo para reduzir o erro em cada passo do treinamento. 

**Algoritmos de Otimização** define como este processo é feito. Toda lógica de otimização é encapsulado no objeto ```otimizer```. [Outros otimizadores](https://pytorch.org/docs/stable/optim.html)

In [12]:
optimizer = torch.optim.SGD(model.parameters(), lr=lr)

Dentro de um laço de treinamento, a otimização ocorre em 3 etapas:

* Chama ```optimizer.zero_grad()``` para resetar os gradientes dos parâmetros do modelo.
* A perda predita é propagada para trás (backpropagation) com ```loss.backward()```.
* Com os gradientes, usa-se ```optimizer.step()``` para ajustar os parâmetros pela coleta dos gradientes.


[Hyperparameter tuning with Ray Tune](https://docs.pytorch.org/tutorials/beginner/hyperparameter_tuning_tutorial.html)