# Regressão Softmax com dados do MNIST utilizando gradiente descendente estocástico por minibatches

O objetivo deste notebook é ilustrar 
- o uso do gradiente estocástico por mini-batchs
- utilizando as classes Dataset e DataLoater.

A apresentação da perda nos gráficos é um pouco diferente da usual, mostrando a perda de cada um dos vários minibatches dentro de cada época, de forma que as épocas são apresentadas com valores fracionários.

## Inicializando o Neptune

In [None]:
! pip install neptune-client==0.9.1



In [None]:
import neptune.new as neptune

# Insira seu api_token para logar os resultados do treino na sua conta do Neptune.
# Como obter seu API token do Neptune:
# https://docs.neptune.ai/administration/security-and-privacy/how-to-find-and-set-neptune-api-token

run = neptune.init(project='rodrigonogueira/Aula-5-Exemplo', api_token='eyJhcGlfYWRkcmVzcyI6Imh0dHBzOi8vYXBwLm5lcHR1bmUuYWkiLCJhcGlfdXJsIjoiaHR0cHM6Ly9hcHAubmVwdHVuZS5haSIsImFwaV9rZXkiOiJhYzhlOTIxYy1lMGNhLTRiY2QtYTdjYi1jNWMyN2YxNzVhMTQifQ==')

https://app.neptune.ai/rodrigonogueira/Aula-5-Exemplo/e/AUL1-30


## Importação das bibliotecas

In [None]:
%matplotlib inline
import numpy as np

import torch
from torch.utils.data import DataLoader

import torchvision
from torchvision.datasets import MNIST

## Descobrindo se há uma GPU disponível

In [None]:
if torch.cuda.is_available(): 
   dev = "cuda:0"
else: 
   dev = "cpu" 
print(dev)
device = torch.device(dev)

cuda:0


## Dataset e dataloader

### Definição do tamanho do minibatch

In [None]:
batch_size = 50

### Carregamento, criação dataset e do dataloader

In [None]:
dataset_dir = '../data/'

dataset_train = MNIST(dataset_dir, train=True, download=True,
                      transform=torchvision.transforms.ToTensor())

### Usando 1000 amostras do MNIST

Neste exemplo utilizaremos 1000 amostras de treinamento e 1000 de validação.

In [None]:
dataset_train, dataset_valid, _ = torch.utils.data.random_split(dataset_train, [1000, 1000, 60000-1000-1000])

In [None]:
loader_train = DataLoader(dataset_train, batch_size=batch_size, shuffle=True)
loader_valid = DataLoader(dataset_valid, batch_size=batch_size, shuffle=False)

print('Número de minibatches de trenamento:', len(loader_train))
print('Número de minibatches de validação:', len(loader_valid))

x_train, y_train = next(iter(loader_train))
print("\nDimensões dos dados de um minibatch:", x_train.size())
print("Valores mínimo e máximo dos pixels: ", torch.min(x_train), torch.max(x_train))
print("Tipo dos dados das imagens:         ", type(x_train))
print("Tipo das classes das imagens:       ", type(y_train))

Número de minibatches de trenamento: 20
Número de minibatches de validação: 20

Dimensões dos dados de um minibatch: torch.Size([50, 1, 28, 28])
Valores mínimo e máximo dos pixels:  tensor(0.) tensor(1.)
Tipo dos dados das imagens:          <class 'torch.Tensor'>
Tipo das classes das imagens:        <class 'torch.Tensor'>


## Modelo

In [None]:
class Modelo(torch.nn.Module):
    def __init__(self):
        super(Modelo, self).__init__()
        self.dense = torch.nn.Sequential(
            torch.nn.Linear(28*28, 500),
            torch.nn.ReLU(),
            torch.nn.Linear(500, 500),
            torch.nn.ReLU(),
            torch.nn.Linear(500, 10),
        )
    
    def forward(self, x):
        x = self.dense(x)
        
        return x

model = Modelo()
model.to(device)
print(model)

Modelo(
  (dense): Sequential(
    (0): Linear(in_features=784, out_features=500, bias=True)
    (1): ReLU()
    (2): Linear(in_features=500, out_features=500, bias=True)
    (3): ReLU()
    (4): Linear(in_features=500, out_features=10, bias=True)
  )
)


## Treinamento

### Inicialização dos parâmetros

In [None]:
n_epochs = 400
learningRate = 0.1

# Utilizaremos CrossEntropyLoss como função de perda
criterion = torch.nn.CrossEntropyLoss()

# Gradiente descendente
optimizer = torch.optim.SGD(model.parameters(), lr=learningRate)

### Laço de treinamento

In [None]:
best_valid_loss = 10e9

for i in range(n_epochs):

    accumulated_loss = 0
    model.train()
    for x_train, y_train in loader_train:
        # Transforma a entrada para uma dimensão
        x_train = x_train.to(device)
        y_train = y_train.to(device)

        x_train = x_train.reshape(-1, 28*28)
        # predict da rede
        outputs = model(x_train)

        # calcula a perda
        batch_loss = criterion(outputs, y_train)

        # zero, backpropagation, ajusta parâmetros pelo gradiente descendente
        optimizer.zero_grad()
        batch_loss.backward()
        optimizer.step()
        accumulated_loss += batch_loss.item()
        run['train/batch_loss'].log(batch_loss)

    train_loss = accumulated_loss / len(loader_train.dataset)
    run['train/loss'].log(train_loss)
    
    # Laço de Validação, um a cada época.
    accumulated_loss = 0
    accumulated_accuracy = 0
    model.eval()
    with torch.no_grad():
        for x_valid, y_valid in loader_valid:
            x_valid = x_valid.to(device)
            y_valid = y_valid.to(device)

            # Transforma a entrada para uma dimensão
            x_valid = x_valid.reshape(-1, 28*28)
            # predict da rede
            outputs = model(x_valid)

            # calcula a perda
            batch_loss = criterion(outputs, y_valid)
            preds = outputs.argmax(dim=1)
            # calcula a acurácia
            batch_accuracy = (preds == y_valid).sum()
            accumulated_loss += batch_loss
            accumulated_accuracy += batch_accuracy

    valid_loss = accumulated_loss / len(loader_valid.dataset)
    run['valid/loss'].log(valid_loss)
    run['valid/acuracy'].log(accumulated_accuracy / len(loader_valid.dataset))

    print(f'Época: {i:d}/{n_epochs - 1:d} Train Loss: {train_loss:.6f} Valid Loss: {valid_loss:.6f}')

    # Salvando o melhor modelo de acordo com a loss de validação
    if valid_loss < best_valid_loss:
        torch.save(model.state_dict(), 'best_model.pt')
        best_valid_loss = valid_loss

Época: 0/399 Train Loss: 0.044803 Valid Loss: 0.043072
Época: 1/399 Train Loss: 0.039475 Valid Loss: 0.034673
Época: 2/399 Train Loss: 0.027934 Valid Loss: 0.022443
Época: 3/399 Train Loss: 0.018172 Valid Loss: 0.016587
Época: 4/399 Train Loss: 0.013584 Valid Loss: 0.014129
Época: 5/399 Train Loss: 0.010628 Valid Loss: 0.011810
Época: 6/399 Train Loss: 0.009284 Valid Loss: 0.010609
Época: 7/399 Train Loss: 0.008199 Valid Loss: 0.010112
Época: 8/399 Train Loss: 0.007041 Valid Loss: 0.009699
Época: 9/399 Train Loss: 0.006099 Valid Loss: 0.009725
Época: 10/399 Train Loss: 0.005877 Valid Loss: 0.010597
Época: 11/399 Train Loss: 0.005054 Valid Loss: 0.009805
Época: 12/399 Train Loss: 0.004625 Valid Loss: 0.009107
Época: 13/399 Train Loss: 0.003984 Valid Loss: 0.009366
Época: 14/399 Train Loss: 0.004298 Valid Loss: 0.008792
Época: 15/399 Train Loss: 0.003243 Valid Loss: 0.009058
Época: 16/399 Train Loss: 0.003013 Valid Loss: 0.009168
Época: 17/399 Train Loss: 0.002768 Valid Loss: 0.008857
Ép

In [None]:
print('Final loss:', batch_loss.item())

Final loss: 0.576230525970459
