# Regressão Softmax com dados do MNIST utilizando gradiente descendente estocástico por minibatches

Este exercicío consiste em treinar um modelo de uma única camada linear no MNIST **sem** usar as seguintes funções do pytorch:

- torch.nn.Linear
- torch.nn.CrossEntropyLoss
- torch.nn.NLLLoss
- torch.nn.LogSoftmax
- torch.optim.SGD
- torch.utils.data.Dataloader
- torch.utils.data.Dataset


### Uso do Neptune.ai

In [None]:
! pip install neptune-client==0.9.1

In [None]:
import neptune.new as neptune

# Como obter seu API token do Neptune:
# https://docs.neptune.ai/administration/security-and-privacy/how-to-find-and-set-neptune-api-token
run = neptune.init(project='meu_usuario/meu_projeto', api_token='INSIRA O SEU TOKEN AQUI')

## Importação das bibliotecas

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

import torch
import torchvision
from torchvision.datasets import MNIST

## Dataset e dataloader

### Definição do tamanho do minibatch

In [None]:
batch_size = 50

### Carregamento, criação dataset e do dataloader

In [None]:
dataset_dir = '../data/'

dataset_train_full = MNIST(dataset_dir, train=True, download=True,
                      transform=torchvision.transforms.ToTensor())

### Usando apenas 1000 amostras do MNIST

Neste exercício utilizaremos 1000 amostras de treinamento.

In [None]:
idx = torch.randperm(len(dataset_train_full))[:1000]
x_train = dataset_train_full.data[idx]
y_train = dataset_train_full.targets[idx]

print(x_train.shape)
print(y_train.shape)

torch.Size([1000, 28, 28])
torch.Size([1000])


In [None]:
# Escreva aqui o equivalente do código abaixo:
# loader_train = torch.utils.data.DataLoader(dataset_train, batch_size=batch_size, shuffle=True)

In [None]:
print('Número de minibatches de trenamento:', len(loader_train))

x_train, y_train = next(iter(loader_train))
print("\nDimensões dos dados de um minibatch:", x_train.size())
print("Valores mínimo e máximo dos pixels: ", torch.min(x_train), torch.max(x_train))
print("Tipo dos dados das imagens:         ", type(x_train))
print("Tipo das classes das imagens:       ", type(y_train))

## Modelo

In [None]:
# Escreva aqui o codigo para criar um modelo cujo o equivalente é: 
# model = torch.nn.Linear(28*28, 10)

## Treinamento

### Inicialização dos parâmetros

In [None]:
PARAMS = {'n_epochs': 30000,
          'lr': 0.15,
          'Loss': 'CrossEntropyLoss',
          'optimizer': 'SGD',
         }

# Envia parametros para o Neptune
run['parameters'] = PARAMS

# Escreva aqui o equivalente de:
# criterion = torch.nn.CrossEntropyLoss()

### Laço de treinamento dos parâmetros

In [None]:
epochs = []
losses = []

total_trained_samples = 0
for i in range(PARAMS['n_epochs']):
    # Substitua aqui o loader_train de acordo com sua implementação do dataloader.
    for x_train, y_train in loader_train:
        # Transforma a entrada para uma dimensão
        inputs = x_train.view(-1, 28 * 28)
        # predict da rede
        outputs = model(inputs)

        # calcula a perda
        loss = criterion(outputs, y_train)

        # zero, backpropagation, ajusta parâmetros pelo gradiente descendente
        # Escreva aqui o código cujo o resultado é equivalente às 3 linhas abaixo:
        # optimizer.zero_grad()
        loss.backward()
        # optimizer.step()

        total_trained_samples += x_train.size(0)
        epochs.append(total_trained_samples / len(dataset_train))
        losses.append(loss.item())
        run['train/loss'].log(loss.item()) # Envia loss para o Neptune.

    print('Época: {:d}/{:d}'.format(i,n_epochs-1))


In [None]:
print('Final loss:', loss.item())

### Visualizando gráfico de perda durante o treinamento

In [None]:
plt.plot(epochs, losses)
plt.xlabel('época')

### Visualização usual da perda, somente no final de cada minibatch

In [None]:
n_batches_train = len(loader_train)
plt.plot(epochs[:5 * n_batches_train +1:n_batches_train], losses[:5 * n_batches_train+1:n_batches_train])
plt.xlabel('época')

## Exercício 

Escreva um código que responda às seguintes perguntas:

Qual é a amostra classificada corretamente, com maior probabilidade?

Qual é a amostra classificada erradamente, com maior probabilidade?

Qual é a amostra classificada corretamente, com menor probabilidade?

Qual é a amostra classificada erradamente, com menor probabilidade?

In [None]:
# Escreva o código aqui:

## Exercício Bonus

Implemente um dataloader que aceite como parâmetro de entrada a distribuição probabilidade das classes que deverão compor um batch.
Por exemplo, se a distribuição de probabilidade passada como entrada for:

`[0.01, 0.01, 0.72, 0.2, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01]`

Em média, 72% dos exemplos do batch deverão ser da classe 2, 20% deverão ser da classe 3, e os demais deverão ser das outras classes.

Mostre também que sua implementação está correta.
