# TP06 - [`SEU_NOME (RA XXXXXXX)`]

Bem vindo!
Neste TP você implementará uma rede CNN usando PyTorch para um problema de classificação de imagens.

**Instruções:**
- Use a versão Python 3.
- Recomendo que esse TP seja executado no Google Colab!
- Não apague os comentários existentes, mas você pode adicionar outros comentários!

**Objetivos**
- Implementar uma rede convolucional (CNN) para classificação de imagens
- Usar técnicas de aprendizado: Dropout, Momentum, RMSprop, etc..

___
## 1. Escreva o seu RA na variável abaixo
Atribua o número do seu RA, sem os zeros à esquerda, na variável `RA` abaixo.

In [None]:
### SEU CÓDIGO COMEÇA AQUI ### (≈ 1 linha de código)
RA = None
### FIM DO CÓDIGO ###

___
## 2. Bibliotecas

Você usará a biblioteca PyTorch neste trabalho.

<mark>**Faça**</mark>: Rode o código abaixo para importar as bibliotecas. Se não rodar, você pode precisar instalar o Pytorch (https://pytorch.org/get-started/locally/)

In [None]:
import torch, torchvision
import numpy as np, matplotlib.pyplot as plt
print(torch.__version__)

___
## 3. Modelo

Agora, vamos trabalhar com um modelo de rede neural convolucional. O código abaixo contém um modelo com duas camadas convolucionais (+ MaxPooling) e uma camada linear totalmente conectada na saída. Esse é o modelo base. A sua tarefa é melhorar o desempenho do modelo implementando diferentes melhorias no algoritmo de aprendizado, conforme vimos em sala de aula.

<mark>**Faça**</mark>: primeiro, rode o código e busque entender os parâmetros da rede implementada, quais as dimensões de cada camada convolucional, do Pooling e da saída.

In [None]:
import torch, torchvision
from torch import nn
import torch.nn.functional as F

class ConvNN(nn.Module):
    def __init__(self):
        super(ConvNN, self).__init__()
        self.cv1 = nn.Conv2d(in_channels=1, out_channels=24,
                             kernel_size=5, stride=1, padding=2)
        self.cv2 = nn.Conv2d(in_channels=24, out_channels=48,
                             kernel_size=5, stride=1, padding=2)
        self.fc = nn.Linear(7*7*48, 10)

    def forward(self, x):
        out = F.relu(F.max_pool2d(self.cv1(x), kernel_size=2))
        out = F.relu(F.max_pool2d(self.cv2(out), kernel_size=2))
        out = out.view(-1,7*7*48)
        return self.fc(out)

### Dimensão do modelo

<mark>**Faça**</mark>: agora, confira as dimensões do modelo, fazendo um `print` das dimensões de cada camada. Lembre-se de como calcular as dimensões de cada camada:
$$ (n_b \times n_c \times n \times n)*(1 \times n_c' \times f \times f) \to \left(n_b \times n_c' \times \left\lfloor \frac{n+2p-f}{s}+1 \right\rfloor \times \left\lfloor \frac{n+2p-f}{s}+1 \right\rfloor \right) $$
em que $n_b$ é o tamanho do batch, $n_c$ o número de canais de entrada, $n$ é a dimensão da entrada, $n_c'$ o número de canais de saída, $f$ a dimensão do filtro, $p$ o *padding* (completar com zeros), $s$ o *stride* (passo).
As camadas implementadas são:
1. Imagem de entrada: `shape = (1, 1, 28, 28)` => (tamanho do batch $\times$ nº de canais $\times$ altura $\times$ largura)
1. Camada 1: Convolução: `shape = (???)`
1. Camada 1: Max Pooling: `shape = (???)`
1. Camada 1: Relu: `shape = (???)`
1. Camada 2: Convolução: `shape = (???)`
1. Camada 2: Max Pooling: `shape = (???)`
1. Camada 2: Relu: `shape = (???)`
1. Camada 3: totalmente conectada: `shape = (???)`

In [None]:
###########################################################
# Conferindo as dimensões


___
## 4. Treinamento

Agora faremos o treinamento de vários modelos e faremos a comparação do desempenho desses modelos. Em todos os casos usaremos os hiperparâmetros abaixo com os seguintes valores:
* número de épocas: 10, esse parâmetro não mudará ao longo do trabalho
* tamanho do batch: 64, esse parâmetro não mudará ao longo do trabalho

<mark>**Faça**</mark>: na célula abaixo, importe os dados do MNIST, da mesma forma que você fez no trabalho anterior. Gere também os DataLoaders.

In [None]:
import os, time, numpy as np, matplotlib.pyplot as plt
import torchvision
from torchvision import transforms
from torchvision.datasets import MNIST
from torch.utils.data import random_split

# para normalização dos dados
mnist_transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ])

# Carrega dados de treinamento / validação
mnist_data = MNIST(os.getcwd(), train=True, download=True, transform=mnist_transform)
mnist_train, mnist_val = random_split(mnist_data, [55000, 5000])

# Carrega dados de teste
mnist_test = MNIST(os.getcwd(), train=False, download=True, transform=mnist_transform)

# HIPERPARÂMETROS que manteremos fixos
n_batch = 64   # tamanho do batch
nEpoch = 10    # número de épocas

# DADOS ==> Tamanho do batch
loader_trn = DataLoader(mnist_train, batch_size=n_batch, shuffle=True)
loader_val = DataLoader(mnist_val, batch_size=n_batch, shuffle=True)
loader_tst = DataLoader(mnist_test, batch_size=10000, shuffle=False)

___
#### Rodando na GPU

<mark>**Faça**</mark>: rode a célula abaixo e certifique que há uma GPU disponível para executar o código.

In [None]:
# Escolha do processamento
cuda = torch.cuda.is_available()
device = torch.device("cuda:0" if cuda else "cpu")
print(device)

___
Neste trabalho faremos o treinamento de vários modelos para comparação. Assim, criaremos uma função para treinar um modelo.

<mark>**Faça**</mark>: crie uma função para o treinamento de um modelo. A função deve receber como entrada o `modelo` e o `optimizer`. Faça o treinamento da mesma forma como foi feito no trabalho anterior. A função deve retornar o histórico de desempenho (função perda) nos dados de treinamento e validação e também a acurácia (percentual de acerto) nos dados de validação.

In [None]:
#############################################
# Função de treinamento
import torch, torch.optim as optim



___
Neste trabalho faremos o treinamento de vários modelos para comparação. Assim, criaremos uma função para treinar um modelo.

<mark>**Faça**</mark>: usando a função criada, você vai comparar o desempenho do modelo base em 3 algoritmos diferentes:
* **Modelo 001**: SGD, com `alfa = 0.001`
* **Modelo 002**: Adam, com `alfa = 0.0001`, `beta1=0.9`, `beta2=0.999`, `epsilon=1e-8`
* **Modelo 003**: Adam, com `alfa = 0.001`, `beta1=0.9`, `beta2=0.999`, `epsilon=1e-8`
* **Modelo 004**: Adam, com `alfa = 0.01`, `beta1=0.9`, `beta2=0.999`, `epsilon=1e-8`

Após rodar os testes, faça um gráfico *acurácia* vs *iterações* comparando o desempenho dos modelos nos treinamentos realizados. Escreva também um texto analisando os diferentes desempenhos obtidos com a CNN e comente também em relação ao desempenho obtido com a rede MLP usada anteriormente.

In [None]:
############################################################
# MODELO 001


In [None]:
############################################################
# MODELO 002


In [None]:
############################################################
# MODELO 003


In [None]:
############################################################
# MODELO 004


In [None]:
###########################################################
# Comparação dos resultados
plt.figure(figsize=(12,4))
plt.plot(acc_001, label="SGD (%.1f%%)"%acc_001[-1])
plt.plot(acc_002, label="Adam 1e-4 (%.1f%%)"%acc_002[-1])
plt.plot(acc_003, label="Adam 1e-3 (%.1f%%)"%acc_003[-1])
plt.plot(acc_004, label="Adam 1e-2 (%.1f%%)"%acc_004[-1])
plt.axis([0, len(acc_001), min(acc_001), 100])
plt.ylabel("Acurácia (%)")
plt.xlabel("iterações")
plt.grid(which="both")
plt.legend()
plt.show();

**TEXTO COMENTANDO OS RESULTADOS OBTIDOS**

`Escreva o texto aqui!`

___
### Aplicando diferentes topologias

Usaremos a notação a seguir
* **24C5**: camada convolucional com 24 canais usando filtro 5x5 e stride 1
* **24C5S2**: camada convolucional com 24 canais usando filtro 5x5 e stride 2
* **P2**: Max Pooling com tamanho de filtro 2x2 e stride 2
* **256**: rede totalmente conectada com 256 neurônios

O modelo base, com dois blocos convolucionais (camada convolucional + pooling) é descrito por:
* **Modelo 005**: entrada - [24C5-P2] - [48C5-P2] - 10

<mark>**Faça**</mark>: Compare o desempenho do modelo base com os modelos a seguir:
* **Modelo 006**: entrada - [24C5-P2] - 256 - 10
* **Modelo 007**: entrada - [24C5-P2] - [48C5-P2] - [64C5-P2] - 10
* **Modelo 008**: alguma arquitetura diferente à sua escolha

Gere um gráfico comparando os modelos e faça um texto comentando os resultados.

In [None]:
###########################################################
# MODELO 005


In [None]:
###########################################################
# MODELO 006


In [None]:
###########################################################
# MODELO 007


In [None]:
###########################################################
# MODELO 008


In [None]:
###########################################################
# Comparação dos resultados


**TEXTO COMENTANDO OS RESULTADOS OBTIDOS**

`Escreva o texto aqui!`

___
### Dropout e Batch Normalization

<mark>**Faça**</mark>: Usando a melhor estrutura de rede e algoritmo que você obteve até aqui, implemente o treinamento com
* **Modelo 009**: incluindo dropout com p = 0.3
* **Modelo 010**: incluindo dropout com p = 0.7
* **Modelo 011**: usando batch normalization ([functional.batch_norm](https://pytorch.org/docs/stable/nn.functional.html#batch-norm), [BatchNorm2d](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html))
* **Modelo 012**: usando dropout + batch normalization (escolha os parâmetros!)

Gere um gráfico comparando os modelos e faça um texto comentando os resultados.

In [None]:
###########################################################
# MODELO 009


In [None]:
###########################################################
# MODELO 010


In [None]:
###########################################################
# MODELO 011


In [None]:
###########################################################
# MODELO 012


**TEXTO COMENTANDO OS RESULTADOS OBTIDOS**

`Escreva o texto aqui!`

# Conclusões

Escreva aqui, em linguagem `markdown`, suas considerações sobre o que foi aprendido nesse trabalho prático.

*### escreva aqui ###*

___
Fim (ufa!)

# Desafio
Implemente um modelo que seja melhor que todos anteriores!

In [None]:
###########################################################
# MODELO: *o melhor*
