# Workshop Redes Neurais
## Turing USP

![Pytorch logo](https://upload.wikimedia.org/wikipedia/commons/9/96/Pytorch_logo.png)

In [None]:
!pip install torch torchvision # Se voc√™ n√£o os tiver no seu computador, pode levar um tempo

## üî• B√°sicos de Pytorch üî•

### Tensores
*Os blocos de constru√ß√£o das redes neurais*

Primeiro vamos ver alguns an√°logos entre **numpy** e **Pytorch**

#### Matrizes
 - Em Pytorch, matrizes (*arrays*) s√£o chamados de tensores.
 - Uma matriz $3\times3$, por exemplo √© um tensor $3\times3$
 - Podemos criar um array numpy com o m√©todo `np.array()`
 - Podemos pegar o tipo do array com `type()`
 - Podemos pegar o formato do *array* com `np.shape()`. Linha $\times$ Coluna

In [None]:
import numpy as np
import math

array = [[1,2,3],[4,5,6]]
primeiro_array = np.array(array) # array 2x3
print(f"Array do tipo: {type(primeiro_array)}")
print(f"Array de formato: {np.shape(primeiro_array)}")
print(primeiro_array)

- Criamos um tensor com o m√©todo `torch.Tensor()`
- `tensor.type`: tipo do *array*, nesse caso um tensor
- `tensor.shape`: formato do *array*. Linha $\times$ Coluna 
- `tensor.device` : por onde este tensor est√° sendo processado

In [None]:
import torch

tensor = torch.Tensor(array)
print(f"Array do tipo: {tensor.type}")
print(f"Array de formato: {tensor.shape}")
print(f"Tensor sendo armazenado em {tensor.device}")
print(tensor)

Podemos fazer a aloca√ß√£o de *arrays* de maneira an√°loga nas duas linguagens:
 - `np.ones()` = `torch.ones()`
 - `np.random.rand()` = `torch.rand()`

In [None]:
print(f"Numpy:\n {np.ones((2,3))}\n")

print(torch.ones((2,3)))

In [None]:
print(f"Numpy:\n {np.random.rand(2,3)}\n")

print(torch.rand(2,3))

#### Convertendo de numpy para torch e vice-versa

Em muitos pontos **numpy** e **pytorch** s√£o bem parecidos em suas estruturas, e muitas das vezes podemos utilizar os dois em conjunto. Assim normalmente convertemos resultados de redes neurais - que s√£o tensores - para **arrays** de **numpy**.

Os m√©todos para fazer a convers√£o entre tensores e arrays numpy:
 - `torch.from_numpy()`: de um array numpy para um tensor
 - `tensor.numpy()`: de um tensor para um array numpy

In [None]:
array = np.random.rand(2,2)
print(f"{type(array)} \n {array} \n")

de_numpy_para_tensor = torch.from_numpy(array)
print(f"{de_numpy_para_tensor} \n")

tensor = de_numpy_para_tensor
de_tensor_para_numpy = tensor.numpy()
print(f"{type(de_tensor_para_numpy)} \n {de_tensor_para_numpy}")

Quando fazemos estas convers√µes tamb√©m podemos fazer um *typecast* (mudan√ßa do tipo) das vari√°veis, isso pode ser √∫til j√° que o Pytorch faz uma s√©rie de computa√ß√µes de baixo n√≠vel, o qual o tipo primitivo das vari√°veis precisa ser bem especificado e definido, para isso podemos usar o m√©todo `tensor.type(torch.TipoDeTensor)`, alguns tipo de tensores nativos do Pytorch s√£o:
  - `torch.FloatTensor` - pontos flutuantes de 32-bits
  - `torch.DoubleTensor` - pontos flutuantes de 64-bits
  - `torch.IntTensor` - n√∫meros inteiros de 32-bits
  - `torch.LongTensor` - n√∫meros inteiros de 64-bits
√â muito comum encontrarmos *bugs* causados pela utiliza√ß√£o errada de algum tipo primitivo, voc√™ pode ler sobre todos eles na [documenta√ß√£o do Pytorch](https://pytorch.org/docs/stable/tensors.html)


In [None]:
array = np.array([[1,10],[2,20]])

# Transformar em um tensor de Floats:
tensor_float = torch.from_numpy(array).type(torch.FloatTensor)
print(f"{type(tensor_float)} \n {tensor_float}\n")

# Transformar em um tensor de Longs:
tensor_long = torch.from_numpy(array).type(torch.LongTensor)
print(f"{type(tensor_long)} \n {tensor_long}")

#### Opera√ß√µes com tensores
Existem mais de 100 opera√ß√µes implementadas para tensores, incluindo aritm√©tica, √°lgebra linear, manipula√ß√£o de matrizes etc. √â interessante que voc√™ as cheque [aqui](https://pytorch.org/docs/stable/torch.html).

O mais interessante, inclusive algo que possibilitou a utiliza√ß√£o em massa de redes neurais, √© o processamento dessas opera√ß√µes em GPU's (que geralmente possuem uma maior velocidade do que CPU's).

Por padr√£o tensores s√£o criados na CPU. N√≥s podemos explicitamente mover para GPU's utilizando o m√©todo `.to` (isso, claro, se voc√™ pode usar uma GPU).

In [None]:
tensor = torch.ones(3,3)
print(f"Para esse notebook podemos usar a GPU? {torch.cuda.is_available()}")

# Move nosso tensor para uma GPU se poss√≠vel
if torch.cuda.is_available():
    tensor = tensor.to('cuda')

Opera√ß√µes de splicing padr√µes:

In [None]:
print('Primeira linha: ', tensor[0])

print('Primeira coluna: ', tensor[:, 0])

print('√öltima coluna:', tensor[..., -1])

tensor[:,1] = 0 # Colocar a segunda coluna como 0's
print(tensor)

print(f"{tensor.view(9).shape}: {tensor.view(9)} \n") # Podemos mudar o formato do tensor


Opera√ß√µes aritm√©ticas

In [None]:
tensor = torch.ones(3,3)

print(f"Adi√ß√£o: \n{torch.add(tensor, tensor)} \n")

print(f"Subtra√ß√£o: \n{torch.sub(tensor, tensor)} \n")

print(f"Multiplica√ß√£o elemento-a-elemento: \n{torch.mul(tensor, tensor)} \n")

print(f"Divis√£o elemento-a-elemento: \n{torch.div(tensor, tensor)} \n")

print(f"Multiplica√ß√£o de matriz:\n{torch.matmul(tensor, tensor.T)}\n ")

Opera√ß√µes com s√≥ um tensor 

In [None]:
tensor = torch.Tensor([1,2,3,4,5])

print(f"Soma: {tensor.sum()}\n")

print(f"M√©dia: {tensor.mean()} \n")

print(f"Desvio padr√£o: {tensor.std()} \n")

### Autograd e back propagation
*Diferencia√ß√£o autom√°tica e back prop com `torch.autograd`*

Quando treinamos redes neurais, o algoritmo mais usado √© a back propagation. Nesse algoritmo, par√¢metros (os *weights* do modelo) s√£o ajustados de acordo com o gradiente da fun√ß√£o de perda em respeito com o par√¢metro dado.

Para computar esses gradientes, o PyTorch tem uma implementa√ß√£o de diferencia√ß√£o (o c√°lculo de derivadas) chamado `torch.autograd`. Ele faz computa√ß√µes autom√°ticas de gradientes para qualquer *computational graph*.

Considere a rede neural mais simples de uma camada, com entrada `x`, par√¢metros `w` e `b` e alguma fun√ß√£o de perda. Ela pode ser definida da seguinte maneira:

![Diagrama do computational graph](https://i.imgur.com/x6DBPFQ.png)

In [None]:
x = torch.ones(5)  # [1 1 1 1 1] vetor de entrada

y = torch.ones(3)*2  # [2 2 2] valor esperado

w = torch.full((5, 3), 3.0, requires_grad=True) # [ 3 3 3 ; 3 3 3 ; 3 3 3 ; 3 3 3 ; 3 3 3] matriz de pesos

b = torch.ones(3, requires_grad=True) # [1 1 1] matriz de bias

z = torch.matmul(x, w) + b # [16 16 16] 

loss = torch.sum(torch.pow(z,y)) # [768] fun√ß√£o de perda

Agora podemos computar os gradientes seguindo esse diagrama:

![diagrama para calcular os gradiantes dos par√¢metros](https://i.imgur.com/fSoQQBC.png)

Para otimizar os pesos (weights) dos par√¢metros da rede neural, precisamos computar as derivadas da nossa "fun√ß√£o de perda" em respeito aos par√¢metros. Precisamente $\frac{\partial \, \mathrm{loss}}{\partial w}$ e $\frac{\partial \, \mathrm{loss}}{\partial b}$ para valores fixos de `x` e `y`. Para computar as derivadas, utilizamos `loss.backward()` os valores ficam armazenados em `w.grad` e `b.grad`.

In [None]:
loss.backward()
print(w.grad)
print(b.grad)

Por padr√£o, todos os tensores com par√¢metro `requires_grad=True` est√£o monitorando seu hist√≥rico de fun√ß√µes computadas para calcular seu gradiente. Por√©m em alguns casos isso pode n√£o ser necess√°rio, isso pode acontecer em casos como:
 - Para marcar alguns par√¢metros como **frozen parameters**. Algo comum quando voc√™ quer aperfei√ßoar uma rede pr√©-treinada
 - Para **acelearar** as computa√ß√µes quando voc√™ est√° apenas passando pelo passo de **forward**, no qual computa√ß√µes com tensores que n√£o monitoram gradientes s√£o mais √∫teis.

Podemos para de monitorar os gradientes colocando nosso c√≥digo em um bloco com  `with torch.no_grad()`

In [None]:
# Monitora os gradientes
z = torch.matmul(x, w) + b
print(z.requires_grad)

# N√£o monitora os gradientes
with torch.no_grad():
    z = torch.matmul(x, w) + b
print(z.requires_grad)

O mesmo resultado com o m√©todo `detach()`

In [None]:
z = torch.matmul(x, w) + b
z_det = z.detach()
print(z_det.requires_grad)

### Datasets e Dataloader
*Um meio de padronizar e otimizar dados para as redes neurais no PyTorch*

O PyTorch fornece dois "tipos primitivos" (√© como se fossem ints, floats, bools) para otimizar e padronizar datasets e depois dizer para a rede neural como ela deve ler esse dataset, eles s√£o o `torch.utils.data.Dataset` e o `torch.utils.data.DataLoader`.

O PyTorch tamb√©m nos fornece alguns datasets j√° prontos, o [Fashion-MINIST](https://research.zalando.com/project/fashion_mnist/fashion_mnist/) √© um deles, ele √© um dataset com imagens de roupas em 28x28 com 60.000 imagens de treino e 10.000 de teste. Vamos usar ele tanto nesse exemplo quanto no exemplo de redes neurais.

Mesmo que o dataset j√° esteja montado, vamos passar quais seriam os passos para criar um dataset do zero. Vale dizer que nem sempre precisamos realizar esses passos, muitas vezes podemos passar nossos dados de maneira "cru" como tensores, mas √© interessante sab√™-los.

In [None]:
import torch
from torch.utils.data import Dataset # estrutura de dataset de tensores 
from torchvision import datasets # datasets j√° existentes no pytorch
from torchvision.transforms import ToTensor # para transformar as imagens em tensores
import matplotlib.pyplot as plt 

In [None]:
training_data = datasets.FashionMNIST(
    root = 'data', # Onde vai armazenar o dataset
    train = True, # Especifica que √© o dataset de treino
    download= True, # baixa o dataset da internet
    transform= ToTensor() # transforma em tensor
)

test_data = datasets.FashionMNIST(
    root = 'data', 
    train = False, 
    download= True, 
    transform= ToTensor() 
)

Podemos dar uma olhada em como s√£o as imagens do dataset:

In [None]:
labels_map = {
    0: "T-Shirt",
    1: "Trouser",
    2: "Pullover",
    3: "Dress",
    4: "Coat",
    5: "Sandal",
    6: "Shirt",
    7: "Sneaker",
    8: "Bag",
    9: "Ankle Boot",
}
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, cols * rows + 1):
    sample_idx = torch.randint(len(training_data), size=(1,)).item()
    img, label = training_data[sample_idx]
    figure.add_subplot(rows, cols, i)
    plt.title(labels_map[label])
    plt.axis("off")
    plt.imshow(img.squeeze(), cmap="gray")
plt.show()

#### Preparando seu dataset para o treino com o Dataloader

Quando voc√™ treinar seu modelo com seus dados do dataset, voc√™ vai querer pass√°-los como _minibatches_ (quantos dados ser√£o alimentados antes de treinar o modelo), e tamb√©m embaralhar esses minibathcs a cada _epoch_ (uma passada por todo o dataset) para que o modelo n√£o veja informa√ß√£o na sequ√™ncia dos dados. O **Dataloader** √© a ferramenta do PyTorch que n√≥s possibilita fazer isso de maneira facilitada.

In [None]:
from torch.utils.data import DataLoader

train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True) # Aqui definimos o tamanho do batch como 64 e que embaralhe a amostra
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)

In [None]:
# Podemos visualizar uma batch do nosso dataloader
train_features, train_labels = next(iter(train_dataloader)) # O dataloader √© um objeto iter√°vel
print(f"Formato do batch das features: {train_features.size()}") # repare como s√£o 64 imagens de 28x28 pixels
print(f"Formato do batch das labels: {train_labels.size()}") # repare como s√£o 64 labels
img = train_features[0].squeeze() # remove todas as dimens√µes com valores 1
label = train_labels[0]
plt.imshow(img, cmap="gray")
plt.show()
print(f"Label: {labels_map[label.item()]}")

#### Criando um dataset customizado
Como tinha dito antes, normalmente n√£o teremos um dataset bonitinho assim na natureza, e normalmente voc√™ ter√° que o fazer. Muitas vezes, pode-se usar apenas tensores, sem criar o dataset e o dataloader, por√©m essa geralmente n√£o √© a op√ß√£o mais padronizada nem mais optimizada para imagens e textos. Segue um exemplo de como construir seu pr√≥prio dataset para imagens:

Toda classe customizada de dataset deve conter 3 m√©todos: 
- `__init__` : M√©todo que √© executado quando voc√™ inst√¢ncia (cria/chama) o dataset. Normalmente voc√™ vai passar o endere√ßo dos seus dados, de suas categorias e se precisar, alguma transforma√ß√£o neles.
- `__len__` : Serve para falar quantas amostras existem no seu dataset
- `__getitem__` : Serve quando voc√™ tem que pegar um elemento do seu dataset dado um √≠ndice `idx`. Vai identificar o endere√ßo do elemento no disco e converter para um tensor e aplicar as transforma√ß√µes, caso voc√™ as tenha solicitado. 


In [None]:
import os
import pandas as pd
from torchvision.io import read_image

class CustomImageDataset(Dataset):
    def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
        """
        Par√¢metros
        ----------
            annotations_file : str
                endere√ßo do CSV das labels das imagens
            img_dir : str
                endere√ßo do diret√≥rio onde est√£o as imagens
            transform : function
                fun√ß√µes de transforma√ß√£o que podem ser aplicadas nas imagens
            target_transform : function
                fun√ß√µes de transforma√ß√£o que podem ser aplicadas nas labels

        """
        self.img_labels = pd.read_csv(annotations_file)
        self.img_dir = img_dir
        self.transform = transform
        self.target_transform = target_transform

    def __len__(self):
        return len(self.img_labels)

    def __getitem__(self, idx):
        img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0]) # pega o endere√ßo de uma √∫nica imagem
        image = read_image(img_path) # transforma essa imagem em tensor
        label = self.img_labels.iloc[idx, 1] # pega a label dessa imagem
        # Se houverem transforma√ß√µes a serem apliacadas, aplic√°-las
        if self.transform:
            image = self.transform(image)
        if self.target_transform:
            label = self.target_transform(label)
        return image, label

## üß† Constru√≠ndo as redes neurais üß†

Redes neurais s√£o basicamente compostas por diversas camadas, cada uma com um tipo de opera√ß√£o. O m√≥dulo `torch.nn` possui todos os blocos que precisamos para a constru√ß√£o dessas redes. Todas as redes neurias no PyTorch s√£o filhos da classe `nn.Module`, por isso precisamos que nossa rede dependa dele.

In [None]:
from torch import nn

In [None]:
# Fazer o processamento em uma GPU caso seja poss√≠vel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f'Usando {device}')

### Layers mais usados

Vamos fazer um exemplo com um minibatch de 3 "imagens" feitas de pontos aleat√≥rio e ver como seriam as etapas de cada camada de uma rede neural de maneira individual, para que depois possamos junt√°-los em uma rede s√≥.

**Dados de entrada**:

In [None]:
input_image = torch.randn((3,28,28))
print(f"A dimens√£o da entrada √© : {input_image.size()}")

# Para mostrar as "imagens"
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 1
for i in range(1,4):
    img = input_image[i-1]
    figure.add_subplot(rows, cols, i)
    plt.axis("off")
    plt.imshow(img.squeeze(), cmap="gray")
plt.show()

**Camada de achatamento**

A camada de ``nn.Flatten`` converte imagens 2D em um √∫nico vetor. No caso, uma imagem de 28x28 se torna um vetor de 784 elementos, em que cada elmento √© um pixel.

In [None]:
flatten = nn.Flatten()
flat_image = flatten(input_image)
print(f"Dimens√£o das imagens achtadas {flat_image.size()}")

**Camada Linear**

A camada linear √© onde aplicamos as opera√ß√µes entre os pesos (weights), bias e dados. Possui esse nome porque essa opera√ß√£o √© uma "Transforma√ß√£o linear": $W \cdot X + b$, repare como esse formato lembra da "equa√ß√£o linear" que aprendemos na escola. 

In [None]:
layer1 = nn.Linear(in_features=28*28, out_features=20) # Aqui definimos qual a dimens√£o da entrada e qual ser√° a dimens√£o da sa√≠da
hidden1 = layer1(flat_image) # Passamos nossa imagem achatada para a camada
print(f"Dimens√£o da imagem depois de ter passado pela primeira camada: {hidden1.size()}")

**Camada de Ativa√ß√£o**

**A fun√ß√£o de ativa√ß√£o retificadora linear** (*Rectified Linear Activation Function*) - ReL 

Para conseguirmos passar um sinal para a pr√≥xima camada, necessitamos de fun√ß√µes de ativa√ß√£o. Duas fun√ß√µes comuns s√£o as [sigmoid](https://en.wikipedia.org/wiki/Sigmoid_function) e [tangente hiperb√≥lica](https://mathworld.wolfram.com/HyperbolicTangent.html), ambas fun√ß√µes n√£o lineares, uma propriedade que ajuda nosso modelo a compreender fun√ß√µes mais complexas. Por√©m, como elas s√£o fun√ß√µes com limites bem estabelecidos, elas acabam "saturando" suas sa√≠das, sendo sens√≠veis apenas para seus valores intermedi√°rios. A solu√ß√£o √© utilizar a fun√ß√£o de ativa√ß√£o retificadora linear (ReL) nos *hidden layers*. Dizemos que um n√≥ (ou neur√¥nio) com essa fun√ß√£o de ativa√ß√£o √© uma unidade de ativa√ß√£o retificadora linear (ReLU)

$$
f(x) = \begin{cases}
    x & \text{se } x > 0, \\
    0 & \text{caso contr√°rio}.
\end{cases}
$$

![Fun√ß√µes de Ativa√ß√£o](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fcdn-images-1.medium.com%2Fmax%2F1200%2F1*ZafDv3VUm60Eh10OeJu1vw.png&f=1&nofb=1)

In [None]:
print(f"Antes do ReLU: {hidden1}\n\n")
activation1 = nn.ReLU()
hidden1 = activation1(hidden1)
print(f"Depois ReLU: {hidden1}")

**Juntando todas as camadas sequencialmente**

o ``nn.Sequential`` √© uma esp√©cied de container de m√≥dulos. Os dados s√£o passados para ele na mesma ordem que definimos, ele server para simplificar a cria√ß√£o das redes neurais. Vamos criar um exemplo com as camadas que fizemos at√© agora:  

In [None]:
seq_modules = nn.Sequential(
    flatten,
    layer1,
    nn.ReLU(),
    nn.Linear(20, 10)
)
input_image = torch.rand(3,28,28) # batch de 3 imagens de entrada
logits = seq_modules(input_image) # Valores de sa√≠da s√£o "logits", valores qeu relacionam probabilidades com numeros reais
logits

**Fun√ß√£o ``nn.Softamx``**

Como a √∫ltima camada retorna "logits", podemos pass√°-los por uma fun√ß√£o chamada **Softmax** que transforma esses n√∫meros reais em valores de probabilidades (valores entre 0 ou 1). Mostrando qual a categoria mais prov√°vel para aquela imagem.

In [None]:
softmax = nn.Softmax(dim=1)
pred_probabilities = softmax(logits)
pred_probabilities

### A rede neural

Agora que voc√™ conhece todos os blocos da rede, podemos junt√°-los para criar a rede neural! Para isso ciramos uma classe que √© inicializada no m√©todo ``__init__`` com os elementos da rede. De maneira similar √†s classes do ``Dataloader``, qualquer filho do m√≥dulo ``nn.Module`` (ou seja, qualquer rede neural que criarmos no PyTorch), precisa de um m√©todo ``forward``, o m√©todo que passa os dados pela rede neural.

In [None]:
class NeuralNetwork(nn.Module):
    def __init__(self):
        super(NeuralNetwork, self).__init__() # Herda os atributos do nn.Module do pytorch
        self.flatten = ... # Define o m√©todo de achatar imagens
        self.nn = ...(   # Inicia o container de camadas
            ...,         # camada linear com 784 entradas e 512 sa√≠das
            ...,         # unidade de ativa√ß√£o
            ...,         # camada linear de 512 entradas e 512 sa√≠das
            ...,         # unidade de ativa√ß√£o
            ...,         # √∫ltima camada linear com 512 entradas e 10 sa√≠das 
        )

    def forward(self, x):    # m√©todo que passa os dados para a rede neural
        x = ...              # achata as imagens para uma dimens√£o
        logits = ...         # pasas os dados pela rede, retornando 10 logits
        return logits

### Treinando a rede neural

Vamos agora para a parte mais importante das redes neurais, trein√°-las! Para isso vamos usar os dados de treino e teste que j√° preparamos antes ``train_dataloader`` e ``test_dataloader``. Vamos tamb√©m inicializar a nossa classe de rede neural no objeto ``model``.

In [None]:
model = ...

#### Hiperpar√¢metros

S√£o par√¢metros que s√£o ajust√°veis e permitem que poss√°mos controlar o modelo. Tipos diferentes de hiperpar√¢metros podem ter grandes efeitos no modelo. No nosso caso, vamos ter 3:
 - N√∫mero de epochs: n√∫mero de vezes que nosso modelo vai **passar por todo o dataset**
 - Tamanho do batch: n√∫mero de **amostras do nosso dataset** passadas pro modelo antes de atualizar seus par√¢metros
 - Learning Rate: O quanto nosso modelo vai **atualizar seus par√¢metros**.

In [None]:
learning_rate = 1e-3
batch_size = 64
epochs = 10

#### Fun√ß√£o de perda (loss)

Quando nosso modelo est√° aprendendo ele n√£o sabe a resposta certa. A **fun√ß√£o de perda (loss)** √© um meio de medir o qu√£o certo ou errado nosso modelo estava da predi√ß√£o desejada, e √© esse valor que queremos minimizar durante o treinamento (ou seja, que ele tenha o menor erro poss√≠vel). Para computar esse erro, passamos o valor predito por nosso modelo e o valor alvo e calculamos essa diferen√ßa de algum modo.

Existem diferentes tipos de calcular o erro do modelo. Algumas fun√ß√µes comuns s√£o [`nn.MSELoss`](https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html#torch.nn.MSELoss) (Mean Squared Error) para regress√µes, [`nn.NNLoss`](https://pytorch.org/docs/stable/generated/torch.nn.NLLLoss.html#torch.nn.NLLLoss) (Negative Log Likelihood) para classifica√ß√µes e [`nn.CrossEntropyLoss`](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html#torch.nn.CrossEntropyLoss) que combina a fun√ß√£o `nn.LogSoftmax` com o `nn.NNLoss`.

Para nosso modelo, iremos usar a ``nn.CrossEntropyLoss` j√° que j√° normaliza nossos logits em valores de probabilidade e calcula uma loss comum em tarefas de classifica√ß√£o.

In [None]:
loss = ...

#### Otimizador

Com nossa fun√ß√£o de perda definida, temos que definir agora qual t√©cnica utilizaremos para chegar reduzir o erro em cada passo de treino. Existem [diferentes tipos de algoritmos de otimiza√ß√£o](https://pytorch.org/docs/stable/optim.html) para redes neurais, sendo o **SGD** (Stocastic Gradient Descent) o mais simples e o que vamos utilizar para nosso modelo. Alguns men√ß√µes de algoritmos que usamos bastante tamb√©m √© o ADAM e o RMSProp, que podem funcionar melhor dependendo do seu tipo de modelo.

In [None]:
optimizer = ... # Passamos os par√¢metros do nosso modelo e o leraning rate

Quando formos fazer nosso loop de treinamento, geralmente o passo de otimiza√ß√£o √© realizado vom 3 passos:
 - Chamar ``optimizer.zero_grad()`` para resetar os gradientes dos par√¢metros do modelo. Gradientes por padr√£o se somam, para evitar que sejam contados duas vezes em treinamentos diferentes, nos explicitamente zeremos eles a cada itera√ß√£o.
 - Faz a backpropagation da loss com ```loss.backwards()``. O autograd do PyTorch automaticamente depoisita os gradientes em rela√ß√£o a cada par√¢metro. 
 - Com os gradientes calculados, podemos usar ``optimizer.setp()`` para ajustar os par√¢metros dos gradientes coletados em cada passo anterior.  

#### Loop de otimiza√ß√£o
Com nossos hiperpar√¢metros e otimizador prontos, podemos nos preparar par definir o loop de treino. Cada itera√ß√£o desse loop de otimia√ß√£o √© chamado de **epoch**. O epoch consiste de duas partes principais
- **O loop de treino**: itera sobre o dataset de treino, tentando convergir os par√¢metros para o melhor poss√≠vel.
- **O loop de teste**: itera sobre o dataset de teste para checar como o modelo est√° se saindo. 

In [None]:
def train_loop(dataloader, model, loss_fn, optimizer):
    """
    Loop de treino do modelo

    Par√¢metros
    ----------
        dataloader: dataloader do nosso dataset de treino definido anteriormente
        model: objeto com o modelo da nossa rede neural
        loss_fn: nossa fun√ß√£o de perda
        optimizer: o otimizador definido
    """
    size = len(dataloader.dataset) # pega o tamanho do dataset
    for batch, (X, y) in enumerate(dataloader):
        # Computa a predi√ß√£o do modelo e a loss
        pred = ...
        loss = ...

        # Backpropagation
        ...       # zera os gradientes
        ...       # faz a back propagation
        ...       # d√° um passo do otimizador

        # A cada 100 treinos printamos as m√©tricas
        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]")


def test_loop(dataloader, model, loss_fn):
    """
    Loop de teste do modelo

    Par√¢metros
    ----------
        dataloader: dataloader do nosso dataset de teste definido anteriormente
        model: objeto com o modelo da nossa rede neural
        loss_fn: nossa fun√ß√£o de perda
    """
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    test_loss, correct = 0, 0

    # Como n√£o vamos otimizar nada, n√£o vamos acompanhar os gradientes
    with torch.no_grad():
        for X, y in dataloader:
            pred = model(X)  # computa a predi√ß√£o do modelo
            test_loss += loss_fn(pred, y).item() # loss dessa predi√ß√£o
            correct += (pred.argmax(1) == y).type(torch.float).sum().item() # quantas vezes nosso modelo acertou a predi√ß√£o

    test_loss /= num_batches
    correct /= size
    print(f"Erros do teste: \n Acur√°cia: {(100*correct):>0.1f}%, loss m√©dia: {test_loss:>8f} \n")

Podemos finalmente treinar nosso modelo!

In [None]:
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train_loop(train_dataloader, model, loss, optimizer)
    test_loop(test_dataloader, model, loss)
print("Acabou!")

### Brincando com o modelo
Eu fiz uns desenhos toscos e vou ver como o modelo classifica eles

In [None]:
from torchvision.io import ImageReadMode

custom = []
for i in range(1,10):
    path = "./desenhos/cam_" + str(i) + ".png"
    img = read_image(path, ImageReadMode.GRAY)
    custom.append(img)

def predict(img):
    return labels_map[torch.argmax(model(img/255)).item()]

figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, 10):
    img = custom[i-1]
    label = predict(img)
    figure.add_subplot(rows, cols, i)
    plt.title(label)
    plt.axis("off")
    plt.imshow(img.squeeze(), cmap="gray")
plt.show()

## üìùRecomenda√ß√£o de exerc√≠cios
- üî¢ Um data set com [n√∫meros desenhados a m√£o](https://www.kaggle.com/c/digit-recognizer) (MNIST cl√°ssico), para treinar os b√°sicos
- ü¶ò Um dataset que utiliza csv, [predi√ß√£o de chuvas na australia](https://www.kaggle.com/jsphyg/weather-dataset-rattle-package)
- üêü Um dataset de [imagens de peixes](https://www.kaggle.com/crowww/a-large-scale-fish-dataset), para treinar criar datasets/dataloaders
- ü¶† Um data set de [Tweets sobre o coronavirus ](https://www.kaggle.com/datatattle/covid-19-nlp-text-classification), para treinar classifica√ß√£o de texto 