# Workshop Redes Neurais
## Grupo Turing

### Proposta de roteiro para o nb (deletar depois)

#### O que deve ser falado antes do nb?
- Introdução à redes neurais
- estrutura geral de uma rede neural (talvez falar que é parecido com uma regressão logística?)
- computation graph (talvez?)
- forward propagation
- back propagation (se falar de fp acho que é a sequência lógica)
- optimizaçaõ e gradient descent

#### Conteúdos do nb
- Básico de Pytorch
  - comparação com np
  - operações básicas
  - Variables (falar de back propagation?)
- Implementando uma NN
  - Implementar uma regressão logística (?)
  - Implementar NN
  - Falar sobre CNN e LSTM (?)
  
**Obs: ** Ainda é preciso deixar o NB mais bonito, mais imagens e talvez melhorar a estrura dos exemplos.

## Básicos de Pytorch

Primeiro vamos ver alguns análogos entre **numpy** e **Pytorch**

### Matrizes
 - Em Pytorch, matrizes (*arrays*) são chamados de tensores.
 - Uma matriz $3\times3$, por exemplo é um tensor $3\times3$
 - Podemos criar um array numpy com o método `np.numpy()`
 - Podemos pegar o tipo do array com `type()`
 - Podemos pegar o formato do *array* com `np.shape()`. Linha $\times$ Coluna

In [None]:
import numpy as np
import math

array = [[1,2,3],[4,5,6]]
primeiro_array = np.array(array) # array 2x3
print(f"Array do tipo: {type(primeiro_array)}")
print(f"Array de formato: {np.shape(primeiro_array)}")
print(primeiro_array)

- Criamos um tensor com o método `torch.Tensor()`
- `tensor.type`: tipo do *array*, nesse caso um tensor
- `tensor.shape`: formato do *array*. Linha $\times$ Coluna 

In [None]:
import torch

tensor = torch.Tensor(array)
print(f"Array do tipo: {tensor.type}")
print(f"Array de formato: {tensor.shape}")
print(tensor)

Podemos fazer a alocação de *arrays* de maneira análoga nas duas linguagens:
 - `np.ones()` = `torch.ones()`
 - `np.random.rand()` = `torch.rand()`

In [None]:
print(f"Numpy:\n {np.ones((2,3))}\n")

print(torch.ones((2,3)))

In [None]:
print(f"Numpy:\n {np.random.rand(2,3)}\n")

print(torch.rand(2,3))

### Convertendo de numpy para torch e vice-versa

Em muitos pontos **numpy** e **pytorch** são bem parecidos em suas estruturas, e muitas das vezes podemos utilizar os dois em conjunto. Assim normalmente convertemos resultados de redes neurais - que são tensores - para **arrays** de **numpy**.

Os métodos para fazer a conversão entre tensores e arrays numpy:
 - `torch.from_numpy()`: de um array numpy para um tensore
 - `numpy()`: de um tensor para um array numpy

In [None]:
array = np.random.rand(2,2)
print(f"{type(array)} \n {array} \n")

de_numpy_para_tensor = torch.from_numpy(array)
print(f"{de_numpy_para_tensor} \n")

tensor = de_numpy_para_tensor
de_tensor_para_numpy = tensor.numpy()
print(f"{type(de_tensor_para_numpy)} \n {de_tensor_para_numpy}")

Quando fazemos estas conversões também podemos fazer um *typecast* (mudagem do tipo) das variáveis, isso pode ser útil já que o Pytorch faz uma série de computações de baixo nível, o qual o tipo primitivo das variáveis precisa ser bem especificado e definido, para isso podemos usar o método `tensor.type(torch.TipoDeTensor)`, alguns tipode de tensores nativos do Pytorch são:
  - `torch.FloatTensor` - pontos flutuantes de 32-bits
  - `torch.DoubleTensor` - pontos flutuantes de 64-bits
  - `torch.IntTensor` - números inteiros de 32-bits
  - `torch.LongTensor` - númeos inteiros de 64-bits
É muito comum encontrarmos *bugs* causados pela utilização errada de algum tipo primitivo, você pode ler sobre todos eles na [documentação do Pytorch](https://pytorch.org/docs/stable/tensors.html)

In [None]:
array = np.array([[1,10],[2,20]])

# Transformar em um tensor de Floats:
tensor_float = torch.from_numpy(array).type(torch.FloatTensor)
print(f"{type(tensor_float)} \n {tensor_float}\n")

# Transformar em um tensor de Longs:
tensor_long = torch.from_numpy(array).type(torch.LongTensor)
print(f"{type(tensor_long)} \n {tensor_long}")

### Matemática básica com Pytorch
*considere a e b dois tensores*

- Redefinir o tamanho: `view()`
- Adição: `torch.add(a,b)` = a + b
- Subtração: `torch.sub(a,b)` = a - b
- Multiplicação elemento-a-elemento = `torch.mul(a,b)` = a * b
- Divisão elemento-a-elemento = `torch.div(a,b)` = a / b
- Média: `a.mean()`
- Desvio Padrão (Standart Deviantion - std): `a.std()`

In [None]:
tensor = torch.ones(3,3)
print("\n", tensor, "\n")

print(f"{tensor.view(9).shape}: {tensor.view(9)} \n")

print(f"Adição: \n{torch.add(tensor, tensor)} \n")

print(f"Subtração: \n{torch.sub(tensor, tensor)} \n")

print(f"Multiplicação elemento-a-elemento: \n{torch.mul(tensor, tensor)} \n")

print(f"Divisão elemento-a-elemento: \n{torch.div(tensor, tensor)} \n")

tensor = torch.Tensor([1,2,3,4,5])
print(f"Média: {tensor.mean()} \n")

print(f"Desvio padrão: {tensor.std()} \n")

### Variáveis

- Acumulam os gradientes
- Na rede neural utilizaremos pytorch. Como explicamos anteriormente nas, redes neurais os gradientes são calculados na *backpropagation*.
- A diferença entre variáveis e tensores é a de que variáveis acumulam os gradientes
- Também podemos fazer operações matemáticas com variáveis
- Dessa maneira, se queremos fazer a *backpropagation* precisamos de variáveis

In [None]:
from torch.autograd import Variable

var = Variable(torch.ones(3), requires_grad = True)
var

Vamos ver um exemplo de como as Variávies são utilizadas em uma *backpropagation*, com duas função $f(y) = \sum y$, $y(x) = x^2$ e $x = (3,5)$

In [None]:
array = [3,5]
tensor = torch.Tensor(array)
x = Variable(tensor, requires_grad = True)
y = x**2
print(f" x = {x}")

f = sum(y)
print(f" f =  {f}")

f.backward() # Realiza as derivadas parciais

print(f"Gradientes: {x.grad}")

Vamos explicar passo a passo quais foram as operações feitas pelo Pytorch:
- Primeiro ele recebe os elementos do tensor e faz a primeira operação com eles $y_1 = 3^2 = 9$ e $y_2 = 5^2 = 25$
- Agora ele soma o tensor, retornando assim um único valor escalar: $\sum_i y_i = y_1 + y_2 = 9 + 25 = 34$
- O gradiente é a derivada parcial de cada elemento, ou seja o gradiente "1" é a derivada relativa à $y_1$ e o gradiente "2" é relativo à $y_2$ 
- derivada relativa à $y_1$ é $\frac{\partial}{\partial y_1}(3^2) = 2*3 = 6$
- derivada relativa à $y_2$ é $\frac{\partial}{\partial y_2}(5^2) = 2*5 = 10$
- Assim ficamos com os gradientes $(6, 10)$

### Exercícios

Coplete às células de código abaixo no campo indicado por "...":

Crie um tensor com base no *array* dado:

In [None]:
array = [[10,100,1000], [20,200,2000]]
tensor = "..."
tensor

Crie um tensor de formato $(5,3)$ no qual todos os elementos são o número 1, depois utilize o método `.shape` para verificar seu formato:

In [None]:
tensor_de_uns = "..."
formato_do_tensor = "..."

print(f"Tensor: \n {tensor_de_uns}\n")
print(f"Formato: {formato_do_tensor}")

Converta o *array* numpy para um tesnor de pytorch, depois transforme o tesnor em um *array* numpy novamente.

In [None]:
array = np.array([[1,1,2,3], [5,8,13,21]])

de_numpy_para_tensor = "..."
print(f"{de_numpy_para_tensor} \n É um tensor? {isinstance(de_numpy_para_tensor, torch.Tensor)}\n")

de_tensor_para_numpy = "..."
print(f"{de_tensor_para_numpy} \n É um array numpy? {isinstance(de_tensor_para_numpy, np.ndarray)}")

Complete a célula abaixo com as operações indicadas:

In [None]:
tensor_a = torch.Tensor([[5,8],[5,4]])
tensor_b = torch.Tensor([[10,16],[10,8]])

soma = "..." # a+b
subtracao = "..." # b-a
mul = "..." # a*b
div = "..." # b/a
media = "..." # media de a
std = "..." # desvio padrão de b

print(f"Soma:\n {soma} \n"
      f"Subtração:\n {subtracao} \n"
      f"Multiplicação:\n {mul} \n"
      f"Divisão:\n {div} \n"
      f"Média: {media} \n"
      f"Desvio Padrão: {std} \n")

Crie uma **Varíavel** do pytorch com o tensor definido. Depois defina as equações $y = log_e(x)$ e $f(y) = 2*media(y)$. Para então aplicar a *backpropagation* em $f(x)$ e calcular seus gradientes.

In [None]:
array = [4,5]
tensor = torch.Tensor(array)

x = "..."
print(f" x = {x}")

y = "..." # Dica: use o operador torch.log()
print(f" y = {y}")

f = "..."
print(f" f = {f}")

# Escreva aqui a backpropagation de f
...

if isinstance(x, torch.Tensor): print(f"Gradientes: {x.grad}")
else: print("Complete o exerćicio!")

## Implementando uma rede neural
### Conhecendo e preparando nossos dados 

**[Fashion MNIST](https://www.kaggle.com/zalando-research/fashionmnist)** é uma coleção de diversas peças de roupas retiradas do serviço de *e-commerce* Zalando, ele consiste de cerca de 60.000 entradas de treino de 10.000 de teste. Cada entrada é uma imagem de 28x28 pixels em escala cinza. As peças de roupa estão classificadas da seguinte maneira:
  - 0 *T-shirt*
  - 1 *Trouser*
  - 2 *Pullover*
  - 3 *Dress*
  - 4 *Coat*
  - 5 *Sandal*
  - 6 *Shirt*
  - 7 *Sneaker*
  - 8 *Bag*
  - 9 *Ankle boot*

In [None]:
import pandas as pd

df_inicial = pd.read_csv("fashion-mnist_train.csv")
df_inicial.head() # Como cada coluna representa o valor de cada pixel, a tabela dos dados não é muito "emocionante"

In [None]:
n_validos = 10000
n_treino = len(df_inicial) - n_validos
print(f"Número de entradas de treino: {n_treino}\n"
      f"Número de entradas de validação: {n_validos}")

In [None]:
# Usaremos essa função para dividir entre dados de treino e validação
def divide_valores(a,n):
     return a[:n].copy(), a[n:].copy()

In [None]:
# Dividir dataset entre dados x e labels y
y, x = df_inicial["label"].values, df_inicial.loc[:, df_inicial.columns != "label"].values

In [None]:
x_treino, x_valido = divide_valores(x, n_treino)
y_treino, y_valido = divide_valores(y, n_treino)

In [None]:
print(f"Formato do x de treino: {x_treino.shape}\n"
      f"Formato do x de validação: {x_valido.shape}\n"
      f"Formato do y de treino: {y_treino.shape}\n"
      f"Formato do y de validação: {y_valido.shape}")

Uma etapa comum de pré processamento de dados em aprendizado por máquina é centralizar padronizar nosso *dataset*, o que isso basicamente significa é que iremos subtrair a média de todo o *dataset* e dividi-lo pelo seu desvio padrão. Esse processo ajuda a agilizar o processo de aprendizado.

In [None]:
media = x_treino.mean()
desvio_padrao = x_treino.std()

x_treino = (x_treino-media)/desvio_padrao
print(f"Média antes do pré processamento: {media:.2f}\n"
      f"Desvio padrão antes do pré processamente: {desvio_padrao:.2f}\n"
      f"Média depois do pré processamento: {x_treino.mean():.2f}\n"
      f"Desvio padrão depois do pré processamento: {x_treino.std():.2f}")

In [None]:
# O mesmo deve ser feito com a validação

x_valido = (x_valido-media)/desvio_padrao
print(f"Média pós processamento: {x_valido.mean():.2f}\n"
      f"Desvio padrão pós processamento: {x_valido.std():.2f}")

Vamos visualizar algumas das imagens de nosso *dataset*:

In [None]:
from matplotlib import pyplot as plt

# Essa função vai nos ajudar a visualizar as imagens
def mostrar(img, title=None):
    labels = ['T-shirt/top','Trouser','Pullover','Dress','Coat','Sandal','Shirt','Sneaker','Bag','Ankle boot']
    plt.imshow(img, cmap="gray")
    if title is not None: plt.title(labels[int(title)])

In [None]:
x_imgs = np.reshape(x_valido, (-1, 28, 28))

index = 100
mostrar(x_imgs[index], y_valido[index])

### Adaptando os dados para o Pytorch

In [None]:
import torch
import torch.nn as nn
from torch.autograd import Variable
from torch.utils.data import DataLoader

In [None]:
# Transforme os respectivos datasets de numpy para tensores torch, 
# o tensor x_treino_torch e x_valido_torch devem ser do tipo torch.FloatTensor
# Dica, lembre-se da seção "Convertendo de numpy para torch e vice-versa"
x_treino_torch = "..."
y_treino_torch = "..."

x_valido_torch = "..."
y_valido_torch = "..."

tamanho_batch = 100
n_iters = 10000

n_epochs = int((n_iters / len(y_treino)) * tamanho_batch)

# Transformamos em um dataset de tensores
treino = torch.utils.data.TensorDataset(x_treino_torch, y_treino_torch)
validacao = torch.utils.data.TensorDataset(x_valido_torch, y_valido_torch)

# Preparamos o dataser para ser iterado pela rede
treino_loader = DataLoader(treino, batch_size=tamanho_batch, shuffle=False)
validacao_loader = DataLoader(validacao, batch_size=tamanho_batch, shuffle=False)

### Para que serviu o TensorDataset e o DataLoader?

Basicamente, o que eles fazem é transformar nosso conjunto de tensores (que antes eram arrays numpy) em algo iterável, ou seja, que podemos percorrer por com um loop, além disso, já os dividimos em levas (*batchs*) de 100 serão alimentados na nossa rede. Vamos dar uma olhada em como está estruturado nosso `treino_loader`:

In [None]:
limite = 5
contador = 0
for i in treino_loader:
    if contador < limite: print(i)
    else: break
    contador += 1

In [None]:
len(treino_loader)

Aqui podemos observar que nosso treino_loader é composto de 500 pares de tensores, vamos olhar melhor cada um desses tensores:

In [None]:
limite = 5
contador = 0
for i in treino_loader:
    if contador < limite:
        print(f"Tensor de imagens: {i[0]}\n"
            f"Tamanho do Tensor: {len(i[0])}\n"
            f"Imagem tensor: {i[0][0]}\n"
            f"Tamanho da imagem tensor: {len(i[0][0])}\n"
            f"------------------------------------------")
    else: break

Aqui pode-se notar que o primeiro tensor do par é um tensor em que cada elemento é um batch de 100 tensores de imagens. Vamos olhar o segundo elemento do par:

In [None]:
limite = 5
contador = 0
for i in treino_loader:
    if contador < limite:
        print(f"Tensor de labels: {i[1]}\n"
            f"Tamanho do Tensor: {len(i[1])}\n"
            f"Label: {i[1][0]}\n"
            f"------------------------------------------")
    else: break

Aqui pode-se notar que o segundo tensor do par é um tensor em que cada elemento é um batch de 100 classificações.

### Começando com uma regressão logística

Dizemos que uma regressão linear é basicamente uma maneira de visualizar nossos dados em uma "linha" e que a partir dessa linha podemos fazer algumas predições sobre dados futuros.

Porém, regressões lineares não são muito boas com classificações, para isso utilizaremos uma regressão logística.

Uma regressão logística é uma regressão linear que utiliza a função **softmax** como uma **função de ativação**:
$$
a_i = \frac{e^{x+i}}{\sum_{j=1}^n e^{x_j}}
$$

> **Obs:** O que a função **softmax** basicamente faz é receber um vetor (lista) de valores numéricos e os transforma em valores probabilísticos. Em outras palavras, quanto maior for o valor da preferência daquela patâmetro, depois que essa lista de valores passar pela função Softmax, maior será sua probabilidade.

É interessante primeiro estudarmos a regressão logística antes de vermos uma rede neural pois a regressão logística é basicamente uma rede neural simples!

"<img src="./imgs/diagrama_logreg.png"/>"

In [None]:
class RegressaoLogistica(nn.Module):
    def __init__ (self, input_dim, output_dim):
        super(RegressaoLogistica, self).__init__()  # Já que será "filho" de nn.Module, temos que iniciar seu "pai"

        self.linear = nn.Sequential(
            nn.Linear(input_dim, output_dim), # Parte linear
            nn.LogSoftmax()                   # A parte logística
        )

    def forward(self, x):
        y = self.linear(x)
        return y

erro = nn.NLLLoss() # Função de perda (loss)

# Complete alguns dos dados faltantes:
input_dim = "..." # Dica, olhe na especificação do problema
output_dim = "..."

# Inicialize a Regressão Logística com as dimensões de input e output estabelecidas
modelo = "..."

# Aqui escolhemos nosso optimizador, que nesse caso será o Stochastic gradient descent, 
# que estará optimizando os parâmetros de nossa regrssão linear.
taxa_aprendizado = 0.001
optmizador = torch.optim.SGD(modelo.parameters(), lr=taxa_aprendizado)

### Treinando nosso modelo:

In [None]:
contagem = 0
lista_loss = []
lista_iteracao = []
for epoch in range(n_epochs):
    for imagens, classificacao in treino_loader:
        
        # Utilizando a função Variable() crie as seguintes variáveis:
        treino = "..."                          # Crie uma variável com as imagens, porém, mude a forma do tensor
                                                # para ([100,28*28]) com o método .view()
        
        validacao = "..."                       # Crie uma variável com a classificacao

        # Limpamos os gradientes
        optmizador.zero_grad()

        # Utilize o método .forward() do modelo utilizando a variável de treino
        # para realizarmos a forward propagation
        outputs = "..."

        # Utilize a função de perda erro() com nosso output e a variável de verificação
        loss = "..."

        # Realizamos a backward propagation
        ...

        # Atualiza os parâmetros
        optmizador.step() 

        contagem += 1

        # Predições
        if contagem % 50 == 0:
            # Calculamos a acurácia
            corretos = 0
            total = 0

            for imagens, classificacao in treino_loader:
                
                # Crie uma variável com as imagens da mesma maneira como na variável de treino
                teste = "..."

                # Forward propagation
                outputs = "..."
                
                # Recebe as predições do valor máximo
                predito =  torch.max(outputs.data, 1)[1]

                # Número total de classificações
                total += len(classificacao)

                # Número de predições corretas
                corretos += (predito == classificacao).sum()

            acuracia = 100 * corretos / float(total)

            # Armazena a loss e iteração
            lista_loss.append(loss.data)
            lista_iteracao.append(contagem)

        if contagem % 500 == 0:
            # Printa a loss
            print(f"Iteração: {contagem} | Loss: {loss.data} | Acurácia: {acuracia}")

In [None]:
plt.figure(figsize=(25,6))
plt.plot(lista_iteracao,lista_loss)
plt.xlabel("Número de Iterações")
plt.ylabel("Loss")
plt.title("Regressão Logística: Loss vs Número de Iterações")
plt.show()