In [None]:
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import Image

# PyTorch
### - Introdução a manipulação de tensores

# Introdução ao PyTorch
- O que é o PyTorch?
    - É um framework de ML/DL baseado em Torch (Lua e C++)
    - Aplicações em VC, NLP, Audio, Video, ...
    - Desenvolvido pelo time de IA do Facebook
    - Lançamento: setembro de 2016

# Introdução ao PyTorch
- Empresas que usam o framework:
    - Toyota Research Institute
    - Airbnb, Salesforce
    - Duolingo [link](https://aws.amazon.com/pt/machine-learning/customers/innovators/duolingo/)
    - Lift [link](https://medium.com/pytorch/how-lyft-uses-pytorch-to-power-machine-learning-for-their-self-driving-cars-80642bc2d0ae)
    - Disney [link](https://medium.com/pytorch/how-disney-uses-pytorch-for-animated-character-recognition-a1722a182627)
    - Pixar [link](https://venturebeat.com/business/how-pixar-uses-ai-and-gans-to-create-high-resolution-content/)
    - Nasa [link](https://thenewstack.io/nasa-and-ibm-to-speed-ai-creation-with-new-foundation-models/)

# Introdução ao PyTorch
- Alguns modelos recentes:
    - GPT-2, GPT-3
    - Whisper [link](https://github.com/openai/whisper)
    - Lhama [link](https://github.com/meta-llama/llama)
    - Transformer e BERT 
    

# Let's do it

<img src="img/png/letsdoit.png" width="400" height="150">


# Tensor
<img src="img/png/neuralnet.png" width="600" height="300">

# Tensor
- O que é um tensor?
    - "*Is just a generic n-dimensional array to be used for arbitrary numeric computation*"
    - Generalização de uma estrutura de dados n-dimensional
- Aplicações na engenharia e física: será que são tão diferentes assim?
    - Tensor de tensões

## Principais diferenças entre ```torch.tensor``` e ```np.ndarray```

- Apesar de ambos armazenarem matrizes n-dimensionais 
- ```torch.tensors``` tem uma "camada" adicional 
- Armazena o grafo computacional que leva tensor associado

- Olhando o tensor em si são basicamente iguais
- Tensores podem ser facilmente enviados para GPU
- Numpy arrays também podem, mas não de forma nativa: PyCUDA e CuPy

# Tensores - Dimensões
<img src="img/tensor.png" width="724" height="121">

# Tensores - Dimensões

- Exemplos
    - 1D: vetor linha/coluna
    - 2D: matriz
    - 3D: imagem
    - 4D: batch de imagens, vídeo
    - 5D: batch de vídeos

# Criação de um tensor

In [None]:
import torch
import numpy as np

In [None]:
X = torch.Tensor([[40,80,30], [50,90,10]])

In [None]:
X

# Tipos de tensores
Em PyTorch, temos os seguintes tipos de tensores
- Ponto flutuante (float): 16, 32 e 64 bits
- Inteiro (int): 8, 16, 32 e 64 bits
- Números complexos (complex): 32, 64 e 128 bits
- Booleano (bool)
- Complexo (parte real + imaginária)

# Conversão entre tipos de tensores
- Os tensores em PyTorch podem ser convertidos entre os diversos formatos
- A maneira mais simples é com a chamada do método referente ao tipo desejado

# Operações Matemáticas
- Adição
- Subtração
- Multiplicação
- Divisão

Essas operações são element-wise

# Adição de tensores
- Método ```add(a,b)``` realiza a soma dos tensores $\mathbf{a}$ e $\mathbf{b}$, elemento por elemento: $a_{i,j} + b_{i,j}$ 
- Inicializando os tensores $\mathbf{a}$ e $\mathbf{b}$  

In [None]:
a = torch.Tensor([[1,2], [3,4]])
b = torch.Tensor([[5,6], [7,8]])

# Multiplicação de Tensores
As próximas operações merecem uma atenção especial.
- Vimos como multiplicar dois tensores, elemento por elemento
- Mas como fazer realmente a multiplicação matricial?
- Para efetuar essa operação temos o método ```mm``` (matrix multiplication)

 Vamos considerar os tensores $\mathbf{a}$, $\mathbf{b}$ e $\mathbf{c}$ abaixo:

In [None]:
a = torch.Tensor([[1,2,3],[4,5,6]])
b = torch.Tensor([[0,1,3],[1,0,2]]).t()
c = torch.Tensor([1,1,2])
print(a)
print(b)
print(c)

Realizando a multiplicação entre as matrizes

E esse multiplicarmos o tensor $\mathbf{a}$ pelo tensor $\mathbf{c}$ (vetor) usando o método ```mm```?

Para esse tipo de situação o PyTorch tem o método ```mv``` que multiplica uma matriz por um vetor (matrix - vector).

Assim é possível multiplicar o tensor $\mathbf{a}$ pelo tensor $\mathbf{c}$

### Quem lembra um pouco de Álgebra Linear?
- Não precisam assustar, mas nas aulas de Álgebra Linear fazíamos um chamado __produto escalar__
- Quem lembra como era calculado?
- Dados dois tensores
- $\mathbf{A} = (a_1, a_2, \cdots, a_n)$
- $\mathbf{B} = (b_1, b_2, \cdots, b_n)$
- O produto escalar $\mathbf{A} \cdot \mathbf{B}$ é dado por $\sum_{k=1}^{n} = a_i b_i$


- No PyTorch temos o método ```dot``` para realizar o produto escalar
- Pode ser usado o símbolo ```@``` no lugar

__Curiosidade__: A multiplicação de matrizes $\mathbf{X}$ e $\mathbf{Y}$ é o produto escalar das linhas de $\mathbf{X}$ pelas colunas de $\mathbf{Y}$

# Manipulação de Tensores

O PyTorch também fornece algumas outras manipulações importantes sobre os tensores
- ```view```: altera a forma de visualizar o tensor sem alterá-lo
- ```cat``` : concatena tensores
- ```chunck```: quebra o tensor
- ```squeeze```: espreme o tensor

### View
Alterando a visualização dos tensores

In [None]:
a = torch.Tensor([1,2,3,4,5,6,7,8,9])
b = torch.Tensor([1,2,3,4])
print(a)
print(b)

### Cat
Concatenando tensores

### Chunk
Quebra o tensor em parte iguais

### Squeeze
Espreme o tensor

# Introdução ao PyTorch - Parte 2
- O que vamos ver?
    - Aplicação em uma Regressão Linear
    - Algumas estruturas básicas para treinar um modelo

- O que é uma Regressão Linear?
    
    "*A regressão linear quantifica a relação entre uma ou mais variáveis preditoras e uma variável de resultado*"
    
    
- Matematicamente, queremos definir:

   - $\hat{y} = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n$
   

 - em que:
     - $\hat{y}$: valor previsto
     - $n$: número de features
     - $x_i$: é o valor da i-ésima feature
     - $\theta_j$: é o parâmetro $j$ do modelo

### Olhando o dataset

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('exp_vs_salary_data.csv')
data.columns = ['anos_experiencia', 'salario']
data.head()

### Vendo algumas informações adicionais

In [None]:
data.info()

In [None]:
plt.scatter(data.anos_experiencia, data.salario)
plt.xlabel("Anos de Experiência")
plt.ylabel("Salário")
plt.show()

### Vendo a correlação entre os dados

In [None]:
data.corr()

### Sepando dados em treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
train, test = train_test_split(data,  test_size = 0.2)

### Quem ainda lembra dos tensores?
- Uma vez tendo separado os dados para treino e teste;
- Precisamos converter o dado para o formato aceitável pelo PyTorch;
- Nesse ponto, voltamos aos tensores.

- Convertendo os dados de treino

In [None]:
X_train = 
y_train = 

- Convertendo os dados de teste

In [None]:
X_test =
y_test =

In [None]:
X_train.view(6,-1)

In [None]:
y_train.view(6,-1)

### Novas estruturas
- Muitas vezes necessitamos que:
    - Código que gera/pré-processa os dados de treino esteja desacoplado do treino do modelo;
    - O que gera:
        - Melhor modulariação e legibilidade.

### Novas estruturas

- Nesse momento vamos apresentar duas novas estruturas do PyTorch:
    - __Dataset__: armazena as amostras e os rótulos (usaremos o TensorDataset neste ponto);
    - __DataLoader__: envolve um iterável em torno do Dataset (fácil acesso às amostras - batch), retorna X,y.


### Novas estruturas
Dentre os Datasets disponíveis no módulo ```torch.util.data``` existe um de grande utilidade ```IterableDataset```
- Usado para streaming de dados
- Para conjunto de dados grandes

__Observação__: Datasets e DataLoaders podem ser customizados

#### Novas estruturas
- Algumas outras estruturas que ainda faltaram:
    - __Modelo__ (```nn.Linear```): rede que será treinada (propriamente dita);
    - __Função de Perda__ (```nn.MSELoss```): quem calcula o quanto o modelo erra;
    - __Otimizador__ (```torch.optim```): quem atualiza os pesos da rede.

In [None]:
import torch.nn as nn
from torch.optim import SGD

In [None]:
model = ...
loss_fun = ...
optimizer = ...

Pergunta:
- Repararam algum parâmetro diferente nos tensores anteriores?

- Nos parâmetros apareceu um "requires_grad=True", qual a utilidade disso?
- O parâmetro ```requires_grad=True``` indica que os gradientes podem ser calculados para o tensor;
- Não significa que eles irão ser calculados.

### Exemplo

Consideremos os seguintes tensores:

In [None]:
print(a)
print(b)

Vamos criar um tensor $Q$ a partir de $a$ e $b$ da seguinte forma:
- $Q = 3a^3 - b^2$

### Operador Gradiente
Quem se lembra das derivadas?
- __Gradiente de uma função__: vetor que aponta na direção de crescimento;
- $\vec \nabla f_{(x_1, x_2, \cdots, x_n)} = \left \langle \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \cdots, \frac{\partial f}{\partial x_n} \right \rangle$

### Operador Gradiente

- Qual o motivo de usarmos os gradientes?
    - Otimizadores
    - Atualização dos pesos da rede

### Operador Gradiente

- Como ficaria o gradiente de $Q$?
- $\vec \nabla Q = \left \langle \frac{\partial Q}{\partial a}, \frac{\partial Q}{\partial b} \right \rangle =\left \langle 9a^2, -2b\right \rangle$
- Calculando o gradiente:

__IMPORTANTE__: Quando estamos calculando os gradientes no treino de um modelo, não há necessidade de passar o tensor $v$, a função de perda já o fornece.

### Vendo os gradientes armazenados nos tensores

### Voltando ao modelo
- Vimos anteriormente como criar um otimizador, a função de perda (com os gradientes) e o modelo;
- Podemos ter uma segunda forma de criar o modelo definido.

- Anteriormente criamo o modelo usando apenas a seguinte linha de comando:    
    ``` model = nn.Linear(1, 1)```
    
- Caso seja necessário criar modelos mais complexos, o PyTorch fornece uma forma usando OO:
    - Criar uma classe que herde da classe ```nn.Module```
    - Deve-se implementar o método ```forward()```

### Classe para o modelo

In [None]:
class LinearRegression(nn.Module):
    def __init__(self, in_size, out_size):
        super().__init__()
        ...
    
    def forward(self, X):
        ...

# Função para treino do modelo

In [None]:
def train_model(num_epochs, model, loss_fun, optimizer, train_dataloader):
    
    
        if (epoch+1) % 10 == 0:
            print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch+1,
                                                       num_epochs,
                                                       loss.item()))

O laço mais interno dentro da função de treino, apresenta 5 passos fundamentais para o treino:
- (1) avaliação dos dados pelo modelo: ```pred = model(xb)```
- (2) cálculo da perda (erro): ```loss = loss_fun(pred, yb)```
- (3) cálculo do gradiente: ```loss.backward()```
- (4) atualização dos pesos: ```optimizer.step()```
- (5) reset dos gradientes: ```optimizer.zero_grad()```

__IMPORTANTE__: 
- Os 5 passos anteriores devem ser executados para cada batch de dados que forem gerados em uma época;
- Por isso temos os loops aninhados.

# Agora sim, vamos ao treino do modelo

In [None]:
%%time
num_epochs=100
train_model(num_epochs, model, loss_fun, optimizer, train_dataloader)
preds = model(X_train)

### Parametros após o treino

In [None]:
a = model.weight.item()
b = model.bias.item()
print('Weight: ', a)
print('Bias: ', b)

### Plotando a Regressão
- Nesta parte vamos ver a regressão que o modelo treinado gerou
- Mas antes, vamos usar os parâmetros para construir a equação

In [None]:
x = np.arange(0.0, 12, 0.01)
y = a*x + b

### Uma outra forma de obtermos os valores de y

In [None]:
x_tensor = torch.Tensor(x).unsqueeze(1)
model(x_tensor)

- Plot da Regressão

In [None]:
plt.scatter(data.anos_experiencia, data.salario)
plt.plot(x, y, color='orange')
plt.xlabel("Anos de Experiência")
plt.ylabel("Salário")
plt.show()

# Resumo
Tivemos contato com alguns pontos novos do PyTorch:
- Dataset e DataLoader;
- Modelo, Função de perda e Otimizador;
- Entendemos como são calculados os gradientes;
- 5 passos que devem estar dentro do ciclo de treino de um modelo.

# Referências
- Documentação sobre Datasets e DataLoaders https://pytorch.org/tutorials/beginner/basics/data_tutorial.html
- Documentação sobre tensores (https://pytorch.org/docs/stable/tensors.html)
- (Livro) Deep Learning With PyTorch: Build, Train, and Tune Neural Networks (2021)(https://www.amazon.com.br/Deep-Learning-Pytorch-Eli-Stevens/dp/1617295264)


- (Livro) Deep Learning with PyTorch-Packt (2018)(https://github.com/yangyutu/bigfiles/blob/master/Vishnu%20Subramanian%20-%20Deep%20Learning%20with%20PyTorch-Packt%20(2018).pdf)
- (Livro) Deep Learning With Python (2018) (https://www.amazon.com.br/Deep-Learning-Python-Francois-Chollet/dp/1617294438/)