# Notebook de cliente / Experimentação do modelo

In [None]:
from datasets import load_dataset
from model import NERClassifier
from preprocess_dataset import NERDataset 
from trainner import Trainner
from transformers import BertTokenizer
from preprocess_dataset import remove_empty_entries

import torch

## Setups

In [None]:

CHECKPOINT = 'neuralmind/bert-base-portuguese-cased'
tokenizer = BertTokenizer.from_pretrained(CHECKPOINT)
data = "lener_br"
dataset = load_dataset(data)

dataset = remove_empty_entries(dataset)

In [None]:
MAX_LEN = 256

In [None]:
pytorch_dataset_train = NERDataset(data=dataset['train'], max_len=MAX_LEN, tokenizer=tokenizer)
teste = pytorch_dataset_train[0]
n_labels = 13 #TODO: por enquanto hardcodado 
model = NERClassifier(n_labels=n_labels, checkpoint=CHECKPOINT)
input_ids = teste['input_ids']
attention_mask = teste['attention_mask']
labels = teste['targets']

## Explorando um pouco o dataset

In [None]:
type(dataset)

In [None]:
dataset

In [None]:
# dataset = remove_empty_entries(dataset)

In [None]:
dataset

In [None]:
max_vals = [torch.max(val['targets']) for val in pytorch_dataset_train]

In [None]:
interval = (min(max_vals).item(), max(max_vals).item())

In [None]:
interval

In [None]:
saida = model(input_ids, attention_mask, labels=labels)
print(saida)

## Convertendo predições para etiquetas

Nessa sessão, vamos converter logitos em probabilidades e, então, descobrir qual a label com maior probabilidade prevista pelo modelo

In [None]:
logits = saida['logits']

In [None]:
logits

In [None]:
logits = logits.squeeze()
print(logits.shape)

In [None]:
logits

In [None]:
from torch.nn import Sigmoid
s = Sigmoid()

In [None]:
probs = s(logits)
print(probs)

In [None]:
probs[0]

Como um logito funciona: Um logito retornado pelo modelo tem shape \[INPUT_SIZE, BATCH_SIZE, NUM_LABELS\]. Nesse caso, batch_size=1 então fizemos um squeeze. Então o logito tem shape \[input_size, num_labels\]. Ou seja, é uma matriz onde cada linha representa uma palavra. Se passarmos o logito por um sigmoide, **a j-ésima coluna da i-ésima linha representa a probabilidade da i-ésima palavra ser da categoria j**

In [None]:
from utils import preds_to_label_idx

In [None]:
preds = preds_to_label_idx(logits)

In [None]:
preds

In [None]:
preds.shape

## Testando o DataLoader

In [None]:
from torch.utils.data import DataLoader

In [None]:
batch_size = 8

In [None]:
pytorch_dataset_train

In [None]:
teste = iter(DataLoader(pytorch_dataset_train ,batch_size=batch_size))

In [None]:
mini_batch = next(teste)

----------------------------------------

## Testando passar um minibatch ao modelo

In [None]:
print(mini_batch)

In [None]:
ids = mini_batch['input_ids'].squeeze().to("cuda", dtype = torch.long) # Remove a dimensão 1 ali do meio, talvez funcione?
att = mini_batch['attention_mask'].to("cuda", dtype = torch.long)
targets = mini_batch['targets'].to("cuda", dtype = torch.long)

In [None]:
print(ids.shape)

In [None]:
model = model.to("cuda")

In [None]:
outs = model(ids, att, labels=targets)

In [None]:
outs

## Convertendo logitos para labels (Em batch)

Ja vimos como converter um output de batch_size=1 para labels. Agora vamos tentar pra um batch inteiro

In [None]:
b_logits = outs.logits

In [None]:
b_logits.shape

In [None]:
from utils import batch_to_labels

In [None]:
from torch.nn import Sigmoid

In [None]:
s = Sigmoid()

In [None]:
probs = s(b_logits)

In [None]:
probs[0]

In [None]:
from utils import preds_to_label_idx, batch_to_labels

In [None]:
preds_to_label_idx(probs[0])

In [None]:
outputs = batch_to_labels(b_logits)

In [None]:
outputs

## Treinando o modelo

Usando parametros padrão por enquanto só pra ver se ta tudo indo certindo

In [None]:
from trainner import Trainner, create_data_loader
from transformers import AdamW

### Parametros


* batch sizes: 8, 16, 32, 64, 128
* learning rates: 3e-4, 1e-4, 5e-5, 3e-5

Do paper do BERT. Vou colocar num_workers = 4 por enquanto.


Uma melhoria é esconder o data_loader de clientes. Isso é detalhe de implementaçãõ, ou deveria estar na classe NERDataset

In [None]:
optimizer = AdamW(model.parameters(), lr=3e-4, correct_bias=False)

In [None]:
len(pytorch_dataset_train)

In [None]:
loader = DataLoader(pytorch_dataset_train, batch_size=8)

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
next(model.parameters()).is_cuda

In [None]:
tr = Trainner(device, loader, model, optimizer)

In [None]:
losses, media = tr._train_epoch()

In [None]:
losses

In [None]:
from matplotlib import pyplot as plt

In [None]:
plt.plot(losses)