# Classifica√ß√£o com BERT

Neste *notebook* voc√™ ver√° um exemplo de como usar o [BERT](https://arxiv.org/abs/1810.04805) para tarefa de classifica√ß√£o, usando a bilbioteca **Transformers** do **Hugging Faces**. 

Fontes:  

- [BERT Fine-Tuning Tutorial with PyTorch](https://mccormickml.com/2019/07/22/BERT-fine-tuning/).
- [Hugging Faces - Github](https://github.com/huggingface/transformers) e [Hugging Faces - site](https://huggingface.co/)


Primeiro, vamos verificar se temos GPU dispon√≠vel para nossa execu√ß√£o. N√£o se preocupe caso n√£o possua GPU, apenas o treinamento ser√° mais demorado.

Caso voc√™ esteja executando no Colab, acesse: Edit ü°í Notebook Settings ü°í Hardware accelerator ü°í (GPU)

In [None]:
!pip install accelerate
!pip install bitsandbytes
!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

In [None]:
import torch

# Verificar se tem GPU dispon√≠vel
if torch.cuda.is_available():    

    # Informa PyTorch para usar GPU
    device = torch.device("cuda")

    print('Existe(m)  %d GPU(s) dispon√≠vel(eis).' % torch.cuda.device_count())

    print('Vamos usar a GPU:', torch.cuda.get_device_name(0))

# Se n√£o tem...
else:
    print('Sem GPU dispon√≠vel, usando CPU.')
    device = torch.device("cpu")

### Biblioteca Transformers com *Pytorch*

Aqui vamos usar a interface *Pytorch* porque possui um bom equil√≠brio entre as APIs de alto n√≠vel (f√°ceis de usar, mas sem fornecer informa√ß√µes sobre como as coisas funcionam) e c√≥digo de tensorflow (que cont√©m muitos detalhes, mas n√£o t√£o f√°ceis de usar).

No momento, a biblioteca **Hugging Face** √© a interface *Pytorch* mais utilizada para trabalhar com BERT. Al√©m de oferecer suporte a uma variedade de modelos pr√©-treinados, tamb√©m inclui modelos especializados para tarefas espec√≠ficas. Neste tutorial vamos usar *BertForSequenceClassification*.

A biblioteca tamb√©m inclui classes espec√≠ficas de tarefas para classifica√ß√£o de *tokens*, resposta a perguntas (Q&A), previs√£o da pr√≥xima frase, etc. O uso dessas classes pr√©-constru√≠das simplifica o processo de modifica√ß√£o de BERT para nossos prop√≥sitos.

### An√°lise

Podemos ver pelos nomes dos arquivos que temos as vers√µes originais e as tokenizadas dos dados.

N√£o vamos usar a vers√£o pr√©-tokenizada porque, para aplicar o nosso modelo BERT pr√©-treinado, devemos usar o tokenizador fornecido pelo modelo. Isso porque: (1) o modelo tem um vocabul√°rio espec√≠fico e fixo e (2) o tokenizador BERT tem uma maneira particular de lidar com palavras fora do vocabul√°rio.

Usaremos a biblioteca *pandas* para analisar o conjunto de treinamento e examinar algumas de suas propriedades.

In [None]:
!pip install pandas

In [None]:
import pandas as pd

# Carrega o dataset em um dataframe pandas
df = pd.read_csv("../dataset/cola_public/raw/in_domain_train.tsv", delimiter='\t', header=None, names=['sentence_source', 'label', 'label_notes', 'sentence'])

# Imprime o n√∫mero de frases.
print('N√∫mero de senten√ßas de treinamento: {:,}\n'.format(df.shape[0]))

# Exibe 10 frases rand√¥micas do dataset
df.sample(10)

As duas propriedades importantes s√£o as frases (*sentence*) e seus r√≥tulos (*label*), que podem ser 0 = incorreta e 1 = correta.

Aqui est√£o cinco frases que s√£o rotuladas como incorretas gramaticalmente (em ingl√™s). Observe como essa tarefa √© muito mais dif√≠cil do que algo como an√°lise de sentimento!

In [None]:
df.loc[df.label == 0].sample(5)[['sentence', 'label']]

Vamos extrair as frases e seus r√≥tulos do nosso corpus de treinamento como *numpy ndarrays*.

In [None]:
# Lista de senten√ßas e seus r√≥tulos
sentences = df.sentence.values
labels = df.label.values

### Tokeniza√ß√£o

Agora vamos transformar nosso conjunto de dados no formato em que o BERT pode ser treinado.

Para alimentar o BERT com nosso texto, ele deve ser dividido em *tokens* e, em seguida, esses *tokens* devem ser mapeados para seu √≠ndice no vocabul√°rio do tokenizador.

A tokeniza√ß√£o deve ser realizada pelo tokenizador inclu√≠do no modelo BERT que estamos trabalhando, que vamos baixar no c√≥digo abaixo.

In [None]:
!pip install transformers

In [None]:
from transformers import BertTokenizer

# Carregar o tokenizador BERT.
print('Carregando tokenizador BERT...')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)

Vamos aplicar o tokenizador a uma frase para ver a sa√≠da.

In [None]:
# Frase original
print(' Original: ', sentences[0])

# Frase dividida em tokens
print('Tokenizada: ', tokenizer.tokenize(sentences[0]))

# Senten√ßa mapeada em token ids
print('Token IDs: ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(sentences[0])))

Quando realmente convertermos todas as nossas senten√ßas, usaremos a fun√ß√£o ```tokenize.encode``` para lidar com ambas as etapas, em vez de chamar as fun√ß√µes que usamos acima separadamente.

Antes de fazermos isso, precisamos falar sobre alguns dos requisitos de formata√ß√£o do BERT.

### Formata√ß√£o

O c√≥digo acima omitiu algumas etapas de formata√ß√£o necess√°rias que veremos aqui.

Precisamos:
1. Adicionar *tokens* especiais no in√≠cio e fim de cada frase.
2. Prencher e truncar todas as frases para terem o mesmo comprimento.
3. Diferenciar explicitamente *tokens* reais de *tokens* de preenchimento (PAD) com a ‚Äúm√°scara de aten√ß√£o‚Äù.

**Tokens especiais**
[SEP] - No final de cada frase, precisamos acrescentar o token especial [SEP], que √© usado em tarefas de duas senten√ßas, onde BERT recebe duas senten√ßas separadas e √© solicitado a determinar algo (por exemplo, a resposta √† pergunta na senten√ßa A pode ser encontrada na senten√ßa B).

[CLS] - Para tarefas de classifica√ß√£o, devemos acrescentar o [CLS] ao in√≠cio de cada frase. Como o BERT consiste em 12 camadas de Tranformer, cada uma recebe uma lista de *embeddings* e produz o mesmo n√∫mero de *embeddings* na sa√≠da (com outros valores), na sa√≠da do transformador final (12¬∫), apenas o primeiro *embedding* (correspondente ao *token* [CLS]) √© usado pelo classificador .

‚ÄúO primeiro *token* de cada sequ√™ncia √© sempre um *token* de classifica√ß√£o especial ([CLS]), onde o estado oculto final deste *token* √© usado como a representa√ß√£o da sequ√™ncia agregada para tarefas de classifica√ß√£o.‚Äù (do artigo BERT)

N√£o precisamos pensar em estrat√©gias de *pool* sobre os *embeddings* finais, pois nesse token [CLS] de classifica√ß√£o, o modelo codificou tudo o que precisamos para a classifica√ß√£o naquele √∫nico vetor de incorpora√ß√£o de 768 valores. J√° est√° feito o *pool* para n√≥s!

*Comprimento da frase e m√°scara de aten√ß√£o*

As senten√ßas em nosso conjunto de dados obviamente t√™m comprimentos variados, ent√£o como o BERT lida com isso?

BERT tem duas restri√ß√µes:

- Todas as frases devem ser preenchidas ou truncadas em um √∫nico comprimento fixo.
- O comprimento m√°ximo da frase √© 512 *tokens*.

O preenchimento √© feito com um *token* especial [PAD], que est√° no √≠ndice 0 no vocabul√°rio BERT.

A ‚ÄúM√°scara de Aten√ß√£o‚Äù √© simplesmente uma matriz de 1s e 0s indicando quais *tokens* s√£o de preenchimento e quais n√£o s√£o (parece meio redundante, n√£o √© ?). Essa m√°scara diz ao mecanismo de ‚ÄúAutoaten√ß√£o‚Äù do BERT para n√£o incorporar esses *tokens* (PAD) em sua interpreta√ß√£o da frase.

O comprimento m√°ximo afeta a velocidade de treinamento e avalia√ß√£o. Por exemplo, com um Tesla K80:

MAX_LEN = 128 --> Cada √©poca leva ~5:28 para treinar

MAX_LEN = 64 --> Cada √©poca leva ~2:57 para treinar

**Tokenizar o conjunto de dados**

A biblioteca Transformers fornece uma fun√ß√£o ```encode``` que tratar√° da maioria das etapas de an√°lise e prepara√ß√£o de dados para n√≥s.

Antes de estarmos prontos para codificar nosso texto, precisamos decidir sobre o comprimento m√°ximo de frase para preenchimento ou truncamento.

A c√©lula abaixo realizar√° uma passagem de tokeniza√ß√£o em nosso conjunto de dados para medir o comprimento m√°ximo da frase.

In [None]:
max_len = 0

# Para cada frase
for sent in sentences:

    # Tokeniza o texto e adiciona os tokens `[CLS]` e `[SEP]`
    input_ids = tokenizer.encode(sent, add_special_tokens=True)

    # Atualiza o comprimento m√°ximo da frase
    max_len = max(max_len, len(input_ids))

print('Frase com tamanho m√°ximo no nosso dataset: ', max_len)

Para o caso de haver algumas senten√ßas mais longas no conjunto de teste, vams setar nosso comprimento m√°ximo em 64.

Agora estamos prontos para realizar a tokeniza√ß√£o.

A fun√ß√£o ```tokenizer.encode_plus``` realiza v√°rias etapas para n√≥s:

1. Divide a frase em *tokens*.
2. Adiciona os *tokens* especiais [CLS] e [SEP].
3. Mapeia os *tokens* para seus IDs.
4. Preenche ou trunca todas as frases com o mesmo comprimento.
5. Cria as m√°scaras de aten√ß√£o que diferenciam explicitamente *tokens* reais de *tokens* [PAD].

As primeiras quatro etapas s√£o realizadas pela fun√ß√£o ```tokenizer.encode```, mas vamos usar a ```tokenizer.encode_plus``` para a quinta etapa (m√°scaras de aten√ß√£o). [Documenta√ß√£o aqui](https://huggingface.co/transformers/main_classes/tokenizer.html?highlight=encode_plus#transformers.PreTrainedTokenizer.encode_plus)

In [None]:
# Tokeniza todas as frases e mapeia os tokens em seus IDs
input_ids = []
attention_masks = []

# Para cada frase
for sent in sentences:
    # `encode_plus` far√° o seguinte:
    #   (1) Tokeniza a frase
    #   (2) Adiciona o token `[CLS]` no inicio
    #   (3) Adiciona o token `[SEP]` no final
    #   (4) Mapeia os tokens em seus IDs.
    #   (5) Adiciona preenchimento (pad) ou trunca a frase at√° o comprimento m√°ximo (`max_length`)
    #   (6) Cria m√°scara de aten√ß√£o para os tokens [PAD].
    encoded_dict = tokenizer.encode_plus(
                        sent,                      # Frase a ser codificada
                        add_special_tokens = True, # Adiciona '[CLS]' e '[SEP]'
                        max_length = 64,           # Preenche & trunca todas as frases
                        pad_to_max_length = True,
                        return_attention_mask = True,   # Constr√≥i m√°scaras de aten√ß√£o
                        return_tensors = 'pt',     # Returna tensores pytorch.
                   )
    
    # Adiciona a frase codificada na lista
    input_ids.append(encoded_dict['input_ids'])
    
    # E sua m√°scara de aten√ß√£o (simplesmente diferencia tokens reais de tokens de preenchimento - PAD).
    attention_masks.append(encoded_dict['attention_mask'])

# Converte a lista em tensores
input_ids = torch.cat(input_ids, dim=0)
attention_masks = torch.cat(attention_masks, dim=0)
labels = torch.tensor(labels)

# Imprime frase 0, agora como uma lista de IDs.
print('Original: ', sentences[0])
print('Token IDs:', input_ids[0])

### Divis√£o dos dados - treinamento e valida√ß√£o

Precisamos agora dividir nosso conjunto de treinamento, em 90% para treinamento e 10% para valida√ß√£o.


In [None]:
from torch.utils.data import TensorDataset, random_split

# Combina as entradas de treinamento em um TensorDataset.
dataset = TensorDataset(input_ids, attention_masks, labels)

# Criar uma divis√£o 90-10 para treinamento-valida√ß√£o.

# Calcula o n√∫mero de inst√¢ncias para incluir em cada divis√£o
train_size = int(0.9 * len(dataset))
val_size = len(dataset) - train_size

# Divide o dataset pegando randomicamente as inst√¢ncia 
train_dataset, val_dataset = random_split(dataset, [train_size, val_size])

print('{:>5,} inst√¢ncias de treinamento'.format(train_size))
print('{:>5,} inst√¢ncias de valida√ß√£o'.format(val_size))

Vamos criar um iterador para nosso conjunto de dados usando a classe *DataLoader*, para economizar mem√≥ria durante o treinamento, visto que, ao contr√°rio de um *loop* com *for*, com o iterador o conjunto de dados inteiro n√£o precisa ser carregado na mem√≥ria.

In [None]:
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler

# O DataLoader precisa saber no tamanho do batch size para treinamento, ent√£o vamos espeficiar
# Para o fine-tuning em uma tarefa, os autores recomendam um batch size de 16 ou 32.
batch_size = 32

# Criar os DataLoaders para nossos conjuntos de treinamento e teste
# Vamos pegar inst√¢ncias de treinamento em ordem aleat√≥ria
train_dataloader = DataLoader(
            train_dataset,  # Exemplos de treinamento
            sampler = RandomSampler(train_dataset), # Seleciona batches aleatoriamente
            batch_size = batch_size # Treina com este batch size.
        )

# Para valida√ß√£o, a ordem n√£o importa, ent√£o vamos mant√™-la sequencial
validation_dataloader = DataLoader(
            val_dataset, # Exemplos de valida√ß√£o.
            sampler = SequentialSampler(val_dataset), # Executa os batches sequencialmente.
            batch_size = batch_size # Avalia com este batch size.
        )

## Modelo de classifica√ß√£o

Agora que nossos dados de entrada est√£o formatados corretamente, √© hora de especializar o modelo BERT.

### BertForSequenceClassification

Para a tarefa de classifica√ß√£o, vamos modificar o modelo BERT pr√©-treinado para fornecer sa√≠das para classifica√ß√£o e, em seguida, treinar todo modelo em nosso conjunto de dados at√© que esteja especializado para nossa tarefa.

Felizmente, a implementa√ß√£o *Pytorch* do Hugging Face inclui um conjunto de interfaces projetadas para uma variedade de tarefas de PLN. Embora essas interfaces sejam todas constru√≠das em cima de um modelo BERT treinado, cada uma tem diferentes camadas superiores e tipos de sa√≠da projetados para nossa tarefa PLN espec√≠fica.

Aqui est√° a lista atual de classes fornecidas para a especializa√ß√£o da tarefa (ajuste fino ou *fine tuning*):

1. BertModel
1. BertForPreTraining
1. BertForMaskedLM
1. BertForNextSentencePrediction
1. BertForSequenceClassification (**usaremos aqui**)
1. BertForTokenClassification
1. BertForQuestionAnswering

A documenta√ß√£o para eles pode ser encontrada [aqui](https://huggingface.co/transformers/v2.2.0/model_doc/bert.html).

Estaremos usando *BertForSequenceClassification*, modelo BERT com uma camada linear √∫nica adicionada no topo para classifica√ß√£o, que ser√° usado como um classificador de frases. A medida que alimentamos os dados de entrada, todo o modelo BERT pr√©-treinado e a camada adicional de classifica√ß√£o n√£o treinada ser√£o treinados em nossa tarefa espec√≠fica.

OK, vamos carregar o BERT! Existem alguns modelos diferentes de BERT pr√©-treinados dispon√≠veis. ‚Äúbert-base-uncased‚Äù, modell em ingl√™s, significa a vers√£o que tem apenas letras min√∫sculas (‚Äúsem caixa‚Äù) e √© a vers√£o menor das duas (‚Äúbase‚Äù vs ‚Äúlarge‚Äù).

A documenta√ß√£o do m√©todo ```from_pretrained``` pode ser encontrada [aqui](https://huggingface.co/transformers/v2.2.0/main_classes/model.html#transformers.PreTrainedModel.from_pretrained), com os par√¢metros adicionais definidos [aqui](https://huggingface.co/transformers/v2.2.0/main_classes/configuration.html#transformers.PretrainedConfig).

In [None]:
from transformers import BertForSequenceClassification, BertConfig
from torch.optim import AdamW

# Carrega a classe BertForSequenceClassification, o modelo pre-treinado com uma camada linear simples no topo
model = BertForSequenceClassification.from_pretrained(
    "bert-base-uncased", # Usa o BERT com 12 camadas, com vocabulario com caixa baixa
    num_labels = 2, # O n√∫mero de sa√≠das, ou r√≥tulos, do nosso modelo (classifica√ß√£o bin√°ria em nosso caso)
                    # Para tarefas com mais classes (multi-classe), podemos aumentar esse n√∫mero
    output_attentions = False, # Se o modelo deve retornar os pesos de aten√ß√£o
    output_hidden_states = False, # Se o modelo deve retornar todos estados escondidos
)

# Se voc√™ tem GPU, configura o pytorch para executar o modelo na GPU
model.cuda()

Apenas por curiosidade, podemos navegar por todos os par√¢metros do modelo.

Na c√©lula abaixo, imprimimos os nomes e dimens√µes dos pesos para:

1. A camada de incorpora√ß√£o.
1. O primeiro dos doze transformadores.
1. A camada de sa√≠da.

In [None]:
# Lista todos os paremtros do modelo como uma lista de tuplas
params = list(model.named_parameters())

print('O modelo BERT tem {:} par√¢metros diferentes.\n'.format(len(params)))

print('==== Camada de incorpora√ß√£o (Embedding) ====\n')

for p in params[0:5]:
    print("{:<55} {:>12}".format(p[0], str(tuple(p[1].size()))))

print('\n==== Primeiro Transformer ====\n')

for p in params[5:21]:
    print("{:<55} {:>12}".format(p[0], str(tuple(p[1].size()))))

print('\n==== Camada de Sa√≠da ====\n')

for p in params[-4:]:
    print("{:<55} {:>12}".format(p[0], str(tuple(p[1].size()))))

## Otimizador e taxas de aprendizagem ##

Agora que carregamos nosso modelo, precisamos pegar os hiperpar√¢metros de treinamento de dentro do modelo armazenado.

Para fins de ajuste fino, os autores recomendam escolher entre os seguintes valores (do Ap√™ndice A.3 do artigo de BERT ):

1. Tamanho do lote (*batch size*): 16, 32
1. Taxa de aprendizagem (*Adam*): 5e-5, 3e-5, 2e-5
1. N√∫mero de √©pocas: 2, 3, 4

Aqui vamos usar:

1. Tamanho do lote: 32 (definido ao criar nossos *DataLoaders*)
1. Taxa de aprendizagem: 2e-5
1. √âpocas: 4 (veremos que provavelmente s√£o muitas ...)

O par√¢metro ```eps = 1e-8``` √© ‚Äúum n√∫mero muito pequeno para evitar qualquer divis√£o por zero na implementa√ß√£o‚Äù (leia mais [aqui](https://machinelearningmastery.com/adam-optimization-algorithm-for-deep-learning/)).

Voc√™ pode encontrar a cria√ß√£o do otimizador *AdamW* em ```run_glue.py``` [aqui](https://github.com/huggingface/transformers/blob/5bfcd0485ece086ebcbed2d008813037968a9e58/examples/run_glue.py#L109).

In [None]:
# Nota: AdamW √© uma classe da biblioteca huggingface
# Provavelmente o 'W' √© de 'Weight Decay fix" ('Corre√ß√£o de redu√ß√£o de peso ")
optimizer = AdamW(model.parameters(),
                  lr = 2e-5, # args.learning_rate - o padr√£o √©  5e-5, aqui usamos 2e-5
                  eps = 1e-8 # args.adam_epsilon  - o padr√£o √© 1e-8.
                )

In [None]:
from transformers import get_linear_schedule_with_warmup

# N√∫mero de √©pocas de treinamento. Os autores do BERT recomendam entre 2 a 4. 
# N√≥s escolhemos 4, mas vamos ver depois que isso pode estar causando overfit nos dados de treinamento
epochs = 4

# N√∫mero total de passos de treinamento √© [n√∫mero de batches] x [n√∫mero de √©pocas]. 
# (Note que n√£o √© o mesmo que o n√∫mero de inst√¢ncias de treinamento).
total_steps = len(train_dataloader) * epochs

# Criando o programador de taxa de aprendizagem (learning rate scheduler)
scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps = 0, # Valor padr√£o no run_glue.py
                                            num_training_steps = total_steps)

## *Loop* de treinamento ##

Abaixo est√° o nosso *loop* de treinamento. H√° muita coisa acontecendo, mas fundamentalmente para cada passagem em nosso *loop*, temos uma fase de treinamento e uma fase de valida√ß√£o.

**Treinamento:**

1. Descompacta nossas entradas (dados e r√≥tulos)
1. Carrega dados na GPU para acelera√ß√£o (quando necess√°rio)
1. Limpa os gradientes calculados na passagem anterior
(no *pytorch*, os gradientes se acumulam por padr√£o (√∫til para RNNs), a menos que a gente limpe explicitamente)
1. Passo *Forward* (avan√ßo), alimentando os dados de entrada pela rede
1. Passo *Backward* (para tr√°s), ou retropropaga√ß√£o
1. Informa a rede para atualizar os par√¢metros com ```optimizer.step ()```
1. Rastreia vari√°veis para monitorar o progresso

**Avalia√ß√£o:**

1. Descompacta nossas entradas (dados e r√≥tulos)
1. Carrega dados na GPU para acelera√ß√£o (quando necess√°rio)
1. Passo *Forward* (avan√ßo), alimentando os dados de entrada pela rede
1. Calcula a perda (*loss*) em nossos dados de valida√ß√£o e rastreia vari√°veis para monitorar o progresso

*Pytorch* esconde todos os c√°lculos detalhados, mas comentamos o c√≥digo para apontar quais das etapas acima est√£o acontecendo em cada linha.

No c√≥digo abaixo, definimos uma fun√ß√£o auxiliar para calcular a precis√£o.

In [None]:
import numpy as np

# Fun√ß√£o para caluclar a acur√°cia das nossas perdi√ß√µes x r√≥tulos
def flat_accuracy(preds, labels):
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()
    return np.sum(pred_flat == labels_flat) / len(labels_flat)

Fun√ß√£o auxiliar para formatar o tempo decorrido (hh:mm:ss)

In [None]:
import time
import datetime

def format_time(elapsed):
    '''
    Pega o tempo em segundos e retorna como hh:mm:ss
    '''
    # Arredonda
    elapsed_rounded = int(round((elapsed)))
    
    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=elapsed_rounded))

Estamos prontos para come√ßar o treinamento!

In [None]:
import random
import numpy as np
import torch
import time
from transformers import get_linear_schedule_with_warmup

# Definir fun√ß√£o para formatar o tempo
def format_time(seconds):
    return "{:0>2}:{:0>2}:{:05.2f}".format(int(seconds//3600), int((seconds%3600)//60), seconds%60)

# Configurar semente para reprodutibilidade
seed_val = 42

random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

# Verificar se h√° GPU dispon√≠vel
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Inicializar estat√≠sticas de treinamento
training_stats = []
total_t0 = time.time()

# Fun√ß√£o para calcular acur√°cia
def flat_accuracy(logits, labels):
    preds = np.argmax(logits, axis=1).flatten()
    labels = labels.flatten()
    return np.sum(preds == labels) / len(labels)

# Loop de treinamento
for epoch_i in range(0, epochs):
    print(f"\n======== √âpoca {epoch_i + 1} / {epochs} ========")
    print("Treinando...")
    
    t0 = time.time()
    total_train_loss = 0
    model.train()
    
    for step, batch in enumerate(train_dataloader):
        if step % 40 == 0 and not step == 0:
            elapsed = format_time(time.time() - t0)
            print(f'  Batch {step:>5,} de {len(train_dataloader):>5,}. Tempo: {elapsed}')
        
        b_input_ids = batch[0].to(device)
        b_input_mask = batch[1].to(device)
        b_labels = batch[2].to(device)
        
        model.zero_grad()
        
        # Chamada atualizada para vers√µes recentes do Transformers
        outputs = model(b_input_ids, 
                       token_type_ids=None, 
                       attention_mask=b_input_mask, 
                       labels=b_labels)
        
        loss = outputs.loss
        logits = outputs.logits
        
        total_train_loss += loss.item()
        loss.backward()
        
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        optimizer.step()
        scheduler.step()
    
    avg_train_loss = total_train_loss / len(train_dataloader)
    training_time = format_time(time.time() - t0)
    
    print(f"\n  Perda m√©dia do treinamento: {avg_train_loss:.2f}")
    print(f"  √âpoca de treinamento levou: {training_time}")
    
    # Valida√ß√£o
    print("\nExecutando Valida√ß√£o...")
    t0 = time.time()
    
    model.eval()
    total_eval_accuracy = 0
    total_eval_loss = 0
    
    for batch in validation_dataloader:
        b_input_ids = batch[0].to(device)
        b_input_mask = batch[1].to(device)
        b_labels = batch[2].to(device)
        
        with torch.no_grad():
            outputs = model(b_input_ids, 
                          token_type_ids=None, 
                          attention_mask=b_input_mask,
                          labels=b_labels)
        
        loss = outputs.loss
        logits = outputs.logits
        
        total_eval_loss += loss.item()
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()
        
        total_eval_accuracy += flat_accuracy(logits, label_ids)
    
    avg_val_accuracy = total_eval_accuracy / len(validation_dataloader)
    avg_val_loss = total_eval_loss / len(validation_dataloader)
    validation_time = format_time(time.time() - t0)
    
    print(f"  Acur√°cia: {avg_val_accuracy:.2f}")
    print(f"  Valida√ß√£o Perda (Loss): {avg_val_loss:.2f}")
    print(f"  Valida√ß√£o levou: {validation_time}")
    
    training_stats.append({
        'epoch': epoch_i + 1,
        'Training Loss': avg_train_loss,
        'Valid. Loss': avg_val_loss,
        'Valid. Accur.': avg_val_accuracy,
        'Training Time': training_time,
        'Validation Time': validation_time
    })

print("\nTreinamento completo!")
print(f"Tempo total de treinamento {format_time(time.time()-total_t0)} (h:mm:ss)")

Vamos ver o resumo do processo de treinamento.

In [None]:
import pandas as pd

# Mostra n√∫meros com duas casas decimais
pd.set_option('display.precision', 2)

# Cria um DataFrame das nossas estat√≠sticas de treinamento
df_stats = pd.DataFrame(data=training_stats)

# Usa a √©poca como o √≠ndice da linha
df_stats = df_stats.set_index('epoch')

# For√ßar o agrupamento dos cabe√ßalho da coluna 
# df = df.style.set_table_styles([dict(selector="th",props=[('max-width', '70px')])])

# Mostra a tabela
df_stats

Observe que, enquanto a perda de treinamento est√° diminuindo a cada √©poca, a perda de valida√ß√£o est√° aumentando! Isso sugere que estamos treinando nosso modelo por muito tempo e que ele est√° se ajustando demais aos dados de treinamento.

(Para refer√™ncia, estamos usando 7.695 amostras de treinamento e 856 amostras de valida√ß√£o).

A perda de valida√ß√£o √© uma medida mais precisa do que a precis√£o, porque com a precis√£o n√£o nos importamos com o valor de sa√≠da exato, mas apenas em que lado de um limite ele cai.

Se estivermos prevendo a resposta correta, mas com menos confian√ßa, a perda de valida√ß√£o pegar√° isso, mas a precis√£o n√£o.

In [None]:
!pip install matplotlib
!pip install seaborn

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns

# Usando estilo
sns.set(style='darkgrid')

# Aumentando o tamanho e fonte 
sns.set(font_scale=1.5)
plt.rcParams["figure.figsize"] = (12,6)

# Plotando a curva de aprendizagem
plt.plot(df_stats['Training Loss'], 'b-o', label="Treinamento")
plt.plot(df_stats['Valid. Loss'], 'g-o', label="Valida√ß√£o")

# Adicionando t√≠tulos
plt.title("Perda de treinamento e valida√ß√£o")
plt.xlabel("√âpoca")
plt.ylabel("Perda")
plt.legend()
plt.xticks([1, 2, 3, 4])

plt.show()

## Desempenho no conjunto de teste 

Agora, carregaremos o conjunto de dados *holdout* e preparamos as entradas, como fizemos com o conjunto de treinamento. 

Em seguida, avaliaremos as previs√µes usando o [coeficiente de correla√ß√£o de Matthew](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.matthews_corrcoef.html), m√©trica usada para avaliar o desempenho no CoLA. Com essa m√©trica, +1 √© a melhor pontua√ß√£o e -1 √© a pior pontua√ß√£o. Dessa forma, podemos ver nosso desempenho em rela√ß√£o aos modelos de √∫ltima gera√ß√£o para essa tarefa espec√≠fica.

### Prepara√ß√£o de dados 

Precisaremos aplicar todas as mesmas etapas que fizemos para os dados de treinamento para preparar nosso conjunto de dados de teste.



In [None]:
import pandas as pd

# Carrega o dataset em um dataframe pandas
df = pd.read_csv("../dataset/cola_public/raw/out_of_domain_dev.tsv", delimiter='\t', header=None, names=['sentence_source', 'label', 'label_notes', 'sentence'])

# Imprime o n√∫mero de frases
print('N√∫mero de frases de teste: {:,}\n'.format(df.shape[0]))

# Cria as listas de frases e r√≥tulos
sentences = df.sentence.values
labels = df.label.values

# Tokeniza todas as senten√ßas e mapeia os tokens em seus IDs.
input_ids = []
attention_masks = []

# Para cada frase
for sent in sentences:
    # `encode_plus` vai:
    #   (1) Tokenizar a frase
    #   (2) Adicionar o token `[CLS]` no in√≠cio
    #   (3) Adicionar o token `[SEP]` no final.
    #   (4) Mapear tokens aos seus IDs.
    #   (5) Preencher ou truncar a frase at√© `max_length`
    #   (6) Criar m√°scara de aten√ß√£o para os tokens [PAD].
    encoded_dict = tokenizer.encode_plus(
                        sent,                      # Senten√ßa a ser codificada
                        add_special_tokens = True, # Adiciona '[CLS]' e '[SEP]'
                        max_length = 64,           # Preenche & trunca todas as senten√ßas
                        pad_to_max_length = True,
                        return_attention_mask = True,   # Constr√≥i m√°scara de aten√ß√£o
                        return_tensors = 'pt',     # Retorna tensores pytorch.
                   )
    
    # Adiciona a senten√ßa codificada na lista
    input_ids.append(encoded_dict['input_ids'])
    
    # E sua m√°scara de aten√ß√£o (simplesmente diferencia preenchimento (PAD) de n√£o-pad).
    attention_masks.append(encoded_dict['attention_mask'])

# Converte as listas em tensores.
input_ids = torch.cat(input_ids, dim=0)
attention_masks = torch.cat(attention_masks, dim=0)
labels = torch.tensor(labels)

# Seta o batch size.  
batch_size = 32  

# Cria o DataLoader.
prediction_data = TensorDataset(input_ids, attention_masks, labels)
prediction_sampler = SequentialSampler(prediction_data)
prediction_dataloader = DataLoader(prediction_data, sampler=prediction_sampler, batch_size=batch_size)

### Avalia√ß√£o no conjunto de teste ###

Com o conjunto de teste preparado, podemos aplicar nosso modelo ajustado para gerar previs√µes no conjunto de teste.

In [None]:
# Predi√ß√£o no conjunto de teste

print('Predi√ß√£o de r√≥tulos para {:,} frases de teste...'.format(len(input_ids)))

# coloca o modele em modo de avalia√ß√£o
model.eval()

# Vari√°veis de rastreamento
predictions , true_labels = [], []

# Predi√ß√£o 
for batch in prediction_dataloader:
  # Adiciona o batch na GPU
  batch = tuple(t.to(device) for t in batch)
  
  # Retira as entradas do dataloader
  b_input_ids, b_input_mask, b_labels = batch
  
  # Informa o modelo para n√£o computar gradientes, salvando mem√≥ria e acelerando a predi√ß√£o 
  with torch.no_grad():
      # Passo Forward, calcula as predi√ß√µes logit
      outputs = model(b_input_ids, token_type_ids=None, 
                      attention_mask=b_input_mask)

  logits = outputs[0]

  # Move as logits e r√≥tulos para CPU
  logits = logits.detach().cpu().numpy()
  label_ids = b_labels.to('cpu').numpy()
  
  # Armazen predi√ß√µes e r√≥tulos verdadeiros
  predictions.append(logits)
  true_labels.append(label_ids)

print('FIM.')

A precis√£o no *benchmark* CoLA √© medida usando o ‚Äúcoeficiente de correla√ß√£o de Matthews‚Äù (MCC).

Usamos MCC aqui porque as classes s√£o desequilibradas:

In [None]:
print('Inst√¢ncias positivas: %d de %d (%.2f%%)' % (df.label.sum(), len(df.label), (df.label.sum() / len(df.label) * 100.0)))

In [None]:
!pip install scikit-metrics

In [None]:
from sklearn.metrics import matthews_corrcoef

matthews_set = []

# Avaliando cada batch de teste usando MCC
print('Calculando MCC para cada batch...')

# Para cada batch
for i in range(len(true_labels)):
  
  # As predi√ß√µes para este batch s√£o a 2a. coluna do ndarray (uma coluna para "0" e outra para "1")
  # Pega o r√≥tulo com o maior valor e transforma em uma lista de 0s e 1s.
  pred_labels_i = np.argmax(predictions[i], axis=1).flatten()
  
  # Calcula e armazena o coef para este batch.  
  matthews = matthews_corrcoef(true_labels[i], pred_labels_i)                
  matthews_set.append(matthews)

A pontua√ß√£o final ser√° baseada em todo o conjunto de teste, mas vamos dar uma olhada nas pontua√ß√µes dos lotes individuais para ter uma no√ß√£o da variabilidade da m√©trica entre os lotes.

Cada lote cont√©m 32 senten√ßas, exceto o √∫ltimo lote que cont√©m apenas (516% 32) = 4 senten√ßas de teste.

In [None]:
# Cria um barplot mostrando o MCC para cada batch dos nossos exemplos de teste.
ax = sns.barplot(x=list(range(len(matthews_set))), y=matthews_set, ci=None)

plt.title('MCC por Batch')
plt.ylabel('MCC Score (-1 a +1)')
plt.xlabel('Batch #')

plt.show()

Agora combinaremos os resultados de todos os lotes e calcularemos nossa pontua√ß√£o final no MCC.

In [None]:
# Combina os resultados para todos os batches. 
flat_predictions = np.concatenate(predictions, axis=0)

# Para cada exemplo, pega o r√≥tulo (0 ou 1) com maior score
flat_predictions = np.argmax(flat_predictions, axis=1).flatten()

# Combina os r√≥tulos para cada batch em uma √∫nica lista.
flat_true_labels = np.concatenate(true_labels, axis=0)

# Calcula o MCC
mcc = matthews_corrcoef(flat_true_labels, flat_predictions)

print('Total MCC: %.3f' % mcc)

Legal! Em cerca de meia hora e sem fazer nenhum ajuste de hiperpar√¢metro (ajustando a taxa de aprendizagem, √©pocas, tamanho do lote, propriedades ADAM, etc.), obtivemos uma boa pontua√ß√£o.

Nota: Para maximizar a pontua√ß√£o, devemos remover o ‚Äúconjunto de valida√ß√£o‚Äù (que usamos para ajudar a determinar em quantas √©pocas treinar) e treinar em todo o conjunto de treinamento.

A biblioteca documenta a precis√£o esperada para este *benchmark* aqui como **49.23** ([ver tabela de classifica√ß√£o oficial](https://gluebenchmark.com/leaderboard/submission/zlssuBTm5XRs0aSKbFYGVIVdvbj1/-LhijX9VVmvJcvzKymxy)).

## Conclus√£o 

Com um modelo BERT pr√©-treinado, podemos criar de forma r√°pida e eficaz um modelo de alta qualidade com o m√≠nimo de esfor√ßo e tempo de treinamento usando a interface *Pytorch*, independentemente da tarefa PLN espec√≠fica em que estamos interessados.

### Salvar e carregar o modelo ajustado 

A pr√≥xima c√©lula grava o modelo e o tokenizador no disco.

In [None]:
import os

# Boa-pr√°tica: usar os nomes padr√£o dos modelos, para fazer load usando from_pretrained()
os.makedirs("../model", exist_ok=True)
output_dir = '../model/'

# Criar diret√≥rio de sa√≠da se necess√°rio
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

print("Savando modelo em %s" % output_dir)

# Salva um modelo treinado, sua configura√ß√£o e tokenizador com `save_pretrained()`.
# Eles podem ser carregados com `from_pretrained()`
model_to_save = model.module if hasattr(model, 'bert_classifier') else model  # Cuida do treinamento paralelo/distribu√≠do
model_to_save.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

# Boa-pr√°tica: salve os argumentos de treinamento junto com o modelo
# torch.save(args, os.path.join(output_dir, 'bert_classifier.bin'))
