# Etapa do Fine-tuning do Transformers
Etapa do fine-tuning no modelo DistilBERT pr√©-treinado nos nossos dados, para depois, salvarmos o modelo e seus respectivos pesos treinados.

Nesta etapa realizamos:
* Defini√ß√£o do modelo;
* Fine-tuning do modelo;
* Avalia√ß√£o do modelo;
* Salvamento do modelo e dos pesos treinados.

## Table of Contents
* [Pacotes](#1)
* [Carregando os Dados](#2)
* [Transformers](#3)
* [Transfer Learning](#4)
    * [Fine-tuning](#4.1)

<a name="1"></a>
## Pacotes
Pacotes que foram utilizados no sistema:
* [transformers](https://huggingface.co/docs/transformers/index): fornece APIs e ferramentas para baixar e treinar facilmente modelos pr√©-treinados de √∫ltima gera√ß√£o;
* [datasets](https://huggingface.co/docs/datasets/index): √© uma biblioteca para acessar e compartilhar facilmente datasets para tarefas de √°udio, vis√£o computacional e processamento de linguagem natural (NLP);
* [scikit-learn](https://scikit-learn.org/stable/): biblioteca open-source de machine learning;
* [src](../src/): pacote com todos os c√≥digos de todas as fun√ß√µes utilit√°rias criadas para esse sistema. Localizado dentro do diret√≥rio `../src/`.

In [49]:
from transformers import DistilBertForSequenceClassification, TrainingArguments, Trainer
from datasets import Dataset

import os
import sys
PROJECT_ROOT = os.path.abspath( # Obtendo a vers√£o absoluta normalizada do path ra√≠z do projeto
    os.path.join( # Concatenando os paths
        os.getcwd(), # Obtendo o path do diret√≥rio dos notebooks
        os.pardir # Obtendo a string constante usada pelo OS para fazer refer√™ncia ao diret√≥rio pai
    )
)
# Adicionando o path √† lista de strings que especifica o path de pesquisa para os m√≥dulos
sys.path.append(PROJECT_ROOT)
from src.transformers_finetuning import *

> **Nota**: os c√≥digos para as fun√ß√µes utilit√°rias utilizadas nesse sistema est√£o no script `transformers_finetuning.py` dentro do diret√≥rio `../src/`.

<a name="2"></a>
## Carregando os Dados
Vamos ler cada um dos subsets dentro de seus respectivos diret√≥rios dentro do diret√≥rio `../data/preprocessed/` e plotar cada um deles.

In [34]:
train_set = Dataset.load_from_disk('../data/preprocessed/train_dataset')
val_set = Dataset.load_from_disk('../data/preprocessed/validation_dataset')
test_set = Dataset.load_from_disk('../data/preprocessed/test_dataset')
print(f'Shape do train set: {train_set}\nShape do validation set: {val_set}\nShape do test set: {test_set}')

Shape do train set: Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 10156
})
Shape do validation set: Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 3385
})
Shape do test set: Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 3386
})


<a name="3"></a>
## Transformers
<img align='center' src='../figures/transformers.png' style='width:400px;'>
Transformer √© um modelo puramente baseado em attention que foi desenvolvido pelo Google para solucionar alguns problemas com RNNs, como o de ser dif√≠cil de explorar totalmente as vantagens da computa√ß√£o paralela, devido aos seus problemas decorrentes de sua estrutura sequencial. Em um RNN seq2seq, precisamos passar por cada palavra de nosso input, de forma sequencial pelo encoder, e √© feito de uma forma sequencial similar pelo decoder, sem computa√ß√£o paralela. Por esse motivo, n√£o h√° muito espa√ßo para c√°lculos paralelos. Quanto mais palavras temos na sequ√™ncia de input, mais tempo ser√° necess√°rio para process√°-la.

Com sequ√™ncias grandes, ou seja, com muitos $T$ steps sequenciais, as informa√ß√µes tendem a se perder na rede (loss of information) e problemas de vanishing gradients surgem relacionados ao comprimento de nossas input sequences. LSTMs e GRUs ajudam um pouco com esses problemas, mas mesmo essas arquiteturas param de funcionar bem quando tentam processar sequ√™ncias muito longas devido ao `information bottleneck`.
* `Loss of information`: √© mais dif√≠cil saber se o sujeito √© singular ou plural √† medida que nos afastamos do sujeito.
* `Vanishing gradients`: quando calculamos o backprop, os gradients podem se tornar muito pequenos e, como resultado, o modelo n√£o aprender√° nada.

Os transformers se baseiam em attention e n√£o exigem nenhum c√°lculo sequencial por layer, sendo necess√°rio apenas um √∫nico step. Al√©m disso, os steps de gradient que precisam ser realizados do √∫ltimo output para o primeiro output em um transformers s√£o apenas 1. Para RNNs, o n√∫mero de steps aumenta com sequ√™ncias mais longas. Por fim, os transformers n√£o sofrem com problemas de vanishing gradients relacionados ao comprimento das sequ√™ncias.

Transformers n√£o usam RNNs, attention √© tudo o que precisamos, e apenas algumas transforma√ß√µes lineares e n√£o lineares geralmente s√£o inclu√≠das. O modelo transformers foi introduzido em 2017 por pesquisadores do Google, e desde ent√£o, a arquitetura do transformer se tornou padr√£o para LLMs. Os transformers revolucionaram o campo de NLP.

O modelo transformers usa `scaled dot-product attention`. A primeira forma da attention √© muito eficiente em termos de computa√ß√£o e mem√≥ria, porque consiste apenas em opera√ß√µes de multiplica√ß√µes de matrizes. Esse mecanismo √© o n√∫cleo do modelo e permite que o transformers cres√ßa e se torne mais complexo, sendo mais r√°pido e usando menos mem√≥ria do que outras arquiteturas de modelos compar√°veis.

No modelo transformers, usaremos a `Multi-Head Attention layer`, essa layer √© executada em paralelo e tem v√°rios mecanismos scaled dot-product attention $h$ e v√°rias transforma√ß√µes lineares dos input queries $Q$, keys $K$ e values $V$. Nessa layer, as transforma√ß√µes lineares s√£o par√¢metros trein√°veis.
$$\text{ Attention}(Q, K, V) = \mathrm{softmax} \left( \frac{Q K^T}{\sqrt{d_k}} \right) V$$
<img align='center' src='../figures/attention.png' style='width:600px;'>

Os transformers `encoders` come√ßam com um m√≥dulo multi-head attention que executa a `self-attention` na input sequence. Isso √© seguido por uma residual connection e normaliza√ß√£o, em seguida, uma feed forward layer e outra residual connection e normaliza√ß√£o. A encoder layer √© repetida $N_x$ vezes.
* Self-attention: cada palavra no input corresponde a cada outra palavra no input sequence.
* Gra√ßas √† self-attention layer, o encoder fornecer√° uma representa√ß√£o contextual de cada um de nossos inputs.


O `decoder` √© constru√≠do de forma similar ao encoder, com m√≥dulos multi-head attention, residual connections e normaliza√ß√£o. O primeiro m√≥dulo de attention √© mascarado (`Masked Self-Attention`) de forma que cada posi√ß√£o atenda apenas √†s posi√ß√µes anteriores, ele bloqueia o fluxo de informa√ß√µes para a esquerda. O segundo m√≥dulo de attention (`Encoder-Decoder Attention`) pega o output do encoder e permite que o decoder atenda a todos os itens. Toda essa decoder layer tamb√©m √© repetida v√°rias $N_x$ vezes, uma ap√≥s a outra.
$$\text{ Masked Self-Attention } = \mathrm{softmax} \left( \frac{Q K^T}{\sqrt{d_k}} + M \right) = \mathrm{softmax} \left( \frac{Q K^T}{\sqrt{d_k}} + \text{ mask matrix } \begin{pmatrix} 0 & -\infty & -\infty \\ 0 & 0 & -\infty \\ 0 & 0 & 0 \end{pmatrix} \right)$$

Os transformers tamb√©m incorporam um `positional encoding stage` ($PE$), que codifica a posi√ß√£o de cada input na sequ√™ncia, ou seja, as informa√ß√µes sequenciais. Isso √© necess√°rio porque os transformers n√£o usam RNNs, mas a ordem das palavras √© relevante para qualquer idioma. A positional encoding √© trein√°vel, assim como as word embeddings.
$$\begin{align*}
& \text{PE}_{(\text{pos, }2i)} = \text{sin}\left( \frac{\text{pos}}{10000^{\frac{2i}{d}}} \right) \\
& \text{PE}_{(\text{pos, }2i + 1)} = \text{cos}\left( \frac{\text{pos}}{10000^{\frac{2i}{d}}} \right)
\end{align*}$$

Primeiro, √© calculado o embedding sobre o input e as positional encodings s√£o aplicadas. Ent√£o, isso vai para o encoder que consiste em v√°rias layers de m√≥dulos de Multi-Head Attention, em seguida, o decoder recebe a sequ√™ncia de output deslocada um step para a direita e os outputs do encoder. O output do decoder √© transformado em probabilidades de outputs usando uma layer linear com uma ativa√ß√£o softmax. Essa arquitetura √© f√°cil de paralelizar em compara√ß√£o com os modelos RNNs e pode ser treinada com muito mais efici√™ncia em v√°rias GPUs. Ela tamb√©m pode ser escalada para aprender v√°rias tarefas em datasets cada vez maiores. Transformers s√£o uma √≥tima alternativa aos RNNs e ajudam a superar esses problemas em NLP e em muitos campos que processam dados sequenciais.

Faremos o fine-tuning no modelo DistilBERT, que √© um modelo Transformer pequeno, r√°pido, barato e leve, treinado pela destila√ß√£o do modelo base BERT. Ele tem 40% menos par√¢metros que o bert-base-uncased, roda 60% mais r√°pido e preserva mais de 95% do desempenho do BERT conforme medido no benchmark GLUE (General Language Understanding Evaluation).

[Hugging Face](https://huggingface.co/) (ü§ó) √© o melhor recurso para transformers pr√©-treinados. Suas bibliotecas de c√≥digo aberto simplificam o download, o fine-tuning e o uso de modelos de transformers como DeepSeek, BERT, Llama, T5, Qwen, GPT-2 e muito mais. E a melhor parte, podemos us√°-los junto com TensorFlow, PyTorch ou Flax. Neste notebook, utilizo transformers ü§ó para usar o modelo `DistilBERT` para classifica√ß√£o de sentimento. Para a etapa do pr√©-processamento, usamos o tokenizador (no notebook `03_preprocessing.ipynb`), e no fine-tuning do checkpoint do DistilBERT `distilbert-base-uncased-finetuned-sst-2-english` pr√©-treinado no c√≥digo abaixo. Para isso inicializamos a classe DistilBertForSequenceClassification e definidos o modelo pr√©-treinado desejado.

<a name="4"></a>
## Transfer Learning
Para o modelo transformers, utilizamos a t√©cnica que transfer learning. Ela √© uma das ideias mais poderosas do deep learning, que √†s vezes, podemos pegar o conhecimento que a rede neural aprendeu em uma tarefa e aplicar esse conhecimento em uma tarefa separada. H√° 3 vantagens principais no transfer learning s√£o:
* Reduz o tempo de treinamento.
* Melhora as previs√µes.
* Nos permite usar datasets menores.

Se estamos criando um modelo, em vez de treinarmos os pesos do 0, a partir de uma inicializa√ß√£o aleat√≥ria, geralmente progredimos muito mais r√°pido baixando pesos que outra pessoa j√° treinou por dias/semanas/meses na arquitetura da rede neural, as usamos como pr√©-treinamento, e as transferimos para uma nova tarefa semelhante na qual possamos estar interessados. Isso significa que muitas vezes podemos baixar pesos de algoritmos open-source, que outras pessoas levaram semanas ou meses para descobrir, e ent√£o, usamos isso como uma inicializa√ß√£o muito boa para nossa rede neural.

<a name="4.1"></a>
### Fine-tuning
Com o modelo pr√©-treinado, aplicamos o fine-tuning. Ent√£o, pegamos os pesos de um modelo pr√©-treinado existente, utilizando transfer learning e, em seguida, ajustamos um pouco para garantir que funcionem na tarefa espec√≠fica em que estamos trabalhando. Digamos que pr√©-treinamos um modelos que prev√™ a avalia√ß√£o de filmes, e agora vamos criar um modelo para avaliar cursos. Uma maneira de fazer isso √©, bloqueando todos os pesos que j√° temos pr√©-treinados e, em seguida, adicionamos uma nova output layer, ou talvez, uma nova feed forward layer e uma output layer que ser√£o treinadas, enquanto mantemos o restante bloqueado e, em seguida, treinamos apenas a nossa nova rede, as novas layers que acabamos de adicionar. Podemos descongelar lentamente as layers, uma de cada vez.

Muitas das features de baixo n√≠vel que o modelo pr√©-treinado aprendeu a partir de um corpus muito grande, como a estrutura do texto, a natureza do texto, isso pode ajudar nosso algoritmo a se sair melhor na tarefa de classifica√ß√£o de sentimentos e mais r√°pido ou com menos dados, porque talvez o modelo tenha aprendido o suficiente como s√£o as estruturas de textos diferentes e parte desse conhecimento ser√° √∫til. Ap√≥s excluirmos a output layer de um modelo pr√©-treinado, n√£o precisamos necessariamente criar apenas a output layer, mas podemos criar v√°rias novas layers.

Precisamos remover a output layer do modelo pr√©-treinado e adicionar a nossa, porque a rede neural pode ter uma softmax output layer que gera um dos 1000 labels poss√≠veis. Ent√£o removemos essa output layer e criamos a nossa pr√≥pria output layer, nesse caso uma ativa√ß√£o sigmoid.

* Com um training set pequeno, pensamos no restante das layers como `congeladas`, ent√£o congelamos os par√¢metros dessas layers, e treinamos apenas os par√¢metros associados √† nossa output layer. Dessa forma obteremos um desempenho muito bom, mesmo com um training set pequeno.

* Com um training set maior, n√≥s podemos congelar menos layers e ent√£o treinar as layers que n√£o foram congeladas e a nossa nova output layer. Podemos usar as layers que n√£o est√£o congeladas como inicializa√ß√£o e usar o gradient descent a partir delas, ou tamb√©m podemos eliminar essas layers que n√£o est√£o congeladas e usamos nossas pr√≥prias hidden layers novas e nossa pr√≥pria output layer. Qualquer um desses m√©todos pode valer a pena tentar.

* Com um training set muito maior usamos essa rede neural pr√©-treinada e os seus pesos como inicializa√ß√£o e treinamos toda a rede neural, apenas alterando a output layer, com labels que nos importamos.

Definindo o checkpoint do modelo pr√©-treinado que faremos o fine-tuning.

In [12]:
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased-finetuned-sst-2-english')

Definindo os hiperpar√¢metros com o objeto `TrainingArguments`, usando o objeto `Trainer` do Hugging Face para realizar o fine-tuning do modelo.
* O modelo pr√©-treinado com o fine-tuning j√° est√° sendo salvo no diret√≥rio `../models/`, definido na defini√ß√£o dos hiperpar√¢metros.

In [14]:
# Hiperpar√¢metros do fine-tuning
training_args = TrainingArguments(
    output_dir='../models/transformers_results',
    overwrite_output_dir=True,
    num_train_epochs=2,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    warmup_steps=20,
    weight_decay=1e-1,
    eval_strategy='steps',
    lr_scheduler_type='reduce_lr_on_plateau',
    logging_steps=100
)
# Objeto Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_set,
    eval_dataset=val_set,
    compute_metrics=f1_metric
)
trainer.train()

Step,Training Loss,Validation Loss,F1 Score
100,0.6902,0.592717,0.684184
200,0.5923,0.547271,0.697679
300,0.5239,0.58544,0.712016
400,0.5112,0.488176,0.756529
500,0.4867,0.502221,0.761378
600,0.5219,0.474515,0.775508
700,0.5099,0.474097,0.76456
800,0.4786,0.448737,0.778758
900,0.4754,0.487454,0.767549
1000,0.5016,0.445698,0.818367


TrainOutput(global_step=2540, training_loss=0.4370420598608302, metrics={'train_runtime': 25970.5016, 'train_samples_per_second': 0.782, 'train_steps_per_second': 0.098, 'total_flos': 2690677801500672.0, 'train_loss': 0.4370420598608302, 'epoch': 2.0})

Avaliando o desempenho do modelo com fine-tuning no train e validation set.

In [44]:
print(f'Avalia√ß√£o do train set: {trainer.evaluate(train_set)["eval_f1_score"]:.4f}\nAvalia√ß√£o do validation set: {trainer.evaluate(val_set)["eval_f1_score"]:.4f}')

Avalia√ß√£o do train set: 0.9178
Avalia√ß√£o do validation set: 0.8523


Avaliando o desempenho do modelo final com fine-tuning no test set.

In [47]:
print(f'Avalia√ß√£o do test set: {trainer.evaluate(test_set)["eval_f1_score"]:.4f}')

Avalia√ß√£o do test set: 0.8518
