# Trabalho 2 - Tópicos em IA
#### Aluno: Matheus Bernard Mota
#### RGA: 2022.1904.008-6

---



## Eficácia de Diferentes Técnicas de Pooling na Detecção de Fake News

Neste notebook, utilizaremos o modelo BERT pré-treinado em pt-br **BERTimbau** com uma camada linear para classificação.
Para o Fine-tuning, utilizaremos o dataset de *fake-news* Fake.br corpus. A ideia é, a partir do modelo pré treinado, especializá-lo em: a partir de uma sequência (notícia), corretamente predizer se ela é verdadeira **(true)** ou falsa, **(fake)**.

O código fonte foi modularizado para melhor organização, compreensão e manutenibilidade e um notebook explicativo foi posto para direcionar a execução do procedimento e análise. 

---

## Procedimentos Iniciais
1. Anexar a pasta .src com este notebook, para que ele tenha acesso aos seus módulos
2. Realizar os imports iniciais
3. Mostra o device aceito pelo torch (#visualizações_adicionais)

In [1]:
#permite importar src

import os, sys
# import sys

root_relative_path = '../'
root = os.path.abspath(root_relative_path)

sys.path.append(root)

In [2]:
#importa tudo aquilo que importa
import torch
import random
import numpy as np
import evaluate

from src.dataset_loader import DatasetLoader
from src.custom_bertimbau_classifier import CustomBertimbauClassifier
# from src.baseline_bertimbau_classifier import BaselineBertimbauClassifier
from transformers import (
    BertForSequenceClassification, 
    EarlyStoppingCallback  #adicionado após ver que, na validação com 2 épocas, após o step 450, o modelo piorou a loss
)
from src.fine_tuner import FineTuner
import src.config as cfg


  from .autonotebook import tqdm as notebook_tqdm


In [3]:
#physics are relative, but this code gonna be DETERMINISTIC BABY!
random.seed(cfg.RANDOM_SEED) 
np.random.seed(cfg.RANDOM_SEED) 
torch.manual_seed(cfg.RANDOM_SEED)

torch.backends.cudnn.deterministic = True

In [4]:
print(cfg.DEVICE)

cpu


## Carregando o Dataset de Notícias

O dataset contém 7200 notícias, com labels num ratio de ~50%

#### Under the hood

O que este loader está fazendo?
1. Acessando o arquivo **pre-processed.csv** de um clone do repositório do Fake.br. (está no .gitignore, em caso de configuração local, este detalhe deve ser levado em conta)
2. Carregando um tokenizer, proveniente do próprio bertimbau, para traduzir o texto do corpus em tokens processados 
3. Separando as colunas dos textos e suas respectivas "labels", ou seja, classificação da veracidade da notícia
4. Separando, destas colunas, uma porcentagem para treino, validação(ajuste manual de parâmetros) e teste
5. transformando estes dados em tokens e preparando um dataset anexavel ao Trainer da biblioteca Transformers

In [5]:
path = os.path.join(root, cfg.PATH_TO_DATASET)
ds_loader = DatasetLoader(
    path=path,
    model_name=cfg.BERTIMBAU,
    max_len=cfg.SEQ_LEN
)

#conjunto para teste, validação e treino
train_dataset, val_dataset, test_dataset = (ds_loader
                                            .load_dataset(seed=cfg.RANDOM_SEED)
                                            .get_datasets())



In [6]:
#apenas para checar se tá tudo ok
print(train_dataset.encodings)
print(train_dataset[0])
print(repr(train_dataset))

{'input_ids': tensor([[  101,  1224,  2413,  ...,   524,   516,   102],
        [  101,  4004, 22278,  ...,  3554,   924,   102],
        [  101,  1979,   593,  ..., 12219,   229,   102],
        ...,
        [  101,  1368,  6554,  ...,     0,     0,     0],
        [  101,  1027,  1101,  ...,   393,   711,   102],
        [  101,  4363, 22283,  ..., 10588, 22281,   102]]), 'token_type_ids': tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1]])}
{'input_ids': tensor([  101,  1224,  2413, 20972,   516, 12440, 22283,  3887,   498,  5212,
         1945,   966,  1359,   160, 22292,  3344, 14208, 

In [None]:
salvar_test_dataset = False
if salvar_test_dataset:
    import pickle

    with open(os.path.join(root, 'documents', 'test_dataset.pkl'), 'wb') as f:
        pickle.dump(test_dataset, f)

## Carregando modelos BERTimbau

#### **baseline_model**
Versão do modelo onde o pooling é feito pela passagem do token **[CLS]**, presente no início de cada sentença, de modo a capturar o contexto geral de todo o documento. Este vetor é utilizado como entrada na camada de classificação.

#### **alternative_model**
Similarmente ao **baseline_model**, este modelo também aproveita do contexto capturado pelo token **[CLS]**, mas ele é concatenado com um vetor que calcula a média dos valores de todos os tokens presentes em cada sentença. Ou seja, se tenho X senteças de tamanho n  (os tamanhos variam, mas isso é regularizado com o token [PAD], que está configurado para não ser levado em consideração nas manipulações matriciais), cada i-ésimo token dos n tokens de cada sentença é somado X vezes, e uma média é retirada, divindindo o valor pelos numero de tokens significativos somados. Essa é outra forma de realizar o pooling, e garante um vetor de tamanho igual a de [CLS]. Estes dois vetores são então concatenados (dobrando o tamanho das features) e levado para a camada de classificação.

$$\text{mean\_pooling}(\mathbf{H}, \mathbf{M}) = \frac{\sum_{i=1}^{n} \mathbf{h}_i \cdot m_i}{\sum_{i=1}^{n} m_i}$$

onde:
- $\mathbf{H}$ é a matriz de embedding
- $\mathbf{M}$ é a matriz de atenção, responsável por eliminar os tokens [PAD] da conta 

$$\text{concat\_pooling}(\mathbf{H}, \mathbf{M}) = [\mathbf{h}_{[CLS]}; \text{mean\_pooling}(\mathbf{H}, \mathbf{M})]$$



In [7]:
model_kwargs = ds_loader.get_labels_mapping()

alternative_model = CustomBertimbauClassifier(cfg.BERTIMBAU, **model_kwargs).to(cfg.DEVICE)
# baseline_model = BaselineBertimbauClassifier(cfg.BERTIMBAU, **model_kwargs).to(cfg.DEVICE)
baseline_model = (BertForSequenceClassification
                    .from_pretrained(
                        cfg.BERTIMBAU,
                        **model_kwargs
                    )
                    .to(cfg.DEVICE))

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at neuralmind/bert-base-portuguese-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [8]:

print("Configuraç~ao dos Modelos:")
print(baseline_model)
print("___________________________________________")
print(alternative_model)

Configuraç~ao dos Modelos:
BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(29794, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm

## Fine tunando os modelos

### Lógica Geral do Fine-tuning

Aqui, na forma de um builder, está o pipeline seguido pelo fine-tuner até o treinamento.
Os argumentos foram alterados para suportar a versão customizada do bertimbau, e algumas técnicas foram utilizadas visto comportamento dos treinos anteriores...
Infelizmente, o CUDA não está disponível na máquina do autor, então 2 épocas foram utilizadas, em vez de três, que seria o padrão

In [9]:
#ADICIONANDO AS MÉTRICAS SUGERIDAS NA AVALIAÇÃO
#------------------------------------------------------
acc_metric = evaluate.load("accuracy")
prec_metric = evaluate.load("precision")
rec_metric = evaluate.load("recall")
f1_metric = evaluate.load("f1")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    preds = np.argmax(logits, axis=-1)
    
    return {
        "accuracy": acc_metric.compute(predictions=preds, references=labels)["accuracy"],
        "precision": prec_metric.compute(predictions=preds, references=labels, average="macro")["precision"],
        "recall": rec_metric.compute(predictions=preds, references=labels, average="macro")["recall"],
        "f1": f1_metric.compute(predictions=preds, references=labels, average="macro")["f1"]
    }

#EARLY STOPPING CALLBACK TECHNIQUE, 
# to prevent loss increasing (occured as said right above)

early_stopping_callback = EarlyStoppingCallback( early_stopping_patience=2 ) 

#FINE TUNING PIPELINE
#trouxe o pipeline para fora da classe, pois é uma peça importante que vale a pena estar a mostra
#------------------------------------------------------
def fine_tuning_pipeline(fine_tuner: FineTuner, model: torch.nn.Module, output_dir: str):
    global root, train_dataset, val_dataset, compute_metrics, cfg, early_stopping_callback
    return (
        fine_tuner
        .set_model(model)
        .set_compute_metrics(compute_metrics)
        .set_trainer_optimizer_params(lr_bert=cfg.LEARNING_RATE)
        .set_training_arguments(
            metric_for_best_model="f1",
            greater_is_better=True, #adicionado para o early stopping
            load_best_model_at_end=True, #adicionado para o early stopping
            output_dir=os.path.join(root,"documents",output_dir),
            eval_strategy="epoch",
            save_strategy="epoch",
            learning_rate=cfg.LEARNING_RATE,
            weight_decay=0.01,
            per_device_train_batch_size=cfg.BATCH_SIZE,
            per_device_eval_batch_size=cfg.BATCH_SIZE,
            num_train_epochs=cfg.NUM_EPOCHS,
            fp16=torch.cuda.is_available(),
            logging_steps=90,
            report_to="all",
            seed=cfg.RANDOM_SEED,
        )
        .set_trainer(
            train_dataset=train_dataset,
            eval_dataset=val_dataset,
            callbacks=[early_stopping_callback],
        )
        .train())

## Treinando modelo baseline 
(apenas um BertForSequenceClassification)

In [10]:

fine_tuner = FineTuner(
    tokenizer=ds_loader.get_tokenizer())

tuned_baseline_res = fine_tuning_pipeline(
    output_dir= "bertimbau-baseline-cls-ptbr",
    fine_tuner=fine_tuner,
    model=baseline_model
)

  self._trainer = Trainer(


Epoch,Training Loss,Validation Loss,Accuracy,Precision,Recall,F1
1,0.2511,0.299417,0.888889,0.904474,0.888889,0.887808
2,0.1281,0.220275,0.947222,0.947224,0.947222,0.947222




In [11]:
tuned_baseline_res

{'eval_loss': 0.2202746421098709,
 'eval_accuracy': 0.9472222222222222,
 'eval_precision': 0.9472237559113714,
 'eval_recall': 0.9472222222222222,
 'eval_f1': 0.9472221769737457,
 'eval_runtime': 205.0929,
 'eval_samples_per_second': 5.266,
 'eval_steps_per_second': 0.332,
 'epoch': 2.0}

## Treinando o Modelo Alternativo
Segue o mesmo pipeline, mas com as alterações necessárias sobreescritas na função forward do modelo

In [12]:

#bem que eu poderia criar um método de reset
fine_tuner = FineTuner(
    tokenizer=ds_loader.get_tokenizer())

tuned_alternative_res =  fine_tuning_pipeline(
    fine_tuner=fine_tuner,
    model=alternative_model,
    output_dir="bertimbau-alternativo-cls-ptbr",
)

  self._trainer = Trainer(


Epoch,Training Loss,Validation Loss,Accuracy,Precision,Recall,F1
1,0.2508,0.265315,0.90463,0.91442,0.90463,0.904063
2,0.118,0.214279,0.950926,0.951274,0.950926,0.950916




In [13]:
tuned_alternative_res

{'eval_loss': 0.21427933871746063,
 'eval_accuracy': 0.950925925925926,
 'eval_precision': 0.9512741312741313,
 'eval_recall': 0.950925925925926,
 'eval_f1': 0.9509164576500096,
 'eval_runtime': 187.3011,
 'eval_samples_per_second': 5.766,
 'eval_steps_per_second': 0.363,
 'epoch': 2.0}

---

## Realizando as **Predições!!**


In [16]:
preds = fine_tuner._trainer.predict(test_dataset) 
#eu não sabia que deveria pegar o predict assim, então não fiz o getter pro _trainer e violei o encapsulamento



In [18]:
preds.metrics

{'test_loss': 0.18827331066131592,
 'test_accuracy': 0.9564814814814815,
 'test_precision': 0.9567461937817185,
 'test_recall': 0.9564814814814815,
 'test_f1': 0.9564751751582663,
 'test_runtime': 297.7294,
 'test_samples_per_second': 3.627,
 'test_steps_per_second': 0.228}

In [19]:
fine_tuner._trainer.save_model(os.path.join(root, "documents", "model","bertimbau-alternativo"))