In [1]:
# !pip uninstall transformers -y
# !pip install transformers==4.48.3 -qqq

In [1]:
import os

os.environ["TOKENIZERS_PARALLELISM"] = "false"
if os.environ.get("TRANSFORMERS_CACHE"):
    os.environ["HF_HOME"] = os.environ.pop("TRANSFORMERS_CACHE")

import math
import re
import shutil
from typing import Any, Dict, List, Optional

import flash_attn
import pandas as pd
import tabulate
import torch
import torch.nn as nn
from datasets import Dataset, load_dataset
from flash_attn import flash_attn_qkvpacked_func
from huggingface_hub import Repository, whoami
from torch.optim import AdamW
from tqdm.auto import tqdm
from transformers import (
    AutoConfig,
    AutoModelForMaskedLM,
    AutoTokenizer,
    DataCollatorForLanguageModeling,
    get_linear_schedule_with_warmup,
)

In [2]:
# Constants
NUM_EXAMPLES_TO_TRAIN = 3000
MODEL_CHECKPOINT = "neuralmind/bert-base-portuguese-cased"
USERNAME = "emdemor"
TOKENIZER_PATH = "domain_tokenizer"
TESTING = True
FLASH_ATTENTION = False
PUSH_INTERVAL = 10_000 if TESTING else 100_000
DEVICE = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")

# A probabilidade de MLM determina quantos tokens serão mascarados durante o treinamento
# Usar diferentes probabilidades pode ajudar o modelo a aprender melhor
mlm_probabilities = [0.3, 0.2, 0.18, 0.16, 0.14]

In [3]:
def load_and_prepare_data(num_examples: int = NUM_EXAMPLES_TO_TRAIN) -> Dataset:
    """Load and prepare the dataset for training."""
    dataset = load_dataset("emdemor/news-of-the-brazilian-newspaper", split="train")
    df = dataset.to_pandas().sample(frac=1).reset_index(drop=True)
    temp = df.sample(min(num_examples, len(df)))
    texts = temp["text"].to_list() + temp["title"].to_list()
    texts = [phrase for text in texts if text for phrase in split_into_sentences(text)]
    return Dataset.from_dict({"text": list(set(texts))[:num_examples]})


def split_into_sentences(text: str) -> List[str]:
    """Split text into sentences."""
    return [
        sentence.strip()
        for sentence in re.split(r"(?<=[.!?])\s+", text)
        if sentence.strip()
    ]


def set_attention(model):

    def check_flash_attention_support():
        if not torch.cuda.is_available():
            return False
        try:
            qkv = torch.randn(1, 1, 3, 16, 64, dtype=torch.float16, device="cuda")
            flash_attn_qkvpacked_func(qkv, causal=False)
            return True
        except RuntimeError as e:
            print("Flash Attention não é compatível:", str(e))
            return False

    if FLASH_ATTENTION and check_flash_attention_support():
        print("Replacing standard attention with FlashAttention...")
        for module in model.modules():
            if isinstance(module, nn.MultiheadAttention):
                module.attention = FlashAttention()
        print("FlashAttention integrated.")

    return model

def check_vocab_size(tokenizer, model):

    # Verifique o maior ID no tokenizador
    max_token_id = max(tokenizer.get_vocab().values())
    print("Maior ID no tokenizador:", max_token_id)
    
    # Verifique o tamanho do vocabulário do modelo
    print("Tamanho do vocabulário do modelo:", model.config.vocab_size)
    
    # Se o maior ID for maior ou igual ao tamanho do vocabulário, há um problema
    assert max_token_id < model.config.vocab_size, "IDs de tokens fora do intervalo!"

def setup_model_and_tokenizer(
    model_checkpoint: str, tokenizer_path: str, device: torch.device
):
    """Setup model and tokenizer."""
    print(f"Loading custom tokenizer from {tokenizer_path}...")
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_path)
    print(f"Loading model config from {model_checkpoint}...")
    config = AutoConfig.from_pretrained(model_checkpoint)
    config.torch_dtype = torch.float16
    model = AutoModelForMaskedLM.from_pretrained(model_checkpoint, config=config)
    model.resize_token_embeddings(len(tokenizer))
    model.to(device)
    model = set_attention(model)
    check_vocab_size(tokenizer, model)
    return model, tokenizer


def tokenize_function(examples):
    return tokenizer(
        examples["text"],
        # No truncation and max_length to allow dynamic padding truncation=True, max_length=chunk_size, padding="longest",
        return_special_tokens_mask=True,
    )


def tokenize_dataset(dataset):

    print("Tokenizing dataset...")
    tokenized_dataset = dataset.map(
        tokenize_function,
        batched=True,
        remove_columns=dataset.column_names,
    )

    return tokenized_dataset

In [4]:
from dataclasses import dataclass


@dataclass
class ModelInfo:
    model_name: str
    output_dir: str


def get_model_info():
    model_name = MODEL_CHECKPOINT.split("/")[-1]
    model_info = ModelInfo(
        model_name=model_name,
        output_dir=f"{model_name}-ptbr-{'test' if TESTING else 'full'}",
    )
    if os.path.exists(model_info.output_dir):
        shutil.rmtree(model_info.output_dir)
    return model_info

In [5]:
import tabulate


@dataclass
class TrainingConfig:
    num_train_epochs: int
    chunk_size: int | None
    per_device_train_batch_size: int
    gradient_accumulation_steps: int
    eval_size_ratio: float
    total_save_limit: int
    estimated_dataset_size_in_rows: int

    @property
    def effective_batch_size(self):
        return self.per_device_train_batch_size * self.gradient_accumulation_steps

    @property
    def total_steps_per_epoch(self):
        return math.ceil(
            self.estimated_dataset_size_in_rows / self.effective_batch_size
        )

    @property
    def total_train_steps(self):
        return self.total_steps_per_epoch * self.num_train_epochs

    @property
    def eval_size_per_chunk(self):
        return int(self.estimated_dataset_size_in_rows * self.eval_size_ratio)

    def __repr__(self):
        data = [
            ["num_train_epochs", self.num_train_epochs],
            ["chunk_size", self.chunk_size],
            ["per_device_train_batch_size", self.per_device_train_batch_size],
            ["gradient_accumulation_steps", self.gradient_accumulation_steps],
            ["eval_size_ratio", self.eval_size_ratio],
            ["total_save_limit", self.total_save_limit],
            ["estimated_dataset_size_in_rows", self.estimated_dataset_size_in_rows],
            ["effective_batch_size", self.effective_batch_size],
            ["total_steps_per_epoch", self.total_steps_per_epoch],
            ["total_train_steps", self.total_train_steps],
            ["eval_size_per_chunk", self.eval_size_per_chunk],
        ]

        return tabulate.tabulate(data, headers=["Attribute", "Value"], tablefmt="grid")

## Definindo o DataCollator

### O que é um DataCollator no Contexto de Processamento de Linguagem Natural

Um DataCollator é uma componente fundamental no pipeline de treinamento de modelos de linguagem natural, especialmente quando trabalhamos com bibliotecas como a Hugging Face Transformers. Vou explicar em detalhes o que é, para que serve e como funciona.

#### Definição Básica

Um DataCollator é uma função ou classe responsável por agrupar vários exemplos individuais em um único lote (batch) que pode ser processado eficientemente pelo modelo durante o treinamento. O nome "collator" vem do verbo "collate", que significa reunir e organizar informações.

#### Por que Precisamos de DataCollators?

Quando treinamos modelos de linguagem, geralmente trabalhamos com textos de comprimentos variados. No entanto, os modelos de deep learning, especialmente aqueles implementados em PyTorch ou TensorFlow, esperam tensores de forma consistente (retangular). Isso cria um desafio:

1. Como transformar exemplos de tamanhos diferentes em uma estrutura uniforme?
2. Como fazer isso de maneira eficiente sem desperdiçar recursos computacionais?

É aqui que entra o DataCollator.

#### Funções Principais de um DataCollator

##### 1. Padding (Preenchimento)

A função mais importante é o preenchimento (padding). Como as sequências têm comprimentos diferentes, o DataCollator adiciona tokens especiais (geralmente 0s) para que todas as sequências em um lote tenham o mesmo comprimento.

Por exemplo, se tivermos estas três sequências:
```
[101, 2054, 2003, 102]  # "What is"
[101, 2054, 2003, 2023, 2003, 102]  # "What is this"
[101, 2054, 2003, 2023, 102]  # "What is this"
```

O DataCollator as transformaria em:
```
[101, 2054, 2003, 102, 0, 0]
[101, 2054, 2003, 2023, 2003, 102]
[101, 2054, 2003, 2023, 102, 0]
```

##### 2. Mascaramento para MLM (no caso de DataCollatorForLanguageModeling)

No código que você compartilhou, está sendo usado o `DataCollatorForLanguageModeling`, que é especializado para treinar modelos de linguagem mascarada (como BERT). Além do padding, ele:

- Seleciona aleatoriamente uma porcentagem dos tokens (definida por `mlm_probability`)
- Substitui esses tokens por um token especial [MASK]
- Mantém o registro dos tokens originais para calcular a perda durante o treinamento

Por exemplo, com `mlm_probability=0.15`:
```
Original: [101, 2054, 2003, 2023, 2003, 102]
Mascarado: [101, 2054, [MASK], 2023, 2003, 102]  # "2003" foi mascarado
```

##### 3. Otimização de Memória

Um bom DataCollator também otimiza o uso de memória. No código que você compartilhou, o `DynamicPaddingDataCollator` é um excelente exemplo disso:

- Em vez de preencher todas as sequências até um comprimento máximo fixo (por exemplo, 512 tokens)
- Ele calcula o comprimento máximo dentro do lote atual
- Preenche apenas até esse comprimento

Isso economiza muita memória quando a maioria das sequências em um lote é curta.

#### O Caso Específico do DynamicPaddingDataCollator

O `DynamicPaddingDataCollator` no seu código é uma extensão personalizada do `DataCollatorForLanguageModeling` padrão da Hugging Face. Ele:

1. Encontra o comprimento máximo dentro do lote atual
2. Para cada exemplo:
   - Calcula quanto preenchimento é necessário
   - Adiciona tokens de padding aos IDs de entrada
   - Adiciona zeros à máscara de atenção correspondente
   - Ou trunca se necessário (se a sequência for mais longa que o permitido)
3. Aplica a lógica de mascaramento do MLM
4. Garante que as formas e tipos dos tensores estão corretos usando a função `fix_batch_inputs`

#### Analogia para Entender Melhor

Pense no DataCollator como o gerente de uma mesa em um restaurante:

1. Várias pessoas (exemplos) chegam em grupos diferentes
2. O gerente precisa organizá-las em mesas (lotes) de tamanho fixo
3. Algumas mesas podem ter espaços vazios (padding)
4. Para um jogo especial durante o jantar (MLM), o gerente venda os olhos de algumas pessoas aleatoriamente

#### Por que o Dynamic Padding é Importante?

Considere dois cenários com 100 sequências, onde a maioria tem 20 tokens, mas algumas poucas têm 500:

1. **Padding Fixo**: Todas as 100 sequências são preenchidas até 500 tokens = 50.000 tokens totais
2. **Padding Dinâmico**: 
   - Lote 1: 16 sequências, max_len=20 → 320 tokens
   - Lote 2: 16 sequências, max_len=25 → 400 tokens
   - ...
   - Último lote: 4 sequências, max_len=500 → 2.000 tokens
   - Total muito menor que 50.000!

Essa economia permite:
- Treinar com lotes maiores
- Usar menos memória GPU
- Treinar modelos maiores
- Acelerar o treinamento

#### Conclusão

O DataCollator é uma peça crucial que prepara os dados brutos para o consumo eficiente pelo modelo. No caso do MLM, ele também implementa a estratégia de mascaramento que é central para o aprendizado. A versão com padding dinâmico que você está usando representa uma otimização inteligente que pode melhorar significativamente a eficiência do treinamento.

In [6]:
# --- Helper Function to Fix Batch Inputs ---
def fix_batch_inputs(inputs: dict) -> dict:
    """
    Esta função tem como objetivo garantir que os tensores de entrada tenham a forma e o tipo corretos:
    
    - Ela verifica três chaves importantes: "input_ids", "attention_mask" e "token_type_ids"
    - Remove dimensões extras (por exemplo, converte [1, batch, seq_len] para [batch, seq_len])
    - Converte "input_ids" para o tipo torch.long, que é o tipo esperado para IDs de tokens
    - Isso é importante porque inconsistências na forma dos tensores podem causar erros durante o treinamento
    """
    for key in ["input_ids", "attention_mask", "token_type_ids"]:
        if key in inputs:
            if inputs[key].dim() == 3 and inputs[key].shape[0] == 1:
                inputs[key] = inputs[key].squeeze(0)
            elif inputs[key].dim() > 2:
                raise ValueError(
                    f"Unexpected tensor shape for {key}: {inputs[key].shape}"
                )
    if "input_ids" in inputs and inputs["input_ids"].dtype != torch.long:
        inputs["input_ids"] = inputs["input_ids"].long()
    return inputs


# --- Forward Pass Function ---
def forward_pass(model, inputs):
    """
    Esta função realiza uma passagem para frente (forward pass) no modelo:
    
    - Primeiro, aplica a função fix_batch_inputs para garantir que as entradas estão corretas
    - Move os tensores para o dispositivo apropriado (CPU ou GPU)
    - Usa torch.amp.autocast para habilitar precisão mista automática quando estiver usando GPU
      - A precisão mista acelera o treinamento e reduz o uso de memória
    - Executa o modelo com as entradas e solicita que retorne um dicionário completo
    - Verifica se o modelo retornou uma perda (loss) e a retorna
    """
    inputs = fix_batch_inputs(inputs)
    inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
    with torch.amp.autocast("cuda", enabled=(DEVICE.type == "cuda")):
        outputs = model(**inputs, return_dict=True)
    if outputs.loss is None:
        raise ValueError("Model did not return a loss.")
    return outputs.loss


# --- Evaluation Function ---
def evaluate(model, eval_dataset, data_collator, batch_size):
    """
    Esta função avalia o desempenho do modelo no conjunto de dados de avaliação:
    
    - Coloca o modelo em modo de avaliação (model.eval())
    - Itera sobre o conjunto de dados de avaliação em lotes
    - Para cada lote:
      - Desativa o cálculo de gradientes com torch.no_grad()
      - Usa precisão mista se estiver em GPU
      - Calcula a perda e a adiciona à lista de perdas
      - Captura e imprime erros, mas continua a avaliação
    - Retorna ao modo de treinamento (model.train())
    - Calcula e retorna a perda média
    """
    model.eval()
    losses = []
    eval_iterator = eval_dataset.iter(batch_size=batch_size)
    for batch in tqdm(eval_iterator, desc="Evaluating"):
        with torch.no_grad(), torch.amp.autocast(
            "cuda", enabled=(DEVICE.type == "cuda")
        ):
            inputs = data_collator(batch)
            try:
                loss = forward_pass(model, inputs)
                losses.append(loss.item())
            except Exception as e:
                print(f"Evaluation batch failed: {e}. Skipping.")
                continue
    model.train()
    average_loss = sum(losses) / len(losses) if losses else float("inf")
    return average_loss


class DynamicPaddingDataCollator(DataCollatorForLanguageModeling):
    """
    Esta classe estende DataCollatorForLanguageModeling e implementa um colator de dados com preenchimento dinâmico:
    
    - O preenchimento dinâmico significa que cada lote é preenchido apenas até o comprimento da sequência mais longa naquele lote específico
    - Isso é mais eficiente que usar um comprimento fixo para todos os lotes
    - Para cada exemplo no lote:
      - Calcula quanto padding é necessário
      - Adiciona tokens de padding aos IDs de entrada e zeros às máscaras de atenção
      - Ou trunca se necessário
    - Aplica a lógica de colação de dados do MLM (mascaramento aleatório de tokens)
    - Garante formas e tipos corretos com fix_batch_inputs
    """

    def __call__(self, examples: Dict[str, Any]) -> Dict[str, torch.Tensor]:
        # Find the maximum length within the current batch
        max_length = max(len(input_ids) for input_ids in examples["input_ids"])

        # Pad or truncate each example to the max_length
        batch = []
        input_ids = examples["input_ids"]
        attention_mask = examples["attention_mask"]

        for ids, mask in zip(input_ids, attention_mask):
            padding_length = max_length - len(ids)
            if padding_length > 0:
                # Pad
                ids = torch.tensor(ids + [self.tokenizer.pad_token_id] * padding_length)
                mask = torch.tensor(mask + [0] * padding_length)
            elif padding_length <= 0:
                # Truncate (if enabled in your tokenizer)
                ids = torch.tensor(ids[:max_length])
                mask = torch.tensor(mask[:max_length])

            batch.append({"input_ids": ids, "attention_mask": mask})

        # Apply the rest of the data collation logic (MLM masking, etc.)
        batch = self.torch_call(
            batch
        )  # Use torch_call instead of __call__ to call the parent's method

        # Ensure correct shapes and dtypes
        batch = fix_batch_inputs(batch)

        return batch

# Pipeline

In [7]:
dataset = load_and_prepare_data()

model, tokenizer = setup_model_and_tokenizer(
    model_checkpoint=MODEL_CHECKPOINT,
    tokenizer_path=TOKENIZER_PATH,
    device=DEVICE,
)

Loading custom tokenizer from domain_tokenizer...
Loading model config from neuralmind/bert-base-portuguese-cased...


Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Maior ID no tokenizador: 32767
Tamanho do vocabulário do modelo: 32768


In [8]:
training_config = TrainingConfig(
    num_train_epochs=1,
    chunk_size=None,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=2,
    eval_size_ratio=0.05,
    total_save_limit=2,
    estimated_dataset_size_in_rows=len(dataset),
)

print(training_config)

+--------------------------------+---------+
| Attribute                      |   Value |
| num_train_epochs               |    1    |
+--------------------------------+---------+
| chunk_size                     |         |
+--------------------------------+---------+
| per_device_train_batch_size    |    4    |
+--------------------------------+---------+
| gradient_accumulation_steps    |    2    |
+--------------------------------+---------+
| eval_size_ratio                |    0.05 |
+--------------------------------+---------+
| total_save_limit               |    2    |
+--------------------------------+---------+
| estimated_dataset_size_in_rows | 3000    |
+--------------------------------+---------+
| effective_batch_size           |    8    |
+--------------------------------+---------+
| total_steps_per_epoch          |  375    |
+--------------------------------+---------+
| total_train_steps              |  375    |
+--------------------------------+---------+
| eval_siz

In [9]:
from torch.optim import AdamW

# --- Optimizer and Scheduler ---
optimizer = AdamW(model.parameters(), lr=5e-4, weight_decay=0.01)
scheduler = get_linear_schedule_with_warmup(
    optimizer, num_warmup_steps=0, num_training_steps=training_config.total_train_steps
)

# --- AMP scaler for mixed precision ---
scaler = torch.amp.GradScaler("cuda", enabled=(DEVICE.type == "cuda"))

model.train()
global_step = 0


tokenized_dataset = tokenize_dataset(dataset)

num_chunks = len(mlm_probabilities)
available_size = len(tokenized_dataset) - training_config.eval_size_per_chunk * num_chunks
if available_size < num_chunks:
    num_chunks = max(1, available_size)
    mlm_probabilities = mlm_probabilities[:num_chunks]

chunk_size_dataset = available_size // num_chunks


for epoch in range(training_config.num_train_epochs):
    for i, mlm_probability in enumerate(mlm_probabilities):
        print(
            f"\nEpoch {epoch + 1}/{training_config.num_train_epochs}, MLM Probability: {mlm_probability}"
        )

        data_collator = DynamicPaddingDataCollator(
            tokenizer=tokenizer, mlm_probability=mlm_probability
        )

        train_dataset = (
            tokenized_dataset.skip(i * chunk_size_dataset + training_config.eval_size_per_chunk)
            .take(chunk_size_dataset)
            .shuffle(seed=42)
        )
        eval_dataset = tokenized_dataset.skip(i * chunk_size_dataset).take(
            training_config.eval_size_per_chunk
        )

        train_iterator = train_dataset.iter(batch_size=training_config.per_device_train_batch_size)
        for step, batch in enumerate(
            tqdm(train_iterator, desc=f"Training (MLM {mlm_probability})")
        ):
            try:
                inputs = data_collator(batch)
                loss = forward_pass(model, inputs)
            except Exception as e:
                print(f"Training batch failed: {e}. Skipping.")
                continue

            scaler.scale(loss / training_config.gradient_accumulation_steps).backward()

            if (step + 1) % training_config.gradient_accumulation_steps == 0:
                scaler.step(optimizer)
                scaler.update()
                scheduler.step()
                optimizer.zero_grad()
                torch.cuda.empty_cache()  # Clear cache
                global_step += 1

                # Evaluation
                eval_interval = training_config.total_steps_per_epoch // (training_config.num_train_epochs * 4)
                if eval_interval > 0 and (global_step % eval_interval == 0):
                    eval_loss = evaluate(model, eval_dataset, data_collator, batch_size=training_config.per_device_train_batch_size)
                    print(f"Evaluation loss at step {global_step}: {eval_loss}")

                # Push to hub incl TESTING
                if global_step % PUSH_INTERVAL == 0:
                    print(f"Saving and pushing model at step {global_step}...")
                    model.save_pretrained(output_dir)
                    tokenizer.save_pretrained(output_dir)
                    print(f"Model saved and pushed at step {global_step}.")


Tokenizing dataset...


Map:   0%|          | 0/3000 [00:00<?, ? examples/s]


Epoch 1/1, MLM Probability: 0.3


Training (MLM 0.3): 0it [00:00, ?it/s]


Epoch 1/1, MLM Probability: 0.2


Training (MLM 0.2): 0it [00:00, ?it/s]

Evaluating: 0it [00:00, ?it/s]

Evaluation loss at step 93: 7.894379716170461

Epoch 1/1, MLM Probability: 0.18


Training (MLM 0.18): 0it [00:00, ?it/s]


Epoch 1/1, MLM Probability: 0.16


Training (MLM 0.16): 0it [00:00, ?it/s]

Evaluating: 0it [00:00, ?it/s]

Evaluation loss at step 186: 7.574212124473171

Epoch 1/1, MLM Probability: 0.14


Training (MLM 0.14): 0it [00:00, ?it/s]

Evaluating: 0it [00:00, ?it/s]

Evaluation loss at step 279: 8.023501885564704


In [10]:
model_info = get_model_info()


print("\nSaving and pushing final model...")
model.save_pretrained(model_info.output_dir)
tokenizer.save_pretrained(model_info.output_dir)
print("Final model saved and pushed.")


Saving and pushing final model...
Final model saved and pushed.


## Tempo

| # Rows| Duração |
|-------|---------|
| 1000  | 1m 33.89s |
| 2000  | 3m 5.12s  |
| 3000  | 4m 42.98s  |

