# Aula 4.4 — Pré-treinamento (Pretraining)

Nosso próximo modelo a ser observado é o **BERT** — _Bidirectional Encoder Representations from Transformers_ — o modelo que redefiniu o estado da arte em Processamento de Linguagem Natural (PLN) ao introduzir **pré-treinamento bidirecional profundo** baseado no encoder do Transformer.

---

## 1. Mas primeiro... Transfer Learning e Pré-Treinamento em Modelos de Linguagem

**Transfer Learning (Aprendizado por Transferência)** é uma técnica em que o conhecimento adquirido em uma tarefa é **reaproveitado** para resolver **outra tarefa diferente, mas relacionada**.

Em vez de treinar um modelo do zero (o que exige milhões de exemplos e recursos computacionais elevados), podemos **começar de um modelo já treinado em uma grande base de dados** e adaptá-lo para uma nova tarefa com poucos dados.

### Analogia intuitiva

Imagine que você aprende inglês e depois decide aprender espanhol.  
Você já tem um conhecimento prévio de estrutura gramatical, tempos verbais e alfabeto — então o aprendizado é **muito mais rápido**.  
O mesmo acontece com os modelos de linguagem: um modelo pré-treinado em grandes corpora já entende o “idioma” e o contexto geral do mundo, facilitando o aprendizado de tarefas específicas.

---

## 2. Por que o Transfer Learning é essencial em PLN?

Antes do Transfer Learning, cada tarefa (tradução, classificação, resposta a perguntas) exigia um **modelo treinado do zero**.  
Isso era **ineficiente** e **custoso**.

A revolução começou com o **Word2Vec** e o **GloVe**, que introduziram embeddings reutilizáveis de palavras.  
Mas esses métodos geravam vetores **estáticos** — ou seja, “banco” tinha o mesmo vetor em “banco de madeira” e “banco de dados”.

O BERT e outros modelos baseados em Transformers levaram isso adiante, produzindo **representações contextuais dinâmicas**.

> O mesmo token pode ter **significados diferentes**, dependendo do contexto.

---

## 3. O conceito de Pré-Treinamento (Pretraining)

O **pré-treinamento** é a primeira etapa do aprendizado por transferência.

Nesta fase, o modelo aprende **representações gerais da linguagem** sem depender de tarefas específicas.  
Ele é treinado com **objetivos auto-supervisionados**, ou seja, usa o próprio texto como “rótulo”.

Exemplos de objetivos de pré-treinamento:
- **Linguagem mascarada (MLM)** — prever palavras ocultas.
- **Previsão de próxima sentença (NSP)** — entender a relação entre duas sentenças.
- **Causal Language Modeling (CLM)** — prever a próxima palavra (como no GPT).

### Intuição

Durante o pré-treinamento, o modelo aprende:
- Que tipo de palavras tendem a aparecer juntas.
- Que estrutura sintática as frases têm.
- Que relações semânticas existem entre conceitos (por exemplo, “rei” → “rainha”, “paris” → “frança”).

Essas representações são **transferíveis** para novas tarefas.

---

## 4. Fine-Tuning: a etapa de especialização

Depois de pré-treinar um modelo em uma base gigantesca (ex: Wikipedia, BooksCorpus), fazemos o **fine-tuning**, ajustando os pesos do modelo em uma tarefa específica, com poucos dados.

| Etapa | Objetivo | Dados | Exemplo |
|:------|:----------|:-------|:--------|
| **Pré-treinamento** | Aprender linguagem geral | Bilhões de palavras | Wikipedia, Common Crawl |
| **Fine-tuning** | Adaptar a tarefa específica | Milhares de exemplos | Classificação, QA, NER |

Essa combinação é poderosa porque:
- Reaproveita conhecimento linguístico universal.
- Reduz drasticamente custo e tempo de treinamento.
- Aumenta a precisão mesmo com datasets pequenos.

---

## 5. Transfer Learning no contexto de Transformers

O artigo *Attention Is All You Need* (Vaswani et al., 2017) mostrou que o Transformer podia aprender dependências de longo alcance com eficiência.

O BERT (Devlin et al., 2018) pegou essa arquitetura e **pré-treinou apenas o encoder** em uma tarefa de linguagem geral.  
Assim, o modelo aprendeu a capturar **relações bidirecionais** (olhando para a esquerda e para a direita) e **transferir esse conhecimento** para diferentes aplicações de PLN.

---

## 6. Benefícios práticos do pré-treinamento

1. **Generalização**: o modelo entende padrões linguísticos universais.  
2. **Eficiência**: o fine-tuning é rápido e requer poucos dados.  
3. **Desempenho**: melhora significativa em benchmarks (GLUE, SQuAD, etc.).  
4. **Reuso**: o mesmo modelo base pode ser adaptado a múltiplas tarefas.  
5. **Aprendizado contínuo**: novos dados podem expandir o conhecimento sem recomeçar do zero.

             ┌───────────────────────────┐
             │     Pré-Treinamento       │
             │ (Auto-supervisão, MLM/NSP)│
             └────────────┬──────────────┘
                          │
                          ▼
             ┌───────────────────────────┐
             │        Fine-Tuning         │
             │ (Tarefas específicas)      │
             └────────────┬──────────────┘
                          │
                          ▼
            Classificação | QA | NER | Tradução

## 7. Estratégias de Pré-Treinamento em Modelos de Linguagem

---

### 7.1. Por que existem diferentes formas de pré-treino?

Os modelos de linguagem podem aprender de maneiras distintas, dependendo **da direção da previsão**, **da unidade de predição** (palavra, subpalavra, token), e **do tipo de sinal supervisionado** disponível.

O objetivo do pré-treinamento é sempre o mesmo:
> Aprender representações linguísticas gerais e contextuais, **sem precisar de rótulos humanos**.

Mas existem **diversas formas** de fazer isso, cada uma com características próprias.  
A seguir, veremos as mais importantes, em ordem histórica e conceitual.

#### 7.1.1 O que é auto-supervisão?

**Aprendizado auto-supervisionado (Self-Supervised Learning)** é uma forma de aprendizado de máquina em que o próprio modelo **gera seus próprios rótulos** a partir dos dados brutos.

Em vez de precisar de um conjunto de dados anotado manualmente (como em aprendizado supervisionado), o modelo cria **tarefas auxiliares artificiais**, que permitem aprender padrões e representações **de forma autônoma**.

Imagine que você tenha milhões de frases sem rótulos.  
Você pode transformar esse texto em uma tarefa de aprendizado assim:

> “Remova uma palavra aleatória e peça para o modelo adivinhar qual era.”

O modelo agora tem:
- **Entrada:** frase com lacuna → “O gato ___ no sofá.”
- **Saída (rótulo):** palavra removida → “dorme”

Nenhum humano precisou rotular nada — o dado forneceu o próprio sinal de aprendizado.  
Isso é **auto-supervisão**.

#### 7.1.2 Por que a auto-supervisão é tão poderosa?

Antes dela, os modelos de NLP dependiam de dados rotulados — algo escasso e caro.  
A auto-supervisão aproveita o **texto abundante** da internet (livros, artigos, Wikipedia, etc.),  
criando tarefas de aprendizado como:

- **Prever palavras mascaradas** (BERT)
- **Prever a próxima palavra** (GPT)
- **Detectar sentenças incoerentes** (BERT)
- **Reconstruir texto corrompido** (T5, BART)
- **Distinguir tokens substituídos** (ELECTRA)

Essas tarefas forçam o modelo a **entender a estrutura da linguagem** — gramática, semântica, coocorrência, relações sintáticas — sem que ninguém precise ensinar explicitamente.

#### 7.1.3 Relação com outras formas de aprendizado

| Tipo de aprendizado | Precisa de rótulos humanos? | Exemplo |
|----------------------|-----------------------------|----------|
| **Supervisionado** | ✅ Sim | Classificação de sentimentos, NER |
| **Não supervisionado** | ❌ Não | Clustering, autoencoders |
| **Auto-supervisionado** | ❌ Não (gera rótulos automaticamente) | MLM (BERT), CLM (GPT), RTD (ELECTRA) |
| **Reforço (RL)** | ⚙️ Recompensas, não rótulos diretos | RLHF no ChatGPT |

#### 7.1.4 Auto-supervisão como fundação dos LLMs

Modelos como **BERT**, **GPT**, **T5**, **RoBERTa** e **LLaMA** são todos treinados com **tarefas auto-supervisionadas**.  
O modelo observa texto cru, cria um “jogo” interno (prever partes ocultas, continuar o texto etc.) e, ao vencer esse jogo repetidas vezes, **aprende o idioma humano**.

> Em outras palavras: o modelo aprende **sem que ninguém precise explicitar o que é “correto”** — o próprio texto fornece as pistas.



---

### 7.2. Linguagem causal (unidirecional)
#### *Causal Language Modeling (CLM)*

Essa é a forma mais tradicional, usada em modelos como o **GPT**, **Transformer Decoder** e modelos de geração de texto.

A ideia é simples:
> O modelo prevê a **próxima palavra**, dado o contexto anterior.

#### Exemplo

| Tipo | Entrada | Saída esperada |
|------|----------|----------------|
| CLM | “O gato dorme no” | “sofá” |

O modelo aprende uma distribuição $ P(w_t \mid w_1, w_2, ..., w_{t-1}) $.

**Características:**
- É **autoregressivo** (gera um token por vez).
- Aprende a produzir texto coerente da esquerda para a direita.
- Ideal para **geração de texto**, **tradução** e **chatbots**.

**Modelos que usam CLM:**  
GPT, GPT-2, GPT-3, LLaMA, Falcon, Mistral, etc.

---

### 7.3. Linguagem mascarada (bidirecional)
#### *Masked Language Modeling (MLM)*

Introduzida pelo **BERT**, essa abordagem mascara aleatoriamente alguns tokens da entrada e pede que o modelo os reconstrua, usando **contexto dos dois lados** (esquerda e direita).

#### Exemplo

| Tipo | Entrada | Saída esperada |
|------|----------|----------------|
| MLM | “O gato [MASK] no sofá.” | “dorme” |

**Características:**
- Permite **aprendizado bidirecional**, pois o modelo vê toda a sentença ao mesmo tempo.
- Excelente para tarefas de **compreensão de texto**, mas **não** para geração sequencial.
- Normalmente, 15% dos tokens são mascarados:
  - 80% viram `[MASK]`
  - 10% são substituídos por uma palavra aleatória
  - 10% ficam inalterados (para estabilidade)

**Modelos que usam MLM:**  
BERT, RoBERTa, ALBERT, ELECTRA (em parte).

---

### 7.4. Modelos de substituição discriminativa
#### *Replaced Token Detection (RTD)*

Usado no **ELECTRA**, é uma alternativa mais eficiente ao MLM.

Em vez de prever diretamente a palavra mascarada, o modelo é treinado como um **discriminador**:
> Ele tenta identificar quais tokens foram **substituídos por palavras falsas** geradas por outro modelo.

#### Exemplo

| Tipo | Entrada | Tarefa |
|------|----------|--------|
| RTD | “O gato dorme no sofá.” (onde “sofá” foi trocado por “carro”) | Dizer se cada token é original ou substituído |

**Características:**
- O modelo aprende com **todos os tokens**, e não só os mascarados.
- O treinamento é mais **eficiente** e **estável**.
- A saída é **binária** por token: verdadeiro (original) ou falso (substituído).

**Modelo que usa RTD:**  
ELECTRA.

---

### 7.5. Treinamento de pares de sentenças
#### *Next Sentence Prediction (NSP)* e variantes

Introduzido também no **BERT original**, o NSP ensina o modelo a **entender relações entre sentenças**.

#### Exemplo

| Entrada | Rótulo |
|----------|--------|
| (A) “O gato subiu na árvore.”<br>(B) “Ele não conseguia descer.” | É sequência (IsNext) |
| (A) “O gato subiu na árvore.”<br>(B) “O carro é azul.” | Não é sequência (NotNext) |

**Características:**
- Útil para tarefas envolvendo **coerência entre sentenças** (ex: QA, inferência textual).
- Mas pesquisas posteriores (ex: RoBERTa) mostraram que o NSP **nem sempre melhora** o desempenho — e pode até atrapalhar.

**Modelos que usam NSP:**  
BERT (usa), RoBERTa (remove), ALBERT (substitui por “Sentence Order Prediction”).

---

### 7.6. Linguagem permutada
#### *Permutation Language Modeling (PLM)*

Introduzida pelo **XLNet**, combina o melhor dos dois mundos (CLM e MLM).

> O modelo aprende a prever tokens mascarados, mas em **ordens aleatórias** — assim, mantém a bidirecionalidade **sem usar [MASK]**.

#### Exemplo

> Frase: “O gato dorme no sofá.”

> Permuta possível: prever “no” a partir de “O, gato, dorme, sofá”.

**Características:**
- Modelo bidirecional e generativo ao mesmo tempo.
- Evita o problema do `[MASK]`, que não aparece em textos reais.
- Mais complexo de treinar, mas muito poderoso.

**Modelo que usa PLM:**  
XLNet.

---

### 7.7. Modelos seq2seq de reconstrução
#### *Denoising Autoencoding (DAE)*

Usado no **T5** (Text-to-Text Transfer Transformer).

> O modelo recebe uma entrada corrompida e tenta reconstruí-la **como uma sequência de saída completa**.

#### Exemplo

| Entrada (corrompida) | Saída |
|----------------------|-------|
| “O [MASK] preto correu [MASK].” | “O gato preto correu rápido.” |

**Características:**
- Treina o modelo no formato “texto → texto”.
- Permite fine-tuning direto em várias tarefas textuais.
- Extremamente flexível (tradução, QA, sumarização, etc.).

**Modelos que usam DAE:**  
T5, BART.

---

### 7.8. Comparativo entre abordagens

| Tipo de pré-treino | Direcionalidade | Exemplo de modelo | Ideal para |
|---------------------|-----------------|-------------------|-------------|
| CLM (causal) | Unidirecional | GPT, LLaMA | Geração de texto |
| MLM (mascarado) | Bidirecional | BERT, RoBERTa | Compreensão |
| RTD (discriminativo) | Bidirecional | ELECTRA | Eficiência |
| NSP / SOP | Inter-sentença | BERT, ALBERT | Coerência textual |
| PLM (permuta) | Bidirecional + sequencial | XLNet | Contexto + geração |
| DAE (reconstrução) | Seq2Seq | T5, BART | Tradução, sumarização |

---

### Em geral...

Não existe uma única “melhor” forma de pré-treino — a escolha depende da **tarefa final** e do **tipo de representação desejada**.

- Para **compreender texto** → preferimos **MLM/RTD**.  
- Para **gerar texto** → usamos **CLM ou DAE**.  
- Para **reconhecer relações entre sentenças** → incluímos **NSP/SOP**.

O BERT introduziu o **MLM + NSP**, consolidando o pré-treinamento bidirecional como paradigma dominante em modelos de compreensão textual.

In [None]:
# ============================================
# BERT (MLM) — Pré-treinamento simples
# ============================================

# ===== (Colab) Instalar libs =====
try:
    import google.colab  # type: ignore
    IN_COLAB = True
except Exception:
    IN_COLAB = False

if IN_COLAB:
    !pip -q install -U "transformers>=4.39" "accelerate>=0.28" "datasets>=2.14" "pyarrow>=14"

import os, math, random, inspect
import torch

SEED = 42
random.seed(SEED)
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# ---------------------------
# Configurações gerais
# ---------------------------
MODEL_NAME  = "bert-base-uncased"    # ponto de partida (continual pretraining)
OUTPUT_DIR  = "bert-mlm-output"
BLOCK_SIZE  = 128
MLM_PROB    = 0.15
EPOCHS      = 1
BATCH_TRAIN = 16
BATCH_EVAL  = 16
USE_RANDOM_INIT = False  # True = treinar do zero (didático; mais lento)

# ---------------------------
# Utilitários de compatibilidade
# ---------------------------
from transformers import TrainingArguments, Trainer
import transformers

print("transformers version:", transformers.__version__)

def build_training_arguments(**kwargs):
    """
    Cria TrainingArguments aceitando somente os parâmetros suportados
    na versão instalada do transformers.
    """
    sig = inspect.signature(TrainingArguments.__init__)
    allowed = set(sig.parameters.keys()); allowed.discard("self")
    filtered = {k: v for k, v in kwargs.items() if k in allowed}
    dropped = [k for k in kwargs if k not in allowed]
    if dropped:
        print("[Aviso] Parâmetros ignorados (não suportados nesta versão):", dropped)
    return TrainingArguments(**filtered)

# ---------------------------
# Tokenizer e Modelo
# ---------------------------
from transformers import (
    BertConfig, BertTokenizerFast, BertForMaskedLM,
    DataCollatorForLanguageModeling
)

tokenizer = BertTokenizerFast.from_pretrained(MODEL_NAME)

if USE_RANDOM_INIT:
    print(">> Inicializando BERT do zero (pesos aleatórios).")
    config = BertConfig.from_pretrained(MODEL_NAME)
    model  = BertForMaskedLM(config)
else:
    print(">> Carregando BERT pré-treinado para continual pretraining.")
    model  = BertForMaskedLM.from_pretrained(MODEL_NAME)

model.to(device)

# ============================================================
# TENTATIVA 1: usar datasets (WikiText-2)
# ============================================================
USE_FALLBACK = False
train_dataset = None
eval_dataset  = None
data_collator = None

try:
    from datasets import load_dataset
    raw = load_dataset("wikitext", "wikitext-2-raw-v1")
    print(raw)

    def tokenize_function(examples):
        return tokenizer(examples["text"], return_special_tokens_mask=False)

    tokenized = raw.map(tokenize_function, batched=True, remove_columns=["text"])

    def group_texts(examples):
        concatenated = {k: sum(examples[k], []) for k in examples.keys()}
        total_length = len(concatenated["input_ids"])
        total_length = (total_length // BLOCK_SIZE) * BLOCK_SIZE
        result = {
            k: [t[i: i + BLOCK_SIZE] for i in range(0, total_length, BLOCK_SIZE)]
            for k, t in concatenated.items()
        }
        return result

    lm_datasets = tokenized.map(group_texts, batched=True)
    train_dataset = lm_datasets["train"]
    eval_dataset  = lm_datasets["validation"]

    print("Tamanhos — train:", len(train_dataset), " | eval:", len(eval_dataset))

    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer, mlm=True, mlm_probability=MLM_PROB
    )

except Exception as e:
    print("\n[AVISO] Falha ao usar `datasets`/pyarrow:", repr(e))
    print("Ativando FALLBACK para um corpus simples em memória.")
    USE_FALLBACK = True

# ============================================================
# FALLBACK: corpus simples em memória (sem datasets/pyarrow)
# ============================================================
if USE_FALLBACK:
    corpus_text = """
    Deep learning has significantly advanced the state of the art in natural language processing.
    Transformers enable parallel training and capture long-range dependencies effectively.
    Self-supervised pretraining allows models to learn from raw text without human labels.
    BERT uses masked language modeling to learn bidirectional context.
    Large corpora such as Wikipedia and BooksCorpus are commonly used for pretraining.
    Neural networks trained on vast amounts of data acquire powerful representations.
    """.strip().splitlines()
    corpus_text = [c.strip() for c in corpus_text if c.strip()]

    enc = tokenizer(corpus_text, return_special_tokens_mask=False)

    def chunkify(encodings, block_size):
        ids = sum(encodings["input_ids"], [])
        att = sum(encodings["attention_mask"], [])
        total = (len(ids) // block_size) * block_size
        ids = [ids[i:i+block_size] for i in range(0, total, block_size)]
        att = [att[i:i+block_size] for i in range(0, total, block_size)]
        samples = []
        for x, a in zip(ids, att):
            samples.append({
                "input_ids": torch.tensor(x, dtype=torch.long),
                "attention_mask": torch.tensor(a, dtype=torch.long)
            })
        return samples

    chunks = chunkify(enc, BLOCK_SIZE)

    class ListDataset(torch.utils.data.Dataset):
        def __init__(self, data): self.data = data
        def __len__(self): return len(self.data)
        def __getitem__(self, idx): return self.data[idx]

    # usa 80/20 como split simples
    split = int(0.8 * len(chunks)) if len(chunks) > 1 else 1
    train_dataset = ListDataset(chunks[:split])
    eval_dataset  = ListDataset(chunks[split:])

    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer, mlm=True, mlm_probability=MLM_PROB
    )

# ============================================================
# TrainingArguments + Trainer
# ============================================================
args = build_training_arguments(
    output_dir=OUTPUT_DIR,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    logging_steps=50,
    num_train_epochs=EPOCHS,
    per_device_train_batch_size=BATCH_TRAIN,
    per_device_eval_batch_size=BATCH_EVAL,
    gradient_accumulation_steps=1,
    fp16=torch.cuda.is_available(),
    learning_rate=5e-5,
    weight_decay=0.01,
    max_grad_norm=1.0,
    report_to="none",
    push_to_hub=False,
    seed=SEED,
    save_steps=500,
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset if len(eval_dataset) > 0 else None,
    data_collator=data_collator,
)

# ============================================================
# Treino + Avaliação
# ============================================================
train_out = trainer.train()

eval_out = {}
try:
    eval_out = trainer.evaluate() if (trainer.eval_dataset is not None) else {}
except Exception as e:
    print("[Aviso] Avaliação automática indisponível nesta versão:", e)

if "eval_loss" in eval_out:
    eval_loss = float(eval_out["eval_loss"])
    ppl = math.exp(eval_loss) if eval_loss < 20 else float("inf")
    print(f"\nEval loss: {eval_loss:.4f}")
    print(f"Perplexity: {ppl:.2f}")
else:
    print("\n[Info] Sem eval_loss reportado pela API/execução atual.")

# ============================================================
# Salvar modelo/tokenizer
# ============================================================
try:
    trainer.save_model(OUTPUT_DIR)
    tokenizer.save_pretrained(OUTPUT_DIR)
    print(f"\nModelo salvo em: {OUTPUT_DIR}")
except Exception as e:
    print("[Aviso] Não foi possível salvar modelo/tokenizer:", e)

# ============================================================
# Teste rápido: fill-mask
# ============================================================
from transformers import pipeline
device_idx = 0 if torch.cuda.is_available() else -1

try:
    fillmask = pipeline("fill-mask", model=OUTPUT_DIR, tokenizer=OUTPUT_DIR, device=device_idx)
except Exception as e:
    print("[Aviso] fallback: usando instância em memória (sem salvar/carregar).", e)
    fillmask = pipeline("fill-mask", model=model, tokenizer=tokenizer, device=device_idx)

tests = [
    "The cat [MASK] on the mat.",
    "Deep learning has [MASK] the state of the art.",
    "Paris is the [MASK] of France."
]

print("\n== Fill-Mask examples ==")
for s in tests:
    try:
        preds = fillmask(s)
        print(f"\nInput: {s}")
        for p in preds[:5]:
            print(f"  -> {p['sequence']}  (p={p['score']:.4f})")
    except Exception as e:
        print(f"\nInput: {s}")
        print(" Erro:", e)