# RLHF: Reinforcement Learning from Human Feedback

## O que √© RLHF?

RLHF (Reinforcement Learning from Human Feedback) √© uma t√©cnica de fine-tuning que permite alinhar modelos de linguagem com prefer√™ncias humanas. Ao inv√©s de treinar apenas com dados est√°ticos, o modelo aprende a partir de feedback humano iterativo, similar a como ChatGPT foi treinado.

## Por que RLHF √© importante?

Modelos de linguagem pr√©-treinados (como GPT-2, GPT-3) s√£o treinados para prever o pr√≥ximo token com base em dados da internet. Isso significa que eles aprendem padr√µes estat√≠sticos, mas n√£o necessariamente aprendem a gerar respostas **√∫teis**, **seguras** ou **alinhadas** com valores humanos.

RLHF resolve isso atrav√©s de tr√™s etapas:

1. **Supervised Fine-tuning (SFT)**: Treina o modelo com exemplos de alta qualidade
2. **Reward Modeling**: Treina um modelo para prever prefer√™ncias humanas
3. **Reinforcement Learning**: Otimiza o modelo para maximizar o reward

## Componentes deste Notebook:

### 1. Modelo Generativo (Policy)
- **Base**: GPT-2 pr√©-treinado
- **Fun√ß√£o**: Gerar completions de texto
- **Treinamento**: Otimizado via gradientes do reward model

### 2. Modelo de Recompensa (Reward Model)
- **Base**: BERT pr√©-treinado
- **Fun√ß√£o**: Aprender a prever prefer√™ncias humanas
- **Input**: Par (prompt, completion)
- **Output**: Score entre 0 (ruim) e 1 (bom)

### 3. Modelo de Refer√™ncia
- **C√≥pia do modelo original**: Usado para calcular KL divergence
- **Fun√ß√£o**: Prevenir que o modelo se desvie muito do comportamento original
- **Frozen**: N√£o √© atualizado durante o treinamento

## Pipeline RLHF Implementado:

```
1. Gera√ß√£o ‚Üí 2. Feedback Humano ‚Üí 3. Treina Reward Model ‚Üí 4. Otimiza Policy
```

### Objetivo deste Notebook:
Treinar GPT-2 para gerar continua√ß√µes do prompt **"Donald Trump is a"** que sejam avaliadas positivamente por humanos, demonstrando como RLHF pode influenciar o comportamento do modelo.

## 1. Importa√ß√µes de Bibliotecas

Importamos as bibliotecas necess√°rias para o treinamento RLHF.

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    BertTokenizer,
    BertModel
)
import numpy as np
from tqdm.auto import tqdm
import warnings
import copy
warnings.filterwarnings('ignore')

## 2. Configura√ß√£o do Dispositivo

### Aceleradores de Hardware

O treinamento de modelos de linguagem requer grande capacidade computacional. Este c√≥digo detecta automaticamente o melhor acelerador dispon√≠vel:

#### 1. **MPS (Metal Performance Shaders)**
- Hardware: Apple Silicon (M1, M2, M3, etc.)
- Vantagem: Acelera opera√ß√µes em GPUs da Apple
- Performance: 5-10x mais r√°pido que CPU

#### 2. **CUDA**
- Hardware: GPUs NVIDIA
- Vantagem: Suporte nativo do PyTorch, altamente otimizado
- Performance: 10-100x mais r√°pido que CPU (depende da GPU)

#### 3. **CPU**
- Hardware: Processador convencional
- Vantagem: Funciona em qualquer m√°quina
- Desvantagem: Muito mais lento (n√£o recomendado para produ√ß√£o)

### Por que o Device √© Importante?

Opera√ß√µes de deep learning envolvem milh√µes de multiplica√ß√µes de matrizes. Aceleradores como GPUs executam essas opera√ß√µes em paralelo, enquanto CPUs processam sequencialmente.

In [2]:
if torch.backends.mps.is_available():
    device = torch.device("mps")
    print("‚úÖ Usando MPS (Apple Silicon)")
elif torch.cuda.is_available():
    device = torch.device("cuda")
    print("‚úÖ Usando CUDA")
else:
    device = torch.device("cpu")
    print("‚ö†Ô∏è Usando CPU")

print(f"Device: {device}")

‚úÖ Usando MPS (Apple Silicon)
Device: mps


## 3. Modelo de Recompensa (BERTRewardModel)

### O que √© um Reward Model?

Em RLHF, n√£o podemos usar loss functions tradicionais (como cross-entropy) porque n√£o temos labels de "resposta correta". Em vez disso, temos **prefer√™ncias humanas**: humanos podem dizer qual de duas respostas √© melhor.

O Reward Model √© treinado para **imitar essas prefer√™ncias**, aprendendo a atribuir scores altos para boas respostas e scores baixos para respostas ruins.

### Arquitetura do BERTRewardModel

```
Input: "[prompt] [SEP] [completion]"
    ‚Üì
BERT Encoder (contexto)
    ‚Üì
[CLS] Token Embedding (768 dims)
    ‚Üì
Dropout (0.1)
    ‚Üì
Linear (768 ‚Üí 256)
    ‚Üì
ReLU Activation
    ‚Üì
Dropout (0.1)
    ‚Üì
Linear (256 ‚Üí 1)
    ‚Üì
Sigmoid (output entre 0-1)
    ‚Üì
Reward Score
```

### Por que BERT?

**BERT** (Bidirectional Encoder Representations from Transformers) √© ideal para reward modeling porque:

1. **Bidirectional**: Processa o texto completo (prompt + completion) em contexto
2. **Pre-trained**: J√° entende sem√¢ntica e sintaxe da l√≠ngua inglesa
3. **[CLS] Token**: Representa o significado global da sequ√™ncia inteira

### Componentes da Arquitetura:

#### 1. BERT Base
- **Par√¢metros**: ~110M
- **Camadas**: 12 transformer layers
- **Hidden Size**: 768 dimens√µes
- **Fun√ß√£o**: Extrair representa√ß√µes contextuais

#### 2. Dropout (0.1)
- **Fun√ß√£o**: Regulariza√ß√£o para prevenir overfitting
- **Mecanismo**: Desativa aleatoriamente 10% dos neur√¥nios durante treinamento

#### 3. Reward Head (MLP)
- **Camada 1**: 768 ‚Üí 256 (compress√£o de features)
- **ReLU**: N√£o-linearidade (permite aprender padr√µes complexos)
- **Camada 2**: 256 ‚Üí 1 (agrega√ß√£o para score √∫nico)
- **Sigmoid**: Normaliza output para intervalo [0, 1]

### Interpreta√ß√£o do Score:
- **1.0**: Resposta excelente (alinhada com prefer√™ncias)
- **0.5**: Resposta neutra ou mediana
- **0.0**: Resposta ruim (n√£o alinhada)

### Freeze BERT?

O par√¢metro `freeze_bert` permite:
- **False** (padr√£o): Fine-tuna BERT inteiro (melhor performance, mais lento)
- **True**: Congela BERT, treina apenas reward head (mais r√°pido, menos flex√≠vel)

In [3]:
class BERTRewardModel(nn.Module):
    """
    Modelo de recompensa baseado em BERT que aprende com feedback humano.
    Prediz um score de qualidade para cada resposta gerada.
    """
    def __init__(self, model_name='bert-base-uncased', freeze_bert=False):
        super().__init__()
        self.bert = BertModel.from_pretrained(model_name)
        self.dropout = nn.Dropout(0.1)
        
        # Camada de recompensa: prediz score de 0 (ruim) a 1 (bom)
        self.reward_head = nn.Sequential(
            nn.Linear(self.bert.config.hidden_size, 256),
            nn.ReLU(),
            nn.Dropout(0.1),
            nn.Linear(256, 1),
            nn.Sigmoid()  # Output entre 0 e 1
        )
        
        if freeze_bert:
            for param in self.bert.parameters():
                param.requires_grad = False
    
    def forward(self, input_ids, attention_mask=None):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        cls_output = outputs.last_hidden_state[:, 0, :]  # [CLS] token
        cls_output = self.dropout(cls_output)
        reward_score = self.reward_head(cls_output)
        return reward_score

## 4. Carregamento de Modelos e Tokenizers

### Modelos Utilizados

#### 1. GPT-2 (Generative Pre-trained Transformer 2)

**Policy Model** - O modelo que ser√° otimizado:
- **Par√¢metros**: ~124M (vers√£o base)
- **Arquitetura**: Decoder-only transformer (12 layers)
- **Pr√©-treinamento**: 40GB de texto da internet
- **Fun√ß√£o**: Gerar continua√ß√µes de texto autoregressivamente

**Por que GPT-2?**
- Open-source e amplamente documentado
- Tamanho gerenci√°vel para experimentos
- Boa performance em gera√ß√£o de texto

#### 2. Modelo de Refer√™ncia (Reference Model)

```python
ref_model = copy.deepcopy(generation_model)
```

**Fun√ß√£o cr√≠tica no RLHF:**
- √â uma **c√≥pia congelada** do modelo original
- **N√£o √© atualizado** durante o treinamento
- Usado para calcular **KL Divergence**

**Por que precisamos dele?**

Sem o modelo de refer√™ncia, o RLHF pode sofrer de **reward hacking**:
- O modelo aprende a "enganar" o reward model
- Gera respostas que maximizam reward de forma artificial
- Pode produzir texto nonsense mas com alto score

A **KL penalty** mant√©m o modelo pr√≥ximo do comportamento original:

```
KL(Policy || Reference) = diverg√™ncia entre distribui√ß√µes de probabilidade
```

Se a policy se afasta muito da refer√™ncia, a penalidade aumenta.

#### 3. BERT (Bidirectional Encoder Representations from Transformers)

**Base do Reward Model:**
- **Par√¢metros**: ~110M
- **Arquitetura**: Encoder-only transformer
- **Pr√©-treinamento**: Masked Language Modeling + Next Sentence Prediction
- **Fun√ß√£o**: Entender contexto bidirecionalmente

### Tokenizers

#### AutoTokenizer (GPT-2)
- **M√©todo**: Byte-Pair Encoding (BPE)
- **Vocab Size**: 50,257 tokens
- **Padding**: Configurado como EOS token

#### BertTokenizer
- **M√©todo**: WordPiece
- **Vocab Size**: 30,522 tokens
- **Tokens Especiais**: [CLS], [SEP], [PAD], [MASK]

### Otimizadores: AdamW

**AdamW** (Adam with Weight Decay) √© uma vers√£o melhorada do Adam:

```python
# Reward Model: lr=2e-5
reward_optimizer = torch.optim.AdamW(reward_model.parameters(), lr=2e-5, weight_decay=0.01)

# Policy Model: lr=1e-5 (mais conservador)
policy_optimizer = torch.optim.AdamW(generation_model.parameters(), lr=1e-5, weight_decay=0.01)
```

**Configura√ß√µes:**
- **Learning Rate (Reward)**: 2e-5 - Taxa de aprendizado moderada
- **Learning Rate (Policy)**: 1e-5 - Mais conservador (modelo generativo √© sens√≠vel)
- **Weight Decay**: 0.01 - Regulariza√ß√£o L2 para prevenir overfitting

**Por que LRs diferentes?**
- Reward model: Treina com supervised learning (mais est√°vel)
- Policy model: Treina com RL (requer mais cuidado para n√£o divergir)

In [4]:
# Carregar modelo generativo e tokenizer (Ingl√™s)
gen_model_name = 'gpt2'
gen_tokenizer = AutoTokenizer.from_pretrained(gen_model_name)
gen_tokenizer.pad_token = gen_tokenizer.eos_token
generation_model = AutoModelForCausalLM.from_pretrained(gen_model_name).to(device)
ref_model = copy.deepcopy(generation_model).to(device)

# Carregar tokenizer e modelo para reward (BERT Ingl√™s)
bert_model_name = 'bert-base-uncased'
bert_tokenizer = BertTokenizer.from_pretrained(bert_model_name)

# Modelo de recompensa
reward_model = BERTRewardModel(model_name=bert_model_name, freeze_bert=False).to(device)

# Otimizadores
reward_optimizer = torch.optim.AdamW(reward_model.parameters(), lr=2e-5, weight_decay=0.01)
policy_optimizer = torch.optim.AdamW(generation_model.parameters(), lr=1e-5, weight_decay=0.01)

print("‚úÖ Modelos inicializados")
print(f"üìä Par√¢metros trein√°veis (reward): {sum(p.numel() for p in reward_model.parameters() if p.requires_grad):,}")
print(f"üìä Par√¢metros trein√°veis (policy): {sum(p.numel() for p in generation_model.parameters() if p.requires_grad):,}")

‚úÖ Modelos inicializados
üìä Par√¢metros trein√°veis (reward): 109,679,361
üìä Par√¢metros trein√°veis (policy): 124,439,808


## 5. Fun√ß√£o para Gera√ß√£o de Completions

### Gera√ß√£o Autoregressiva

Modelos de linguagem como GPT-2 geram texto **token por token**, onde cada novo token √© predito baseado nos tokens anteriores:

```
Input: "Donald Trump is a"
Step 1: Prediz pr√≥ximo token ‚Üí "businessman"
Step 2: Input: "Donald Trump is a businessman" ‚Üí Prediz "and"
Step 3: Input: "Donald Trump is a businessman and" ‚Üí Prediz "former"
...
```

### Par√¢metros de Gera√ß√£o

#### 1. **max_new_tokens=10**
Limita o n√∫mero de tokens gerados. Para demonstra√ß√£o, usamos apenas 10 tokens por completion.

#### 2. **do_sample=True**
Ativa **sampling estoc√°stico** em vez de greedy decoding:
- **Greedy**: Sempre escolhe o token mais prov√°vel (determin√≠stico, repetitivo)
- **Sampling**: Amostra da distribui√ß√£o de probabilidade (mais diverso)

#### 3. **top_p=0.95 (Nucleus Sampling)**

Tamb√©m chamado de **nucleus sampling**, seleciona tokens do menor conjunto cuja probabilidade acumulada seja ‚â• p.

**Exemplo:**
```
Tokens dispon√≠veis:
- "president": 40%
- "businessman": 30%
- "politician": 20%
- "leader": 8%
- "person": 2%

top_p=0.95:
Acumula: 40% + 30% + 20% = 90% (ainda < 95%)
Adiciona: "leader" (8%) = 98% ‚â• 95% ‚úì
Samplea de: {president, businessman, politician, leader}
```

**Vantagens:**
- Evita tokens extremamente improv√°veis
- Mant√©m diversidade entre tokens plaus√≠veis
- Adapta-se automaticamente √† distribui√ß√£o (flat vs peaked)

#### 4. **temperature=0.7**

Controla a "aleatoriedade" da distribui√ß√£o:

```python
logits_adjusted = logits / temperature
```

**Efeitos:**
- **temp = 1.0**: Distribui√ß√£o original (n√£o modificada)
- **temp < 1.0** (ex: 0.7): Mais focado (menos aleat√≥rio)
  - Aumenta probabilidade dos tokens mais prov√°veis
  - Reduz probabilidade dos menos prov√°veis
- **temp > 1.0**: Mais uniforme (mais aleat√≥rio)

**Exemplo pr√°tico:**
```
Original (temp=1.0):
- "president": 40%
- "businessman": 30%
- "politician": 20%

Com temp=0.7 (mais focado):
- "president": 48%
- "businessman": 32%
- "politician": 15%

Com temp=1.5 (mais aleat√≥rio):
- "president": 35%
- "businessman": 31%
- "politician": 23%
```

### Fluxo da Fun√ß√£o:

1. **Tokeniza√ß√£o**: Converte prompt para input_ids
2. **Gera√ß√£o**: Model.generate() produz novos tokens
3. **Decodifica√ß√£o**: Converte tokens de volta para texto
4. **Extra√ß√£o**: Remove o prompt original, retorna apenas completion

In [5]:
def generate_completion(model, tokenizer, prompt, max_new_tokens=10):
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    outputs = model.generate(
        inputs['input_ids'],
        attention_mask=inputs['attention_mask'],
        max_new_tokens=max_new_tokens,
        do_sample=True,
        top_p=0.95,
        temperature=1.0,
        pad_token_id=tokenizer.pad_token_id
    )
    full_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    completion = full_text[len(prompt):].strip()
    return completion

## 6. Sistema de Coleta de Feedback Humano

### Por que Feedback Humano?

Em tarefas como gera√ß√£o de texto, n√£o existe uma √∫nica "resposta correta". Diferentes completions podem ser:
- Factualmente corretas mas ofensivas
- Gramaticalmente perfeitas mas irrelevantes
- Criativas mas inadequadas

Humanos possuem **ju√≠zo de valor** e **conhecimento contextual** que m√©tricas autom√°ticas n√£o capturam.

### Processo de Coleta

#### 1. Apresenta√ß√£o
```
üí¨ Prompt: Donald Trump is a
ü§ñ Resposta: Donald Trump is a businessman and former president
```

#### 2. Avalia√ß√£o Humana
O usu√°rio classifica a resposta em 3 n√≠veis:
- **1 (Bom)**: Resposta apropriada, factual, √∫til
- **2 (Neutro)**: Resposta aceit√°vel mas n√£o ideal
- **3 (Ruim)**: Resposta inadequada, ofensiva ou sem sentido

#### 3. Convers√£o para Reward
```python
1 ‚Üí 1.0  (reward m√°ximo)
2 ‚Üí 0.5  (reward neutro)
3 ‚Üí 0.0  (reward m√≠nimo)
```

Esta normaliza√ß√£o para [0, 1] facilita o treinamento com sigmoid no reward model.

### Classe HumanFeedbackCollector

#### Atributos:
- **feedbacks**: Lista que acumula todos os pares (response, reward)
- **current_response**: Armazena temporariamente a resposta sendo avaliada

#### M√©todos:

**show_response_and_collect()**
- Exibe a resposta gerada
- Aguarda input do usu√°rio (1/2/3/q)
- Valida entrada
- Retorna `True` se usu√°rio digitar 'q' (quit), `False` caso contr√°rio

**_record_feedback()**
- Converte avalia√ß√£o humana em reward num√©rico
- Adiciona √† lista de feedbacks
- Exibe emoji de confirma√ß√£o (üëç/üòê/üëé)

**get_feedback_batch()**
- Retorna todos os feedbacks coletados
- Usado para treinar o reward model

### Design Considerations

**Por que apenas 3 n√≠veis?**
- Simplifica decis√£o humana (r√°pido e consistente)
- Reduz ambiguidade entre categorias pr√≥ximas
- Suficiente para sinal de treinamento inicial

**Por que permitir 'q' (quit)?**
- Coleta de feedback √© iterativa
- Usu√°rio decide quando h√° dados suficientes
- Previne fadiga do avaliador

### Exemplo de Uso:
```python
collector = HumanFeedbackCollector()

# Apresenta m√∫ltiplas respostas
while True:
    response = generate_completion(model, tokenizer, prompt)
    stop = collector.show_response_and_collect(prompt, response, model_score)
    if stop:
        break

# Obt√©m todos os feedbacks para treinamento
batch = collector.get_feedback_batch()
```

In [6]:
class HumanFeedbackCollector:
    def __init__(self):
        self.feedbacks = []
        self.current_response = None
    
    def show_response_and_collect(self, prompt, completion, model_score):
        full_sentence = f"{prompt} {completion}"
        self.current_response = {
            'prompt': prompt,
            'completion': completion,
            'model_score': model_score
        }
        
        print(f"\nüí¨ Prompt: {prompt}")
        print(f"ü§ñ Resposta: {full_sentence}")
        print("Avalie a qualidade da resposta. Digite 1 para bom, 2 para neutro, 3 para ruim, ou q para sair.")
        
        while True:
            user_input = input("Avalie (1/2/3/q): ").strip().lower()
            if user_input == '1':
                self._record_feedback(1.0)
                return False
            elif user_input == '2':
                self._record_feedback(0.5)
                return False
            elif user_input == '3':
                self._record_feedback(0.0)
                return False
            elif user_input == 'q':
                return True
            else:
                print("Entrada inv√°lida. Por favor, digite 1, 2, 3 ou q.")
    
    def _record_feedback(self, reward):
        self.current_response['human_reward'] = reward
        self.feedbacks.append(self.current_response.copy())
        if reward == 1.0:
            emoji = "üëç"
        elif reward == 0.5:
            emoji = "üòê"
        else:
            emoji = "üëé"
        print(f"{emoji} Feedback registrado!")
    
    def get_feedback_batch(self):
        return self.feedbacks

feedback_collector = HumanFeedbackCollector()
print("‚úÖ Sistema de feedback inicializado")

‚úÖ Sistema de feedback inicializado


## 7. Treinamento do Reward Model

### Objetivo

Treinar o reward model para **prever** o feedback humano, permitindo avaliar automaticamente novas respostas sem interven√ß√£o humana constante.

### Processo em Duas Fases

#### Fase 1: Coleta de Feedback

```python
while True:
    completion = generate_completion(gen_model, gen_tokenizer, prompt)
    stop = feedback_collector.show_response_and_collect(...)
    if stop:
        break
```

**Loop interativo:**
1. Gera completion com GPT-2
2. Concatena: `"[prompt] [SEP] [completion]"`
3. Calcula score atual do reward model (para mostrar ao usu√°rio)
4. Coleta avalia√ß√£o humana
5. Repete at√© usu√°rio digitar 'q'

**Por que mostrar o model_score?**
- Permite comparar predi√ß√£o do modelo vs feedback humano
- Ajuda identificar quando o modelo est√° calibrado
- √ötil para debug e an√°lise

#### Fase 2: Treinamento Supervisionado

```python
for feedback in feedbacks:
    predicted_reward = reward_model(text)
    human_reward = feedback['human_reward']
    loss = 2.0 * MSE(predicted_reward, human_reward)
    loss.backward()
```

### Loss Function: MSE (Mean Squared Error)

```python
loss = 2.0 * F.mse_loss(predicted_reward, human_reward)
```

**Componentes:**

1. **MSE**: `(predicted - actual)¬≤`
   - Penaliza erros quadraticamente
   - Erros grandes t√™m penalidade muito maior
   - Incentiva predi√ß√µes pr√≥ximas do target

2. **Fator 2.0**: Amplifica o gradiente
   - Acelera converg√™ncia (sinal de aprendizado mais forte)
   - √ötil quando h√° poucos exemplos de treinamento
   - Pode ser ajustado empiricamente

**Exemplo de Loss:**
```
Caso 1:
predicted = 0.8, human = 1.0
MSE = (0.8 - 1.0)¬≤ = 0.04
loss = 2.0 * 0.04 = 0.08

Caso 2:
predicted = 0.3, human = 1.0
MSE = (0.3 - 1.0)¬≤ = 0.49
loss = 2.0 * 0.49 = 0.98  (penalidade muito maior!)
```

### T√©cnicas de Regulariza√ß√£o

#### 1. Gradient Clipping
```python
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
```

**Por que?**
- Previne **exploding gradients** (gradientes muito grandes)
- Limita norma L2 dos gradientes ao valor m√°ximo de 1.0
- Estabiliza treinamento, especialmente com poucos dados

**Como funciona:**
```
Se ||gradients|| > 1.0:
    gradients = gradients / ||gradients||  # Normaliza
```

#### 2. Weight Decay (0.01)
```python
AdamW(..., weight_decay=0.01)
```

**Por que?**
- Adiciona regulariza√ß√£o L2: `loss += 0.01 * ||weights||¬≤`
- Previne overfitting penalizando pesos grandes
- For√ßa o modelo a aprender representa√ß√µes mais simples

### Formato de Input: [SEP] Token

```python
text = f"{prompt} [SEP] {completion}"
```

**BERT espera este formato:**
- `[CLS]` √© adicionado automaticamente no in√≠cio
- `[SEP]` separa duas sequ√™ncias (prompt e completion)
- Permite BERT processar contexto de forma estruturada

**Exemplo:**
```
Input raw: "Donald Trump is a [SEP] businessman and politician"
Tokenized: [CLS] donald trump is a [SEP] businessman and politician [SEP] [PAD]...
```

### Padding e Truncation

```python
bert_tokenizer(text, truncation=True, padding='max_length', max_length=128)
```

**Par√¢metros:**
- **truncation=True**: Corta sequ√™ncias longas em 128 tokens
- **padding='max_length'**: Preenche sequ√™ncias curtas com [PAD]
- **max_length=128**: Tamanho fixo para batching eficiente

**Por que comprimento fixo?**
- GPUs processam batches mais eficientemente com inputs do mesmo tamanho
- 128 tokens √© suficiente para prompt + completion curta

### Fluxo Completo:

```
1. Texto ‚Üí Tokeniza√ß√£o ‚Üí [input_ids, attention_mask]
2. input_ids ‚Üí BERT ‚Üí [CLS] embedding (768 dims)
3. [CLS] ‚Üí Reward Head ‚Üí Score (0-1)
4. Score ‚Üí MSE Loss vs Human Reward
5. Loss ‚Üí Backpropagation ‚Üí Atualiza pesos
6. Repete para todos os feedbacks
```

### M√©tricas:

**avg_loss**: Loss m√©dio sobre todos os feedbacks
- Valores baixos (~0.01-0.1): Modelo bem calibrado
- Valores altos (~0.5+): Modelo ainda aprendendo ou dados inconsistentes

In [7]:
def collect_and_train_reward(model, prompt, gen_model, gen_tokenizer, bert_tokenizer, feedback_collector, optimizer, device):
    model.eval()
    
    print(f"\n{'='*60}")
    print(f"üéØ Coleta de Feedback")
    print(f"{'='*60}\n")
    
    while True:
        completion = generate_completion(gen_model, gen_tokenizer, prompt)
        
        text = f"{prompt} [SEP] {completion}"
        encoding = bert_tokenizer(text, truncation=True, padding='max_length', max_length=128, return_tensors='pt').to(device)
        
        with torch.no_grad():
            model_score = model(encoding['input_ids'], encoding['attention_mask']).item()
        
        stop = feedback_collector.show_response_and_collect(prompt, completion, model_score)
        if stop:
            break
    
    print(f"\n{'='*60}")
    print(f"üî• Treinando Reward Model com Feedback")
    print(f"{'='*60}\n")
    
    feedbacks = feedback_collector.get_feedback_batch()
    
    if len(feedbacks) == 0:
        print("‚ö†Ô∏è Nenhum feedback coletado")
        return 0.0
    
    model.train()
    total_loss = 0.0
    
    for fb in tqdm(feedbacks, desc="Atualizando reward model"):
        text = f"{fb['prompt']} [SEP] {fb['completion']}"
        encoding = bert_tokenizer(text, truncation=True, padding='max_length', max_length=128, return_tensors='pt').to(device)
        
        optimizer.zero_grad()
        predicted_reward = model(encoding['input_ids'], encoding['attention_mask'])
        human_reward = torch.tensor([[fb['human_reward']]], dtype=torch.float32).to(device)
        loss = 2.0 * F.mse_loss(predicted_reward, human_reward)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        optimizer.step()
        total_loss += loss.item()
    
    avg_loss = total_loss / len(feedbacks)
    print(f"\n‚úÖ Loss m√©dio: {avg_loss:.4f}")
    feedback_collector.feedbacks = []
    return avg_loss

## 8. Treinamento da Policy com Reward Model

### Reinforcement Learning para LMs

Agora que o reward model aprendeu a prever prefer√™ncias humanas, usamos ele para **otimizar a policy** (GPT-2) atrav√©s de reinforcement learning.

### Formula√ß√£o RL

**Componentes:**
- **State**: O prompt atual
- **Action**: Escolher pr√≥ximo token
- **Policy**: GPT-2 (œÄ_Œ∏) - distribui√ß√£o de probabilidade sobre tokens
- **Reward**: Score do reward model para a sequ√™ncia completa
- **Reference Policy**: GPT-2 original congelado (œÄ_ref)

### Objetivo: Maximizar Reward com Constraint

```
maximize: E[reward(prompt, completion)]
subject to: KL(œÄ_Œ∏ || œÄ_ref) < threshold
```

**Tradu√ß√£o:**
- Queremos respostas com alto reward (alinhadas com humanos)
- MAS n√£o queremos nos afastar muito do comportamento original
- A KL divergence mede "qu√£o diferente" a nova policy est√°

### Por que KL Divergence?

**Problema sem KL penalty:**

```
Cen√°rio:
- Reward model aprende que "exclamation marks!!!" ‚Üí alto score
- Policy aprende a gerar apenas "!!!!!!!!!!!!" ‚Üí reward hacking
- Resultado: Texto nonsense com alto reward artificial
```

**Solu√ß√£o com KL penalty:**

```python
loss = -reward + kl_coef * KL(policy || reference)
```

A policy √© incentivada a:
1. Maximizar reward (primeiro termo)
2. Manter-se pr√≥xima da reference (segundo termo)

**kl_coef=0.1** controla o trade-off:
- Maior ‚Üí Mais conservador (mudan√ßas menores)
- Menor ‚Üí Mais agressivo (mudan√ßas maiores)

### Algoritmo: PPO Simplificado

Este c√≥digo implementa uma vers√£o simplificada do **PPO** (Proximal Policy Optimization), o algoritmo usado para treinar ChatGPT.

#### Loop de Treinamento:

```
Para cada step:
    Para cada sample no batch:
        1. Gera completion com policy atual
        2. Calcula reward usando reward model
        3. Calcula log-probs: policy e reference
        4. Calcula KL divergence
        5. Computa loss = -reward + kl_coef * KL
    
    6. Backward pass (soma losses do batch)
    7. Gradient clipping
    8. Update policy parameters
```

### Detalhes T√©cnicos

#### 1. Gera√ß√£o com Gradientes

```python
outputs = gen_model.generate(
    ...,
    return_dict_in_generate=True,
    output_scores=True
)
```

**Importante:**
- Normalmente `.generate()` n√£o mant√©m gradientes
- `output_scores=True` retorna logits para cada token
- Permite backpropagation atrav√©s da sequ√™ncia gerada

#### 2. C√°lculo de Log Probabilities

```python
gen_logits = gen_outputs.logits[:, :-1, :]  # Remove √∫ltimo token
target_ids = generated_ids[:, 1:]            # Remove primeiro token (prompt)

gen_log_probs = F.log_softmax(gen_logits, dim=-1)
gen_log_prob = gen_log_probs.gather(2, target_ids.unsqueeze(-1)).sum()
```

**O que est√° acontecendo:**

```
Sequ√™ncia gerada: [101, 2003, 1037, 9704]
                   ‚Üì     ‚Üì     ‚Üì     ‚Üì
Logits:         logit1 logit2 logit3 logit4

Para cada posi√ß√£o:
- Aplicar softmax ‚Üí probabilidades
- Log ‚Üí log-probs
- Selecionar log-prob do token gerado
- Somar log-probs ‚Üí log-prob da sequ√™ncia inteira
```

**Por que log-probs?**
- Produtos de probabilidades ‚Üí somas de log-probs (mais est√°vel numericamente)
- log(p1 * p2 * p3) = log(p1) + log(p2) + log(p3)

#### 3. KL Divergence Estimation

```python
kl_penalty = gen_log_prob - ref_log_prob
```

Esta √© uma aproxima√ß√£o do KL divergence:

```
KL(œÄ_Œ∏ || œÄ_ref) ‚âà log œÄ_Œ∏(a|s) - log œÄ_ref(a|s)
                 = log( œÄ_Œ∏(a|s) / œÄ_ref(a|s) )
```

**Interpreta√ß√£o:**
- kl_penalty > 0: Policy d√° mais probabilidade que refer√™ncia (divergindo)
- kl_penalty < 0: Policy d√° menos probabilidade (tamb√©m divergindo)
- kl_penalty ‚âà 0: Policy similar √† refer√™ncia

#### 4. Loss Function Final

```python
loss = -reward.squeeze() + kl_coef * kl_penalty
```

**An√°lise:**

**Termo 1: -reward**
- Queremos MINIMIZAR o loss
- Minimizar -reward = MAXIMIZAR reward
- Gradiente empurra policy para respostas com alto reward

**Termo 2: kl_coef * kl_penalty**
- Se policy diverge (kl_penalty alto), loss aumenta
- Gradiente empurra policy DE VOLTA para refer√™ncia
- kl_coef=0.1 controla for√ßa deste "empurr√£o"

### Batching

```python
batch_size=4
total_loss = 0.0
for _ in range(batch_size):
    # Gera completion e calcula loss
    total_loss += loss

avg_loss = total_loss / batch_size
avg_loss.backward()
```

**Por que batch?**
- Gradientes s√£o m√©dias sobre m√∫ltiplas amostras
- Reduz vari√¢ncia do gradiente (mais est√°vel)
- Mais eficiente computacionalmente

### Hyperpar√¢metros

```python
num_steps=20      # N√∫mero de itera√ß√µes de otimiza√ß√£o
batch_size=4      # Amostras por step
kl_coef=0.1       # Peso da KL penalty
learning_rate=1e-5  # Taxa de aprendizado (conservadora)
```

**Trade-offs:**
- **num_steps baixo**: Underfitting (n√£o aprende suficiente)
- **num_steps alto**: Overfitting (memoriza feedbacks espec√≠ficos)
- **kl_coef baixo**: Mais mudan√ßa, risco de reward hacking
- **kl_coef alto**: Menos mudan√ßa, pode n√£o melhorar

### Observa√ß√µes Durante Treinamento

A cada 5 steps, imprime loss:
```
Step 5/20 - Loss: 0.3245
Step 10/20 - Loss: 0.2891
Step 15/20 - Loss: 0.2634
```

**Loss decrescente** indica que o modelo est√°:
- Gerando respostas com rewards mais altos
- OU mantendo-se mais pr√≥ximo da refer√™ncia
- Idealmente, ambos!

### Compara√ß√£o: Supervised Learning vs RL

**Supervised Learning** (usado no reward model):
- Temos labels corretos (human rewards)
- Loss: MSE entre predi√ß√£o e label
- Gradiente claro e direto

**Reinforcement Learning** (usado na policy):
- N√£o temos labels de "resposta correta"
- Reward √© esparso (s√≥ no final da sequ√™ncia)
- Exploramos e aprendemos com consequ√™ncias

### Conex√£o com ChatGPT

Este √© essencialmente o algoritmo usado para treinar ChatGPT:

1. ‚úÖ **SFT**: Fine-tune em conversas de alta qualidade (n√£o implementado aqui)
2. ‚úÖ **Reward Modeling**: Treina reward model com compara√ß√µes humanas
3. ‚úÖ **PPO**: Otimiza policy com reward model + KL penalty

A principal diferen√ßa √© escala:
- ChatGPT: Bilh√µes de par√¢metros, milh√µes de feedbacks
- Este notebook: Centenas de milh√µes de par√¢metros, dezenas de feedbacks

In [8]:
def train_policy_with_reward(gen_model, ref_model, reward_model, tokenizer, bert_tokenizer, 
                             prompt, optimizer, device, num_steps=20, batch_size=4, kl_coef=0.1):
    """
    Treina a policy diretamente usando o reward model.
    Otimiza: reward - kl_penalty
    """
    print(f"\n{'='*60}")
    print("üî• Treinando Policy com Reward Model")
    print(f"{'='*60}\n")
    
    gen_model.train()
    ref_model.eval()
    reward_model.eval()
    
    for step in tqdm(range(num_steps), desc="Passos de treinamento"):
        optimizer.zero_grad()
        total_loss = 0.0
        
        for _ in range(batch_size):
            # Gerar resposta
            inputs = tokenizer(prompt, return_tensors="pt").to(device)
            
            # Gerar tokens com gradientes
            outputs = gen_model.generate(
                inputs['input_ids'],
                attention_mask=inputs['attention_mask'],
                max_new_tokens=10,
                do_sample=True,
                top_p=0.95,
                temperature=0.7,
                pad_token_id=tokenizer.pad_token_id,
                return_dict_in_generate=True,
                output_scores=True
            )
            
            generated_ids = outputs.sequences
            completion_text = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
            completion = completion_text[len(prompt):].strip()
            
            # Calcular reward
            text = f"{prompt} [SEP] {completion}"
            encoding = bert_tokenizer(text, truncation=True, padding='max_length', 
                                     max_length=128, return_tensors='pt').to(device)
            
            with torch.no_grad():
                reward = reward_model(encoding['input_ids'], encoding['attention_mask'])
            
            # Calcular log probs da policy atual e refer√™ncia
            gen_outputs = gen_model(generated_ids, attention_mask=torch.ones_like(generated_ids))
            with torch.no_grad():
                ref_outputs = ref_model(generated_ids, attention_mask=torch.ones_like(generated_ids))
            
            gen_logits = gen_outputs.logits[:, :-1, :]
            ref_logits = ref_outputs.logits[:, :-1, :]
            target_ids = generated_ids[:, 1:]
            
            gen_log_probs = F.log_softmax(gen_logits, dim=-1)
            ref_log_probs = F.log_softmax(ref_logits, dim=-1)
            
            gen_log_prob = gen_log_probs.gather(2, target_ids.unsqueeze(-1)).squeeze(-1).sum()
            ref_log_prob = ref_log_probs.gather(2, target_ids.unsqueeze(-1)).squeeze(-1).sum()
            
            # KL divergence penalty
            kl_penalty = gen_log_prob - ref_log_prob
            
            # Loss: maximizar reward - kl_penalty
            # Equivalente a minimizar: -reward + kl_coef * kl_penalty
            loss = -reward.squeeze() + kl_coef * kl_penalty
            total_loss += loss
        
        # Backprop
        avg_loss = total_loss / batch_size
        avg_loss.backward()
        torch.nn.utils.clip_grad_norm_(gen_model.parameters(), 1.0)
        optimizer.step()
        
        if (step + 1) % 5 == 0:
            print(f"\nStep {step+1}/{num_steps} - Loss: {avg_loss.item():.4f}")
    
    print("\n‚úÖ Treinamento da policy completo!")

## 9. Execu√ß√£o do Pipeline RLHF

### Fluxo Completo do Treinamento

Este √© o cora√ß√£o do notebook, onde todos os componentes anteriores se conectam:

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 1. COLETA DE FEEDBACK                       ‚îÇ
‚îÇ    - Gera respostas com GPT-2 original      ‚îÇ
‚îÇ    - Humano avalia qualidade (1/2/3)        ‚îÇ
‚îÇ    - Armazena pares (response, reward)      ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 2. TREINA REWARD MODEL                      ‚îÇ
‚îÇ    - Aprende a prever feedback humano       ‚îÇ
‚îÇ    - Minimiza MSE(predicted, human)         ‚îÇ
‚îÇ    - Resultado: Modelo que avalia qualidade ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 3. TREINA POLICY (GPT-2)                    ‚îÇ
‚îÇ    - Usa reward model para avaliar respostas‚îÇ
‚îÇ    - Otimiza: maximize reward - KL penalty  ‚îÇ
‚îÇ    - Resultado: GPT-2 alinhado com humanos  ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Prompt Fixo: "Donald Trump is a"

**Por que este prompt?**

1. **Controversial**: Permite observar mudan√ßas de comportamento claramente
2. **Open-ended**: M√∫ltiplas completions plaus√≠veis (businessman, politician, etc.)
3. **Teste de Alinhamento**: Mostra se o modelo aprende prefer√™ncias do avaliador

**Exemplos de poss√≠veis completions:**
- Factual: "businessman and former president"
- Neutral: "public figure who served as..."
- Negativo: "controversial figure known for..."
- Positivo: "successful entrepreneur who..."

### Intera√ß√£o Durante Execu√ß√£o

#### Fase 1: Coleta (Interativa)

```
üéØ Coleta de Feedback

üí¨ Prompt: Donald Trump is a
ü§ñ Resposta: Donald Trump is a businessman and politician from New York
Avalie a qualidade da resposta. Digite 1 para bom, 2 para neutro, 3 para ruim, ou q para sair.
Avalie (1/2/3/q): 1
üëç Feedback registrado!

üí¨ Prompt: Donald Trump is a
ü§ñ Resposta: Donald Trump is a controversial figure who has been...
Avalie (1/2/3/q): 3
üëé Feedback registrado!

[Continua at√© usu√°rio digitar 'q']
```

**Recomenda√ß√µes:**
- Avalie pelo menos 5-10 respostas para sinal m√≠nimo
- Seja consistente nos crit√©rios (defina o que √© "bom" antecipadamente)
- Considere: factualidade, neutralidade, completude, flu√™ncia

#### Fase 2: Treinamento do Reward (Autom√°tico)

```
üî• Treinando Reward Model com Feedback

Atualizando reward model: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10/10 [00:03<00:00,  2.89it/s]

‚úÖ Loss m√©dio: 0.0847
```

**O que o loss significa:**
- **< 0.1**: Excelente - modelo aprendeu bem os padr√µes
- **0.1 - 0.3**: Bom - modelo capturou tend√™ncias gerais
- **> 0.3**: Ruim - modelo n√£o convergiu ou dados inconsistentes

#### Fase 3: Treinamento da Policy (Autom√°tico)

```
üî• Treinando Policy com Reward Model

Passos de treinamento: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 20/20 [00:45<00:00,  2.25s/it]

Step 5/20 - Loss: 0.3421
Step 10/20 - Loss: 0.2987
Step 15/20 - Loss: 0.2654
Step 20/20 - Loss: 0.2431

‚úÖ Treinamento da policy completo!
```

**Interpretando a progress√£o:**
- **Loss decrescente**: Policy est√° melhorando (gerando respostas com maior reward)
- **Loss crescente**: Poss√≠vel overfitting ou learning rate muito alta
- **Loss oscilando**: Batch size pequeno (vari√¢ncia alta) ou problema de converg√™ncia

### Par√¢metros Configur√°veis

```python
# Reward Training
lr=2e-5              # Learning rate do reward model
weight_decay=0.01    # Regulariza√ß√£o L2

# Policy Training
num_steps=20         # Itera√ß√µes de otimiza√ß√£o
batch_size=4         # Amostras por itera√ß√£o
kl_coef=0.1         # For√ßa da KL penalty
lr=1e-5             # Learning rate da policy
```

**Tuning sugerido:**

**Se reward model n√£o converge:**
- Aumente lr para 5e-5
- Colete mais feedbacks (15-20)
- Reduza weight_decay para 0.001

**Se policy n√£o melhora:**
- Aumente num_steps para 50
- Aumente batch_size para 8 (se mem√≥ria permitir)
- Reduza kl_coef para 0.05 (permite mais mudan√ßa)

**Se policy se torna nonsense:**
- Reduza num_steps para 10
- Aumente kl_coef para 0.2 (mais conservador)
- Verifique se reward model est√° bem calibrado

### Tempo de Execu√ß√£o Estimado

**Coleta de Feedback:**
- Depende do usu√°rio (1-2 min por avalia√ß√£o)
- Total: ~10-20 minutos para 10 feedbacks

**Treinamento Reward Model:**
- CPU: ~30 segundos para 10 feedbacks
- GPU: ~5 segundos

**Treinamento Policy:**
- CPU: ~10-15 minutos (n√£o recomendado)
- GPU/MPS: ~1-2 minutos

**Total: ~15-30 minutos** (a maioria √© coleta de feedback)

In [9]:
fixed_prompt = "Donald Trump is a"

print("üé¨ Iniciando RLHF!\n")

# 1. Coleta e treino do reward
loss = collect_and_train_reward(
    model=reward_model,
    prompt=fixed_prompt,
    gen_model=generation_model,
    gen_tokenizer=gen_tokenizer,
    bert_tokenizer=bert_tokenizer,
    feedback_collector=feedback_collector,
    optimizer=reward_optimizer,
    device=device
)

# 2. Treina policy usando reward model
train_policy_with_reward(
    gen_model=generation_model,
    ref_model=ref_model,
    reward_model=reward_model,
    tokenizer=gen_tokenizer,
    bert_tokenizer=bert_tokenizer,
    prompt=fixed_prompt,
    optimizer=policy_optimizer,
    device=device,
    num_steps=20,
    batch_size=4,
    kl_coef=0.1
)

print("\nüéâ Treinamento Completo!")

üé¨ Iniciando RLHF!


üéØ Coleta de Feedback


üí¨ Prompt: Donald Trump is a
ü§ñ Resposta: Donald Trump is a bigot," Clinton spokesman Nick Merrill responded to the president
Avalie a qualidade da resposta. Digite 1 para bom, 2 para neutro, 3 para ruim, ou q para sair.
üëé Feedback registrado!

üí¨ Prompt: Donald Trump is a
ü§ñ Resposta: Donald Trump is a 'bad guy,' says White House senior advisor Ivanka
Avalie a qualidade da resposta. Digite 1 para bom, 2 para neutro, 3 para ruim, ou q para sair.
üëé Feedback registrado!

üí¨ Prompt: Donald Trump is a
ü§ñ Resposta: Donald Trump is a terrible commander-in-chief," said Rep.
Avalie a qualidade da resposta. Digite 1 para bom, 2 para neutro, 3 para ruim, ou q para sair.
üëé Feedback registrado!

üí¨ Prompt: Donald Trump is a
ü§ñ Resposta: Donald Trump is a candidate and person. His victory was an act of
Avalie a qualidade da resposta. Digite 1 para bom, 2 para neutro, 3 para ruim, ou q para sair.
üëç Feedback registrado!

üí

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Atualizando reward model:   0%|          | 0/389 [00:00<?, ?it/s]


‚úÖ Loss m√©dio: 0.2467

üî• Treinando Policy com Reward Model



Passos de treinamento:   0%|          | 0/20 [00:00<?, ?it/s]


Step 5/20 - Loss: -1.0304

Step 10/20 - Loss: -1.7153

Step 15/20 - Loss: -2.3878

Step 20/20 - Loss: -2.3302

‚úÖ Treinamento da policy completo!

üéâ Treinamento Completo!


## 10. Compara√ß√£o: Antes vs Depois do RLHF

### Objetivo da Compara√ß√£o

Avaliar quantitativamente e qualitativamente o impacto do treinamento RLHF, comparando o comportamento do modelo original (ref_model) com o modelo treinado (generation_model).

### Metodologia

Geramos **10 frases** com cada modelo para:

1. **Avaliar consist√™ncia**: Modelos estoc√°sticos variam entre gera√ß√µes
2. **Identificar padr√µes**: Ver se mudan√ßas s√£o sistem√°ticas ou aleat√≥rias
3. **Medir diversidade**: Verificar se o modelo n√£o colapsou em uma √∫nica resposta

### Modelo de Refer√™ncia (Baseline)

```python
ref_model  # C√≥pia congelada do GPT-2 original
```

**Caracter√≠sticas esperadas:**
- Respostas diversas refletindo distribui√ß√£o do pr√©-treinamento
- Pode incluir vieses dos dados de treinamento originais
- N√£o incorpora prefer√™ncias do avaliador humano
- Serve como controle experimental

**Exemplo de output t√≠pico:**
```
1. Donald Trump is a businessman and television personality
2. Donald Trump is a former president of the United States
3. Donald Trump is a controversial figure in American politics
4. Donald Trump is a real estate developer who became...
5. Donald Trump is a polarizing figure known for his...
...
```

### Modelo Treinado (RLHF)

```python
generation_model  # GPT-2 ap√≥s otimiza√ß√£o com reward model
```

**Mudan√ßas esperadas (dependem do feedback):**

**Se feedback favoreceu neutralidade:**
- Mais frases factuais e descritivas
- Menos adjetivos carregados de valor
- Foco em informa√ß√µes objetivas

**Se feedback favoreceu positividade:**
- √änfase em realiza√ß√µes
- Linguagem mais favor√°vel
- Destaque para aspectos positivos

**Se feedback favoreceu cr√≠tica:**
- Men√ß√£o a controv√©rsias
- Linguagem mais cr√≠tica
- Contexto de cr√≠ticas recebidas

### An√°lise Qualitativa

**Aspectos a observar:**

#### 1. Tonalidade
```
Original: "Donald Trump is a controversial businessman"
Treinado: "Donald Trump is a successful entrepreneur"  (se feedback foi positivo)
```

#### 2. Completude
```
Original: "Donald Trump is a real estate"  (incompleto)
Treinado: "Donald Trump is a real estate developer and former president"  (mais completo)
```

#### 3. Factualidade
```
Original: "Donald Trump is a billionaire mogul"  (pode ser impreciso)
Treinado: "Donald Trump is a businessman who served as the 45th president"  (mais preciso)
```

#### 4. Diversidade Lexical
- Original: Usa palavras variadas
- Treinado: Pode ter vocabul√°rio mais consistente (se reward model recompensou certos termos)

### M√©tricas Quantitativas (N√£o Implementadas, mas √öteis)

#### 1. Perplexity
```python
perplexity = exp(cross_entropy_loss)
```
- Mede qu√£o "surpreso" o modelo fica com o texto
- Perplexity menor = modelo mais confiante
- **Esperado**: Perplexity ligeiramente maior no treinado (devido a KL penalty)

#### 2. Diversity Metrics

**Self-BLEU** (menor = mais diverso):
```python
# Calcula BLEU entre pares de respostas do mesmo modelo
# Valores baixos indicam respostas diversas
```

**Distinct-n** (maior = mais diverso):
```python
# Propor√ß√£o de n-grams √∫nicos
distinct_1 = len(unique_unigrams) / len(all_unigrams)
distinct_2 = len(unique_bigrams) / len(all_bigrams)
```

#### 3. Reward Score M√©dio
```python
avg_reward_original = mean([reward_model.score(s) for s in original_sentences])
avg_reward_trained = mean([reward_model.score(s) for s in trained_sentences])
```
- **Esperado**: avg_reward_trained > avg_reward_original
- Se n√£o, o treinamento n√£o foi efetivo

### Interpretando Resultados

#### Cen√°rio 1: Grande Mudan√ßa
```
Original: Respostas variadas e neutras
Treinado: Respostas muito similares e consistentes
```
**Diagn√≥stico:**
- kl_coef muito baixo ‚Üí modelo se afastou demais
- Poss√≠vel reward hacking
- **Solu√ß√£o**: Aumentar kl_coef

#### Cen√°rio 2: Pouca Mudan√ßa
```
Original: [respostas A, B, C]
Treinado: [respostas A', B', C']  (quase id√™nticas)
```
**Diagn√≥stico:**
- kl_coef muito alto ‚Üí modelo n√£o p√¥de mudar
- num_steps insuficiente
- reward model n√£o d√° sinal claro
- **Solu√ß√£o**: Reduzir kl_coef ou aumentar num_steps

#### Cen√°rio 3: Mudan√ßa Desejada
```
Original: Mistura de tons e qualidades
Treinado: Consistentemente alinhado com feedback
```
**Diagn√≥stico:**
- ‚úÖ RLHF funcionou como esperado
- Modelo aprendeu prefer√™ncias sem colapsar

### Exemplo de An√°lise

**Suponha feedback favoreceu neutralidade:**

```
üìä 10 Frases sem o novo treino (modelo original)
1. Donald Trump is a controversial businessman and politician
2. Donald Trump is a billionaire real estate mogul
3. Donald Trump is a former president who remains divisive
...

üìä 10 Frases com o novo treino (modelo treinado)
1. Donald Trump is a businessman who served as the 45th president
2. Donald Trump is an American entrepreneur and politician
3. Donald Trump is a former president from New York
...
```

**Observa√ß√µes:**
- Original: Palavras como "controversial", "divisive", "mogul"
- Treinado: Palavras mais neutras "served as", "entrepreneur", "from New York"
- ‚úÖ Modelo aprendeu a ser mais neutro conforme feedback

### Limita√ß√µes desta Compara√ß√£o

1. **Poucos exemplos**: 10 frases n√£o s√£o estatisticamente significativas
2. **Prompt √∫nico**: N√£o sabemos se mudan√ßas generalizam para outros prompts
3. **Avalia√ß√£o humana**: Ainda requer inspe√ß√£o manual (n√£o automatizada)
4. **Vi√©s do avaliador**: Um √∫nico avaliador pode ter prefer√™ncias idiossincr√°ticas

### Pr√≥ximos Passos

Para avalia√ß√£o mais robusta:
1. Gerar 100+ frases por modelo
2. Testar em m√∫ltiplos prompts diversos
3. Avaliar com m√∫ltiplos humanos (medir concord√¢ncia)
4. Calcular m√©tricas autom√°ticas (perplexity, diversity, reward)
5. An√°lise estat√≠stica (t-test para signific√¢ncia)

In [10]:
def generate_10_sentences(model, tokenizer, prompt):
    sentences = []
    for _ in range(10):
        completion = generate_completion(model, tokenizer, prompt)
        full_sentence = f"{prompt} {completion}"
        sentences.append(full_sentence)
    return sentences

print(f"\n{'='*60}")
print("üìä 10 Frases sem o novo treino (modelo original)")
print(f"{'='*60}\n")
original_sentences = generate_10_sentences(ref_model, gen_tokenizer, fixed_prompt)
for i, sent in enumerate(original_sentences, 1):
    print(f"{i}. {sent}")

print(f"\n{'='*60}")
print("üìä 10 Frases com o novo treino (modelo treinado)")
print(f"{'='*60}\n")
trained_sentences = generate_10_sentences(generation_model, gen_tokenizer, fixed_prompt)
for i, sent in enumerate(trained_sentences, 1):
    print(f"{i}. {sent}")


üìä 10 Frases sem o novo treino (modelo original)

1. Donald Trump is a serial liar. He's an obstructionist." And
2. Donald Trump is a great choice for President," she said.
3. Donald Trump is a liar," the former reality TV star said, before
4. Donald Trump is a little bit of the big guy, but I think
5. Donald Trump is a white supremacist. His father, Bill Clinton, said
6. Donald Trump is a former Republican national committeeman. He is an
7. Donald Trump is a man who's been on a crusade to overturn the
8. Donald Trump is a white nationalist. We should focus on making sure Trump
9. Donald Trump is a Republican and I'm not sure what his foreign policy
10. Donald Trump is a "loser" and a "hater"

üìä 10 Frases com o novo treino (modelo treinado)

1. Donald Trump is a leader


The video, which was directed
2. Donald Trump is a big success in this country," the Republican tweeted.
3. Donald Trump is a big-world winner who's already taking part in
4. Donald Trump is a much better candida

## 11. Salvamento dos Modelos

### Por que Salvar Checkpoints?

Ap√≥s todo o esfor√ßo de coleta de feedback e treinamento, √© essencial preservar os modelos treinados:

1. **Reutiliza√ß√£o**: Carregar modelos sem retreinar
2. **Experimentos**: Comparar diferentes configura√ß√µes
3. **Deploy**: Usar modelos em produ√ß√£o
4. **An√°lise**: Investigar comportamento posteriormente

### Estrutura do Checkpoint

```python
torch.save({
    'generation_model_state_dict': generation_model.state_dict(),
    'reward_model_state_dict': reward_model.state_dict(),
    'reward_optimizer_state_dict': reward_optimizer.state_dict(),
    'policy_optimizer_state_dict': policy_optimizer.state_dict(),
}, 'rlhf_model.pt')
```

### Componentes Salvos

#### 1. `generation_model_state_dict`
**O que √©:**
- Todos os pesos do GPT-2 treinado
- Par√¢metros de todas as camadas (embeddings, attention, feedforward)
- Representa o modelo alinhado com feedback humano

**Tamanho:**
- ~500MB para GPT-2 base (124M par√¢metros)
- Cada par√¢metro: 4 bytes (float32)

**Uso posterior:**
```python
model = AutoModelForCausalLM.from_pretrained('gpt2')
checkpoint = torch.load('rlhf_model.pt')
model.load_state_dict(checkpoint['generation_model_state_dict'])
```

#### 2. `reward_model_state_dict`
**O que √©:**
- Pesos do BERT + reward head
- Modelo que aprendeu a prever prefer√™ncias humanas

**Por que salvar:**
- Pode ser usado para avaliar novas respostas
- √ötil para debug (ver como reward mudou durante treinamento)
- Permite continuar treinamento com mais feedback

**Uso posterior:**
```python
reward_model = BERTRewardModel()
reward_model.load_state_dict(checkpoint['reward_model_state_dict'])
```

#### 3. `reward_optimizer_state_dict`
**O que √©:**
- Estado interno do otimizador AdamW
- Inclui: momentos, learning rate schedule, step count

**Componentes do AdamW:**
```python
{
    'state': {
        # Para cada par√¢metro:
        'step': 150,              # N√∫mero de updates
        'exp_avg': [...],         # Momento de primeira ordem (m√©dia m√≥vel)
        'exp_avg_sq': [...]       # Momento de segunda ordem (vari√¢ncia m√≥vel)
    },
    'param_groups': [{
        'lr': 2e-5,
        'weight_decay': 0.01,
        ...
    }]
}
```

**Por que salvar:**
- Continuar treinamento exatamente de onde parou
- Momentos acumulados ajudam na converg√™ncia
- Sem isso, retreinar seria mais lento

#### 4. `policy_optimizer_state_dict`
**O que √©:**
- Estado do otimizador da policy (GPT-2)
- Similar ao reward optimizer

**Por que salvar:**
- Permite fine-tuning adicional
- Preserva hist√≥rico de gradientes (importante para Adam)

### Formato: PyTorch Pickle (.pt)

**Caracter√≠sticas:**
- Formato bin√°rio comprimido
- Eficiente em espa√ßo e velocidade
- Espec√≠fico do PyTorch (n√£o port√°vel para outros frameworks)

**Alternativas:**
```python
# Salvar apenas pesos (menor)
torch.save(model.state_dict(), 'model_weights.pt')

# Salvar modelo completo (inclui arquitetura)
torch.save(model, 'full_model.pt')

# Formato Hugging Face (port√°vel)
model.save_pretrained('./my_model')
```

### Carregando o Checkpoint

```python
# Carregar checkpoint
checkpoint = torch.load('rlhf_model.pt', map_location=device)

# Restaurar generation model
generation_model = AutoModelForCausalLM.from_pretrained('gpt2').to(device)
generation_model.load_state_dict(checkpoint['generation_model_state_dict'])

# Restaurar reward model
reward_model = BERTRewardModel().to(device)
reward_model.load_state_dict(checkpoint['reward_model_state_dict'])

# Restaurar otimizadores (se continuar treinamento)
reward_optimizer = torch.optim.AdamW(reward_model.parameters(), lr=2e-5)
reward_optimizer.load_state_dict(checkpoint['reward_optimizer_state_dict'])

policy_optimizer = torch.optim.AdamW(generation_model.parameters(), lr=1e-5)
policy_optimizer.load_state_dict(checkpoint['policy_optimizer_state_dict'])

# Colocar em modo de avalia√ß√£o
generation_model.eval()
reward_model.eval()
```

### Boas Pr√°ticas

#### 1. Versionamento
```python
# Salvar m√∫ltiplas vers√µes
torch.save(..., f'rlhf_model_epoch_{epoch}.pt')
torch.save(..., f'rlhf_model_reward_{avg_reward:.3f}.pt')
```

#### 2. Metadata
```python
torch.save({
    'epoch': epoch,
    'timestamp': datetime.now(),
    'hyperparameters': {
        'kl_coef': 0.1,
        'num_steps': 20,
        'batch_size': 4
    },
    'metrics': {
        'reward_loss': 0.0847,
        'policy_loss': 0.2431
    },
    'generation_model_state_dict': generation_model.state_dict(),
    ...
}, 'rlhf_model.pt')
```

#### 3. Backup Regular
```python
# Durante treinamento longo
if step % 100 == 0:
    torch.save(..., f'checkpoint_step_{step}.pt')
```

### Tamanho do Arquivo

**Estimativa:**
```
GPT-2 base: ~500MB
BERT base: ~440MB
Optimizers: ~1GB (2x os pesos, pois Adam mant√©m momentos)
Total: ~2GB
```

**Compress√£o:**
```python
# Salvar com compress√£o
import gzip
with gzip.open('rlhf_model.pt.gz', 'wb') as f:
    torch.save(..., f)
# Reduz para ~800MB
```

### Deploy em Produ√ß√£o

Para usar o modelo treinado em produ√ß√£o:

```python
# 1. Carregar modelo
model = load_trained_model('rlhf_model.pt')
model.eval()

# 2. Infer√™ncia
with torch.no_grad():
    response = generate_completion(model, tokenizer, prompt)

# 3. (Opcional) Avaliar com reward model
score = evaluate_response(reward_model, prompt, response)
if score < threshold:
    # Regenerar ou usar fallback
    response = generate_completion(model, tokenizer, prompt)
```

### Seguran√ßa e Privacidade

**Importante:**
- Checkpoints podem conter informa√ß√µes sens√≠veis se treinados com dados privados
- Feedback humano pode revelar prefer√™ncias pessoais
- **N√£o compartilhe publicamente** sem revisar

**Mitiga√ß√£o:**
- Treinar com dados p√∫blicos/sint√©ticos
- Anonimizar feedback
- Auditar outputs antes de release

In [None]:
torch.save({
    'generation_model_state_dict': generation_model.state_dict(),
    'reward_model_state_dict': reward_model.state_dict(),
    'reward_optimizer_state_dict': reward_optimizer.state_dict(),
    'policy_optimizer_state_dict': policy_optimizer.state_dict(),
}, 'rlhf_model.pt')

print("‚úÖ Modelos salvos!")

## Conclus√£o

### Recapitula√ß√£o do Pipeline RLHF

Este notebook implementou um pipeline completo de **Reinforcement Learning from Human Feedback**, demonstrando como alinhar modelos de linguagem com prefer√™ncias humanas:

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  GPT-2 Original  ‚îÇ  ‚Üê Modelo base pr√©-treinado
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚Üì Gera respostas
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Coleta Feedback  ‚îÇ  ‚Üê Humano avalia: bom/neutro/ruim
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚Üì Treina com MSE
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  Reward Model    ‚îÇ  ‚Üê Aprende prefer√™ncias (BERT)
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚Üì Usa como sinal
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  Policy Training ‚îÇ  ‚Üê Otimiza GPT-2 com PPO
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ GPT-2 Alinhado   ‚îÇ  ‚Üê Modelo final alinhado
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Conceitos-Chave Aprendidos

#### 1. Reward Modeling
- **Problema**: N√£o existe "resposta correta" em gera√ß√£o de texto
- **Solu√ß√£o**: Treinar modelo para imitar avalia√ß√µes humanas
- **T√©cnica**: Supervised learning com MSE loss

#### 2. Policy Optimization
- **Objetivo**: Maximizar reward sem divergir do comportamento original
- **T√©cnica**: PPO simplificado com KL divergence penalty
- **Trade-off**: Reward vs. proximidade ao modelo de refer√™ncia

#### 3. KL Divergence Penalty
- **Fun√ß√£o**: Prevenir reward hacking e colapso de distribui√ß√£o
- **Mecanismo**: Penalizar desvios da policy original
- **Controle**: Hyperpar√¢metro kl_coef ajusta conservadorismo

### Resultados Esperados

**Com feedback adequado (10+ exemplos):**
- ‚úÖ Modelo gera respostas mais consistentes com prefer√™ncias
- ‚úÖ Loss do reward model converge (< 0.1)
- ‚úÖ Loss da policy decresce durante treinamento
- ‚úÖ Compara√ß√£o mostra mudan√ßa no tom/conte√∫do

**Sinais de sucesso:**
```python
# Antes do RLHF
avg_reward_before = 0.45  # M√©dio/neutro

# Depois do RLHF
avg_reward_after = 0.78   # Alinhado com prefer√™ncias
```

### Limita√ß√µes desta Implementa√ß√£o

#### 1. Escala Reduzida
- **Feedbacks**: 10-20 vs. milh√µes (ChatGPT)
- **Par√¢metros**: 124M vs. 175B+ (GPT-3.5)
- **Prompt**: √önico vs. distribui√ß√£o diversa

**Impacto:**
- Generaliza√ß√£o limitada para outros prompts
- Pode overfit nas respostas espec√≠ficas avaliadas
- N√£o captura nuances complexas de prefer√™ncias

#### 2. PPO Simplificado
**Faltando:**
- Value function (critic)
- Advantage estimation (GAE)
- Clipping de ratio de probabilidade
- Multiple epochs sobre mesmo batch

**Impacto:**
- Menos est√°vel que PPO completo
- Pode n√£o convergir otimamente
- Mais sens√≠vel a hyperpar√¢metros

#### 3. Reward Model Simples
**Limita√ß√µes:**
- Treina com labels absolutos (0/0.5/1) vs. compara√ß√µes pareadas
- Um √∫nico avaliador (vieses individuais)
- N√£o captura incerteza nas predi√ß√µes

**Melhor abordagem:**
- Usar compara√ß√µes pareadas: "Qual resposta √© melhor?"
- M√∫ltiplos avaliadores (medir concord√¢ncia)
- Modelo probabil√≠stico (Bradley-Terry)

### Melhorias e Extens√µes

#### 1. Mais Dados de Feedback

**Estrat√©gias:**
```python
# M√∫ltiplos prompts
prompts = [
    "The climate crisis is",
    "Artificial intelligence will",
    "The best way to learn is"
]

# Coletar feedback para cada um
for prompt in prompts:
    collect_feedback(model, prompt)
```

**Benef√≠cios:**
- Generaliza√ß√£o entre dom√≠nios
- Reduz overfitting
- Revela padr√µes consistentes de prefer√™ncias

#### 2. PPO Completo

**Adicionar:**
```python
class ValueModel(nn.Module):
    # Prediz reward esperado de um estado
    def forward(self, state):
        return self.value_head(self.bert(state))

# Calcular advantage
advantage = reward - value_prediction
policy_loss = -advantage * log_prob
```

**Benef√≠cios:**
- Reduz vari√¢ncia do gradiente
- Converg√™ncia mais est√°vel
- Aprende value function √∫til para deploy

#### 3. Compara√ß√µes Pareadas

**Formato de feedback:**
```python
# Ao inv√©s de: "Esta resposta √© boa? 1/0"
# Usar: "Qual resposta √© melhor? A ou B?"

response_a = generate_completion(model, prompt)
response_b = generate_completion(model, prompt)

# Usu√°rio escolhe
preferred = ask_user_preference(response_a, response_b)

# Treinar reward model
loss = -log_sigmoid(reward(preferred) - reward(other))
```

**Benef√≠cios:**
- Mais f√°cil para humanos (comparar vs. avaliar absolutamente)
- Mais consistente (elimina calibra√ß√£o individual)
- Usado no InstructGPT/ChatGPT

#### 4. M√©tricas Autom√°ticas

**Implementar:**
```python
def evaluate_model(model, test_prompts, reward_model):
    metrics = {
        'avg_reward': [],
        'perplexity': [],
        'diversity': [],
        'toxicity': []
    }
    
    for prompt in test_prompts:
        responses = [generate_completion(model, prompt) for _ in range(10)]
        metrics['avg_reward'].append(mean([reward_model(r) for r in responses]))
        metrics['diversity'].append(calc_distinct_n(responses))
        # ...
    
    return metrics
```

#### 5. Regulariza√ß√£o Adicional

**T√©cnicas:**
```python
# 1. Entropy bonus (incentiva diversidade)
entropy = -(probs * log_probs).sum()
loss = -reward + kl_penalty - entropy_coef * entropy

# 2. Length normalization (evita respostas muito curtas/longas)
reward_normalized = reward / length

# 3. Curriculum learning (come√ßa com kl_coef alto, depois reduz)
kl_coef = initial_kl * (decay_rate ** epoch)
```

### Aplica√ß√µes Pr√°ticas

#### 1. Assistentes Personalizados
```python
# Treinar modelo para estilo espec√≠fico
feedbacks = collect_feedback(
    style="professional", "casual", "technical"
)
# Resultado: Assistente que adota tom preferido
```

#### 2. Content Moderation
```python
# Recompensar respostas seguras e √∫teis
# Penalizar conte√∫do t√≥xico ou prejudicial
reward_model.train(safe_responses=1.0, toxic_responses=0.0)
```

#### 3. Domain Adaptation
```python
# Adaptar modelo gen√©rico para dom√≠nio espec√≠fico
# Ex: Respostas m√©dicas, legais, t√©cnicas
collect_domain_feedback(medical_prompts)
```

### Recursos Adicionais

**Papers Fundamentais:**
1. **InstructGPT** (OpenAI, 2022): "Training language models to follow instructions with human feedback"
2. **PPO** (Schulman et al., 2017): "Proximal Policy Optimization Algorithms"
3. **RLHF Survey** (Christiano et al., 2017): "Deep reinforcement learning from human preferences"

**Implementa√ß√µes:**
- **trl** (Hugging Face): Biblioteca oficial para RLHF
- **DeepSpeed-Chat**: Framework da Microsoft para RLHF em escala
- **OpenAssistant**: Projeto open-source de chatbot com RLHF

**Tutoriais:**
- Hugging Face RLHF Course: https://huggingface.co/blog/rlhf
- Spinning Up in Deep RL: https://spinningup.openai.com/

### Considera√ß√µes √âticas

**RLHF n√£o resolve todos os problemas:**
- Vieses dos avaliadores s√£o transferidos ao modelo
- "Alinhamento" depende de quem define as prefer√™ncias
- Reward hacking pode gerar comportamentos indesejados

**Boas pr√°ticas:**
1. M√∫ltiplos avaliadores diversos
2. Auditar outputs regularmente
3. Testes de seguran√ßa (red teaming)
4. Transpar√™ncia sobre limita√ß√µes
5. Mecanismos de feedback cont√≠nuo

### Pr√≥ximos Passos

**Para experimentar:**
1. Teste com diferentes prompts (diversos dom√≠nios)
2. Ajuste hyperpar√¢metros (kl_coef, learning rates)
3. Compare com baselines (sem RLHF)
4. Implemente m√©tricas autom√°ticas
5. Escale para mais feedback (50-100 exemplos)

**Para produ√ß√£o:**
1. Implemente PPO completo
2. Use compara√ß√µes pareadas
3. Adicione value function
4. Escale para modelos maiores (GPT-2 Large, etc.)
5. Deploy com monitoramento cont√≠nuo

### Conclus√£o Final

RLHF √© uma t√©cnica poderosa para alinhar modelos de linguagem com valores humanos. Este notebook demonstra os princ√≠pios fundamentais em escala reduzida, mas os conceitos escalam para sistemas como ChatGPT.

A chave √© entender o trade-off entre **explora√ß√£o** (tentar comportamentos novos) e **conservadorismo** (manter comportamento seguro), controlado pela KL penalty.

**Mensagem final:**
> "Modelos de linguagem s√£o ferramentas poderosas. RLHF nos permite gui√°-las para serem √∫teis, inofensivas e honestas. Mas o alinhamento √© um processo cont√≠nuo, n√£o um destino final."

**üéâ Parab√©ns por completar este tutorial de RLHF!**