# Cap√≠tulo 05 ‚Äî Pr√©-Treinamento: O Nascimento da Intelig√™ncia

Neste cap√≠tulo, vamos tirar o nosso GPTMini da in√©rcia. Vamos aliment√°-lo com dados e observar o momento exato em que ele deixa de escolher palavras aleat√≥rias e come√ßa a entender os padr√µes da nossa l√≠ngua.

--- 
### üè≠ A F√°brica de Predi√ß√£o
O pr√©-treinamento √© a etapa mais pesada. √â aqui que o modelo aprende a gram√°tica, o vocabul√°rio e a l√≥gica do mundo atrav√©s da predi√ß√£o do pr√≥ximo token.

![Pipeline de Treinamento](./infograficos/01-pipeline-treinamento.png)

## 1. Setup e Configura√ß√£o

In [None]:
# ============================================================
# Setup do reposit√≥rio no Colab
# ============================================================
import os
import sys

REPO_URL = "https://github.com/vongrossi/fazendo-um-llm-do-zero.git"
REPO_DIR = "fazendo-um-llm-do-zero"

if not os.path.exists(REPO_DIR):
    !git clone {REPO_URL}

os.chdir(REPO_DIR)
sys.path.append(os.getcwd())
print("Diret√≥rio atual:", os.getcwd())


In [None]:
!pip -q install -r 05-pre-treinamento/requirements.txt

import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt
import math
import random
import numpy as np
from lib.gptmini import GPTConfig, GPTMini

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"‚úÖ Oficina pronta! Usando: {device}")

torch.manual_seed(42)
np.random.seed(42)
random.seed(42)


## 2. Prepara√ß√£o do Dataset

Vamos usar um pequeno conjunto de frases sobre gatos e cachorros para que possamos monitorar o aprendizado de forma r√°pida e clara.

In [None]:
text = """
o gato subiu no telhado
o cachorro subiu no sofa
o gato dormiu no sofa
o cachorro dormiu no tapete
o gato pulou no muro
o cachorro pulou o portao
""".strip().lower()

tokens = text.split()
vocab = sorted(set(tokens))
stoi = {t:i for i,t in enumerate(vocab)}
itos = {i:t for t,i in stoi.items()}
vocab_size = len(vocab)
encoded = [stoi[t] for t in tokens]

def build_dataset(token_ids, context_size=5):
    X, Y = [], []
    for i in range(len(token_ids) - context_size):
        X.append(token_ids[i : i + context_size])
        Y.append(token_ids[i + 1 : i + context_size + 1])
    return torch.tensor(X).to(device), torch.tensor(Y).to(device)

context_size = 5
X, Y = build_dataset(encoded)
print(f"Vocabul√°rio: {vocab_size} palavras | Amostras: {len(X)}")

## 3. O Estado do Caos (Antes do Treino)

Vamos ver o que o modelo gera agora, com seus pesos puramente aleat√≥rios.

In [None]:
config = GPTConfig(vocab_size=vocab_size, context_size=5, d_model=64, n_heads=4, n_layers=2)
model = GPTMini(config).to(device)

def generate(model, start_text, max_new=5):
    model.eval()
    tokens = [stoi[t] for t in start_text.split() if t in stoi]
    idx = torch.tensor(tokens).unsqueeze(0).to(device)
    for _ in range(max_new):
        logits, _ = model(idx[:, -5:])
        next_id = torch.argmax(logits[:, -1, :], dim=-1, keepdim=True)
        idx = torch.cat([idx, next_id], dim=1)
    return " ".join([itos[i.item()] for i in idx[0]])

print("üé≤ Gera√ß√£o Aleat√≥ria:")
print(generate(model, "o gato"))

## 4. O Loop de Treinamento

Agora vamos ensinar o modelo atrav√©s da **Cross Entropy**. Ele vai comparar sua predi√ß√£o com o alvo real e ajustar seus pesos via **Backpropagation**.

![Loop Treino](./infograficos/03-loop-treinamento.png)

In [None]:
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3)
loss_history = []

print("üî® Treinando o c√©rebro do modelo...")
model.train()
for step in range(501):
    idx = torch.randint(0, X.size(0), (8,))
    xb, yb = X[idx], Y[idx]
    logits, loss = model(xb, yb)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    loss_history.append(loss.item())
    if step % 100 == 0: print(f"Step {step:03d} | Loss: {loss.item():.4f}")

plt.figure(figsize=(8, 3))
plt.plot(loss_history, color='#1A73E8')
plt.title("Curva de Aprendizado (Cross Entropy Loss)")
plt.show()

## 5. Ordem a partir do Caos (Depois do Treino)

Agora o modelo j√° deve ser capaz de completar frases sobre os animais do nosso dataset de forma coerente.

In [None]:
print("‚ú® Gera√ß√£o Treinada:")
print(generate(model, "o gato"))
print(generate(model, "o cachorro"))

## 6. Estrat√©gias de Gera√ß√£o Avan√ßadas

O modelo n√£o precisa ser sempre "rob√≥tico". Podemos usar a **Temperatura** para torn√°-lo mais criativo ou o **Top-P** para focar apenas nas melhores op√ß√µes.

![Decoding Strategies](./infograficos/04-decoding-strategies.png)

In [None]:
@torch.no_grad()
def generate_creative(model, start_text, temp=1.0):
    model.eval()
    tokens = [stoi[t] for t in start_text.split() if t in stoi]
    idx = torch.tensor(tokens).unsqueeze(0).to(device)
    for _ in range(5):
        logits, _ = model(idx[:, -5:])
        logits = logits[:, -1, :] / temp
        probs = F.softmax(logits, dim=-1)
        next_id = torch.multinomial(probs, num_samples=1)
        idx = torch.cat([idx, next_id], dim=1)
    return " ".join([itos[i.item()] for i in idx[0]])

print("üå°Ô∏è Baixa Temperatura (Focado):")
print(generate_creative(model, "o gato", temp=0.1))

print("\nüî• Alta Temperatura (Aleat√≥rio/Criativo):")
print(generate_creative(model, "o gato", temp=1.5))

## 7. Persist√™ncia: Salvando o Checkpoint

Para n√£o perdermos o progresso, salvamos o estado das matrizes de pesos.

![Checkpoints](./infograficos/05-checkpoints.png)

In [None]:
torch.save(model.state_dict(), "gpt_checkpoint.pt")
print("‚úÖ Checkpoint salvo como 'gpt_checkpoint.pt'!")

## üèÅ Conclus√£o

Voc√™ acabou de ensinar um GPT a aprender linguagem. Viu como ele sai do caos aleat√≥rio para a ordem gramatical e como podemos controlar sua criatividade.

No pr√≥ximo cap√≠tulo, vamos levar este modelo para a **especializa√ß√£o**, aprendendo como fazer o **Fine-Tuning** para tarefas espec√≠ficas como classifica√ß√£o de sentimentos e detec√ß√£o de spam.