In [None]:
import os, sys

REPO_URL = "https://github.com/vongrossi/fazendo-um-llm-do-zero.git"
REPO_DIR = "fazendo-um-llm-do-zero"

if not os.path.exists(REPO_DIR):
    !git clone {REPO_URL}

os.chdir(REPO_DIR)
sys.path.append(os.getcwd())

print("DiretÃ³rio atual:", os.getcwd())


# CapÃ­tulo 07 â€” Instruction Tuning

Neste notebook vamos ensinar o modelo a seguir instruÃ§Ãµes humanas.

AtÃ© agora o modelo aprendeu:

â€¢ Como linguagem funciona  
â€¢ Como gerar texto  
â€¢ Como resolver tarefas supervisionadas  

Agora vamos ensinar o modelo a:

ðŸ‘‰ Interpretar instruÃ§Ãµes  
ðŸ‘‰ Responder perguntas  
ðŸ‘‰ Produzir respostas orientadas  

Este Ã© o passo que transforma modelos base em assistentes conversacionais.


Imports e configuraÃ§Ã£o de uso de GPU

In [None]:
import torch
import torch.nn.functional as F
import torch.nn as nn
import random
import numpy as np

device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

def seed_everything(seed=42):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

seed_everything(42)


Importando criado GPTMini

from lib.gptmini import GPTConfig, GPTMini


Carregar Pesos do criado no CapÃ­tulo 05

In [None]:
checkpoint_path = "05-pre-treinamento/gpt_checkpoint.pt"

config = GPTConfig(
    vocab_size=2000,
    context_size=64,
    d_model=128,
    n_heads=4,
    n_layers=2
)

backbone = GPTMini(config).to(device)

try:
    ckpt = torch.load(checkpoint_path, map_location=device)
    backbone.load_state_dict(ckpt, strict=False)
    print("Pesos do Cap 05 carregados âœ…")
except:
    print("Checkpoint nÃ£o encontrado â€” usando modelo inicial")


### ðŸ“Š Parte A â€” Dataset de InstruÃ§Ãµes

Dataset MÃ©dio de InstruÃ§Ãµes

In [None]:
dataset = [
    {
        "instruction": "Explique o que Ã© Machine Learning",
        "response": "Machine Learning Ã© uma Ã¡rea da inteligÃªncia artificial que permite que sistemas aprendam padrÃµes a partir de dados."
    },
    {
        "instruction": "Traduza para inglÃªs: bom dia",
        "response": "Good morning"
    },
    {
        "instruction": "Explique o que Ã© um token em LLMs",
        "response": "Token Ã© uma unidade de texto convertida em representaÃ§Ã£o numÃ©rica usada pelo modelo."
    },
    {
        "instruction": "Resuma: Modelos GPT usam Transformers",
        "response": "Modelos GPT utilizam arquitetura Transformer para processar linguagem."
    }
]


FunÃ§Ã£o de Prompt Estruturado

In [None]:
def format_prompt(item):
    return f"""
### InstruÃ§Ã£o:
{item['instruction']}

### Resposta:
{item['response']}
""".strip()


TokenizaÃ§Ã£o Simples (char-level)

In [None]:
all_text = "".join([format_prompt(d) for d in dataset])

chars = sorted(set(all_text))
stoi = {c:i for i,c in enumerate(chars)}
itos = {i:c for c,i in stoi.items()}

vocab_size = len(chars)


Encoder

In [None]:
def encode(text):
    return [stoi[c] for c in text if c in stoi]

def decode(tokens):
    return "".join([itos[t] for t in tokens])


Criar Dataset com Masking

In [None]:
def build_instruction_dataset(data, context_size=64):

    X, Y, mask = [], [], []

    for item in data:
        prompt = f"### InstruÃ§Ã£o:\n{item['instruction']}\n\n### Resposta:\n"
        full = prompt + item["response"]

        prompt_tokens = encode(prompt)
        full_tokens = encode(full)

        for i in range(len(full_tokens)-context_size):

            x = full_tokens[i:i+context_size]
            y = full_tokens[i+1:i+context_size+1]

            m = [0]*len(prompt_tokens)
            m = m + [1]*(context_size-len(prompt_tokens))

            X.append(x)
            Y.append(y)
            mask.append(m[:context_size])

    return (
        torch.tensor(X),
        torch.tensor(Y),
        torch.tensor(mask)
    )

context_size = 64
X, Y, MASK = build_instruction_dataset(dataset, context_size)

X, Y, MASK = X.to(device), Y.to(device), MASK.to(device)


### ðŸ“Š Parte B â€” Modelo Instruction Tuned
Wrapper com Loss Mascarada

In [None]:
class InstructionGPT(nn.Module):

    def __init__(self, backbone):
        super().__init__()
        self.backbone = backbone

    def forward(self, x, y=None, mask=None):

        logits, _ = self.backbone(x)

        loss = None

        if y is not None:

            loss = F.cross_entropy(
                logits.view(-1, logits.size(-1)),
                y.view(-1),
                reduction="none"
            )

            loss = loss * mask.view(-1)
            loss = loss.mean()

        return logits, loss

model = InstructionGPT(backbone).to(device)


### ðŸ“Š Parte C â€” Treinamento SFT
Otimizador

In [None]:
optimizer = torch.optim.AdamW(model.parameters(), lr=3e-4)


Loop de Treino

In [None]:
loss_history = []

for step in range(300):

    idx = torch.randint(0, X.size(0), (8,))
    xb, yb, mb = X[idx], Y[idx], MASK[idx]

    logits, loss = model(xb, yb, mb)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    loss_history.append(loss.item())

    if step % 50 == 0:
        print(step, loss.item())


Visualizar Loss

In [None]:
import matplotlib.pyplot as plt

plt.plot(loss_history)
plt.title("Loss Instruction Tuning")
plt.show()


### ðŸ“Š Parte D â€” ComparaÃ§Ã£o Base vs Instruction Tuned
FunÃ§Ã£o de GeraÃ§Ã£o

In [None]:
@torch.no_grad()
def generate(model, start, max_tokens=80):

    tokens = encode(start)
    tokens = torch.tensor(tokens).unsqueeze(0).to(device)

    for _ in range(max_tokens):
        logits, _ = model(tokens)
        next_token = torch.argmax(logits[:, -1, :], dim=-1)
        tokens = torch.cat([tokens, next_token.unsqueeze(1)], dim=1)

    return decode(tokens.squeeze().tolist())


Testando o modelo !

In [None]:
prompt = "### InstruÃ§Ã£o:\nExplique o que Ã© Machine Learning\n\n### Resposta:\n"

print(generate(model, prompt))


### ðŸ“Š Parte E â€” Salvar Checkpoint Final


In [None]:
torch.save(model.state_dict(), "07_instruction_gpt.pt")


# Encerramento da SÃ©rie

Neste capÃ­tulo vocÃª ensinou um modelo a:

â€¢ Interpretar instruÃ§Ãµes  
â€¢ Produzir respostas orientadas  
â€¢ Aprender comportamento conversacional  

VocÃª percorreu toda a jornada:

Texto â†’ Tokens â†’ AtenÃ§Ã£o â†’ GPT â†’ Treinamento â†’ Fine-Tuning â†’ Instruction Tuning

Este Ã© o pipeline fundamental dos assistentes baseados em LLMs modernos.
