# Cap√≠tulo 08 ‚Äî Explora√ß√µes Extras e Reflex√µes

Este notebook acompanha o Cap√≠tulo 08 da s√©rie **Fazendo um LLM do Zero**.

Este notebook √© um laborat√≥rio aberto.

üéØ **Objetivos deste notebook:**
- Limita√ß√µes dos modelos did√°ticos
- Impacto do tamanho do dataset
- Compara√ß√µes entre estrat√©gias
- Gera√ß√£o multi-turno
- Experimentos livres


## 1. Setup e Configura√ß√£o

In [None]:
# ============================================================
# Setup do reposit√≥rio
# ============================================================
import os

REPO_URL = "https://github.com/vongrossi/fazendo-um-llm-do-zero.git"
REPO_DIR = "fazendo-um-llm-do-zero"

if not os.path.exists(REPO_DIR):
    !git clone {REPO_URL}

os.chdir(REPO_DIR)
print("Diret√≥rio atual:", os.getcwd())


### 1.1 Depend√™ncias e Imports

In [None]:
!pip -q install -r 08-extras/requirements.txt

import torch
import random
import numpy as np
import matplotlib.pyplot as plt
import sys

# Adiciona raiz ao path
sys.path.append(os.getcwd())

device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)


Carregar Modelo Instruction Tuned

In [None]:
from lib.gptmini import GPTConfig, GPTMini

config = GPTConfig(
    vocab_size=2000,
    context_size=64,
    d_model=128,
    n_heads=4,
    n_layers=2
)

model = GPTMini(config).to(device)

try:
    model.load_state_dict(torch.load("07_instruction_gpt.pt", map_location=device))
    print("Modelo Instruction Tuned carregado")
except:
    print("Modelo n√£o encontrado ‚Äî use checkpoints anteriores")


### 2.1 Fun√ß√µes de Tokeniza√ß√£o

In [None]:
chars = list("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ .,!?\n:")
stoi = {c:i for i,c in enumerate(chars)}
itos = {i:c for c,i in stoi.items()}

def encode(text):
    return [stoi[c] for c in text if c in stoi]

def decode(tokens):
    return "".join([itos[t] for t in tokens])


## 3. Experimento 1 ‚Äî Impacto do Tamanho do Prompt

Aqui vamos observar como o tamanho do contexto influencia a resposta do modelo.

In [None]:
@torch.no_grad()
def generate(model, prompt, max_tokens=80):

    tokens = encode(prompt)
    tokens = torch.tensor(tokens).unsqueeze(0).to(device)

    for _ in range(max_tokens):
        logits, _ = model(tokens)
        next_token = torch.argmax(logits[:, -1, :], dim=-1)
        tokens = torch.cat([tokens, next_token.unsqueeze(1)], dim=1)

    return decode(tokens.squeeze().tolist())


In [None]:
prompt_curto = "Explique IA:"
prompt_longo = "Explique IA considerando aprendizado supervisionado e n√£o supervisionado:"

print(generate(model, prompt_curto))
print("\n---\n")
print(generate(model, prompt_longo))


## 4. Experimento 2 ‚Äî Limita√ß√£o de Dataset Pequeno

Vamos observar comportamento fora do dom√≠nio treinado.

In [None]:
print(generate(model, "Explique f√≠sica qu√¢ntica:"))


## 5. Experimento 3 ‚Äî Simulando Conversa Multi-turno

Aqui simulamos uma intera√ß√£o cont√≠nua com o modelo.

In [None]:
conversation = """
Usu√°rio: O que √© Machine Learning?
Assistente:
"""

print(generate(model, conversation))


## 6. Experimento 4 ‚Äî Comparar Temperatura

Criatividade vs Determinismo

In [None]:
def generate_temp(model, prompt, temperature=1.0):

    tokens = encode(prompt)
    tokens = torch.tensor(tokens).unsqueeze(0).to(device)

    for _ in range(80):
        logits, _ = model(tokens)

        probs = torch.softmax(logits[:, -1, :] / temperature, dim=-1)
        next_token = torch.multinomial(probs, 1)

        tokens = torch.cat([tokens, next_token], dim=1)

    return decode(tokens.squeeze().tolist())


In [None]:
print(generate_temp(model, "Explique IA:", temperature=0.3))
print("\n---\n")
print(generate_temp(model, "Explique IA:", temperature=1.2))


## 7. Experimento 5 ‚Äî Demonstrando Hallucination

In [None]:
print(generate(model, "Quem descobriu a linguagem Python em 1800?"))


### 7.1 O Que Esses Experimentos Mostram

Modelos pequenos:

‚Ä¢ dependem fortemente do dataset  
‚Ä¢ podem produzir respostas plaus√≠veis mas incorretas  
‚Ä¢ possuem limita√ß√£o de contexto  
‚Ä¢ demonstram comportamento probabil√≠stico  

Essas caracter√≠sticas tamb√©m existem em modelos maiores, embora com menor frequ√™ncia.


üß™ Experimento 6 ‚Äî Prompt Engineering

In [None]:
print(generate(model, "Responda como um professor explicando IA para iniciantes:"))


## 9. Visualizando Distribui√ß√£o de Probabilidades

In [None]:
@torch.no_grad()
def show_next_token_distribution(model, prompt):

    tokens = encode(prompt)
    tokens = torch.tensor(tokens).unsqueeze(0).to(device)

    logits, _ = model(tokens)
    probs = torch.softmax(logits[0, -1], dim=-1).cpu()

    plt.bar(range(len(probs)), probs)
    plt.title("Distribui√ß√£o do Pr√≥ximo Token")
    plt.show()


In [None]:
show_next_token_distribution(model, "Explique IA:")


## 10. Reflex√µes Finais

Este notebook demonstrou que:

‚Ä¢ Modelos did√°ticos possuem limita√ß√µes claras  
‚Ä¢ Compreender fundamentos permite interpretar comportamento  
‚Ä¢ Pequenas mudan√ßas em dados e prompts impactam resultados  
‚Ä¢ LLMs s√£o sistemas probabil√≠sticos, n√£o sistemas conscientes  

Este laborat√≥rio marca o encerramento da jornada pr√°tica da s√©rie.
