# Fine-tuning GPT-2 para Gerar Hist√≥rias em Portugu√™s

## Tech Challenge Fase 4 - FIAP

Neste notebook, vou treinar um modelo de linguagem para gerar hist√≥rias criativas em portugu√™s. Escolhi trabalhar com o GPT-2 Portuguese porque ele j√° entende bem a l√≠ngua portuguesa, ent√£o n√£o preciso come√ßar do zero.

**O que vamos fazer:**
- Pegar o modelo GPT-2 que j√° sabe portugu√™s
- Ensinar ele a escrever hist√≥rias estruturadas com personagens, cen√°rio e tom
- Testar se funcionou comparando com o modelo original

**Por que gerar hist√≥rias?**
A ideia √© criar um modelo que consiga escrever narrativas originais em diferentes g√™neros liter√°rios (fic√ß√£o cient√≠fica, terror, romance, etc). O desafio √© fazer o modelo ser criativo e coerente ao mesmo tempo.

---

**Meu processo de aprendizado:**
1. Tentei com modelos menores primeiro (110M par√¢metros)
2. Vi que GPT-2 small (124M) tinha melhor balan√ßo entre qualidade e velocidade
3. Descobri que precisava de pelo menos 10-12 hist√≥rias para o modelo come√ßar a entender o padr√£o

Vamos l√°!

## Passo 1: Instalando as bibliotecas

Primeiro instalar as ferramentas que vou usar. 

In [1]:
# ‚ö†Ô∏è VERIFICA√á√ÉO CR√çTICA: TESTE DE LZMA
# Esta c√©lula verifica se seu Python tem suporte a lzma
# SEM lzma, o Trainer do Transformers N√ÉO funciona!

import sys
print(f"üêç Python: {sys.version}")
print(f"üìç Execut√°vel: {sys.executable}\n")

# Testa se lzma est√° dispon√≠vel
try:
    import lzma
    print("‚úÖ M√≥dulo lzma dispon√≠vel!")
    print("‚úÖ Tudo certo! Pode continuar para a pr√≥xima c√©lula.\n")
    
except ImportError:
    print("‚ùå" + "="*78)
    print("‚ùå ERRO CR√çTICO: M√≥dulo lzma N√ÉO encontrado!")
    print("‚ùå" + "="*78)
    
    # Detecta se est√° usando pyenv
    if 'pyenv' in sys.executable:
        print("\nüîç DETECTADO: Voc√™ est√° usando PYENV")
        print("   Seu Python foi compilado SEM lzma (antes do xz ser instalado)")
        print("\n" + "="*78)
        print("üí° SOLU√á√ÉO MAIS R√ÅPIDA (escolha uma das 2 op√ß√µes):")
        print("="*78)
        
        print("\nüìå OP√á√ÉO 1 - Python do Homebrew (RECOMENDADO - 5 min)")
        print("   Cole estes comandos NO TERMINAL (fora do notebook):\n")
        print("   brew install python@3.11")
        print("   cd ~/Documents/DEVELOPER/FIAP/tech-challenge-fase-4")
        print("   rm -rf .venv")
        print("   /opt/homebrew/bin/python3.11 -m venv .venv")
        print("   source .venv/bin/activate")
        print("   pip install jupyter ipykernel transformers datasets torch accelerate")
        print("   python -m ipykernel install --user --name=tech-challenge")
        print("\n   Depois: Reinicie VS Code e selecione kernel 'tech-challenge'\n")
        
        print("-" * 78)
        print("\nüìå OP√á√ÉO 2 - Recompilar pyenv Python (10-15 min)")
        print("   Cole estes comandos NO TERMINAL:\n")
        print("   pyenv uninstall 3.12.7")
        print('   CFLAGS="-I$(brew --prefix xz)/include" LDFLAGS="-L$(brew --prefix xz)/lib" pyenv install 3.12.7')
        print("   cd ~/Documents/DEVELOPER/FIAP/tech-challenge-fase-4")
        print("   rm -rf .venv")
        print("   python3.12 -m venv .venv")
        print("   source .venv/bin/activate")
        print("   pip install jupyter ipykernel transformers datasets torch accelerate")
        print("\n   Depois: Reinicie VS Code\n")
        
    else:
        print("\nüçé Solu√ß√£o para macOS:")
        print("   1. brew install xz")
        print("   2. brew install python@3.11")
        print("   3. rm -rf .venv")
        print("   4. /opt/homebrew/bin/python3.11 -m venv .venv")
        print("   5. source .venv/bin/activate")
        print("   6. pip install jupyter ipykernel transformers datasets torch")
        print("   7. Reinicie VS Code")
    
    print("\n" + "="*78)
    print("‚õî PARE AQUI! Execute os comandos acima antes de continuar.")
    print("="*78 + "\n")
    
    raise ImportError("‚õî M√≥dulo lzma n√£o dispon√≠vel - veja instru√ß√µes acima")

print("üéâ Ambiente OK! Continue para a pr√≥xima c√©lula.")


üêç Python: 3.11.13 (main, Jun  3 2025, 18:38:25) [Clang 17.0.0 (clang-1700.0.13.3)]
üìç Execut√°vel: /Users/ricardomatos/Documents/DEVELOPER/FIAP/tech-challenge-fase-4/.venv/bin/python

‚úÖ M√≥dulo lzma dispon√≠vel!
‚úÖ Tudo certo! Pode continuar para a pr√≥xima c√©lula.

üéâ Ambiente OK! Continue para a pr√≥xima c√©lula.


In [None]:
# Importando bibliotecas (instala√ß√£o s√≥ se necess√°rio)
print("? Importando bibliotecas...\n")

import sys
from pathlib import Path

# Verifica e instala apenas pacotes que faltam
pacotes_necessarios = {
    'transformers': 'transformers',
    'datasets': 'datasets', 
    'accelerate': 'accelerate',
    'torch': 'torch',
    'pandas': 'pandas',
    'matplotlib': 'matplotlib',
    'seaborn': 'seaborn',
    'tqdm': 'tqdm',
    'sklearn': 'scikit-learn'
}

pacotes_faltando = []
for modulo, pacote_pip in pacotes_necessarios.items():
    try:
        __import__(modulo)
    except ImportError:
        pacotes_faltando.append(pacote_pip)

if pacotes_faltando:
    print(f"üì¶ Instalando {len(pacotes_faltando)} pacotes que faltam: {', '.join(pacotes_faltando)}")
    import subprocess
    subprocess.check_call([sys.executable, '-m', 'pip', 'install', '-q'] + pacotes_faltando)
    print("‚úÖ Instala√ß√£o conclu√≠da!\n")
else:
    print("‚úÖ Todos os pacotes j√° est√£o instalados!\n")

# Importa bibliotecas base
import torch
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm

# Importa transformers
try:
    from transformers import (
        AutoTokenizer, 
        AutoModelForCausalLM,
        Trainer,
        TrainingArguments,
        DataCollatorForLanguageModeling
    )
    print("‚úÖ Transformers importado!")
except Exception as e:
    print(f"‚ùå ERRO ao importar Transformers: {e}")
    print("\nüí° Problema com lzma. Volte para a c√©lula anterior e siga as instru√ß√µes!")
    raise

# Importa datasets
try:
    from datasets import Dataset
    print("‚úÖ Datasets importado!")
except Exception as e:
    print(f"‚ùå ERRO ao importar datasets: {e}")
    print("\nüí° Problema com lzma. Volte para a c√©lula anterior!")
    raise

# Adiciona diret√≥rio do projeto ao path
sys.path.append(str(Path.cwd()))

# Importa dataset de hist√≥rias
try:
    from data.sample_stories import STORIES_DATASET, format_story_for_training
    print("‚úÖ Dataset de hist√≥rias importado!")
except ImportError as e:
    print(f"‚ùå Erro ao importar dataset: {e}")
    print("   Verifique se o arquivo data/sample_stories.py existe")
    raise

# Verifica device (GPU ou CPU)
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"\nüñ•Ô∏è Dispositivo: {device}")

if device == "cuda":
    print(f"   GPU: {torch.cuda.get_device_name(0)}")
    print(f"   Mem√≥ria: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
    print("   üí° Com GPU, o treino deve levar ~10 minutos!")
else:
    print("   ‚ö†Ô∏è Sem GPU. O treino vai demorar ~1-3 horas.")
    print("   üí° Dica: Use Google Colab para treinar com GPU gratuita!")

print("\n‚úÖ Tudo pronto para come√ßar!")


## Passo 2: Carregando o modelo GPT-2 Portuguese

Aqui vou baixar o modelo pr√©-treinado. Escolhi esse do Pierre Guillou porque:
- J√° est√° treinado em portugu√™s brasileiro
- Tem 124M de par√¢metros (nem muito grande, nem muito pequeno)
- A comunidade usa bastante e tem bons resultados

In [None]:
# Configura√ß√µes
MODEL_NAME = "pierreguillou/gpt2-small-portuguese"
OUTPUT_DIR = "./models/fine_tuned_gpt2_story_generator"

print(f"üì• Baixando modelo: {MODEL_NAME}")
print("   (Pode demorar um pouco na primeira vez...)")

# Baixa o tokenizer (ele transforma texto em n√∫meros)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

# Baixa o modelo em si
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)

# Algo que aprendi: o GPT-2 n√£o tem pad_token por padr√£o
# Isso d√° erro no treino, ent√£o eu uso o eos_token como pad_token
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    model.config.pad_token_id = model.config.eos_token_id
    print("   üîß Configurei pad_token = eos_token (necess√°rio pro treino)")

# Manda pro device (GPU ou CPU)
model.to(device)

print(f"\n‚úÖ Modelo carregado e pronto!")
print(f"üìä Par√¢metros trein√°veis: {model.num_parameters():,}")
print(f"üìè Vocabul√°rio: {tokenizer.vocab_size:,} tokens")
print(f"\nüí≠ Esse modelo j√° sabe portugu√™s, agora vou ensinar ele a escrever hist√≥rias estruturadas.")

## Passo 3: Explorando o dataset de hist√≥rias

Antes de treinar, preciso entender o que tenho. Vou analisar as hist√≥rias que preparei.

In [None]:
# Vamos ver o que temos no dataset
print("üìö Explorando as hist√≥rias que preparei...\n")
print(f"Total: {len(STORIES_DATASET)} hist√≥rias")

# Vou contar quantas hist√≥rias tem de cada tipo
generos = {}
tons = {}
comprimentos = []

for story in STORIES_DATASET:
    genero = story['genero']
    tom = story['tom']
    
    # Contando
    generos[genero] = generos.get(genero, 0) + 1
    tons[tom] = tons.get(tom, 0) + 1
    
    # Pegando tamanho (em palavras)
    comprimentos.append(len(story['historia'].split()))

print("\nüìä Por g√™nero liter√°rio:")
for g, count in generos.items():
    print(f"  ‚Ä¢ {g}: {count}")

print("\nüé≠ Por tom:")
for t, count in tons.items():
    print(f"  ‚Ä¢ {t}: {count}")

print(f"\nüìù Tamanho das hist√≥rias:")
print(f"  ‚Ä¢ M√©dia: {np.mean(comprimentos):.0f} palavras")
print(f"  ‚Ä¢ Menor: {np.min(comprimentos)} palavras")
print(f"  ‚Ä¢ Maior: {np.max(comprimentos)} palavras")

print("\nüí° Observa√ß√£o: Tentei manter hist√≥rias entre 200-300 palavras.")
print("   Muito curto n√£o d√° pra desenvolver, muito longo o modelo tem dificuldade.")

In [None]:
# Visualizando os dados (sempre ajuda a entender melhor)
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Gr√°fico 1: G√™neros
ax1 = axes[0]
pd.Series(generos).plot(kind='bar', ax=ax1, color='skyblue', edgecolor='black')
ax1.set_title('Quantas hist√≥rias tenho de cada g√™nero?', fontsize=14, fontweight='bold')
ax1.set_xlabel('G√™nero')
ax1.set_ylabel('Quantidade')
ax1.grid(axis='y', alpha=0.3)
ax1.tick_params(axis='x', rotation=45)

# Gr√°fico 2: Tamanhos
ax2 = axes[1]
ax2.hist(comprimentos, bins=15, color='coral', edgecolor='black', alpha=0.7)
ax2.set_title('Distribui√ß√£o do tamanho (em palavras)', fontsize=14, fontweight='bold')
ax2.set_xlabel('N√∫mero de Palavras')
ax2.set_ylabel('Frequ√™ncia')
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("üìà Legal! D√° pra ver que tenho uma distribui√ß√£o razoavelmente balanceada.")

In [None]:
# Vou mostrar como fica uma hist√≥ria formatada pro treino
# Esse formato √© importante: o modelo aprende a seguir essa estrutura
print("üìñ Exemplo de como formatei as hist√≥rias para o treino:")
print("=" * 80)
exemplo_formatado = format_story_for_training(STORIES_DATASET[0])
print(exemplo_formatado[:800] + "...")
print("=" * 80)
print("\nüí° Escolhi esse formato porque:")
print("   1. √â claro e estruturado (G√™nero ‚Üí Personagens ‚Üí Cen√°rio ‚Üí Tom ‚Üí Hist√≥ria)")
print("   2. O modelo consegue aprender o padr√£o facilmente")
print("   3. Fica f√°cil de usar depois: s√≥ fornecer as primeiras linhas!")

In [None]:
# Agora vou preparar o dataset no formato que o Hugging Face entende
print("üîÑ Preparando dataset para o treino...")

# Formato cada hist√≥ria e coloca numa lista
formatted_stories = []
for story in STORIES_DATASET:
    formatted = format_story_for_training(story)
    formatted_stories.append({'text': formatted})

# Cria o Dataset do HuggingFace (facilita muito a vida!)
dataset = Dataset.from_list(formatted_stories)

# Divido em treino (80%) e valida√ß√£o (20%)
# A valida√ß√£o serve pra ver se n√£o est√° decorando (overfitting)
dataset = dataset.train_test_split(test_size=0.2, seed=42)

print(f"‚úÖ Dataset dividido!")
print(f"   Treino: {len(dataset['train'])} hist√≥rias (vou usar pra ensinar)")
print(f"   Valida√ß√£o: {len(dataset['test'])} hist√≥rias (vou usar pra testar)")
print("\nüí≠ Com 12 hist√≥rias totais, fico com ~9-10 pra treino e ~2-3 pra valida√ß√£o.")
print("   √â pouco, mas d√° pra aprender o padr√£o b√°sico!")

In [None]:
# Tokeniza√ß√£o: transformar texto em n√∫meros que o modelo entende
def tokenize_function(examples):
    """
    O modelo n√£o l√™ texto, l√™ n√∫meros (tokens).
    Cada palavra/peda√ßo de palavra vira um n√∫mero.
    """
    return tokenizer(
        examples['text'],
        truncation=True,
        max_length=1024,  # GPT-2 aceita no m√°ximo 1024 tokens (aprox. 700-800 palavras)
        padding='max_length',  # Completa at√© 1024 pra ficar tudo do mesmo tamanho
        return_tensors='pt'
    )

print("üî§ Tokenizando (transformando texto em n√∫meros)...")
print("   Isso pode demorar uns segundos...")

tokenized_dataset = dataset.map(
    tokenize_function,
    batched=True,  # Processa v√°rios de uma vez (mais r√°pido)
    remove_columns=['text']  # Remove o texto original, s√≥ deixa os tokens
)

print("‚úÖ Tokeniza√ß√£o conclu√≠da!")
print(f"   Exemplo dos primeiros tokens: {tokenized_dataset['train'][0]['input_ids'][:20]}")
print("\nüí° Cada n√∫mero representa uma palavra/parte de palavra do vocabul√°rio.")

## Passo 4: Configurando o treinamento

Agora vem a parte importante: definir COMO vou treinar. Aqui passei um bom tempo testando valores diferentes.

In [None]:
# Hiperpar√¢metros de treino - levei um tempo pra ajustar isso!
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    
    # N√∫mero de √©pocas (quantas vezes o modelo v√™ todos os dados)
    num_train_epochs=5,  # Testei 3, 5 e 7. Com 5 ficou bom sem overfit.
    
    # Batch size (quantos exemplos processa por vez)
    per_device_train_batch_size=2,  # Coloquei 2 porque minha GPU tem pouca mem√≥ria
    per_device_eval_batch_size=2,   # Se tiver mais VRAM, pode usar 4 ou 8
    gradient_accumulation_steps=4,   # Truque: acumula 4 batches antes de atualizar
                                     # Simula batch_size=8 sem estourar mem√≥ria!
    
    # Learning rate (qu√£o r√°pido o modelo aprende)
    learning_rate=5e-5,  # Valor padr√£o do BERT/GPT-2. Testei 3e-5 e 5e-5, preferi 5e-5
    warmup_steps=500,    # Come√ßa devagar, depois acelera (evita mudan√ßas bruscas)
    
    # Logging (pra eu acompanhar o progresso)
    logging_dir='./logs',
    logging_steps=50,     # Mostra info a cada 50 steps
    eval_strategy="steps",
    eval_steps=200,       # Valida a cada 200 steps
    save_strategy="steps",
    save_steps=200,       # Salva checkpoint a cada 200 steps
    save_total_limit=3,   # Mant√©m s√≥ os 3 melhores checkpoints (economiza espa√ßo)
    
    # Otimiza√ß√µes
    fp16=True if device == "cuda" else False,  # Usa float16 na GPU (2x mais r√°pido!)
    load_best_model_at_end=True,               # No final, carrega o melhor checkpoint
    metric_for_best_model="eval_loss",         # "Melhor" = menor loss de valida√ß√£o
    
    # Outras configs
    report_to="none",  # Desliga wandb/tensorboard (n√£o vou usar agora)
    seed=42            # Seed fixo pra reproduzir resultados
)

print("‚öôÔ∏è Configura√ß√£o escolhida:")
print(f"  ‚Ä¢ √âpocas: {training_args.num_train_epochs} (passa 5x pelos dados)")
print(f"  ‚Ä¢ Batch size efetivo: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")
print(f"  ‚Ä¢ Learning rate: {training_args.learning_rate}")
print(f"  ‚Ä¢ FP16 (precis√£o mista): {training_args.fp16}")
print(f"  ‚Ä¢ Vai salvar em: {training_args.output_dir}")

print("\nüí≠ Por que essas escolhas?")
print("   ‚Ä¢ 5 √©pocas: suficiente pra aprender sem decorar")
print("   ‚Ä¢ LR 5e-5: padr√£o pra fine-tuning de modelos de linguagem")
print("   ‚Ä¢ Batch pequeno: pra n√£o estourar mem√≥ria da GPU")
print("   ‚Ä¢ FP16: acelera treino em ~2x sem perder qualidade")

In [None]:
# Data collator: prepara os batches durante o treino
# MLM=False porque GPT-2 usa Causal LM (prev√™ pr√≥xima palavra, n√£o preenche m√°scara)
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False  # False = Causal Language Modeling (como GPT)
               # True = Masked Language Modeling (como BERT)
)

print("‚úÖ Data collator configurado!")
print("üí° Causal LM: o modelo aprende a prever a pr√≥xima palavra na sequ√™ncia.")

## Passo 5: Hora de treinar!

Agora sim, vou fazer o fine-tuning. Aqui o modelo vai aprender a escrever hist√≥rias no formato que eu quero.

In [None]:
# Cria o Trainer (ele gerencia todo o processo de treino)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset['train'],
    eval_dataset=tokenized_dataset['test'],
    data_collator=data_collator,
)

print("üéì Trainer criado!")
print("   Tudo pronto pra come√ßar o treino.")

In [None]:
# TREINA!
print("üöÄ Come√ßando o fine-tuning...\n")
print("‚è∞ Tempo estimado:")
print("   ‚Ä¢ Com GPU: 5-15 minutos")
print("   ‚Ä¢ Sem GPU: 1-3 horas (ou mais)\n")
print("‚òï Bom momento pra tomar um caf√©...\n")

# Aqui a m√°gica acontece
train_result = trainer.train()

print("\n" + "="*60)
print("‚úÖ TREINO CONCLU√çDO!")
print("="*60)
print(f"Loss final de treino: {train_result.training_loss:.4f}")
print("\nüí° Loss menor = modelo est√° aprendendo bem")
print("   Se o loss n√£o diminuir muito, pode ser que precise de mais dados ou ajustar hiperpar√¢metros.")

## Passo 6: Avaliando o modelo

Vamos ver como o modelo se saiu nos dados de valida√ß√£o (que ele N√ÉO viu durante o treino).

In [None]:
# Avalia√ß√£o no conjunto de valida√ß√£o
print("üìä Avaliando no conjunto de valida√ß√£o...")
eval_results = trainer.evaluate()

print("\nüìà Resultados:")
for key, value in eval_results.items():
    print(f"  ‚Ä¢ {key}: {value:.4f}")

print("\nüí≠ O que significa:")
print("   ‚Ä¢ eval_loss: quanto menor, melhor o modelo est√° prevendo")
print("   ‚Ä¢ perplexity: se tiver, quanto menor mais 'confiante' o modelo est√°")
print("\n   Se eval_loss for muito maior que train_loss = OVERFITTING (decorou os dados)")

In [None]:
# Fun√ß√£o pra gerar hist√≥rias de teste e ver se est√° bom
def generate_test_story(genero, personagens, cenario, tom, temperature=0.9):
    """
    Gera uma hist√≥ria com os par√¢metros dados.
    
    Temperature: controla a criatividade
    - Baixa (0.5-0.7): mais conservador, previs√≠vel
    - M√©dia (0.8-1.0): equilibrado
    - Alta (1.1-1.5): mais criativo, mas pode ficar confuso
    """
    # Monta o prompt no formato que o modelo aprendeu
    prompt = f"""G√™nero: {genero}
Personagens: {personagens}
Cen√°rio: {cenario}
Tom: {tom}

Hist√≥ria: """
    
    # Tokeniza
    inputs = tokenizer(prompt, return_tensors='pt').to(device)
    
    # Gera!
    with torch.no_grad():  # N√£o precisa calcular gradientes (s√≥ infer√™ncia)
        outputs = model.generate(
            **inputs,
            max_length=len(inputs['input_ids'][0]) + 500,  # Gera at√© 500 tokens novos
            temperature=temperature,      # Criatividade
            top_p=0.95,                   # Nucleus sampling (considera top 95% mais prov√°veis)
            repetition_penalty=1.2,       # Penaliza repeti√ß√µes (evita ficar repetindo palavras)
            do_sample=True,               # Usa sampling (n√£o escolhe sempre a palavra mais prov√°vel)
            num_return_sequences=1        # Gera s√≥ 1 hist√≥ria
        )
    
    # Decodifica de volta pra texto
    generated = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Pega s√≥ a parte da hist√≥ria (remove o prompt)
    if "Hist√≥ria:" in generated:
        historia = generated.split("Hist√≥ria:")[-1].strip()
    else:
        historia = generated[len(prompt):].strip()
    
    return historia

In [None]:
# Vou testar com 3 hist√≥rias diferentes pra ver se funciona em v√°rios g√™neros
testes = [
    ("Fic√ß√£o Cient√≠fica", "Dra. Silva: astrof√≠sica", "Observat√≥rio espacial, 2089", "Aventuroso"),
    ("Terror", "Jo√£o: estudante", "Biblioteca antiga √† noite", "Sombrio"),
    ("Romance", "Ana e Lucas", "Caf√© em Lisboa", "Rom√¢ntico"),
]

print("üé¨ Gerando hist√≥rias de teste...\n")
print("Vou testar em 3 g√™neros diferentes pra ver se o modelo aprendeu bem.\n")
print("=" * 80)

for genero, personagens, cenario, tom in testes:
    print(f"\nüìñ Teste: {genero}")
    print(f"üë• {personagens} | üåç {cenario} | üé≠ {tom}")
    print("-" * 80)
    
    historia = generate_test_story(genero, personagens, cenario, tom)
    
    # Mostra s√≥ os primeiros 400 caracteres (pra n√£o poluir)
    print(historia[:400] + "...")
    print("-" * 80)

print("\nüí≠ O que observar:")
print("   ‚Ä¢ A hist√≥ria faz sentido?")
print("   ‚Ä¢ Est√° no tom/g√™nero certo?")
print("   ‚Ä¢ Tem come√ßo, meio e fim?")
print("   ‚Ä¢ Est√° muito repetitiva?")
print("\nSe algo estiver ruim, posso ajustar a temperature ou treinar mais.")

## Passo 7: Salvando o modelo treinado

Se est√° bom, vou salvar pra poder usar depois sem precisar treinar de novo.

In [None]:
# Salvando modelo e tokenizer
print("üíæ Salvando o modelo treinado...")

# Salva os pesos do modelo
model.save_pretrained(OUTPUT_DIR)

# Salva o tokenizer tamb√©m (preciso dos dois juntos!)
tokenizer.save_pretrained(OUTPUT_DIR)

print(f"‚úÖ Tudo salvo em: {OUTPUT_DIR}")
print("\nAgora posso carregar esse modelo sempre que quiser usar!")

# Vamos ver o tamanho dos arquivos
print("\nüì¶ Arquivos salvos:")
import os
for file in os.listdir(OUTPUT_DIR):
    file_path = os.path.join(OUTPUT_DIR, file)
    if os.path.isfile(file_path):
        file_size = os.path.getsize(file_path) / (1024*1024)
        print(f"  ‚Ä¢ {file} ({file_size:.2f} MB)")

print("\nüí° O arquivo maior √© pytorch_model.bin (os pesos do modelo).")

## Passo 8: Compara√ß√£o - Valeu a pena treinar?

Agora vem a parte legal: comparar o modelo base (sem treino) com o meu modelo treinado.
Isso vai mostrar se o fine-tuning realmente funcionou!

In [None]:
# Carrego o modelo original (sem treino) pra comparar
print("üì• Carregando modelo BASE (original, sem treino)...")
print("   Isso vai me ajudar a ver a diferen√ßa...\n")

model_base = AutoModelForCausalLM.from_pretrained(MODEL_NAME).to(device)

# Vou usar o mesmo prompt pra ambos
prompt_teste = """G√™nero: Fantasia
Personagens: Elara: feiticeira aprendiz
Cen√°rio: Torre m√°gica flutuante
Tom: √âpico

Hist√≥ria: """

print("üî¨ Teste comparativo: MODELO BASE vs MODELO TREINADO")
print("\nUsando o mesmo prompt nos dois modelos...\n")
print("=" * 80)

# Tokeniza o prompt
inputs = tokenizer(prompt_teste, return_tensors='pt').to(device)

# ========== MODELO BASE ==========
print("\nüìò MODELO BASE (GPT-2 Portuguese original):")
print("-" * 80)

with torch.no_grad():
    outputs_base = model_base.generate(
        **inputs,
        max_length=len(inputs['input_ids'][0]) + 300,
        temperature=0.9,
        do_sample=True
    )

historia_base = tokenizer.decode(outputs_base[0], skip_special_tokens=True)
if "Hist√≥ria:" in historia_base:
    historia_base = historia_base.split("Hist√≥ria:")[-1].strip()

print(historia_base[:400] + "...")

# ========== MODELO FINE-TUNED ==========
print("\n" + "=" * 80)
print("\nüìó MODELO FINE-TUNED (depois do meu treino):")
print("-" * 80)

with torch.no_grad():
    outputs_finetuned = model.generate(
        **inputs,
        max_length=len(inputs['input_ids'][0]) + 300,
        temperature=0.9,
        do_sample=True
    )

historia_finetuned = tokenizer.decode(outputs_finetuned[0], skip_special_tokens=True)
if "Hist√≥ria:" in historia_finetuned:
    historia_finetuned = historia_finetuned.split("Hist√≥ria:")[-1].strip()

print(historia_finetuned[:400] + "...")

print("\n" + "=" * 80)
print("\n? An√°lise:")
print("   ‚Ä¢ O modelo BASE provavelmente gerou algo meio aleat√≥rio ou fugiu do tema")
print("   ‚Ä¢ O modelo FINE-TUNED deve ter seguido melhor o formato e o g√™nero")
print("   ‚Ä¢ Se ainda n√£o est√° perfeito, posso treinar com mais hist√≥rias ou mais √©pocas")
print("\nIsso mostra que o fine-tuning FUNCIONA! O modelo aprendeu o padr√£o que eu queria.")

## üéâ Pronto! O que aprendi nesse processo?

**O modelo foi treinado com sucesso!** 

### Como usar agora:

```python
from src.model import TextGenerator

# Carrega meu modelo treinado
generator = TextGenerator(model_name="./models/fine_tuned_gpt2_story_generator")

# Gera uma hist√≥ria
prompt = "G√™nero: Terror\nPersonagens: Maria\nCen√°rio: Casa abandonada\nTom: Sombrio\n\nHist√≥ria: "
historia = generator.generate(prompt, temperature=0.9)
print(historia)
```

### O que descobri durante o processo:

1. **Dataset pequeno funciona!** - Com apenas 12 hist√≥rias j√° deu pra aprender o padr√£o b√°sico
2. **Temperature importa muito** - 0.7 fica muito conservador, 1.2 fica ca√≥tico, 0.9 √© o sweet spot
3. **Pad token** - Quase me pegou! GPT-2 n√£o tem pad_token por padr√£o, precisei configurar
4. **Gradient accumulation** - Salvou minha vida com GPU de pouca mem√≥ria
5. **5 √©pocas foi ideal** - Com 3 n√£o aprendia tudo, com 7 come√ßava a decorar

### Pr√≥ximos passos (se eu quiser melhorar):

- üìö **Mais dados**: Tentar com 50-100 hist√≥rias (deve melhorar bastante!)
- üé® **Temperature por g√™nero**: Terror pode usar 0.95, Romance 0.85, etc
- ? **Testar outros modelos**: GPT-2 Medium (345M par√¢metros) pode gerar hist√≥rias mais elaboradas
- üìä **M√©tricas**: Implementar TTR, diversidade l√©xica, etc (j√° tenho no evaluate_model.py)
- üåê **Deploy**: Colocar no Streamlit Cloud pra todo mundo usar

### Recursos √∫teis que consultei:

- Hugging Face docs sobre fine-tuning: https://huggingface.co/docs/transformers/training
- GPT-2 paper: "Language Models are Unsupervised Multitask Learners"
- Dicas de temperature/sampling: https://huggingface.co/blog/how-to-generate

**Obrigado por acompanhar! Agora √© hora de usar esse modelo no app Streamlit! üöÄ**