# üìä Evaluation Loops - Avalia√ß√£o de Modelos Fine-Tunados

Este notebook implementa **evaluation loops profissionais** para avaliar modelos fine-tunados.

## üéØ O que este notebook faz:

1. ‚úÖ **Carrega modelos** (base vs fine-tuned)
2. ‚úÖ **M√©tricas autom√°ticas** (ROUGE, BLEU, BERTScore, Perplexity)
3. ‚úÖ **Compara√ß√£o lado a lado** (qual modelo responde melhor?)
4. ‚úÖ **Benchmark de dom√≠nio** (perguntas de Retail Media)
5. ‚úÖ **Relat√≥rios e visualiza√ß√µes**
6. ‚úÖ **Integra√ß√£o com MLflow** (tracking de experimentos)

## üìã Pr√©-requisitos:

- ‚úÖ Modelo fine-tunado salvo (do notebook `fine_tuning_qlora_colab.ipynb`)
- ‚úÖ Dataset de teste com respostas de refer√™ncia
- ‚úÖ GPU recomendada (pode rodar em CPU mas √© lento)

## üè¢ Boas Pr√°ticas:

Este notebook segue padr√µes de empresas como OpenAI, Google, Anthropic:
- ‚úÖ Separa√ß√£o treino/avalia√ß√£o
- ‚úÖ M√©tricas objetivas e reproduz√≠veis
- ‚úÖ Tracking de experimentos
- ‚úÖ Compara√ß√£o sistem√°tica

---


## üì¶ Instalar Depend√™ncias


In [None]:
# Instalar depend√™ncias (se necess√°rio)
%pip install -q transformers accelerate peft bitsandbytes
%pip install -q rouge-score bert-score nltk sacrebleu
%pip install -q pandas matplotlib seaborn
%pip install -q mlflow

print("‚úÖ Depend√™ncias instaladas!")


## ‚öôÔ∏è Imports e Configura√ß√£o


In [None]:
import torch
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from typing import Dict, List
import json
from datetime import datetime

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import PeftModel
from rouge_score import rouge_scorer
from bert_score import BERTScorer
from sacrebleu.metrics import BLEU
import mlflow

import nltk
nltk.download('punkt', quiet=True)

print("‚úÖ Bibliotecas importadas!")
print(f"üî• PyTorch: {torch.__version__}")
print(f"ü§ó Transformers: {__import__('transformers').__version__}")


## üîß Configura√ß√µes - **AJUSTE AQUI**


In [None]:
# ========================================
# CONFIGURA√á√ïES - AJUSTE AQUI
# ========================================

# Modelo base (mesmo usado no fine-tuning)
BASE_MODEL_NAME = "microsoft/phi-2"

# Caminho do modelo fine-tunado (adaptadores LoRA)
FINETUNED_MODEL_PATH = "./models/phi2-retail-media"
# No Colab: "/content/drive/MyDrive/finetuned_models/phi2-retail-media"

# Dataset de teste com respostas de refer√™ncia
TEST_DATASET_PATH = "./data/evaluation/test_questions.json"

# Diret√≥rio de sa√≠da
OUTPUT_DIR = "./evaluation_results"
Path(OUTPUT_DIR).mkdir(parents=True, exist_ok=True)

# MLflow
EXPERIMENT_NAME = "model-evaluation"

# Par√¢metros de gera√ß√£o
MAX_NEW_TOKENS = 512
TEMPERATURE = 0.7
TOP_P = 0.9

print("‚úÖ Configura√ß√£o definida!")
print(f"üì¶ Modelo base: {BASE_MODEL_NAME}")
print(f"üéØ Modelo fine-tuned: {FINETUNED_MODEL_PATH}")


## üìö Carregar Classe ModelEvaluator

Usaremos a classe reutiliz√°vel do m√≥dulo `src/evaluation/`


In [None]:
# Adicionar src ao path
import sys
from pathlib import Path
sys.path.insert(0, str(Path.cwd().parent))

from src.evaluation.evaluator import ModelEvaluator, compare_models

print("‚úÖ ModelEvaluator carregado!")


## üìÇ Criar Dataset de Teste

Formato esperado:
```json
[
  {
    "question": "O que √© ACOS?",
    "reference_answer": "ACOS (Advertising Cost of Sale) √©...",
    "category": "metricas"  // opcional
  }
]
```


In [None]:
# Criar dataset de exemplo se n√£o existir
if not Path(TEST_DATASET_PATH).exists():
    print("‚ö†Ô∏è Dataset n√£o encontrado. Criando exemplo...")
    
    example_data = [
        {
            "question": "O que √© Retail Media?",
            "reference_answer": "Retail Media √© uma forma de publicidade digital onde varejistas monetizam seus sites e aplicativos vendendo espa√ßos publicit√°rios para marcas e fabricantes.",
            "category": "conceitos"
        },
        {
            "question": "Explique o que √© ACOS",
            "reference_answer": "ACOS (Advertising Cost of Sale) √© uma m√©trica que indica quanto voc√™ gasta em publicidade para cada real de venda gerada. Calcula-se dividindo o custo da publicidade pela receita gerada.",
            "category": "metricas"
        },
        {
            "question": "O que √© RTB?",
            "reference_answer": "RTB (Real-Time Bidding) √© um processo de compra automatizada de espa√ßos publicit√°rios em tempo real atrav√©s de leil√µes.",
            "category": "conceitos"
        },
    ]
    
    Path(TEST_DATASET_PATH).parent.mkdir(parents=True, exist_ok=True)
    with open(TEST_DATASET_PATH, 'w', encoding='utf-8') as f:
        json.dump(example_data, f, ensure_ascii=False, indent=2)
    
    print(f"‚úÖ Dataset exemplo criado: {TEST_DATASET_PATH}")
    print("üí° Substitua por seu dataset real!")

# Carregar dataset
with open(TEST_DATASET_PATH, 'r', encoding='utf-8') as f:
    test_data = json.load(f)

print(f"\nüìä Dataset carregado: {len(test_data)} exemplos")


## ü§ñ Carregar Modelos (Base + Fine-Tuned)


In [None]:
print("üîÑ Carregando modelos...\\n")

# Configurar quantiza√ß√£o 4-bit
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)

# 1. Carregar modelo BASE
print("üîµ Carregando modelo BASE...")
base_model = AutoModelForCausalLM.from_pretrained(
    BASE_MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
)

# Carregar tokenizer
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_NAME, trust_remote_code=True)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

print(f"‚úÖ Modelo base carregado: {BASE_MODEL_NAME}")

# 2. Carregar modelo FINE-TUNED
print("\\nüü¢ Carregando modelo FINE-TUNED...")
finetuned_model = PeftModel.from_pretrained(
    base_model,
    FINETUNED_MODEL_PATH
)

print(f"‚úÖ Modelo fine-tuned carregado: {FINETUNED_MODEL_PATH}")
print("\\n‚úÖ Ambos os modelos prontos para avalia√ß√£o!")


## üìä Criar Evaluators


In [None]:
print("üîÑ Criando evaluators...\\n")

# Evaluator para modelo base
base_evaluator = ModelEvaluator(
    model=base_model,
    tokenizer=tokenizer,
    model_name="base",
    prompt_format="alpaca"
)

# Evaluator para modelo fine-tuned  
finetuned_evaluator = ModelEvaluator(
    model=finetuned_model,
    tokenizer=tokenizer,
    model_name="finetuned",
    prompt_format="alpaca"
)

print("\\n‚úÖ Evaluators prontos para uso!")


## üöÄ EVALUATION LOOP - Avaliar Dataset Completo


In [None]:
print("="*80)
print("üöÄ INICIANDO EVALUATION LOOP")
print("="*80)

# Avaliar modelo base
print("\\nüîµ Avaliando modelo BASE...")
base_results = base_evaluator.evaluate_dataset(
    test_data,
    verbose=True,
    save_path=f"{OUTPUT_DIR}/base_results.csv"
)

# Avaliar modelo fine-tuned
print("\\nüü¢ Avaliando modelo FINE-TUNED...")
finetuned_results = finetuned_evaluator.evaluate_dataset(
    test_data,
    verbose=True,
    save_path=f"{OUTPUT_DIR}/finetuned_results.csv"
)

print("\\n" + "="*80)
print("‚úÖ EVALUATION LOOP CONCLU√çDO!")
print("="*80)


## üìà Compara√ß√£o de Resultados


In [None]:
# Combinar resultados
all_results = pd.concat([base_results, finetuned_results], ignore_index=True)

# M√©tricas principais
metric_columns = ['rouge1_f', 'rouge2_f', 'rougeL_f', 'bleu', 'bertscore_f1']

# Calcular m√©dias por modelo
comparison = all_results.groupby('model')[metric_columns].agg(['mean', 'std'])

print("\\nüìä COMPARA√á√ÉO DE M√âTRICAS")
print("="*80)
print(comparison.round(4))

# Calcular melhorias
print("\\nüìà MELHORIA DO FINE-TUNING:")
print("="*80)
for metric in metric_columns:
    base_score = base_results[metric].mean()
    finetuned_score = finetuned_results[metric].mean()
    improvement = ((finetuned_score - base_score) / base_score) * 100
    symbol = "‚úÖ" if improvement > 0 else "‚ö†Ô∏è"
    print(f"{symbol} {metric:20s}: {improvement:+.2f}%")


## üìä Visualiza√ß√µes


In [None]:
# Gr√°fico de compara√ß√£o
plt.figure(figsize=(12, 6))

means = all_results.groupby('model')[metric_columns].mean()
means.T.plot(kind='bar', figsize=(12, 6), rot=45)

plt.title('Compara√ß√£o de M√©tricas: Base vs Fine-Tuned', fontsize=14, fontweight='bold')
plt.xlabel('M√©trica', fontsize=11)
plt.ylabel('Score', fontsize=11)
plt.legend(['Modelo Base', 'Modelo Fine-Tuned'])
plt.ylim(0, 1.0)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.savefig(f"{OUTPUT_DIR}/metrics_comparison.png", dpi=300)
plt.show()

print(f"‚úÖ Gr√°fico salvo: {OUTPUT_DIR}/metrics_comparison.png")


## üî¨ Integra√ß√£o com MLflow


In [None]:
# Configurar MLflow
mlflow.set_experiment(EXPERIMENT_NAME)

timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")

# Log resultados
with mlflow.start_run(run_name=f"eval_{timestamp}"):
    # Par√¢metros
    mlflow.log_param("base_model", BASE_MODEL_NAME)
    mlflow.log_param("finetuned_model", FINETUNED_MODEL_PATH)
    mlflow.log_param("test_samples", len(test_data))
    
    # M√©tricas do modelo base
    for metric in metric_columns:
        mlflow.log_metric(f"base_{metric}", base_results[metric].mean())
    
    # M√©tricas do modelo fine-tuned
    for metric in metric_columns:
        mlflow.log_metric(f"finetuned_{metric}", finetuned_results[metric].mean())
    
    # Melhorias
    for metric in metric_columns:
        improvement = ((finetuned_results[metric].mean() - base_results[metric].mean()) / base_results[metric].mean()) * 100
        mlflow.log_metric(f"improvement_{metric}", improvement)
    
    # Artifacts
    mlflow.log_artifact(f"{OUTPUT_DIR}/base_results.csv")
    mlflow.log_artifact(f"{OUTPUT_DIR}/finetuned_results.csv")
    mlflow.log_artifact(f"{OUTPUT_DIR}/metrics_comparison.png")

print("\\n‚úÖ Resultados logados no MLflow!")
print("üî¨ Para visualizar: mlflow ui --port 5000")


## üìã Resumo Final


In [None]:
print("\\n" + "="*80)
print("üìã RESUMO DA AVALIA√á√ÉO")
print("="*80)

avg_improvement = sum([
    ((finetuned_results[m].mean() - base_results[m].mean()) / base_results[m].mean()) * 100
    for m in metric_columns
]) / len(metric_columns)

print(f"\\nüéØ Melhoria M√©dia Geral: {avg_improvement:+.2f}%")

if avg_improvement > 5:
    print("\\n‚úÖ CONCLUS√ÉO: Fine-tuning foi EFETIVO! üéâ")
    print("   O modelo fine-tuned tem performance significativamente melhor.")
elif avg_improvement > 0:
    print("\\n‚ö†Ô∏è CONCLUS√ÉO: Fine-tuning teve melhoria LEVE.")
    print("   Considere: mais dados de treino, mais epochs, ou ajustar hyperpar√¢metros.")
else:
    print("\\n‚ùå CONCLUS√ÉO: Fine-tuning n√£o melhorou.")
    print("   Revisar: qualidade do dataset, formato dos dados, hyperpar√¢metros.")

print(f"\\nüìÅ Arquivos gerados em: {OUTPUT_DIR}/")
print(f"   - base_results.csv")
print(f"   - finetuned_results.csv")
print(f"   - metrics_comparison.png")

print("\\n" + "="*80)
print("‚úÖ AVALIA√á√ÉO COMPLETA CONCLU√çDA!")
print("="*80)
