# 🎯 Avaliação de Modelos LLM: Como Saber se Nosso "Filho" está Indo Bem na Escola da IA

## Módulo 9 - Curso Introdução à LLMs

**Instrutor:** Pedro Nunes Guth  
**Tema:** Métricas, benchmarks e técnicas para avaliar nossos LLMs

---

E aí, pessoal! 🚀

Imagina que você é pai/mãe de um filho que está na escola. Como você sabe se ele está aprendendo direito? Você olha as notas, conversa com os professores, vê se ele consegue aplicar o que aprendeu no dia a dia, né?

Com LLMs é a MESMA COISA! Depois de treinar nossos modelos (lembram do módulo 7?), precisamos saber: **"Será que esse bichinho está funcionando direito?"**

Bora descobrir as melhores formas de avaliar nossos modelos! 🎯

In [None]:
# Setup inicial - Vamos preparar nosso ambiente!
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import warnings
warnings.filterwarnings('ignore')

# Configurações para gráficos bonitos
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)

print("🎯 Ambiente configurado! Bora avaliar alguns modelos!")
print("📊 Bibliotecas carregadas com sucesso!")

## 🤔 Tá, mas o que é Avaliação de Modelos?

Galera, avaliar um modelo é como avaliar um chef de cozinha. Você não vai só perguntar "você sabe cozinhar?". Você vai:

1. **Testar receitas específicas** (tarefas específicas)
2. **Ver a consistência** (ele faz o mesmo prato sempre igual?)
3. **Medir o tempo** (eficiência)
4. **Pedir opinião de diferentes pessoas** (múltiplos avaliadores)
5. **Comparar com outros chefs** (benchmarks)

### Por que é TÃO importante?

Lembram do módulo 8 sobre prompting? Lá vimos como **fazer** o modelo funcionar melhor. Agora precisamos **medir** se realmente funcionou!

**Sem avaliação adequada:**
- 🚫 Você não sabe se seu modelo está melhorando
- 🚫 Pode estar gastando dinheiro à toa
- 🚫 Usuários podem ter experiências ruins
- 🚫 Seu chefe vai te perguntar "tá, mas funciona mesmo?"

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdução-à-llms-modulo-09_img_01.png)

## 📊 Tipos de Avaliação: O Cardápio Completo

Assim como num restaurante tem entrada, prato principal e sobremesa, na avaliação de LLMs temos diferentes "pratos":

### 1. Avaliação Intrínseca vs Extrínseca

**Intrínseca** = Como o modelo se sai em tarefas gerais (tipo prova do ENEM)  
**Extrínseca** = Como ele se sai na SUA aplicação específica (tipo prova de medicina)

### 2. Avaliação Automática vs Humana

**Automática** = Computador corrige (rápido, barato, mas às vezes "burro")  
**Humana** = Gente real avalia (lento, caro, mas entende nuances)

### 3. Avaliação Online vs Offline

**Offline** = Testa antes de colocar em produção  
**Online** = Monitora enquanto usuários reais usam

In [None]:
# Vamos criar um exemplo simples de dados de avaliação
# Simulando respostas de um modelo de classificação de sentimentos

np.random.seed(42)

# Simulando dados de teste
n_samples = 1000
true_labels = np.random.choice(['positivo', 'negativo', 'neutro'], n_samples, p=[0.4, 0.3, 0.3])

# Simulando predições de 3 modelos diferentes
# Modelo A: Bem balanceado
modelo_a_accuracy = 0.85
modelo_a_preds = []

for true_label in true_labels:
    if np.random.random() < modelo_a_accuracy:
        modelo_a_preds.append(true_label)
    else:
        # Erro aleatório
        options = ['positivo', 'negativo', 'neutro']
        options.remove(true_label)
        modelo_a_preds.append(np.random.choice(options))

# Criando DataFrame para facilitar análise
results_df = pd.DataFrame({
    'true_label': true_labels,
    'modelo_a_pred': modelo_a_preds
})

print("📊 Dataset de avaliação criado!")
print(f"📝 {len(results_df)} amostras de teste")
print("\n🔍 Primeiras 10 linhas:")
print(results_df.head(10))

print("\n📈 Distribuição das classes:")
print(results_df['true_label'].value_counts())

## 🎯 Métricas Clássicas: Os "Clássicos da MPB" da Avaliação

Assim como na música brasileira temos clássicos que todo mundo conhece, na avaliação de modelos temos as métricas fundamentais:

### 1. Acurácia (Accuracy)
**"De 100 tentativas, quantas eu acertei?"**  
É tipo aprovação no vestibular: simples e direto!

### 2. Precisão (Precision)
**"Das vezes que eu disse 'é positivo', quantas realmente eram?"**  
É tipo um detector de mentiras: quando ele fala que é verdade, geralmente é mesmo?

### 3. Recall (Revocação)
**"De todos os casos positivos, quantos eu consegui encontrar?"**  
É tipo um detetive: consegue achar TODOS os criminosos?

### 4. F1-Score
**"A média harmônica entre precisão e recall"**  
É tipo o "meio termo" entre ser certeiro e ser abrangente.

**💡 Dica do Pedro:** Use F1 quando você quer balancear precisão e recall. É tipo escolher entre ser um sniper (alta precisão) ou uma metralhadora (alto recall)!

In [None]:
# Calculando métricas clássicas para nosso modelo
from sklearn.metrics import classification_report, confusion_matrix

# Calculando métricas básicas
accuracy = accuracy_score(results_df['true_label'], results_df['modelo_a_pred'])

print("🎯 MÉTRICAS DO MODELO A")
print("=" * 40)
print(f"📊 Acurácia: {accuracy:.3f} ({accuracy*100:.1f}%)")
print("\n📋 Relatório Completo:")
print(classification_report(results_df['true_label'], results_df['modelo_a_pred']))

# Matriz de Confusão
print("\n🤔 Matriz de Confusão:")
cm = confusion_matrix(results_df['true_label'], results_df['modelo_a_pred'])
print(cm)

# Vamos interpretar
print("\n🧠 INTERPRETAÇÃO:")
print(f"✅ O modelo acerta {accuracy*100:.1f}% das vezes")
print("📊 A matriz mostra onde ele mais erra")
print("🎯 F1-score nos dá uma visão balanceada por classe")

In [None]:
# Visualizando a matriz de confusão de forma bonita
plt.figure(figsize=(10, 8))

# Matriz de confusão normalizada
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

sns.heatmap(cm_normalized, 
            annot=True, 
            fmt='.2f', 
            cmap='Blues',
            xticklabels=['negativo', 'neutro', 'positivo'],
            yticklabels=['negativo', 'neutro', 'positivo'])

plt.title('🎯 Matriz de Confusão - Modelo A\n(Valores Normalizados)', fontsize=14)
plt.xlabel('Predição do Modelo', fontsize=12)
plt.ylabel('Verdade Real', fontsize=12)
plt.tight_layout()
plt.show()

print("📊 Matriz de Confusão Visualizada!")
print("💡 Quanto mais azul escuro, melhor o modelo naquela classe")
print("🎯 Diagonal principal = acertos, resto = erros")

## 🏆 Benchmarks Famosos: O "Top 10 da Billboard" dos LLMs

Assim como na música temos charts para comparar artistas, no mundo dos LLMs temos benchmarks padrão:

### 📚 GLUE & SuperGLUE
**"O ENEM dos modelos de linguagem"**  
- Conjunto de tarefas variadas
- Compreensão de texto, inferência, similaridade
- Todo mundo usa para comparar modelos

### 🧠 HellaSwag
**"Teste de senso comum"**  
- "Maria abriu a geladeira e..." (o que acontece depois?)
- Testa se o modelo entende o mundo real

### 📖 SQuAD
**"Interpretação de texto"**  
- Lê um texto e responde perguntas
- Tipo prova de português do ensino médio

### 🔢 GSM8K
**"Matemática de escola"**  
- Problemas matemáticos em linguagem natural
- "João tem 5 maçãs e come 2, quantas sobraram?"

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdução-à-llms-modulo-09_img_02.png)

In [None]:
# Simulando resultados de diferentes modelos em benchmarks famosos
benchmarks_data = {
    'Modelo': ['GPT-3.5', 'GPT-4', 'Claude-2', 'Llama-2-70B', 'Gemini Pro'],
    'GLUE': [87.2, 91.4, 88.7, 84.3, 89.1],
    'HellaSwag': [76.4, 85.2, 78.9, 73.1, 81.2],
    'SQuAD': [88.1, 92.3, 89.7, 85.4, 90.8],
    'GSM8K': [23.5, 67.1, 41.2, 28.7, 52.3],
    'MMLU': [70.0, 86.4, 75.2, 68.9, 79.1]
}

benchmarks_df = pd.DataFrame(benchmarks_data)
print("🏆 LEADERBOARD DOS MODELOS")
print("=" * 50)
print(benchmarks_df.to_string(index=False))

# Calculando score médio
numeric_cols = ['GLUE', 'HellaSwag', 'SQuAD', 'GSM8K', 'MMLU']
benchmarks_df['Score_Médio'] = benchmarks_df[numeric_cols].mean(axis=1)

print("\n🎯 RANKING POR SCORE MÉDIO:")
ranking = benchmarks_df.sort_values('Score_Médio', ascending=False)[['Modelo', 'Score_Médio']]
print(ranking.to_string(index=False))

In [None]:
# Visualizando o desempenho nos benchmarks
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gráfico 1: Comparação por benchmark
benchmarks_melted = benchmarks_df.melt(id_vars=['Modelo'], 
                                      value_vars=numeric_cols,
                                      var_name='Benchmark', 
                                      value_name='Score')

sns.barplot(data=benchmarks_melted, x='Benchmark', y='Score', hue='Modelo', ax=ax1)
ax1.set_title('🏆 Desempenho por Benchmark', fontsize=14)
ax1.set_ylabel('Score (%)')
ax1.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
ax1.tick_params(axis='x', rotation=45)

# Gráfico 2: Score médio geral
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FECA57']
bars = ax2.bar(benchmarks_df['Modelo'], benchmarks_df['Score_Médio'], color=colors)
ax2.set_title('🎯 Score Médio Geral', fontsize=14)
ax2.set_ylabel('Score Médio (%)')
ax2.tick_params(axis='x', rotation=45)

# Adicionando valores nas barras
for bar in bars:
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height + 1,
             f'{height:.1f}%', ha='center', va='bottom')

plt.tight_layout()
plt.show()

print("📊 Gráficos de benchmark gerados!")
print("💡 Note como diferentes modelos se saem melhor em diferentes tarefas!")

## 🔄 Fluxo de Avaliação: A "Receita de Bolo" da Avaliação

Toda avaliação séria segue um processo, tipo receita de bolo da vovó:

```mermaid
graph TD
    A[📊 Definir Objetivos] --> B[📝 Escolher Métricas]
    B --> C[🎯 Preparar Datasets]
    C --> D[🔄 Executar Testes]
    D --> E[📈 Calcular Métricas]
    E --> F[🤔 Analisar Resultados]
    F --> G{✅ Satisfatório?}
    G -->|Não| H[🔧 Melhorar Modelo]
    H --> D
    G -->|Sim| I[🚀 Deploy/Conclusão]
```

### 🎯 Passo 1: Definir Objetivos
**"O que meu modelo precisa fazer MUITO bem?"**

- Chatbot de atendimento → Compreensão + Cortesia
- Tradutor → Precisão + Fluência  
- Resumidor → Concisão + Relevância

### 📊 Passo 2: Escolher Métricas
**"Como vou medir se está bom?"**

- **Objetivas:** BLEU, ROUGE, Perplexidade
- **Subjetivas:** Avaliação humana, A/B testing
- **Técnicas:** Latência, throughput, uso de memória

**💡 Dica do Pedro:** Nunca use só UMA métrica! É tipo avaliar um namorado só pela aparência... você precisa de múltiplos critérios! 😄

In [None]:
# Implementando métricas específicas para LLMs
import math
from collections import Counter

def calculate_bleu_simple(reference, candidate):
    """Implementação simplificada do BLEU score"""
    ref_words = reference.lower().split()
    cand_words = candidate.lower().split()
    
    if len(cand_words) == 0:
        return 0.0
    
    # Contagem de palavras em comum (1-gram precision)
    ref_counter = Counter(ref_words)
    cand_counter = Counter(cand_words)
    
    overlap = sum((ref_counter & cand_counter).values())
    precision = overlap / len(cand_words)
    
    # Brevity penalty (penaliza textos muito curtos)
    bp = 1.0 if len(cand_words) >= len(ref_words) else math.exp(1 - len(ref_words)/len(cand_words))
    
    return bp * precision

def calculate_perplexity_estimate(text_length, num_errors):
    """Estimativa simplificada de perplexidade"""
    # Quanto menor, melhor
    error_rate = num_errors / text_length if text_length > 0 else 1.0
    return math.exp(error_rate)

# Exemplo de avaliação para tarefa de geração de texto
evaluation_examples = [
    {
        'referencia': 'O gato subiu no telhado da casa',
        'modelo_a': 'O gato escalou o telhado da residência',
        'modelo_b': 'O felino subiu no teto do lar'
    },
    {
        'referencia': 'Python é uma linguagem de programação',
        'modelo_a': 'Python é uma linguagem para programar',
        'modelo_b': 'Python programa linguagem computador'
    },
    {
        'referencia': 'Machine learning está revolucionando a tecnologia',
        'modelo_a': 'Aprendizado de máquina está transformando a tecnologia',
        'modelo_b': 'ML mudando tech muito'
    }
]

print("🎯 AVALIAÇÃO DE GERAÇÃO DE TEXTO")
print("=" * 50)

for i, example in enumerate(evaluation_examples, 1):
    print(f"\n📝 Exemplo {i}:")
    print(f"Referência: {example['referencia']}")
    print(f"Modelo A: {example['modelo_a']}")
    print(f"Modelo B: {example['modelo_b']}")
    
    # BLEU scores
    bleu_a = calculate_bleu_simple(example['referencia'], example['modelo_a'])
    bleu_b = calculate_bleu_simple(example['referencia'], example['modelo_b'])
    
    print(f"\n📊 BLEU Score:")
    print(f"  Modelo A: {bleu_a:.3f}")
    print(f"  Modelo B: {bleu_b:.3f}")
    
    winner = "A" if bleu_a > bleu_b else "B"
    print(f"🏆 Vencedor: Modelo {winner}")

print("\n💡 BLEU mede similaridade lexical com a referência")
print("📈 Valores mais altos = mais similar ao texto esperado")

## 🚀 Métricas Específicas para LLMs: Os "Hits do Momento"

Agora vamos falar das métricas que são específicas para modelos de linguagem grandes:

### 🔤 BLEU Score
**"Quantas palavras em comum com a resposta esperada?"**  
Originalmente para tradução, agora usado em geração de texto.

### 📄 ROUGE Score
**"Bom para avaliar resumos"**  
Mede overlap de n-gramas entre texto gerado e referência.

### 🌊 Perplexidade (Perplexity)
**"Quão 'surpreso' o modelo fica com o texto?"**  
Quanto menor, melhor. É tipo medir se o texto "flui naturalmente".

### 🎯 BERTScore
**"Usa embeddings para comparar significado"**  
Mais sofisticado que BLEU, entende sinônimos.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdução-à-llms-modulo-09_img_03.png)

In [None]:
# Comparando diferentes métricas para LLMs
import random

# Simulando dados de múltiplos modelos
models_data = {
    'GPT-3.5': {'bleu': 0.72, 'rouge': 0.68, 'perplexity': 12.4, 'bert_score': 0.81},
    'GPT-4': {'bleu': 0.79, 'rouge': 0.75, 'perplexity': 8.9, 'bert_score': 0.87},
    'Claude-2': {'bleu': 0.74, 'rouge': 0.71, 'perplexity': 10.2, 'bert_score': 0.83},
    'Llama-2': {'bleu': 0.69, 'rouge': 0.66, 'perplexity': 14.1, 'bert_score': 0.78},
    'Gemini': {'bleu': 0.76, 'rouge': 0.73, 'perplexity': 9.7, 'bert_score': 0.85}
}

# Convertendo para DataFrame
metrics_df = pd.DataFrame(models_data).T
print("🎯 COMPARAÇÃO DE MÉTRICAS ESPECÍFICAS PARA LLMs")
print("=" * 60)
print(metrics_df.round(3))

# Normalizando perplexity (invertendo porque menor é melhor)
max_perplexity = metrics_df['perplexity'].max()
metrics_df['perplexity_norm'] = (max_perplexity - metrics_df['perplexity']) / max_perplexity

# Calculando score composto
score_cols = ['bleu', 'rouge', 'perplexity_norm', 'bert_score']
metrics_df['score_composto'] = metrics_df[score_cols].mean(axis=1)

print("\n🏆 RANKING FINAL (Score Composto):")
ranking = metrics_df.sort_values('score_composto', ascending=False)[['score_composto']]
for i, (model, score) in enumerate(ranking.iterrows(), 1):
    print(f"{i}º lugar: {model} - {score['score_composto']:.3f}")

print("\n💡 Score composto = média de todas as métricas normalizadas")
print("📊 Perplexity foi invertida (menor é melhor)")

In [None]:
# Visualização radar das métricas
import math

fig, ax = plt.subplots(figsize=(10, 10), subplot_kw=dict(projection='polar'))

# Métricas para o radar
metrics = ['BLEU', 'ROUGE', 'Perplexity\n(norm)', 'BERTScore']
angles = [n / float(len(metrics)) * 2 * math.pi for n in range(len(metrics))]
angles += angles[:1]  # Completar o círculo

# Cores para cada modelo
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FECA57']

# Plotar cada modelo
for i, (model, color) in enumerate(zip(metrics_df.index, colors)):
    values = [
        metrics_df.loc[model, 'bleu'],
        metrics_df.loc[model, 'rouge'], 
        metrics_df.loc[model, 'perplexity_norm'],
        metrics_df.loc[model, 'bert_score']
    ]
    values += values[:1]  # Completar o círculo
    
    ax.plot(angles, values, 'o-', linewidth=2, label=model, color=color)
    ax.fill(angles, values, alpha=0.1, color=color)

# Configurações do gráfico
ax.set_xticks(angles[:-1])
ax.set_xticklabels(metrics)
ax.set_ylim(0, 1)
ax.set_title('🎯 Comparação Radar das Métricas LLM\n', size=16, pad=20)
ax.legend(loc='upper right', bbox_to_anchor=(1.3, 1.0))

plt.tight_layout()
plt.show()

print("📊 Gráfico radar criado!")
print("🎯 Quanto mais longe do centro, melhor o desempenho")
print("💡 Facilita visualizar pontos fortes e fracos de cada modelo")

## 👥 Avaliação Humana: Quando a Máquina Precisa da Opinião Humana

Tá, galera, nem tudo na vida pode ser medido por números! Imaginem avaliar um poema só contando palavras... 🤔

### Quando Precisamos de Humanos?

1. **Criatividade** - "Esse texto é interessante?"
2. **Adequação Cultural** - "Isso faz sentido no Brasil?"
3. **Ética e Vieses** - "Isso pode ofender alguém?"
4. **Nuances Sutis** - "O tom está adequado?"

### 🎯 Métodos de Avaliação Humana

**📊 Escalas Likert**  
"De 1 a 5, quão boa é essa resposta?"  

**⚖️ Comparação Pareada**  
"Entre A e B, qual resposta é melhor?"  

**📝 Avaliação Qualitativa**  
"Descreva em suas palavras o que achou"

**💡 Dica do Pedro:** Avaliação humana é cara e demorada, mas às vezes é a ÚNICA forma de saber se seu modelo realmente está bom!

In [None]:
# Simulando dados de avaliação humana
np.random.seed(42)

# Simulando avaliações humanas para diferentes aspectos
human_eval_data = {
    'Modelo': ['GPT-3.5', 'GPT-4', 'Claude-2', 'Llama-2', 'Gemini'],
    'Fluência': np.random.normal(loc=[7.2, 8.5, 7.8, 6.9, 8.1], scale=0.5, size=5).clip(1, 10),
    'Relevância': np.random.normal(loc=[7.0, 8.3, 7.6, 6.7, 7.9], scale=0.6, size=5).clip(1, 10),
    'Criatividade': np.random.normal(loc=[6.8, 8.1, 7.9, 6.5, 7.7], scale=0.7, size=5).clip(1, 10),
    'Segurança': np.random.normal(loc=[8.1, 9.0, 8.6, 7.8, 8.4], scale=0.4, size=5).clip(1, 10),
    'Satisfação_Geral': np.random.normal(loc=[7.1, 8.4, 7.8, 6.8, 8.0], scale=0.5, size=5).clip(1, 10)
}

human_df = pd.DataFrame(human_eval_data)
human_df.iloc[:, 1:] = human_df.iloc[:, 1:].round(1)

print("👥 AVALIAÇÃO HUMANA DOS MODELOS")
print("=" * 50)
print("📊 Escala: 1-10 (onde 10 = excelente)")
print("\n", human_df.to_string(index=False))

# Calculando score médio da avaliação humana
human_metrics = ['Fluência', 'Relevância', 'Criatividade', 'Segurança']
human_df['Score_Humano'] = human_df[human_metrics].mean(axis=1)

print("\n🏆 RANKING POR AVALIAÇÃO HUMANA:")
human_ranking = human_df.sort_values('Score_Humano', ascending=False)[['Modelo', 'Score_Humano', 'Satisfação_Geral']]
for i, row in human_ranking.iterrows():
    print(f"{list(human_ranking.index).index(i)+1}º {row['Modelo']}: {row['Score_Humano']:.1f} (Satisfação: {row['Satisfação_Geral']:.1f})")

print("\n💡 Note que a ordem pode ser diferente das métricas automáticas!")

In [None]:
# Comparando avaliação automática vs humana
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico 1: Avaliação Humana por aspecto
human_melted = human_df.melt(id_vars=['Modelo'], 
                            value_vars=human_metrics,
                            var_name='Aspecto', 
                            value_name='Score')

sns.boxplot(data=human_melted, x='Aspecto', y='Score', ax=ax1)
ax1.set_title('👥 Distribuição das Avaliações Humanas', fontsize=14)
ax1.set_ylabel('Score (1-10)')
ax1.tick_params(axis='x', rotation=45)

# Gráfico 2: Correlação entre avaliação automática e humana
# Combinando dados para comparação
combined_scores = pd.DataFrame({
    'Modelo': metrics_df.index,
    'Score_Automático': metrics_df['score_composto'].values,
    'Score_Humano': human_df.set_index('Modelo')['Score_Humano'].values
})

ax2.scatter(combined_scores['Score_Automático'], combined_scores['Score_Humano'], 
           s=100, alpha=0.7, c=colors)

# Adicionando labels dos modelos
for i, row in combined_scores.iterrows():
    ax2.annotate(row['Modelo'], 
                (row['Score_Automático'], row['Score_Humano']),
                xytext=(5, 5), textcoords='offset points')

ax2.set_xlabel('Score Automático')
ax2.set_ylabel('Score Humano')
ax2.set_title('🤖 vs 👥 Correlação Auto x Humano', fontsize=14)

# Linha de tendência
z = np.polyfit(combined_scores['Score_Automático'], combined_scores['Score_Humano'], 1)
p = np.poly1d(z)
ax2.plot(combined_scores['Score_Automático'], p(combined_scores['Score_Automático']), "r--", alpha=0.8)

plt.tight_layout()
plt.show()

# Calculando correlação
correlation = combined_scores['Score_Automático'].corr(combined_scores['Score_Humano'])
print(f"📊 Correlação entre avaliação automática e humana: {correlation:.3f}")
print(f"💡 Correlação de {correlation:.1f} indica {'forte' if abs(correlation) > 0.7 else 'moderada' if abs(correlation) > 0.5 else 'fraca'} concordância")

## ⚡ Avaliação de Performance: Velocidade e Eficiência

Não adianta ter um modelo super inteligente se ele demora 1 hora para responder "oi"! 😅

### Métricas Técnicas Importantes:

**⏱️ Latência**  
Tempo entre fazer a pergunta e receber a resposta

**🚀 Throughput**  
Quantas requisições por segundo consegue processar

**💾 Uso de Memória**  
Quanto de RAM/VRAM consome

**⚡ Tokens por Segundo**  
Velocidade de geração de texto

**💰 Custo por Token**  
Quanto custa cada palavra gerada

In [None]:
# Simulando métricas de performance
import time

performance_data = {
    'Modelo': ['GPT-3.5-Turbo', 'GPT-4', 'Claude-2', 'Llama-2-70B', 'Gemini-Pro'],
    'Latência_ms': [850, 1200, 950, 2100, 750],
    'Throughput_req_s': [45, 25, 38, 12, 52],
    'Tokens_por_segundo': [120, 80, 95, 35, 140],
    'Memória_GB': [12, 28, 16, 140, 20],
    'Custo_por_1k_tokens': [0.002, 0.06, 0.008, 0.001, 0.003]
}

perf_df = pd.DataFrame(performance_data)

print("⚡ MÉTRICAS DE PERFORMANCE")
print("=" * 50)
print(perf_df.to_string(index=False))

# Calculando score de performance normalizado
# Para métricas onde MENOR é melhor (latência, custo, memória)
perf_df['latencia_score'] = (perf_df['Latência_ms'].max() - perf_df['Latência_ms']) / perf_df['Latência_ms'].max()
perf_df['memoria_score'] = (perf_df['Memória_GB'].max() - perf_df['Memória_GB']) / perf_df['Memória_GB'].max()
perf_df['custo_score'] = (perf_df['Custo_por_1k_tokens'].max() - perf_df['Custo_por_1k_tokens']) / perf_df['Custo_por_1k_tokens'].max()

# Para métricas onde MAIOR é melhor (throughput, tokens/s)
perf_df['throughput_score'] = perf_df['Throughput_req_s'] / perf_df['Throughput_req_s'].max()
perf_df['velocidade_score'] = perf_df['Tokens_por_segundo'] / perf_df['Tokens_por_segundo'].max()

# Score composto de performance
perf_metrics = ['latencia_score', 'throughput_score', 'velocidade_score', 'memoria_score', 'custo_score']
perf_df['performance_score'] = perf_df[perf_metrics].mean(axis=1)

print("\n🏆 RANKING DE PERFORMANCE:")
perf_ranking = perf_df.sort_values('performance_score', ascending=False)[['Modelo', 'performance_score']]
for i, (_, row) in enumerate(perf_ranking.iterrows(), 1):
    print(f"{i}º {row['Modelo']}: {row['performance_score']:.3f}")

print("\n💡 Score considera velocidade, eficiência e custo")

## 🎓 EXERCÍCIO PRÁTICO 1: Monte Sua Própria Avaliação

Agora é sua vez! Vamos criar uma avaliação personalizada para um caso específico.

**📝 CENÁRIO:**  
Você precisa escolher um LLM para um chatbot de atendimento ao cliente de uma loja online brasileira.

**🎯 CRITÉRIOS IMPORTANTES:**
1. Entendimento de português brasileiro
2. Velocidade de resposta (cliente não gosta de esperar)
3. Cortesia e tom adequado
4. Custo operacional
5. Capacidade de lidar com reclamações

**📊 SUA TAREFA:**
Complete o código abaixo definindo pesos para cada critério e implementando a função de avaliação:

In [None]:
# EXERCÍCIO 1: Complete o código para criar sua avaliação personalizada

def avaliar_modelo_chatbot(modelo_name, criterios_scores, pesos):
    """
    Avalia um modelo para chatbot baseado em critérios específicos
    
    Args:
        modelo_name: Nome do modelo
        criterios_scores: Dict com scores de cada critério (0-10)
        pesos: Dict com pesos de cada critério (devem somar 1.0)
    
    Returns:
        Score final ponderado
    """
    # TODO: Implemente a lógica de cálculo do score ponderado
    score_final = 0
    
    # DICA: Para cada critério, multiplique o score pelo peso
    # SEU CÓDIGO AQUI:
    
    
    return score_final

# Dados dos modelos (já preenchidos)
modelos_chatbot = {
    'GPT-3.5-Turbo': {
        'portugues_br': 8.5,
        'velocidade': 9.0,
        'cortesia': 8.0,
        'custo': 8.5,
        'reclamacoes': 7.5
    },
    'GPT-4': {
        'portugues_br': 9.5,
        'velocidade': 7.0,
        'cortesia': 9.0,
        'custo': 5.0,
        'reclamacoes': 9.5
    },
    'Claude-2': {
        'portugues_br': 8.0,
        'velocidade': 8.0,
        'cortesia': 9.5,
        'custo': 7.0,
        'reclamacoes': 8.5
    }
}

# TODO: Defina os pesos (devem somar 1.0)
# Pense: o que é mais importante para um chatbot?
pesos = {
    'portugues_br': 0.0,    # SEU PESO AQUI (ex: 0.25 = 25%)
    'velocidade': 0.0,      # SEU PESO AQUI
    'cortesia': 0.0,       # SEU PESO AQUI
    'custo': 0.0,          # SEU PESO AQUI
    'reclamacoes': 0.0     # SEU PESO AQUI
    # TOTAL DEVE SER 1.0!
}

print("🤖 AVALIAÇÃO DE MODELOS PARA CHATBOT")
print("=" * 50)

# Testando sua implementação
if sum(pesos.values()) == 1.0:
    for modelo, scores in modelos_chatbot.items():
        score = avaliar_modelo_chatbot(modelo, scores, pesos)
        print(f"{modelo}: {score:.2f}")
else:
    print("❌ ERRO: Os pesos devem somar 1.0!")
    print(f"Soma atual: {sum(pesos.values()):.2f}")

## 🚨 Problemas Comuns na Avaliação: Os "Pegadinhas" que Todo Mundo Cai

Galera, avaliar LLMs tem suas armadilhas! É tipo dirigir no Rio... tem que conhecer os "furos" 😄

### 🎭 1. Data Leakage (Vazamento de Dados)
**O Problema:** Seu modelo "decorou" as respostas do teste  
**Analogia:** É tipo fazer prova tendo visto as respostas antes

### 📊 2. Métricas que Mentem
**O Problema:** BLEU alto não significa texto bom  
**Exemplo:** "Gato gato gato gato" pode ter BLEU alto se a referência for "O gato"

### 🎯 3. Overfitting nos Benchmarks
**O Problema:** Modelo vai bem no GLUE mas falha na vida real  
**Analogia:** Decorar questões do ENEM mas não saber aplicar na faculdade

### 👥 4. Viés dos Avaliadores
**O Problema:** Humanos têm preferências pessoais  
**Solução:** Múltiplos avaliadores + guidelines claros

### ⚖️ 5. Desbalanceamento de Classes
**O Problema:** 90% das amostras são positivas  
**Resultado:** Modelo "aprende" a sempre responder positivo

**💡 Dica do Pedro:** Nunca confie numa métrica só! É tipo namorar baseado só numa foto do Instagram... você precisa conhecer a pessoa toda! 😂

In [None]:
# Demonstrando problemas comuns na avaliação

# Problema 1: Desbalanceamento de classes
print("🚨 DEMONSTRAÇÃO: PROBLEMAS NA AVALIAÇÃO")
print("=" * 50)

# Simulando dataset desbalanceado
np.random.seed(42)
n_samples = 1000

# 90% positivo, 10% negativo (muito desbalanceado!)
true_labels_unbalanced = np.random.choice(['positivo', 'negativo'], 
                                         n_samples, p=[0.9, 0.1])

# Modelo "preguiçoso" que sempre prediz "positivo"
lazy_predictions = ['positivo'] * n_samples

# Calculando métricas
accuracy_lazy = accuracy_score(true_labels_unbalanced, lazy_predictions)

print("📊 CASO 1: Dataset Desbalanceado")
print(f"Distribuição real: {np.unique(true_labels_unbalanced, return_counts=True)}")
print(f"Modelo preguiçoso (sempre 'positivo'): {accuracy_lazy:.1%} de acurácia!")
print("❌ PROBLEMA: Alta acurácia mas modelo inútil!")

# Problema 2: Métricas enganosas
print("\n📊 CASO 2: Métrica Enganosa (BLEU)")

referencia = "O gato subiu no telhado"
texto_repetitivo = "gato gato gato gato gato"
texto_bom = "O felino escalou o teto"

bleu_repetitivo = calculate_bleu_simple(referencia, texto_repetitivo)
bleu_bom = calculate_bleu_simple(referencia, texto_bom)

print(f"Referência: '{referencia}'")
print(f"Texto repetitivo: '{texto_repetitivo}' → BLEU: {bleu_repetitivo:.3f}")
print(f"Texto bom: '{texto_bom}' → BLEU: {bleu_bom:.3f}")
print("❌ PROBLEMA: Texto repetitivo pode ter BLEU alto!")

# Problema 3: Falta de contexto
print("\n📊 CASO 3: Falta de Avaliação Contextual")
exemplos_contexto = [
    {
        'contexto': 'Cliente reclamando de produto quebrado',
        'resposta_tecnica': 'Produto apresenta falha estrutural tipo B-304',
        'resposta_humana': 'Que chato! Vamos resolver isso rapidinho para você'
    },
    {
        'contexto': 'Dúvida sobre frete',
        'resposta_tecnica': 'Modalidade de envio padrão demanda 3-5 dias úteis',
        'resposta_humana': 'Seu pedido chega em 3-5 dias úteis pelo correio!'
    }
]

for i, ex in enumerate(exemplos_contexto, 1):
    print(f"\nExemplo {i}: {ex['contexto']}")
    print(f"  Técnica: {ex['resposta_tecnica']}")
    print(f"  Humana:  {ex['resposta_humana']}")

print("\n❌ PROBLEMA: Métricas automáticas não capturam adequação ao contexto!")
print("✅ SOLUÇÃO: Combinar métricas automáticas + avaliação humana contextual")

## 📈 Monitoramento Contínuo: Mantendo o Olho no Modelo

Lembram do módulo sobre prompting? Lá vimos como fazer o modelo funcionar. Agora precisamos garantir que ele CONTINUE funcionando!

É tipo cuidar de um filho: não basta educar uma vez, tem que acompanhar sempre! 👶

### 🔍 O que Monitorar?

1. **Drift de Performance** - Modelo piorando com o tempo
2. **Mudanças no Comportamento** - Respostas ficando estranhas
3. **Feedback dos Usuários** - Satisfação caindo
4. **Métricas Técnicas** - Latência aumentando
5. **Custos** - Conta do OpenAI explodindo 💸

### 🎯 Estratégias de Monitoramento

**📊 Dashboards em Tempo Real**  
Gráficos bonitos que mostram tudo funcionando (ou não)

**🚨 Alertas Automáticos**  
"Opa, algo tá estranho aqui!"

**📝 A/B Testing Contínuo**  
Sempre testando versões diferentes

**👥 Feedback Loop**  
Usuários ajudam a melhorar o modelo

In [None]:
# Simulando sistema de monitoramento contínuo
import datetime

# Gerando dados de monitoramento ao longo do tempo
np.random.seed(42)
days = 30
dates = [datetime.datetime.now() - datetime.timedelta(days=x) for x in range(days, 0, -1)]

# Simulando degradação gradual do modelo
base_accuracy = 0.85
degradation_factor = 0.001  # Piora 0.1% por dia

monitoring_data = []
for i, date in enumerate(dates):
    # Performance degradando com o tempo + ruído aleatório
    daily_accuracy = base_accuracy - (i * degradation_factor) + np.random.normal(0, 0.02)
    daily_latency = 800 + (i * 10) + np.random.normal(0, 50)  # Latência aumentando
    daily_cost = 100 + (i * 2) + np.random.normal(0, 10)      # Custo aumentando
    daily_satisfaction = 8.5 - (i * 0.05) + np.random.normal(0, 0.3)  # Satisfação caindo
    
    monitoring_data.append({
        'data': date,
        'acuracia': max(0.6, min(1.0, daily_accuracy)),
        'latencia_ms': max(500, daily_latency),
        'custo_diario': max(50, daily_cost),
        'satisfacao': max(1, min(10, daily_satisfaction))
    })

monitoring_df = pd.DataFrame(monitoring_data)

print("📊 MONITORAMENTO CONTÍNUO - ÚLTIMOS 30 DIAS")
print("=" * 50)

# Estatísticas resumo
print(f"📈 Acurácia: {monitoring_df['acuracia'].iloc[0]:.1%} → {monitoring_df['acuracia'].iloc[-1]:.1%}")
print(f"⏱️  Latência: {monitoring_df['latencia_ms'].iloc[0]:.0f}ms → {monitoring_df['latencia_ms'].iloc[-1]:.0f}ms")
print(f"💰 Custo: ${monitoring_df['custo_diario'].iloc[0]:.0f} → ${monitoring_df['custo_diario'].iloc[-1]:.0f}")
print(f"😊 Satisfação: {monitoring_df['satisfacao'].iloc[0]:.1f} → {monitoring_df['satisfacao'].iloc[-1]:.1f}")

# Detectando problemas
accuracy_drop = monitoring_df['acuracia'].iloc[0] - monitoring_df['acuracia'].iloc[-1]
latency_increase = monitoring_df['latencia_ms'].iloc[-1] - monitoring_df['latencia_ms'].iloc[0]
cost_increase = monitoring_df['custo_diario'].iloc[-1] - monitoring_df['custo_diario'].iloc[0]

print("\n🚨 ALERTAS DETECTADOS:")
if accuracy_drop > 0.05:
    print(f"⚠️  ALERTA: Queda de acurácia de {accuracy_drop:.1%}!")
if latency_increase > 200:
    print(f"⚠️  ALERTA: Aumento de latência de {latency_increase:.0f}ms!")
if cost_increase > 50:
    print(f"⚠️  ALERTA: Aumento de custo de ${cost_increase:.0f}!")

print("\n💡 Modelo precisa de atenção!")

In [None]:
# Visualizando o monitoramento
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 10))

# Gráfico 1: Acurácia ao longo do tempo
ax1.plot(monitoring_df['data'], monitoring_df['acuracia'], 'b-', linewidth=2, marker='o')
ax1.axhline(y=0.8, color='r', linestyle='--', alpha=0.7, label='Limite mínimo')
ax1.set_title('📊 Acurácia ao Longo do Tempo')
ax1.set_ylabel('Acurácia')
ax1.tick_params(axis='x', rotation=45)
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gráfico 2: Latência
ax2.plot(monitoring_df['data'], monitoring_df['latencia_ms'], 'orange', linewidth=2, marker='s')
ax2.axhline(y=1000, color='r', linestyle='--', alpha=0.7, label='Limite máximo')
ax2.set_title('⏱️ Latência ao Longo do Tempo')
ax2.set_ylabel('Latência (ms)')
ax2.tick_params(axis='x', rotation=45)
ax2.legend()
ax2.grid(True, alpha=0.3)

# Gráfico 3: Custo
ax3.plot(monitoring_df['data'], monitoring_df['custo_diario'], 'green', linewidth=2, marker='^')
ax3.set_title('💰 Custo Diário')
ax3.set_ylabel('Custo ($)')
ax3.tick_params(axis='x', rotation=45)
ax3.grid(True, alpha=0.3)

# Gráfico 4: Satisfação do usuário
ax4.plot(monitoring_df['data'], monitoring_df['satisfacao'], 'purple', linewidth=2, marker='D')
ax4.axhline(y=7.0, color='r', linestyle='--', alpha=0.7, label='Limite mínimo')
ax4.set_title('😊 Satisfação dos Usuários')
ax4.set_ylabel('Satisfação (1-10)')
ax4.tick_params(axis='x', rotation=45)
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("📊 Dashboard de monitoramento gerado!")
print("🎯 Visualização clara das tendências ao longo do tempo")
print("🚨 Linhas vermelhas mostram limites de alerta")

## 🎓 EXERCÍCIO PRÁTICO 2: Detecção de Problemas

Agora você é o "médico" do modelo! Analise os sintomas e detecte o problema.

**📋 CENÁRIO:**  
Você monitora um modelo de classificação de sentimentos para reviews de e-commerce. Nos últimos dias, algo estranho está acontecendo...

**🔍 SUA MISSÃO:**  
Analise os dados e identifique possíveis problemas!

In [None]:
# EXERCÍCIO 2: Analise os dados e detecte problemas

# Dados suspeitos dos últimos 7 dias
dados_suspeitos = {
    'dia': ['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado', 'Domingo'],
    'total_classificacoes': [1000, 1200, 1100, 1300, 2800, 3200, 2900],
    'predito_positivo': [600, 720, 660, 780, 2520, 2880, 2610],
    'predito_negativo': [300, 360, 330, 390, 210, 240, 218],
    'predito_neutro': [100, 120, 110, 130, 70, 80, 72],
    'acuracia_reportada': [0.85, 0.83, 0.86, 0.84, 0.92, 0.94, 0.93],
    'tempo_resposta_ms': [450, 480, 460, 470, 180, 160, 170]
}

suspeitos_df = pd.DataFrame(dados_suspeitos)

print("🔍 DADOS DOS ÚLTIMOS 7 DIAS")
print("=" * 50)
print(suspeitos_df.to_string(index=False))

# Calculando proporções
suspeitos_df['prop_positivo'] = suspeitos_df['predito_positivo'] / suspeitos_df['total_classificacoes']
suspeitos_df['prop_negativo'] = suspeitos_df['predito_negativo'] / suspeitos_df['total_classificacoes']
suspeitos_df['prop_neutro'] = suspeitos_df['predito_neutro'] / suspeitos_df['total_classificacoes']

print("\n📊 PROPORÇÕES:")
print(suspeitos_df[['dia', 'prop_positivo', 'prop_negativo', 'prop_neutro']].round(3).to_string(index=False))

# SUA ANÁLISE AQUI:
print("\n🤔 ANÁLISE - O que você observa?")
print("=" * 40)

# TODO: Analise os dados e responda:
# 1. O que aconteceu na sexta/sábado/domingo?
# 2. Por que a acurácia subiu mas algo parece estranho?
# 3. O que sugere sobre o comportamento do modelo?
# 4. Qual seria sua recomendação?

print("📝 SUAS OBSERVAÇÕES:")
print("1. Volume de classificações: ")
print("2. Distribuição das classes: ")
print("3. Acurácia vs comportamento: ")
print("4. Tempo de resposta: ")
print("\n🎯 DIAGNÓSTICO PROVÁVEL:")
print("Problema detectado: ")
print("Causa provável: ")
print("Ação recomendada: ")

## 🎯 Conectando com o Restante do Curso

Lembram da nossa jornada até aqui? Vamos conectar os pontos! 🔗

### 🔙 Módulos Anteriores que se Conectam:

**📚 Módulo 2 - O que são LLMs**  
→ Agora sabemos MEDIR se eles realmente "entendem"

**🏗️ Módulo 3 - Arquitetura Transformer**  
→ Diferentes arquiteturas têm diferentes pontos fortes nos benchmarks

**🔤 Módulo 4 - Tokens**  
→ Métricas como BLEU dependem de tokenização adequada

**🎯 Módulo 8 - Prompting**  
→ Avaliação nos mostra se nossos prompts estão funcionando!

### 🔜 Preparando para os Próximos Módulos:

**🛡️ Módulo 10 - Segurança**  
→ Vamos avaliar se modelos são seguros e éticos

**⚠️ Módulo 11 - Limitações**  
→ Entender onde os modelos falham mesmo com boa avaliação

**🚀 Módulo 12 - Projeto Final**  
→ Aplicar tudo que aprendemos sobre avaliação!

In [None]:
# Resumo visual das conexões do curso
fig, ax = plt.subplots(figsize=(12, 8))

# Dados para o mapa de conexões
modulos = ['Setup', 'LLMs', 'Transformer', 'Tokens', 'Embeddings', 
          'Tipos', 'Treinamento', 'Prompting', 'AVALIAÇÃO', 'Segurança', 
          'Limitações', 'Projeto', 'Avançado']

conexoes_avaliacao = [2, 4, 6, 8, 5, 7, 9, 10, 10, 8, 9, 9, 6]
cores = ['lightgray' if i != 8 else 'red' for i in range(len(modulos))]

bars = ax.barh(modulos, conexoes_avaliacao, color=cores)

# Destacando o módulo atual
ax.set_xlabel('Nível de Conexão com Avaliação')
ax.set_title('🔗 Como "Avaliação de Modelos" se Conecta com Outros Módulos\n', fontsize=14)

# Adicionando valores nas barras
for i, bar in enumerate(bars):
    width = bar.get_width()
    emoji = '🎯' if i == 8 else '📚' if i < 8 else '🔜'
    ax.text(width + 0.1, bar.get_y() + bar.get_height()/2, 
            f'{emoji} {width}', va='center')

ax.set_xlim(0, 11)
ax.grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

print("🎯 MÓDULO ATUAL: Avaliação de Modelos")
print("📚 JÁ ESTUDADOS: Bases sólidas para entender avaliação")
print("🔜 PRÓXIMOS: Vamos usar avaliação para segurança e projetos")
print("\n💡 Avaliação é o 'termômetro' do nosso conhecimento sobre LLMs!")

## 🎉 Resumão: O que Aprendemos Hoje

Bora fazer aquele resumão maroto do que rolou hoje! 📝

### ✅ CONCEITOS FUNDAMENTAIS
- **Avaliação é essencial** - Sem ela, não sabemos se o modelo funciona
- **Multiple métricas** - Nunca confie numa métrica só!
- **Contexto importa** - Métricas automáticas não capturam tudo
- **Monitoramento contínuo** - Modelo pode degradar com o tempo

### 🛠️ FERRAMENTAS PRÁTICAS
- **Métricas clássicas:** Acurácia, Precisão, Recall, F1-Score
- **Métricas para LLM:** BLEU, ROUGE, Perplexidade, BERTScore
- **Benchmarks famosos:** GLUE, HellaSwag, SQuAD, GSM8K
- **Avaliação humana:** Quando máquinas não bastam
- **Monitoramento:** Dashboards, alertas, A/B testing

### 🚨 ARMADILHAS A EVITAR
- Data leakage (modelo "decorou" as respostas)
- Métricas enganosas (BLEU alto ≠ texto bom)
- Overfitting em benchmarks
- Desbalanceamento de classes
- Falta de contexto na avaliação

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdução-à-llms-modulo-09_img_04.png)

### 🎯 DICA FINAL DO PEDRO
**Avaliação de modelos é como cuidar da saúde:** você não vai no médico só quando está doente, né? Tem que fazer check-up regular!

Assim é com LLMs: monitore sempre, use múltiplas métricas, e nunca esqueça que números não contam toda a história. Às vezes o modelo com menor BLEU é mais útil na prática!

---

**🚀 PRÓXIMO MÓDULO:** Segurança e Guardrails  
*Onde vamos aprender a "colocar cabresto" nos nossos modelos para eles não saírem falando besteira por aí!* 😄

**Até lá, pessoal! Bora avaliar uns modelos! 🎯**