# An√°lise de Erros dos Classificadores

**Execute este notebook AP√ìS rodar `main.py`**

Aqui voc√™ vai:
- Ver onde cada modelo erra
- Identificar padr√µes nos erros
- Encontrar casos onde modelos simples batem modelos complexos
- Entender quais textos s√£o dif√≠ceis de classificar

In [None]:
import sys
sys.path.append('..')

import pickle
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from collections import Counter

%matplotlib inline
plt.rcParams['figure.figsize'] = (14, 8)
sns.set_style('whitegrid')

## 1. Carregar Dados e Predi√ß√µes

Se voc√™ rodou `main.py`, as predi√ß√µes foram salvas em `results/`

In [None]:
results_dir = Path('../results')

# Verificar se resultados existem
if not results_dir.exists():
    print("‚ö†Ô∏è Pasta 'results/' n√£o encontrada!")
    print("Execute 'python main.py' primeiro.")
    sys.exit()

# Carregar predi√ß√µes salvas (voc√™ precisar√° modificar main.py para salv√°-las)
try:
    with open(results_dir / 'predictions.pkl', 'rb') as f:
        data = pickle.load(f)
    
    X_test = data['X_test']
    y_true = data['y_true']
    y_pred_embedding = data['y_pred_embedding']
    y_pred_finetuned = data['y_pred_finetuned']
    y_pred_llm = data['y_pred_llm']
    id2label = data['id2label']
    
    print("‚úì Predi√ß√µes carregadas com sucesso!")
    print(f"\nTotal de amostras de teste: {len(X_test)}")
    
except FileNotFoundError:
    print("‚ùå Arquivo 'predictions.pkl' n√£o encontrado!")
    print("\n‚ö†Ô∏è IMPORTANTE: Voc√™ precisa modificar main.py para salvar as predi√ß√µes.")
    print("\nAdicione no final da fun√ß√£o main():")
    print("""
    # Salvar predi√ß√µes para an√°lise de erros
    predictions_data = {
        'X_test': X_test,
        'y_true': y_test,
        'y_pred_embedding': embedding_clf.predict(X_test),
        'y_pred_finetuned': finetuned_clf.predict(X_test),
        'y_pred_llm': llm_clf.predict(X_test),
        'id2label': id2label
    }
    
    import pickle
    with open(config.RESULTS_DIR / 'predictions.pkl', 'wb') as f:
        pickle.dump(predictions_data, f)
    """)
    sys.exit()

## 2. Criar DataFrame de An√°lise

In [None]:
# Criar DataFrame com todas as informa√ß√µes
df_analysis = pd.DataFrame({
    'text': X_test,
    'true_label': y_true,
    'true_label_name': [id2label[label] for label in y_true],
    'pred_embedding': y_pred_embedding,
    'pred_finetuned': y_pred_finetuned,
    'pred_llm': y_pred_llm,
    'pred_embedding_name': [id2label[label] for label in y_pred_embedding],
    'pred_finetuned_name': [id2label[label] for label in y_pred_finetuned],
    'pred_llm_name': [id2label[label] for label in y_pred_llm],
})

# Adicionar colunas de acerto/erro
df_analysis['correct_embedding'] = df_analysis['true_label'] == df_analysis['pred_embedding']
df_analysis['correct_finetuned'] = df_analysis['true_label'] == df_analysis['pred_finetuned']
df_analysis['correct_llm'] = df_analysis['true_label'] == df_analysis['pred_llm']

# Contar quantos modelos acertaram
df_analysis['num_correct'] = (
    df_analysis['correct_embedding'].astype(int) +
    df_analysis['correct_finetuned'].astype(int) +
    df_analysis['correct_llm'].astype(int)
)

print("DataFrame de an√°lise criado!")
df_analysis.head()

## 3. Vis√£o Geral dos Erros

In [None]:
# Resumo de acertos por modelo
print("=" * 60)
print("RESUMO DE ACERTOS")
print("=" * 60)

for model in ['embedding', 'finetuned', 'llm']:
    correct = df_analysis[f'correct_{model}'].sum()
    total = len(df_analysis)
    accuracy = correct / total * 100
    print(f"{model.upper():<15}: {correct:>4}/{total} ({accuracy:>5.1f}%)")

print("\n" + "=" * 60)
print("CONSENSO DOS MODELOS")
print("=" * 60)

consensus_counts = df_analysis['num_correct'].value_counts().sort_index(ascending=False)

for num_correct, count in consensus_counts.items():
    pct = count / len(df_analysis) * 100
    if num_correct == 3:
        label = "Todos acertaram"
    elif num_correct == 2:
        label = "2 modelos acertaram"
    elif num_correct == 1:
        label = "Apenas 1 acertou"
    else:
        label = "NENHUM acertou ‚ùå"
    
    print(f"{label:<25}: {count:>4} amostras ({pct:>5.1f}%)")

## 4. Casos Onde NENHUM Modelo Acertou

Estes s√£o os casos mais dif√≠ceis!

In [None]:
# Casos onde todos erraram
all_wrong = df_analysis[df_analysis['num_correct'] == 0]

print(f"Total de casos onde TODOS erraram: {len(all_wrong)}")
print("\n" + "=" * 80)

# Mostrar alguns exemplos
num_examples = min(10, len(all_wrong))

for i, (idx, row) in enumerate(all_wrong.head(num_examples).iterrows(), 1):
    print(f"\n{i}. Texto: {row['text'][:100]}...")
    print(f"   ‚úì Verdadeiro: {row['true_label_name']}")
    print(f"   ‚úó Embedding:  {row['pred_embedding_name']}")
    print(f"   ‚úó Fine-tuned: {row['pred_finetuned_name']}")
    print(f"   ‚úó LLM:        {row['pred_llm_name']}")
    print("-" * 80)

### üîç An√°lise: Por que todos erraram?

**Poss√≠veis raz√µes:**

1. **Ambiguidade genu√≠na**: O texto pode expressar m√∫ltiplas emo√ß√µes
2. **Label errado no dataset**: Pode ser erro de anota√ß√£o
3. **Contexto insuficiente**: Falta informa√ß√£o para determinar a emo√ß√£o
4. **Vi√©s do dataset**: Padr√µes n√£o representativos no treino
5. **Classe minorit√°ria**: Classes raras (ex: surprise) s√£o mais dif√≠ceis

## 5. Casos Onde Apenas UM Modelo Acertou

Vamos ver qual modelo √© melhor em casos dif√≠ceis

In [None]:
# Casos onde apenas 1 acertou
only_one_correct = df_analysis[df_analysis['num_correct'] == 1]

print(f"Total de casos onde APENAS 1 modelo acertou: {len(only_one_correct)}")
print("\nQuem acertou quando os outros erraram?\n")

# Contar vit√≥rias individuais
embedding_alone = only_one_correct[
    only_one_correct['correct_embedding'] & 
    ~only_one_correct['correct_finetuned'] & 
    ~only_one_correct['correct_llm']
]

finetuned_alone = only_one_correct[
    ~only_one_correct['correct_embedding'] & 
    only_one_correct['correct_finetuned'] & 
    ~only_one_correct['correct_llm']
]

llm_alone = only_one_correct[
    ~only_one_correct['correct_embedding'] & 
    ~only_one_correct['correct_finetuned'] & 
    only_one_correct['correct_llm']
]

print(f"Embedding sozinho:  {len(embedding_alone):>4} casos")
print(f"Fine-tuned sozinho: {len(finetuned_alone):>4} casos")
print(f"LLM sozinho:        {len(llm_alone):>4} casos")

# Gr√°fico de pizza
labels = ['Embedding', 'Fine-tuned', 'LLM']
sizes = [len(embedding_alone), len(finetuned_alone), len(llm_alone)]
colors = ['#FF9999', '#66B3FF', '#99FF99']

plt.figure(figsize=(10, 6))
plt.pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)
plt.title('Vit√≥rias Individuais: Quem acertou quando os outros erraram?')
plt.axis('equal')
plt.show()

### Exemplos de Vit√≥rias Individuais

In [None]:
# Mostrar exemplos onde cada modelo foi o √∫nico a acertar
datasets = [
    ('EMBEDDING', embedding_alone),
    ('FINE-TUNED', finetuned_alone),
    ('LLM', llm_alone)
]

for model_name, df_subset in datasets:
    if len(df_subset) == 0:
        continue
    
    print("\n" + "=" * 80)
    print(f"Casos onde APENAS {model_name} acertou")
    print("=" * 80)
    
    num_examples = min(3, len(df_subset))
    
    for i, (idx, row) in enumerate(df_subset.head(num_examples).iterrows(), 1):
        print(f"\n{i}. Texto: {row['text'][:100]}...")
        print(f"   ‚úì Verdadeiro:  {row['true_label_name']}")
        print(f"   {'‚úì' if row['correct_embedding'] else '‚úó'} Embedding:   {row['pred_embedding_name']}")
        print(f"   {'‚úì' if row['correct_finetuned'] else '‚úó'} Fine-tuned:  {row['pred_finetuned_name']}")
        print(f"   {'‚úì' if row['correct_llm'] else '‚úó'} LLM:         {row['pred_llm_name']}")
        print("-" * 80)

## 6. Modelo Simples vs Complexo

Casos onde Embedding (simples) acertou mas Fine-tuned (complexo) errou

In [None]:
# Casos onde embedding acertou MAS finetuned errou
simple_beats_complex = df_analysis[
    df_analysis['correct_embedding'] & ~df_analysis['correct_finetuned']
]

# Casos onde finetuned acertou MAS embedding errou
complex_beats_simple = df_analysis[
    ~df_analysis['correct_embedding'] & df_analysis['correct_finetuned']
]

print("Compara√ß√£o: Embedding vs Fine-tuned")
print("=" * 60)
print(f"Embedding acertou, Fine-tuned errou:  {len(simple_beats_complex):>4} casos")
print(f"Fine-tuned acertou, Embedding errou:  {len(complex_beats_simple):>4} casos")
print(f"\nRaz√£o (Complex/Simple):               {len(complex_beats_simple) / max(len(simple_beats_complex), 1):.2f}x")

# Mostrar exemplos onde simples bateu complexo
if len(simple_beats_complex) > 0:
    print("\n" + "=" * 80)
    print("Exemplos: Embedding (simples) acertou mas Fine-tuned (complexo) errou")
    print("=" * 80)
    
    for i, (idx, row) in enumerate(simple_beats_complex.head(5).iterrows(), 1):
        print(f"\n{i}. Texto: {row['text'][:100]}...")
        print(f"   ‚úì Verdadeiro:  {row['true_label_name']}")
        print(f"   ‚úì Embedding:   {row['pred_embedding_name']} (ACERTOU)")
        print(f"   ‚úó Fine-tuned:  {row['pred_finetuned_name']} (ERROU)")
        print("-" * 80)

### üí° Insight: Quando o modelo simples ganha?

**Poss√≠veis raz√µes:**

1. **Overfitting**: Fine-tuned pode ter decorado padr√µes espec√≠ficos do treino
2. **Generaliza√ß√£o**: Embeddings pr√©-treinados t√™m conhecimento mais geral
3. **Dataset pequeno**: Fine-tuning com poucos dados pode n√£o funcionar bem
4. **Hiperpar√¢metros**: Learning rate, epochs podem estar mal configurados

## 7. An√°lise de Erros por Classe

Quais classes cada modelo tem mais dificuldade?

In [None]:
# Criar matriz de erros por classe
error_by_class = []

for label_id, label_name in id2label.items():
    df_class = df_analysis[df_analysis['true_label'] == label_id]
    
    if len(df_class) == 0:
        continue
    
    total = len(df_class)
    
    error_by_class.append({
        'Classe': label_name,
        'Total': total,
        'Embedding Erros': (~df_class['correct_embedding']).sum(),
        'Fine-tuned Erros': (~df_class['correct_finetuned']).sum(),
        'LLM Erros': (~df_class['correct_llm']).sum(),
        'Embedding Erro %': (~df_class['correct_embedding']).sum() / total * 100,
        'Fine-tuned Erro %': (~df_class['correct_finetuned']).sum() / total * 100,
        'LLM Erro %': (~df_class['correct_llm']).sum() / total * 100,
    })

df_errors = pd.DataFrame(error_by_class)

print("Taxa de Erro por Classe (%)")
print("=" * 80)
print(df_errors[['Classe', 'Total', 'Embedding Erro %', 'Fine-tuned Erro %', 'LLM Erro %']].to_string(index=False))

# Gr√°fico de barras
fig, ax = plt.subplots(figsize=(12, 6))

x = np.arange(len(df_errors))
width = 0.25

ax.bar(x - width, df_errors['Embedding Erro %'], width, label='Embedding', color='#FF9999')
ax.bar(x, df_errors['Fine-tuned Erro %'], width, label='Fine-tuned', color='#66B3FF')
ax.bar(x + width, df_errors['LLM Erro %'], width, label='LLM', color='#99FF99')

ax.set_xlabel('Classe')
ax.set_ylabel('Taxa de Erro (%)')
ax.set_title('Taxa de Erro por Classe')
ax.set_xticks(x)
ax.set_xticklabels(df_errors['Classe'], rotation=45, ha='right')
ax.legend()
ax.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

## 8. Confus√µes Mais Comuns

Quais pares de classes s√£o mais confundidos?

In [None]:
def get_top_confusions(y_true, y_pred, id2label, top_n=5):
    """Retorna as confus√µes mais comuns (exceto acertos)"""
    confusions = []
    
    for true_label, pred_label in zip(y_true, y_pred):
        if true_label != pred_label:  # Apenas erros
            confusions.append((id2label[true_label], id2label[pred_label]))
    
    counter = Counter(confusions)
    return counter.most_common(top_n)

# Confus√µes mais comuns de cada modelo
models = [
    ('Embedding', y_pred_embedding),
    ('Fine-tuned', y_pred_finetuned),
    ('LLM', y_pred_llm)
]

for model_name, y_pred in models:
    print("\n" + "=" * 80)
    print(f"Top 5 Confus√µes: {model_name}")
    print("=" * 80)
    
    top_confusions = get_top_confusions(y_true, y_pred, id2label)
    
    for i, ((true_class, pred_class), count) in enumerate(top_confusions, 1):
        print(f"{i}. '{true_class}' ‚Üí confundido com '{pred_class}': {count} vezes")

### üîç An√°lise de Confus√µes

**Confus√µes esperadas:**

- **sadness ‚Üî fear**: Ambas s√£o emo√ß√µes negativas
- **joy ‚Üî love**: Ambas s√£o emo√ß√µes positivas
- **anger ‚Üî fear**: Contextos de amea√ßa
- **surprise ‚Üî joy**: Surpresas geralmente positivas

**Se vir confus√µes inesperadas:**
- Pode indicar problema nos dados de treino
- Ou ambiguidade genu√≠na nas labels

## 9. Exemplos de Confus√µes Espec√≠ficas

Vamos ver textos reais das confus√µes mais comuns

In [None]:
def show_confusion_examples(df, true_class, pred_class, model_col, num_examples=3):
    """Mostra exemplos de uma confus√£o espec√≠fica"""
    mask = (df['true_label_name'] == true_class) & (df[model_col] == pred_class)
    examples = df[mask].head(num_examples)
    
    if len(examples) == 0:
        print("   (Nenhum exemplo encontrado)")
        return
    
    for i, (idx, row) in enumerate(examples.iterrows(), 1):
        print(f"\n   {i}. {row['text'][:100]}...")

# Pegar confus√£o mais comum do fine-tuned
top_confusion = get_top_confusions(y_true, y_pred_finetuned, id2label, top_n=1)[0]
true_class, pred_class = top_confusion[0]

print("=" * 80)
print(f"Exemplos: '{true_class}' confundido com '{pred_class}' (Fine-tuned)")
print("=" * 80)

show_confusion_examples(df_analysis, true_class, pred_class, 'pred_finetuned_name', num_examples=5)

## 10. Recomenda√ß√µes Baseadas nos Erros

### üéØ Como Melhorar os Modelos?

**Baseado na an√°lise de erros:**

1. **Se muitos erros nas mesmas classes:**
   - Coletar mais dados dessas classes
   - Aumentar peso dessas classes no treinamento
   - Usar data augmentation

2. **Se confus√µes entre classes espec√≠ficas:**
   - Revisar as labels do dataset (pode ter erro de anota√ß√£o)
   - Adicionar features que diferenciem essas classes
   - Considerar fus√£o de classes muito similares

3. **Se modelo simples bate complexo:**
   - Reduzir learning rate
   - Aumentar regulariza√ß√£o (weight decay)
   - Treinar por mais √©pocas
   - Coletar mais dados de treino

4. **Se todos os modelos erram nos mesmos casos:**
   - Problema pode ser no dataset (labels ruins)
   - Ou s√£o casos genuinamente amb√≠guos
   - Considerar rejeitar predi√ß√µes com baixa confian√ßa

### üìä Pr√≥ximos Passos

1. **Analise as confus√µes** mais comuns de cada modelo
2. **Leia os exemplos** onde todos erraram
3. **Compare com seus objetivos**: Qual tipo de erro √© mais cr√≠tico?
4. **Ajuste o modelo** baseado nos insights
5. **Re-treine e compare** novamente

## 11. Exportar An√°lise

Salvar an√°lise para refer√™ncia futura

In [None]:
# Salvar DataFrame completo
output_path = results_dir / 'error_analysis.csv'
df_analysis.to_csv(output_path, index=False)
print(f"‚úì An√°lise salva em: {output_path}")

# Salvar resumo de erros por classe
error_summary_path = results_dir / 'error_summary_by_class.csv'
df_errors.to_csv(error_summary_path, index=False)
print(f"‚úì Resumo de erros salvo em: {error_summary_path}")