# An√°lise Completa dos Resultados

**Execute este notebook AP√ìS rodar `main.py`**

Aqui voc√™ vai:
- Ver resultados das 3 abordagens lado a lado
- Comparar m√©tricas
- Analisar matrizes de confus√£o
- Decidir qual modelo √© melhor para seu caso

In [None]:
import sys
sys.path.append('..')

import pickle
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

from PIL import Image

%matplotlib inline
plt.rcParams['figure.figsize'] = (14, 8)
sns.set_style('whitegrid')

## 1. Carregar Resultados Salvos

Se voc√™ rodou `main.py`, os resultados est√£o salvos em `results/`

In [None]:
results_dir = Path('../results')

# Verificar se resultados existem
if not results_dir.exists():
    print("‚ö†Ô∏è Pasta 'results/' n√£o encontrada!")
    print("Execute 'python main.py' primeiro.")
else:
    print("‚úì Resultados encontrados!")
    print(f"\nArquivos dispon√≠veis:")
    for file in sorted(results_dir.glob('*.png')):
        print(f"  - {file.name}")

## 2. Visualizar Todas as Matrizes de Confus√£o

Compara√ß√£o lado a lado das 3 abordagens

In [None]:
# Carregar imagens das matrizes de confus√£o
cm_files = [
    'confusion_matrix_embedding.png',
    'confusion_matrix_finetuned.png',
    'confusion_matrix_llm.png'
]

fig, axes = plt.subplots(1, 3, figsize=(18, 6))

for ax, cm_file in zip(axes, cm_files):
    cm_path = results_dir / cm_file
    if cm_path.exists():
        img = Image.open(cm_path)
        ax.imshow(img)
        ax.axis('off')
    else:
        ax.text(0.5, 0.5, f'‚ùå {cm_file}\nn√£o encontrado', 
                ha='center', va='center', fontsize=12)
        ax.axis('off')

plt.tight_layout()
plt.show()

### üîç An√°lise das Matrizes

**O que observar:**

1. **Diagonal principal** (verde/azul escuro):
   - Quanto mais escuro, melhor (mais acertos)
   - Compare: qual modelo tem diagonal mais forte?

2. **Confus√µes comuns** (fora da diagonal):
   - C√©lulas claras = poucas confus√µes ‚úì
   - C√©lulas escuras = muitas confus√µes ‚úó
   - Os 3 modelos erram nos mesmos lugares?

3. **Classes problem√°ticas**:
   - Linha com muitos erros = modelo n√£o aprendeu essa classe
   - Geralmente classes minorit√°rias (ex: surprise)

## 3. Compara√ß√£o de M√©tricas

Gr√°fico gerado pelo `main.py`

In [None]:
metrics_img = results_dir / 'metrics_comparison.png'

if metrics_img.exists():
    img = Image.open(metrics_img)
    plt.figure(figsize=(14, 8))
    plt.imshow(img)
    plt.axis('off')
    plt.tight_layout()
    plt.show()
else:
    print("‚ùå metrics_comparison.png n√£o encontrado")

### üéØ Interpreta√ß√£o

**Perguntas para responder:**

1. **Qual modelo tem MAIOR Accuracy?**
   - Esperado: Fine-tuned DistilBERT

2. **Diferen√ßa √© significativa?**
   - < 5% de diferen√ßa: Modelos equivalentes
   - 5-10%: Diferen√ßa moderada
   - > 10%: Diferen√ßa significativa

3. **Vale o trade-off?**
   - Fine-tuning √© melhor, mas precisa treinar
   - Embedding √© mais r√°pido, mas menos preciso
   - LLM √© flex√≠vel, mas tem custo de API

## 4. Compara√ß√£o de Tempo de Infer√™ncia

In [None]:
time_img = results_dir / 'inference_time_comparison.png'

if time_img.exists():
    img = Image.open(time_img)
    plt.figure(figsize=(12, 6))
    plt.imshow(img)
    plt.axis('off')
    plt.tight_layout()
    plt.show()
else:
    print("‚ùå inference_time_comparison.png n√£o encontrado")

### ‚ö° Trade-off: Velocidade vs Precis√£o

**Cen√°rios de uso:**

| Cen√°rio | Volume | Lat√™ncia | Modelo Recomendado |
|---------|--------|----------|--------------------|
| Filtro de spam | 100k emails/dia | < 100ms | **Embedding** |
| An√°lise de sentimento | 1k posts/dia | < 1s | **Fine-tuned** |
| Chatbot | 10 msgs/min | < 5s | **LLM** |
| An√°lise batch | Offline | N√£o importa | **Fine-tuned** |

**Calcular custo:**
```
1 milh√£o de predi√ß√µes/dia:

Embedding:  1M √ó 0.5s  = 500,000s  = 139 horas (paralelo: ~6h com 24 cores)
Fine-tuned: 1M √ó 2.3s  = 2,300,000s = 639 horas (paralelo: ~27h com 24 cores)
LLM:        1M √ó 5.7s  = 5,700,000s = 1583 horas + custo API
```

## 5. Distribui√ß√£o de Classes

In [None]:
dist_files = [
    'class_distribution_train.png',
    'class_distribution_test.png'
]

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

for ax, dist_file in zip(axes, dist_files):
    dist_path = results_dir / dist_file
    if dist_path.exists():
        img = Image.open(dist_path)
        ax.imshow(img)
        ax.axis('off')
    else:
        ax.text(0.5, 0.5, f'‚ùå {dist_file}\nn√£o encontrado', 
                ha='center', va='center', fontsize=12)
        ax.axis('off')

plt.tight_layout()
plt.show()

### üìä Impacto do Desbalanceamento

**Observa√ß√µes:**

1. **Classes majorit√°rias** (joy, sadness):
   - Modelo aprende melhor (mais exemplos)
   - Precision e Recall altos

2. **Classes minorit√°rias** (surprise, love):
   - Modelo tem dificuldade (poucos exemplos)
   - Precision e Recall baixos

**Solu√ß√µes para desbalanceamento:**
- Coletar mais dados das classes minorit√°rias
- Usar class weights no treinamento
- Oversampling (duplicar exemplos raros)
- Undersampling (reduzir exemplos comuns)
- Usar m√©tricas weighted (j√° implementado)

## 6. Tabela Resumo Customizada

Vamos criar nossa pr√≥pria tabela de compara√ß√£o

In [None]:
# Dados fict√≠cios - SUBSTITUA pelos seus resultados reais
results = {
    'Modelo': ['Embedding + KNN', 'Fine-tuned DistilBERT', 'LLM (Gemini)'],
    'Accuracy': [0.75, 0.88, 0.82],
    'Precision': [0.73, 0.86, 0.80],
    'Recall': [0.72, 0.85, 0.79],
    'F1-Score': [0.72, 0.85, 0.80],
    'Tempo (s)': [0.5, 2.3, 5.7],
    'Treino Necess√°rio': ['N√£o', 'Sim', 'N√£o'],
    'Custo': ['Gr√°tis', 'GPU (treino)', 'API calls']
}

df_results = pd.DataFrame(results)

# Estilizar tabela
def highlight_max(s):
    if s.name in ['Accuracy', 'Precision', 'Recall', 'F1-Score']:
        is_max = s == s.max()
        return ['background-color: lightgreen' if v else '' for v in is_max]
    elif s.name == 'Tempo (s)':
        is_min = s == s.min()
        return ['background-color: lightgreen' if v else '' for v in is_min]
    return ['' for _ in s]

styled_df = df_results.style.apply(highlight_max)
styled_df

## 7. Decis√£o: Qual Modelo Escolher?

### √Årvore de Decis√£o

```
1. Voc√™ tem GPU para treinar?
   ‚îú‚îÄ SIM ‚Üí Fine-tuned DistilBERT ‚≠ê
   ‚îî‚îÄ N√ÉO ‚Üí Pr√≥xima pergunta

2. Precisa de M√ÅXIMA precis√£o?
   ‚îú‚îÄ SIM ‚Üí LLM (Gemini)
   ‚îî‚îÄ N√ÉO ‚Üí Pr√≥xima pergunta

3. Volume muito alto (>100k/dia)?
   ‚îú‚îÄ SIM ‚Üí Embedding + KNN
   ‚îî‚îÄ N√ÉO ‚Üí Fine-tuned (treinar na CPU)
```

### Recomenda√ß√µes Pr√°ticas

**Para Produ√ß√£o:**
- ü•á Fine-tuned DistilBERT (melhor custo-benef√≠cio)
- ü•à Embedding + KNN (se volume muito alto)
- ü•â LLM (se n√£o pode treinar modelos)

**Para Prot√≥tipo R√°pido:**
- ü•á Embedding + KNN (mais r√°pido de implementar)
- ü•à LLM (se tiver API key)
- ü•â Fine-tuned (demora para treinar)

**Para Aprendizado:**
- ü•á Fine-tuned (aprende mais conceitos)
- ü•à Todos os 3 (comparar abordagens)
- ü•â Embedding (mais simples)

## 8. Pr√≥ximos Passos

### Para Melhorar os Resultados:

1. **Mais dados**
   - Aumentar MAX_SAMPLES
   - Coletar mais dados das classes minorit√°rias

2. **Mais treinamento (Fine-tuning)**
   - Aumentar EPOCHS (3 ‚Üí 5)
   - Ajustar LEARNING_RATE

3. **Otimizar hiperpar√¢metros**
   - KNN: testar k=3, 5, 7, 10
   - Fine-tuning: batch_size, learning_rate
   - LLM: few-shot examples

4. **An√°lise de erros**
   - Ver notebook `error_analysis.ipynb`
   - Entender padr√µes nos erros
   - Melhorar dados baseado nos erros

### Para Entender Melhor:

1. **An√°lise de erros**: `error_analysis.ipynb`
2. **Teste interativo**: `interactive_playground.ipynb`
3. **An√°lise por classe**: Criar notebook customizado

### Para Produ√ß√£o:

1. **Salvar modelo escolhido**
2. **Criar API** (FastAPI, Flask)
3. **Monitorar performance** em produ√ß√£o
4. **Re-treinar periodicamente** com novos dados