# Anota√ß√£o Autom√°tica de Datasets usando M√∫ltiplas LLMs

## An√°lise de Consenso e Valida√ß√£o de Metodologia
---

### Objetivo

Este notebook implementa uma metodologia para reduzir o custo humano na anota√ß√£o de datasets atrav√©s do uso de m√∫ltiplas LLMs e an√°lise de consenso.

### Metodologia

1. **Anota√ß√£o M√∫ltipla**: 5 LLMs diferentes anotam cada inst√¢ncia
2. **Consenso Interno**: Cada LLM anota m√∫ltiplas vezes a mesma inst√¢ncia
3. **An√°lise de Consenso**: Calculamos m√©tricas de concord√¢ncia entre LLMs
4. **Valida√ß√£o de Par√¢metros**: Testamos se varia√ß√µes nos par√¢metros afetam os resultados
5. **Estrat√©gias de Resolu√ß√£o**: Definimos como tratar casos sem consenso claro

## 1. Setup e Imports

In [None]:
# Imports necess√°rios
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Imports dos m√≥dulos customizados
from llm_annotator import LLMAnnotator
from consensus_analyzer import ConsensusAnalyzer
from visualizer import ConsensusVisualizer
from config import LLM_CONFIGS, EXPERIMENT_CONFIG

# Configura√ß√£o de visualiza√ß√£o
%matplotlib inline
plt.style.use('seaborn-v0_8-darkgrid')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úì Imports realizados com sucesso!")

## 2. Configura√ß√£o de API Keys

**IMPORTANTE:** Configure suas API keys aqui ou use um arquivo .env

In [None]:
# Op√ß√£o 1: Configura√ß√£o direta (N√ÉO COMMITAR PARA GIT!)
api_keys = {
    "openai": "sua-api-key-aqui",
    "anthropic": "sua-api-key-aqui",
    "google": "sua-api-key-aqui",
}

# Op√ß√£o 2: Carregar de arquivo .env (RECOMENDADO)
# from dotenv import load_dotenv
# import os
# load_dotenv()
# api_keys = {
#     "openai": os.getenv("OPENAI_API_KEY"),
#     "anthropic": os.getenv("ANTHROPIC_API_KEY"),
#     "google": os.getenv("GOOGLE_API_KEY"),
# }

print("‚úì API Keys configuradas")

## 3. Carregar Dataset

Carregue seu dataset aqui. O dataset deve ter pelo menos:
- Uma coluna com textos a serem anotados
- (Opcional) Uma coluna com labels verdadeiros para valida√ß√£o

In [None]:
# Exemplo: Carregar dataset
# df_dataset = pd.read_csv('seu_dataset.csv')

# Para demonstra√ß√£o, vamos criar um dataset de exemplo
example_texts = [
    "Este produto √© excelente! Recomendo muito.",
    "P√©ssima qualidade, n√£o funciona como esperado.",
    "O produto √© ok, nada de especial.",
    "Maravilhoso! Superou minhas expectativas.",
    "Horr√≠vel, totalmente decepcionado.",
]

# Categorias dispon√≠veis
categories = ["Positivo", "Negativo", "Neutro"]

print(f"Dataset carregado: {len(example_texts)} textos")
print(f"Categorias: {categories}")

## 4. Configurar Modelos LLM

Selecione quais modelos voc√™ deseja usar para anota√ß√£o

In [None]:
# Modelos dispon√≠veis (ajuste conforme suas API keys)
selected_models = [
    "gpt-4-turbo",
    "gpt-3.5-turbo",
    "claude-3-opus",
    "claude-3-sonnet",
    "gemini-pro",
]

print(f"Modelos selecionados: {len(selected_models)}")
for model in selected_models:
    print(f"  - {model}")

## 5. Inicializar Anotador

In [None]:
# Inicializar o anotador
annotator = LLMAnnotator(
    models=selected_models,
    categories=categories,
    api_keys=api_keys,
    cache_dir="./cache",
    results_dir="./results"
)

print("\n‚úì Anotador inicializado e pronto para uso!")

## 6. Executar Anota√ß√£o

### 6.1 Anota√ß√£o com Par√¢metros Padr√£o

In [None]:
# Anotar dataset
df_annotations = annotator.annotate_dataset(
    texts=example_texts,
    num_repetitions=3,  # Cada LLM anota 3 vezes (OBS-2)
    test_param_variations=False,  # Mudar para True para testar varia√ß√µes
)

# Visualizar primeiras linhas
print("\nüìä Primeiras anota√ß√µes:")
display(df_annotations.head())

### 6.2 (Opcional) Testar Varia√ß√µes de Par√¢metros

Investiga se mudan√ßas nos par√¢metros das LLMs afetam significativamente os resultados ("LLM hacking")

In [None]:
# Descomentar para testar varia√ß√µes de par√¢metros
# df_annotations_params = annotator.annotate_dataset(
#     texts=example_texts,
#     num_repetitions=3,
#     test_param_variations=True,  # Testa diferentes temperaturas, top_p, etc.
# )
#
# print("\nüìä Anota√ß√µes com varia√ß√µes de par√¢metros:")
# display(df_annotations_params.head())

## 7. Calcular Consenso

An√°lise de consenso entre as LLMs e dentro de cada LLM

In [None]:
# Calcular m√©tricas de consenso
df_with_consensus = annotator.calculate_consensus(df_annotations)

# Visualizar resultados com consenso
print("\nüìä Anota√ß√µes com m√©tricas de consenso:")
display(df_with_consensus[[
    'text',
    'most_common_annotation',
    'consensus_score',
    'consensus_level',
    'unique_annotations',
    'is_problematic'
]].head())

## 8. An√°lise Detalhada de Consenso

### 8.1 M√©tricas de Dist√¢ncia e Concord√¢ncia

In [None]:
# Inicializar analisador
analyzer = ConsensusAnalyzer(categories=categories)

# Coletar colunas de consenso
consensus_cols = [col for col in df_with_consensus.columns if '_consensus' in col and '_score' not in col]

# Gerar relat√≥rio completo
report = analyzer.generate_consensus_report(
    df=df_with_consensus,
    annotator_cols=consensus_cols,
    output_dir="./results"
)

print("\n‚úì Relat√≥rio de consenso gerado!")

### 8.2 Visualizar M√©tricas

In [None]:
# Exibir m√©tricas calculadas
print("\nüìä M√âTRICAS DE DIST√ÇNCIA E CONCORD√ÇNCIA")
print("="*60)

for metric, value in report['distance_metrics'].items():
    if value is not None:
        print(f"{metric:30s}: {value:8.4f}")

# Interpreta√ß√£o das m√©tricas
print("\nüí° INTERPRETA√á√ÉO:")
print("-" * 60)

if 'mean_cohen_kappa' in report['distance_metrics']:
    kappa = report['distance_metrics']['mean_cohen_kappa']
    if kappa > 0.8:
        print("‚úì Cohen's Kappa > 0.8: Concord√¢ncia EXCELENTE")
    elif kappa > 0.6:
        print("‚úì Cohen's Kappa > 0.6: Concord√¢ncia BOA")
    elif kappa > 0.4:
        print("‚ö† Cohen's Kappa > 0.4: Concord√¢ncia MODERADA")
    else:
        print("‚ö† Cohen's Kappa < 0.4: Concord√¢ncia FRACA")

### 8.3 Matriz de Concord√¢ncia Par a Par

In [None]:
# Visualizar matriz de concord√¢ncia
print("\nüìä Matriz de Concord√¢ncia Par a Par:")
display(report['pairwise_agreement'])

print("\nüìä Matriz de Cohen's Kappa Par a Par:")
display(report['pairwise_kappa'])

## 9. An√°lise de Inst√¢ncias Problem√°ticas

Identificar casos onde h√° discord√¢ncia significativa entre as LLMs

In [None]:
# Filtrar inst√¢ncias problem√°ticas
problematic = df_with_consensus[df_with_consensus['is_problematic'] == True]

print(f"\n‚ö†Ô∏è INST√ÇNCIAS PROBLEM√ÅTICAS: {len(problematic)}")
print("="*80)

if len(problematic) > 0:
    for idx, row in problematic.iterrows():
        print(f"\nTexto {idx}:")
        print(f"  {row['text'][:100]}...")
        print(f"  Anota√ß√µes: {row['all_annotations']}")
        print(f"  Consenso: {row['consensus_score']:.2%}")
        print(f"  Categoria mais comum: {row['most_common_annotation']}")
        print("-" * 80)
else:
    print("‚úì Nenhuma inst√¢ncia problem√°tica encontrada!")

### 9.1 Estrat√©gias para Resolver Casos Problem√°ticos

Aqui implementamos diferentes estrat√©gias para lidar com casos sem consenso claro

In [None]:
def resolve_conflicts(df, strategy='majority_vote', threshold=0.6):
    """
    Resolve conflitos usando diferentes estrat√©gias
    
    Estrat√©gias:
    - 'majority_vote': Usa voto majorit√°rio simples
    - 'unanimous_only': Aceita apenas casos com 100% consenso
    - 'threshold': Aceita apenas se consenso >= threshold
    - 'flag_for_review': Marca para revis√£o humana
    - 'remove': Remove inst√¢ncias problem√°ticas
    """
    df = df.copy()
    
    if strategy == 'majority_vote':
        df['final_annotation'] = df['most_common_annotation']
        df['needs_review'] = False
        
    elif strategy == 'unanimous_only':
        df['final_annotation'] = df.apply(
            lambda row: row['most_common_annotation'] if row['consensus_score'] == 1.0 else None,
            axis=1
        )
        df['needs_review'] = df['final_annotation'].isna()
        
    elif strategy == 'threshold':
        df['final_annotation'] = df.apply(
            lambda row: row['most_common_annotation'] if row['consensus_score'] >= threshold else None,
            axis=1
        )
        df['needs_review'] = df['final_annotation'].isna()
        
    elif strategy == 'flag_for_review':
        df['final_annotation'] = df['most_common_annotation']
        df['needs_review'] = df['is_problematic'] | (df['consensus_score'] < threshold)
        
    elif strategy == 'remove':
        df = df[~df['is_problematic'] & (df['consensus_score'] >= threshold)].copy()
        df['final_annotation'] = df['most_common_annotation']
        df['needs_review'] = False
    
    return df

# Testar diferentes estrat√©gias
strategies = ['majority_vote', 'threshold', 'flag_for_review']

print("\nüìä COMPARA√á√ÉO DE ESTRAT√âGIAS DE RESOLU√á√ÉO")
print("="*80)

for strategy in strategies:
    df_resolved = resolve_conflicts(df_with_consensus, strategy=strategy, threshold=0.6)
    
    print(f"\nEstrat√©gia: {strategy}")
    print(f"  Total de inst√¢ncias: {len(df_resolved)}")
    print(f"  Anota√ß√µes finais: {df_resolved['final_annotation'].notna().sum()}")
    print(f"  Necessitam revis√£o: {df_resolved['needs_review'].sum()}")
    print("-" * 80)

## 10. Visualiza√ß√µes

### 10.1 Gerar Todas as Visualiza√ß√µes

In [None]:
# Inicializar visualizador
visualizer = ConsensusVisualizer(output_dir="./results/figures")

# Gerar visualiza√ß√µes
print("Gerando visualiza√ß√µes...\n")

# 1. Heatmap de concord√¢ncia
visualizer.plot_agreement_heatmap(
    report['pairwise_agreement'],
    title="Concord√¢ncia entre Modelos LLM"
)

# 2. Distribui√ß√£o de consenso
visualizer.plot_consensus_distribution(df_with_consensus)

# 3. Matriz de confus√£o
if 'disagreement_patterns' in report:
    visualizer.plot_confusion_matrix(
        report['disagreement_patterns']['confusion_matrix']
    )

# 4. Compara√ß√£o entre modelos
visualizer.plot_model_comparison(
    df_with_consensus,
    models=selected_models
)

# 5. Dashboard interativo
visualizer.create_interactive_dashboard(
    df_with_consensus,
    report
)

print("\n‚úì Todas as visualiza√ß√µes foram geradas!")
print("üìÅ Arquivos salvos em: ./results/figures/")

### 10.2 Visualizar no Notebook

In [None]:
from IPython.display import Image

# Exibir algumas visualiza√ß√µes inline
print("üìä Heatmap de Concord√¢ncia:")
display(Image(filename='./results/figures/agreement_heatmap.png'))

print("\nüìä Distribui√ß√£o de Consenso:")
display(Image(filename='./results/figures/consensus_distribution.png'))

## 11. An√°lise de Impacto de Par√¢metros

Se voc√™ testou varia√ß√µes de par√¢metros, analise o impacto aqui

In [None]:
# Descomentar se voc√™ testou varia√ß√µes de par√¢metros
# for model in selected_models:
#     param_cols = [col for col in df_annotations_params.columns if col.startswith(f"{model}_param_var")]
#     if param_cols:
#         visualizer.plot_parameter_impact(
#             df_annotations_params,
#             model=model
#         )

## 12. Sum√°rio e Recomenda√ß√µes

### 12.1 Estat√≠sticas Finais

In [None]:
print("\n" + "="*80)
print(" " * 25 + "SUM√ÅRIO FINAL")
print("="*80)

# Estat√≠sticas gerais
print("\nüìä ESTAT√çSTICAS GERAIS:")
print("-" * 80)
print(f"Total de inst√¢ncias anotadas: {len(df_with_consensus)}")
print(f"Modelos utilizados: {len(selected_models)}")
print(f"Repeti√ß√µes por modelo: {EXPERIMENT_CONFIG['num_repetitions_per_llm']}")

# Consenso
print("\nüìä DISTRIBUI√á√ÉO DE CONSENSO:")
print("-" * 80)
print(f"Alto consenso (‚â•80%): {(df_with_consensus['consensus_score'] >= 0.8).sum()} ({(df_with_consensus['consensus_score'] >= 0.8).sum() / len(df_with_consensus) * 100:.1f}%)")
print(f"M√©dio consenso (60-80%): {((df_with_consensus['consensus_score'] >= 0.6) & (df_with_consensus['consensus_score'] < 0.8)).sum()} ({((df_with_consensus['consensus_score'] >= 0.6) & (df_with_consensus['consensus_score'] < 0.8)).sum() / len(df_with_consensus) * 100:.1f}%)")
print(f"Baixo consenso (<60%): {(df_with_consensus['consensus_score'] < 0.6).sum()} ({(df_with_consensus['consensus_score'] < 0.6).sum() / len(df_with_consensus) * 100:.1f}%)")

# Casos problem√°ticos
print("\n‚ö†Ô∏è  CASOS PROBLEM√ÅTICOS:")
print("-" * 80)
print(f"Total: {df_with_consensus['is_problematic'].sum()} ({df_with_consensus['is_problematic'].sum() / len(df_with_consensus) * 100:.1f}%)")

# M√©tricas de concord√¢ncia
print("\nüìä M√âTRICAS DE CONCORD√ÇNCIA:")
print("-" * 80)
if 'mean_cohen_kappa' in report['distance_metrics']:
    print(f"Cohen's Kappa m√©dio: {report['distance_metrics']['mean_cohen_kappa']:.4f}")
if 'fleiss_kappa' in report['distance_metrics'] and report['distance_metrics']['fleiss_kappa']:
    print(f"Fleiss' Kappa: {report['distance_metrics']['fleiss_kappa']:.4f}")
if 'mean_jaccard_similarity' in report['distance_metrics']:
    print(f"Jaccard Similarity m√©dio: {report['distance_metrics']['mean_jaccard_similarity']:.4f}")

print("\n" + "="*80)

### 12.2 Recomenda√ß√µes

In [None]:
print("\nüí° RECOMENDA√á√ïES:")
print("="*80)

# Baseado no consenso m√©dio
consensus_mean = df_with_consensus['consensus_score'].mean()

if consensus_mean >= 0.8:
    print("\n‚úì EXCELENTE! O consenso entre as LLMs √© muito alto.")
    print("  Recomenda√ß√£o: As anota√ß√µes autom√°ticas s√£o confi√°veis para a maioria dos casos.")
    print("  Sugest√£o: Revisar apenas os casos marcados como problem√°ticos.")
elif consensus_mean >= 0.6:
    print("\n‚ö† BOM. O consenso √© satisfat√≥rio, mas h√° espa√ßo para melhoria.")
    print("  Recomenda√ß√£o: Considere revisar casos com consenso < 70%.")
    print("  Sugest√£o: Testar prompts alternativos ou adicionar exemplos (few-shot).")
else:
    print("\n‚ö†Ô∏è ATEN√á√ÉO. O consenso entre as LLMs √© baixo.")
    print("  Recomenda√ß√£o: Revis√£o humana extensiva √© necess√°ria.")
    print("  Sugest√£o: Revisar as categorias e melhorar os prompts.")

# Baseado em casos problem√°ticos
problematic_ratio = df_with_consensus['is_problematic'].sum() / len(df_with_consensus)

if problematic_ratio > 0.2:
    print("\n‚ö†Ô∏è ATEN√á√ÉO: Mais de 20% dos casos s√£o problem√°ticos.")
    print("  Sugest√£o: Considere refinar as categorias ou usar prompts mais espec√≠ficos.")

# Baseado em Cohen's Kappa
if 'mean_cohen_kappa' in report['distance_metrics']:
    kappa = report['distance_metrics']['mean_cohen_kappa']
    if kappa < 0.6:
        print("\n‚ö†Ô∏è Cohen's Kappa indica concord√¢ncia moderada ou fraca.")
        print("  Sugest√£o: Considere:")
        print("    1. Adicionar exemplos (few-shot learning)")
        print("    2. Melhorar defini√ß√µes de categorias")
        print("    3. Usar modelos mais avan√ßados")

print("\n" + "="*80)

## 13. Exportar Resultados

Exportar todos os resultados para an√°lise posterior

In [None]:
# Criar diret√≥rio de resultados finais
final_results_dir = Path("./results/final")
final_results_dir.mkdir(parents=True, exist_ok=True)

# Exportar dataset anotado completo
df_with_consensus.to_csv(
    final_results_dir / "annotated_dataset_complete.csv",
    index=False,
    encoding='utf-8'
)

# Exportar apenas anota√ß√µes de alta confian√ßa
high_confidence = df_with_consensus[df_with_consensus['consensus_score'] >= 0.8].copy()
high_confidence[['text', 'final_annotation', 'consensus_score']].to_csv(
    final_results_dir / "high_confidence_annotations.csv",
    index=False,
    encoding='utf-8'
)

# Exportar casos para revis√£o
needs_review = df_with_consensus[
    (df_with_consensus['consensus_score'] < 0.6) | (df_with_consensus['is_problematic'] == True)
].copy()
needs_review.to_csv(
    final_results_dir / "needs_human_review.csv",
    index=False,
    encoding='utf-8'
)

# Exportar sum√°rio em JSON
import json

summary = {
    "experiment_config": EXPERIMENT_CONFIG,
    "models_used": selected_models,
    "categories": categories,
    "total_instances": len(df_with_consensus),
    "consensus_statistics": {
        "mean": float(df_with_consensus['consensus_score'].mean()),
        "median": float(df_with_consensus['consensus_score'].median()),
        "std": float(df_with_consensus['consensus_score'].std()),
    },
    "distribution": {
        "high_consensus": int((df_with_consensus['consensus_score'] >= 0.8).sum()),
        "medium_consensus": int(((df_with_consensus['consensus_score'] >= 0.6) & (df_with_consensus['consensus_score'] < 0.8)).sum()),
        "low_consensus": int((df_with_consensus['consensus_score'] < 0.6).sum()),
    },
    "problematic_instances": int(df_with_consensus['is_problematic'].sum()),
    "distance_metrics": {k: float(v) if v is not None else None for k, v in report['distance_metrics'].items()},
}

with open(final_results_dir / "experiment_summary.json", 'w', encoding='utf-8') as f:
    json.dump(summary, f, indent=2, ensure_ascii=False)

print("\n‚úì Resultados exportados com sucesso!")
print(f"üìÅ Diret√≥rio: {final_results_dir}")
print("\nArquivos gerados:")
print("  - annotated_dataset_complete.csv: Dataset completo com todas as anota√ß√µes")
print("  - high_confidence_annotations.csv: Apenas anota√ß√µes de alta confian√ßa")
print("  - needs_human_review.csv: Casos que precisam de revis√£o humana")
print("  - experiment_summary.json: Sum√°rio do experimento")

## 14. Conclus√µes e Pr√≥ximos Passos

### Principais Achados:

1. **Consenso entre LLMs**: [A ser preenchido ap√≥s an√°lise]
2. **Impacto de par√¢metros**: [A ser preenchido ap√≥s an√°lise]
3. **Casos problem√°ticos**: [A ser preenchido ap√≥s an√°lise]
4. **Economia de custo**: [Calcular percentual de inst√¢ncias que n√£o precisam revis√£o humana]

### Pr√≥ximos Passos:

1. [ ] Validar anota√ß√µes autom√°ticas com ground truth (se dispon√≠vel)
2. [ ] Testar com diferentes prompts (few-shot, Chain-of-Thought)
3. [ ] Escalar para datasets maiores
4. [ ] Implementar sistema de revis√£o humana para casos problem√°ticos
5. [ ] Documentar custos de API e tempo de execu√ß√£o
6. [ ] Apresentar resultados para orientador

### Material para Discuss√£o com Orientador:

- Este notebook completo com an√°lises
- Visualiza√ß√µes geradas em `./results/figures/`
- Dashboard interativo em `./results/figures/interactive_dashboard.html`
- Sum√°rio do experimento em `./results/final/experiment_summary.json`
- Matriz de concord√¢ncia e m√©tricas de dist√¢ncia