# üèõÔ∏è AI Judges Panel - Demostraci√≥n B√°sica
## Evaluaci√≥n Multi-Agente de LLMs

Bienvenido al **AI Judges Panel**, donde m√∫ltiples LLMs especializados eval√∫an respuestas de otros LLMs desde diferentes perspectivas.

### üéØ Lo que aprender√°s:
- C√≥mo funciona la arquitectura de panel de jueces
- Evaluaci√≥n multi-dimensional autom√°tica
- Interpretaci√≥n de consensos y discrepancias
- Comparaci√≥n con m√©tricas autom√°ticas tradicionales

### üß† Panel de Jueces:
- **üéØ Dr. Precisi√≥n**: Eval√∫a factualidad y exactitud
- **üé® Dra. Creatividad**: Eval√∫a originalidad e innovaci√≥n  
- **üß† Prof. Coherencia**: Eval√∫a l√≥gica y estructura
- **üé™ Lic. Relevancia**: Eval√∫a pertinencia a la pregunta
- **‚ö° Ed. Eficiencia**: Eval√∫a claridad y concisi√≥n

## 1. üîß Setup e Importaciones

In [None]:
# Importaciones necesarias
import sys
import os

# Agregar el path del proyecto
project_path = os.path.abspath('../src')
if project_path not in sys.path:
    sys.path.append(project_path)

# Importar nuestras clases
from evaluators.meta_evaluator import MetaEvaluator, ComprehensiveEvaluation
from judges.precision_judge import PrecisionJudge
from judges.base_judge import EvaluationContext

import json
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from IPython.display import display, HTML, Markdown

print("‚úÖ Importaciones completadas")
print("üèõÔ∏è AI Judges Panel listo para usar")

## 2. üèóÔ∏è Inicializaci√≥n del Panel de Jueces

In [None]:
# Inicializar el Meta-Evaluador con panel completo
evaluator = MetaEvaluator()

print("üèõÔ∏è Panel de Jueces Inicializado:")
print(f"üìä Total de jueces: {len(evaluator.judges)}")
print("\nüë®‚Äç‚öñÔ∏è Jueces especializados:")
for judge in evaluator.judges:
    print(f"  - {judge}")
    
print("\n‚öñÔ∏è Pesos de evaluaci√≥n:")
for aspect, weight in evaluator.weights.items():
    print(f"  - {aspect.title()}: {weight:.1%}")

## 3. üìù Casos de Prueba

Vamos a evaluar diferentes respuestas a la misma pregunta para ver c√≥mo reacciona nuestro panel de jueces.

In [None]:
# Definir casos de prueba
test_cases = {
    "prompt": "Explica qu√© es la inteligencia artificial y c√≥mo impacta la sociedad moderna.",
    
    "responses": {
        "Respuesta A - T√©cnica": """
La inteligencia artificial (IA) es un campo de la ciencia de la computaci√≥n que se enfoca en crear sistemas 
capaces de realizar tareas que normalmente requieren inteligencia humana. Estas tareas incluyen el aprendizaje, 
el reconocimiento de patrones, la toma de decisiones y el procesamiento del lenguaje natural.

La IA utiliza algoritmos de machine learning, redes neuronales y deep learning para procesar grandes cantidades 
de datos y extraer patrones significativos. Los sistemas de IA pueden clasificarse en IA d√©bil (espec√≠fica para 
tareas particulares) e IA fuerte (inteligencia general).

En la sociedad moderna, la IA impacta m√∫ltiples sectores: automatiza procesos en la industria, mejora diagn√≥sticos 
m√©dicos, optimiza sistemas de transporte, personaliza experiencias digitales y facilita la investigaci√≥n cient√≠fica. 
Sin embargo, tambi√©n plantea desaf√≠os √©ticos sobre privacidad, sesgo algor√≠tmico y desplazamiento laboral.
""",
        
        "Respuesta B - Creativa": """
Imagina que la humanidad ha creado un nuevo tipo de "cerebro digital" - eso es la inteligencia artificial. 
Como un aprendiz incansable, la IA nunca se cansa de absorber informaci√≥n y encontrar patrones ocultos 
que nosotros podr√≠amos pasar por alto.

La IA es como tener millones de asistentes especializados trabajando 24/7: uno que nunca se equivoca 
en matem√°ticas, otro que puede 'ver' tumores en radiograf√≠as mejor que m√©dicos experimentados, y otro 
que predice qu√© pel√≠cula te gustar√° antes de que t√∫ lo sepas.

Pero aqu√≠ est√° el giro fascinante: estamos creando una sociedad simbi√≥tica. La IA no est√° reemplazando 
la inteligencia humana; est√° amplific√°ndola. Somos como los directores de una orquesta tecnol√≥gica, 
dirigiendo sinfon√≠as de datos hacia soluciones que beneficien a la humanidad.

El verdadero impacto no es solo automatizaci√≥n - es liberaci√≥n. Liberaci√≥n del trabajo repetitivo 
para enfocarnos en creatividad, innovaci√≥n y conexi√≥n humana genuina.
""",
        
        "Respuesta C - Superficial": """
La IA es cuando las computadoras son inteligentes como los humanos. Se usa en muchas cosas 
como Google y Netflix. Es buena porque ayuda a las personas pero tambi√©n puede ser mala 
porque puede quitar trabajos. La IA est√° en todas partes y va a cambiar el mundo.
"""
    }
}

print("üìù Casos de prueba definidos:")
print(f"‚ùì Pregunta: {test_cases['prompt']}")
print(f"üìä Respuestas a evaluar: {len(test_cases['responses'])}")
for name in test_cases['responses'].keys():
    print(f"  - {name}")

## 4. üèõÔ∏è Evaluaci√≥n del Panel de Jueces

Ahora vamos a someter cada respuesta al panel completo de jueces especializados.

In [None]:
# Ejecutar evaluaciones
results = {}

print("üèõÔ∏è Iniciando evaluaciones del panel...\n")

for response_name, response_text in test_cases["responses"].items():
    print(f"üìù Evaluando: {response_name}")
    print("=" * 50)
    
    # Realizar evaluaci√≥n comprehensiva
    evaluation = evaluator.evaluate(
        prompt=test_cases["prompt"],
        response=response_text,
        domain="AI Education",
        include_automatic_metrics=True
    )
    
    results[response_name] = evaluation
    
    # Mostrar resultados inmediatos
    print(f"üèÜ Score Final: {evaluation.final_score:.1f}/10")
    print(f"ü§ù Consenso: {evaluation.consensus_level:.1%}")
    print(f"‚è±Ô∏è Tiempo: {evaluation.evaluation_time:.2f}s")
    
    print("\nüìä Scores por aspecto:")
    for aspect, score in evaluation.individual_scores.items():
        print(f"  {aspect.title()}: {score:.1f}/10")
    
    print("\n‚úÖ Top 3 Fortalezas:")
    for i, strength in enumerate(evaluation.strengths[:3], 1):
        print(f"  {i}. {strength}")
        
    print("\nüîß Top 3 Mejoras:")
    for i, improvement in enumerate(evaluation.improvements[:3], 1):
        print(f"  {i}. {improvement}")
    
    print("\n" + "="*70 + "\n")

print("‚úÖ Todas las evaluaciones completadas!")

## 5. üìä An√°lisis Comparativo

In [None]:
# Crear DataFrame para an√°lisis
comparison_data = []

for response_name, evaluation in results.items():
    row = {
        'Response': response_name,
        'Final Score': evaluation.final_score,
        'Consensus': evaluation.consensus_level,
        'Time (s)': evaluation.evaluation_time
    }
    
    # Agregar scores individuales
    for aspect, score in evaluation.individual_scores.items():
        row[aspect.title()] = score
        
    comparison_data.append(row)

df = pd.DataFrame(comparison_data)
display(df.round(2))

In [None]:
# Visualizaciones comparativas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Scores finales
axes[0,0].bar(df['Response'], df['Final Score'], color=['#1f77b4', '#ff7f0e', '#2ca02c'])
axes[0,0].set_title('üèÜ Score Final por Respuesta', fontsize=14, fontweight='bold')
axes[0,0].set_ylabel('Score (0-10)')
axes[0,0].set_ylim(0, 10)
for i, v in enumerate(df['Final Score']):
    axes[0,0].text(i, v + 0.1, f'{v:.1f}', ha='center', fontweight='bold')
plt.setp(axes[0,0].xaxis.get_majorticklabels(), rotation=45, ha='right')

# 2. Nivel de consenso
axes[0,1].bar(df['Response'], df['Consensus'], color=['#d62728', '#9467bd', '#8c564b'])
axes[0,1].set_title('ü§ù Nivel de Consenso entre Jueces', fontsize=14, fontweight='bold')
axes[0,1].set_ylabel('Consenso (0-1)')
axes[0,1].set_ylim(0, 1)
for i, v in enumerate(df['Consensus']):
    axes[0,1].text(i, v + 0.02, f'{v:.1%}', ha='center', fontweight='bold')
plt.setp(axes[0,1].xaxis.get_majorticklabels(), rotation=45, ha='right')

# 3. Heatmap de scores por aspecto
aspect_cols = ['Precision', 'Creativity', 'Coherence', 'Relevance', 'Efficiency']
heatmap_data = df[aspect_cols].T  # Transponer para mejor visualizaci√≥n
heatmap_data.columns = df['Response']

sns.heatmap(heatmap_data, annot=True, cmap='RdYlGn', center=5, 
            vmin=0, vmax=10, ax=axes[1,0], cbar_kws={'label': 'Score (0-10)'})
axes[1,0].set_title('üéØ Scores por Aspecto y Respuesta', fontsize=14, fontweight='bold')
axes[1,0].set_ylabel('Aspecto Evaluado')

# 4. Radar chart para la mejor respuesta
best_response_idx = df['Final Score'].idxmax()
best_response_name = df.loc[best_response_idx, 'Response']
best_scores = df.loc[best_response_idx, aspect_cols].values

angles = np.linspace(0, 2*np.pi, len(aspect_cols), endpoint=False)
angles = np.concatenate((angles, [angles[0]]))  # Cerrar el c√≠rculo
best_scores = np.concatenate((best_scores, [best_scores[0]]))

axes[1,1] = plt.subplot(2, 2, 4, projection='polar')
axes[1,1].plot(angles, best_scores, 'o-', linewidth=2, color='#ff7f0e')
axes[1,1].fill(angles, best_scores, alpha=0.25, color='#ff7f0e')
axes[1,1].set_xticks(angles[:-1])
axes[1,1].set_xticklabels(aspect_cols)
axes[1,1].set_ylim(0, 10)
axes[1,1].set_title(f'üåü Perfil de {best_response_name}', fontsize=14, fontweight='bold', pad=20)

plt.tight_layout()
plt.show()

print(f"\nüéâ An√°lisis visual completado!")
print(f"üèÜ Mejor respuesta: {best_response_name} (Score: {df.loc[best_response_idx, 'Final Score']:.1f})")

## 6. üîç An√°lisis Detallado del Juez de Precisi√≥n

In [None]:
# Obtener el juez de precisi√≥n espec√≠ficamente
precision_judge = None
for judge in evaluator.judges:
    if judge.name == "Dr. Precisi√≥n":
        precision_judge = judge
        break

if precision_judge:
    print("üéØ An√°lisis Detallado del Dr. Precisi√≥n")
    print("=" * 50)
    
    # Obtener reporte de precisi√≥n
    precision_report = precision_judge.get_precision_report()
    
    print(f"üìä Total de evaluaciones realizadas: {precision_report['total_evaluations']}")
    print(f"‚úÖ Porcentaje de alta precisi√≥n (‚â•8.0): {precision_report['high_precision_percentage']:.1f}%")
    print(f"‚ùå Porcentaje de baja precisi√≥n (<5.0): {precision_report['low_precision_percentage']:.1f}%")
    print(f"üéØ Confianza promedio del juez: {precision_report['average_confidence']:.1%}")
    print(f"üîí Confiabilidad del juez: {precision_report['judge_reliability']}")
    
    # An√°lisis detallado de cada evaluaci√≥n de precisi√≥n
    print("\nüîç Detalles de Evaluaciones de Precisi√≥n:")
    print("-" * 50)
    
    for response_name, evaluation in results.items():
        if 'precision' in evaluation.detailed_feedback:
            precision_eval = evaluation.detailed_feedback['precision']
            print(f"\nüìù {response_name}:")
            print(f"   Score: {precision_eval.score:.1f}/10")
            print(f"   Confianza: {precision_eval.confidence:.1%}")
            print(f"   Razonamiento: {precision_eval.reasoning[:200]}...")
            
            # Informaci√≥n espec√≠fica de precisi√≥n (si est√° disponible)
            if hasattr(precision_eval, 'metadata') and precision_eval.metadata:
                if 'factual_claims' in precision_eval.metadata:
                    claims = precision_eval.metadata.get('factual_claims', [])
                    if claims:
                        print(f"   Afirmaciones factuales detectadas: {len(claims)}")
                        
                if 'potential_hallucinations' in precision_eval.metadata:
                    hallucinations = precision_eval.metadata.get('potential_hallucinations', [])
                    if hallucinations:
                        print(f"   ‚ö†Ô∏è Posibles alucinaciones: {len(hallucinations)}")
                    else:
                        print(f"   ‚úÖ No se detectaron alucinaciones")
else:
    print("‚ùå No se encontr√≥ el Juez de Precisi√≥n en el panel")

## 7. üìà Resumen del Panel Completo

In [None]:
# Obtener resumen completo del panel
panel_summary = evaluator.get_panel_summary()

print("üèõÔ∏è RESUMEN DEL PANEL DE JUECES")
print("=" * 60)

print(f"üìä Evaluaciones totales realizadas: {panel_summary['total_evaluations']}")
print(f"üèÜ Score promedio final: {panel_summary['average_final_score']}/10")
print(f"ü§ù Consenso promedio: {panel_summary['average_consensus']:.1%}")
print(f"‚è±Ô∏è Tiempo promedio de evaluaci√≥n: {panel_summary['average_evaluation_time']:.2f}s")
print(f"üë®‚Äç‚öñÔ∏è Total de jueces activos: {panel_summary['judges_count']}")

print("\nüéØ RENDIMIENTO POR ASPECTO:")
print("-" * 40)
for aspect, avg_score in panel_summary['aspect_performance'].items():
    weight = panel_summary['weights_distribution'].get(aspect, 0)
    print(f"{aspect.title():12} | Score: {avg_score:4.1f} | Peso: {weight:4.1%}")

# Crear visualizaci√≥n del rendimiento del panel
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# Gr√°fico de rendimiento por aspecto
aspects = list(panel_summary['aspect_performance'].keys())
scores = list(panel_summary['aspect_performance'].values())
colors = plt.cm.Set3(np.linspace(0, 1, len(aspects)))

bars = ax1.bar(aspects, scores, color=colors)
ax1.set_title('üìä Rendimiento Promedio por Aspecto', fontsize=14, fontweight='bold')
ax1.set_ylabel('Score Promedio (0-10)')
ax1.set_ylim(0, 10)

# Agregar valores en las barras
for bar, score in zip(bars, scores):
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height + 0.1,
             f'{score:.1f}', ha='center', va='bottom', fontweight='bold')

plt.setp(ax1.xaxis.get_majorticklabels(), rotation=45, ha='right')

# Gr√°fico de distribuci√≥n de pesos
weights = list(panel_summary['weights_distribution'].values())
ax2.pie(weights, labels=aspects, autopct='%1.1f%%', startangle=90, colors=colors)
ax2.set_title('‚öñÔ∏è Distribuci√≥n de Pesos en Evaluaci√≥n', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\n‚ú® Panel summary visualizado exitosamente!")

## 8. üîß Evaluaci√≥n Personalizada

¬°Ahora es tu turno! Ingresa tu propia pregunta y respuesta para ver c√≥mo las eval√∫a nuestro panel de jueces.

In [None]:
# Input personalizable
custom_prompt = """¬øCu√°les son los principales desaf√≠os √©ticos de la inteligencia artificial 
y c√≥mo deber√≠an abordarse desde una perspectiva de pol√≠tica p√∫blica?"""

custom_response = """Los principales desaf√≠os √©ticos de la IA incluyen:

1. **Sesgo algor√≠tmico**: Los sistemas de IA pueden perpetuar o amplificar sesgos existentes en los datos de entrenamiento.

2. **Privacidad y vigilancia**: La capacidad de la IA para procesar grandes cantidades de datos personales plantea preocupaciones sobre la privacidad.

3. **Transparencia y explicabilidad**: Los modelos de "caja negra" dificultan entender c√≥mo se toman las decisiones.

4. **Responsabilidad**: ¬øQui√©n es responsable cuando un sistema de IA causa da√±o?

Desde pol√≠tica p√∫blica, se debe:
- Establecer marcos regulatorios claros pero flexibles
- Promover auditor√≠as algor√≠tmicas obligatorias
- Invertir en educaci√≥n y capacitaci√≥n √©tica para desarrolladores
- Fomentar la participaci√≥n ciudadana en el desarrollo de pol√≠ticas de IA"""

print("üîß Evaluaci√≥n Personalizada")
print("=" * 50)
print(f"‚ùì Pregunta: {custom_prompt}")
print(f"\nüìù Respuesta a evaluar:")
print(custom_response)
print("\n" + "=" * 60)

In [None]:
# Ejecutar evaluaci√≥n personalizada
print("üèõÔ∏è Evaluando respuesta personalizada...\n")

custom_evaluation = evaluator.evaluate(
    prompt=custom_prompt,
    response=custom_response,
    domain="AI Ethics & Policy",
    include_automatic_metrics=False  # Sin respuesta de referencia
)

print("üéâ ¬°RESULTADOS DE TU EVALUACI√ìN PERSONALIZADA!")
print("=" * 60)

print(f"üèÜ SCORE FINAL: {custom_evaluation.final_score:.1f}/10")
print(f"ü§ù Consenso entre jueces: {custom_evaluation.consensus_level:.1%}")
print(f"‚è±Ô∏è Tiempo de evaluaci√≥n: {custom_evaluation.evaluation_time:.2f} segundos")

print("\nüìä SCORES DETALLADOS POR JUEZ:")
print("-" * 40)
for aspect, score in custom_evaluation.individual_scores.items():
    emoji = {"precision": "üéØ", "creativity": "üé®", "coherence": "üß†", 
             "relevance": "üé™", "efficiency": "‚ö°"}.get(aspect, "üìä")
    print(f"{emoji} {aspect.title():12} | {score:.1f}/10")

print("\n‚úÖ PRINCIPALES FORTALEZAS:")
print("-" * 30)
for i, strength in enumerate(custom_evaluation.strengths[:5], 1):
    print(f"{i}. {strength}")

print("\nüîß √ÅREAS DE MEJORA:")
print("-" * 20)
for i, improvement in enumerate(custom_evaluation.improvements[:5], 1):
    print(f"{i}. {improvement}")

print("\nüéØ AN√ÅLISIS DE CONSENSO:")
if custom_evaluation.consensus_level > 0.8:
    print("‚úÖ Alto consenso: Los jueces est√°n muy de acuerdo en su evaluaci√≥n")
elif custom_evaluation.consensus_level > 0.6:
    print("‚öñÔ∏è Consenso moderado: Hay algunas diferencias de opini√≥n entre jueces")
else:
    print("ü§î Bajo consenso: Los jueces tienen perspectivas muy diferentes")

print("\n" + "=" * 60)
print("üéä ¬°Evaluaci√≥n personalizada completada!")

## 9. üéØ Conclusiones y Pr√≥ximos Pasos

### üîç ¬øQu√© hemos aprendido?

1. **Evaluaci√≥n Multi-Dimensional**: Cada aspecto (precisi√≥n, creatividad, coherencia, etc.) proporciona insights √∫nicos
2. **Consenso vs. Discrepancia**: Cuando los jueces no est√°n de acuerdo, indica complejidad en la evaluaci√≥n
3. **Especializaci√≥n Importa**: Cada juez aporta expertise espec√≠fico que enriquece la evaluaci√≥n final
4. **Interpretabilidad**: A diferencia de m√©tricas autom√°ticas, obtenemos explicaciones detalladas

### üöÄ Ventajas del AI Judges Panel:
- ‚úÖ **Evaluaci√≥n hol√≠stica** desde m√∫ltiples perspectivas
- ‚úÖ **Feedback explicable** y accionable
- ‚úÖ **Detecci√≥n de consensos** y discrepancias
- ‚úÖ **Adaptable** a diferentes dominios y contextos
- ‚úÖ **Escalable** - f√°cil agregar nuevos jueces especializados

### üîß Pr√≥ximos Pasos:
1. **Experimenta** con diferentes tipos de prompts y respuestas
2. **Personaliza pesos** seg√∫n tu caso de uso espec√≠fico
3. **Agrega jueces especializados** para tu dominio
4. **Integra m√©tricas autom√°ticas** reales (BLEU, ROUGE, BERTScore)
5. **Conecta con APIs reales** de LLMs para evaluaci√≥n en vivo

### üìö Para Aprender M√°s:
- Revisa `02_judge_comparison.ipynb` para an√°lisis detallado de cada juez
- Explora `03_model_benchmarking.ipynb` para comparar diferentes LLMs
- Consulta `04_custom_evaluation.ipynb` para casos de uso especializados

In [None]:
# Resumen final de la sesi√≥n
total_evaluations = len(results) + 1  # +1 por la evaluaci√≥n personalizada
avg_final_score = np.mean([eval.final_score for eval in results.values()] + [custom_evaluation.final_score])
avg_consensus = np.mean([eval.consensus_level for eval in results.values()] + [custom_evaluation.consensus_level])

print("üéä RESUMEN FINAL DE LA SESI√ìN")
print("=" * 50)
print(f"üìä Total de evaluaciones realizadas: {total_evaluations}")
print(f"üèÜ Score promedio obtenido: {avg_final_score:.1f}/10")
print(f"ü§ù Consenso promedio del panel: {avg_consensus:.1%}")
print(f"üèõÔ∏è Jueces especializados utilizados: {len(evaluator.judges)}")

print("\nüåü ¬°Gracias por explorar el AI Judges Panel!")
print("La evaluaci√≥n multi-agente representa el futuro de la")
print("evaluaci√≥n de IA: m√°s robusta, interpretable y confiable.")

print("\nüöÄ ¬°Contin√∫a experimentando y construyendo el futuro de la evaluaci√≥n de IA!")