# 🏛️ AI Judges Panel - Demostración Básica
## Evaluación Multi-Agente de LLMs

Bienvenido al **AI Judges Panel**, donde múltiples LLMs especializados evalúan respuestas de otros LLMs desde diferentes perspectivas.

### 🎯 Lo que aprenderás:
- Cómo funciona la arquitectura de panel de jueces
- Evaluación multi-dimensional automática
- Interpretación de consensos y discrepancias
- Comparación con métricas automáticas tradicionales

### 🧠 Panel de Jueces:
- **🎯 Dr. Precisión**: Evalúa factualidad y exactitud
- **🎨 Dra. Creatividad**: Evalúa originalidad e innovación  
- **🧠 Prof. Coherencia**: Evalúa lógica y estructura
- **🎪 Lic. Relevancia**: Evalúa pertinencia a la pregunta
- **⚡ Ed. Eficiencia**: Evalúa claridad y concisión

## 1. 🔧 Setup e Importaciones

In [None]:
# Importaciones necesarias
import sys
import os

# Agregar el path del proyecto
project_path = os.path.abspath('../src')
if project_path not in sys.path:
    sys.path.append(project_path)

# Importar nuestras clases
from evaluators.meta_evaluator import MetaEvaluator, ComprehensiveEvaluation
from judges.precision_judge import PrecisionJudge
from judges.base_judge import EvaluationContext

import json
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from IPython.display import display, HTML, Markdown

print("✅ Importaciones completadas")
print("🏛️ AI Judges Panel listo para usar")

## 2. 🏗️ Inicialización del Panel de Jueces

In [None]:
# Inicializar el Meta-Evaluador con panel completo
evaluator = MetaEvaluator()

print("🏛️ Panel de Jueces Inicializado:")
print(f"📊 Total de jueces: {len(evaluator.judges)}")
print("\n👨‍⚖️ Jueces especializados:")
for judge in evaluator.judges:
    print(f"  - {judge}")
    
print("\n⚖️ Pesos de evaluación:")
for aspect, weight in evaluator.weights.items():
    print(f"  - {aspect.title()}: {weight:.1%}")

## 3. 📝 Casos de Prueba

Vamos a evaluar diferentes respuestas a la misma pregunta para ver cómo reacciona nuestro panel de jueces.

In [None]:
# Definir casos de prueba
test_cases = {
    "prompt": "Explica qué es la inteligencia artificial y cómo impacta la sociedad moderna.",
    
    "responses": {
        "Respuesta A - Técnica": """
La inteligencia artificial (IA) es un campo de la ciencia de la computación que se enfoca en crear sistemas 
capaces de realizar tareas que normalmente requieren inteligencia humana. Estas tareas incluyen el aprendizaje, 
el reconocimiento de patrones, la toma de decisiones y el procesamiento del lenguaje natural.

La IA utiliza algoritmos de machine learning, redes neuronales y deep learning para procesar grandes cantidades 
de datos y extraer patrones significativos. Los sistemas de IA pueden clasificarse en IA débil (específica para 
tareas particulares) e IA fuerte (inteligencia general).

En la sociedad moderna, la IA impacta múltiples sectores: automatiza procesos en la industria, mejora diagnósticos 
médicos, optimiza sistemas de transporte, personaliza experiencias digitales y facilita la investigación científica. 
Sin embargo, también plantea desafíos éticos sobre privacidad, sesgo algorítmico y desplazamiento laboral.
""",
        
        "Respuesta B - Creativa": """
Imagina que la humanidad ha creado un nuevo tipo de "cerebro digital" - eso es la inteligencia artificial. 
Como un aprendiz incansable, la IA nunca se cansa de absorber información y encontrar patrones ocultos 
que nosotros podríamos pasar por alto.

La IA es como tener millones de asistentes especializados trabajando 24/7: uno que nunca se equivoca 
en matemáticas, otro que puede 'ver' tumores en radiografías mejor que médicos experimentados, y otro 
que predice qué película te gustará antes de que tú lo sepas.

Pero aquí está el giro fascinante: estamos creando una sociedad simbiótica. La IA no está reemplazando 
la inteligencia humana; está amplificándola. Somos como los directores de una orquesta tecnológica, 
dirigiendo sinfonías de datos hacia soluciones que beneficien a la humanidad.

El verdadero impacto no es solo automatización - es liberación. Liberación del trabajo repetitivo 
para enfocarnos en creatividad, innovación y conexión humana genuina.
""",
        
        "Respuesta C - Superficial": """
La IA es cuando las computadoras son inteligentes como los humanos. Se usa en muchas cosas 
como Google y Netflix. Es buena porque ayuda a las personas pero también puede ser mala 
porque puede quitar trabajos. La IA está en todas partes y va a cambiar el mundo.
"""
    }
}

print("📝 Casos de prueba definidos:")
print(f"❓ Pregunta: {test_cases['prompt']}")
print(f"📊 Respuestas a evaluar: {len(test_cases['responses'])}")
for name in test_cases['responses'].keys():
    print(f"  - {name}")

## 4. 🏛️ Evaluación del Panel de Jueces

Ahora vamos a someter cada respuesta al panel completo de jueces especializados.

In [None]:
# Ejecutar evaluaciones
results = {}

print("🏛️ Iniciando evaluaciones del panel...\n")

for response_name, response_text in test_cases["responses"].items():
    print(f"📝 Evaluando: {response_name}")
    print("=" * 50)
    
    # Realizar evaluación comprehensiva
    evaluation = evaluator.evaluate(
        prompt=test_cases["prompt"],
        response=response_text,
        domain="AI Education",
        include_automatic_metrics=True
    )
    
    results[response_name] = evaluation
    
    # Mostrar resultados inmediatos
    print(f"🏆 Score Final: {evaluation.final_score:.1f}/10")
    print(f"🤝 Consenso: {evaluation.consensus_level:.1%}")
    print(f"⏱️ Tiempo: {evaluation.evaluation_time:.2f}s")
    
    print("\n📊 Scores por aspecto:")
    for aspect, score in evaluation.individual_scores.items():
        print(f"  {aspect.title()}: {score:.1f}/10")
    
    print("\n✅ Top 3 Fortalezas:")
    for i, strength in enumerate(evaluation.strengths[:3], 1):
        print(f"  {i}. {strength}")
        
    print("\n🔧 Top 3 Mejoras:")
    for i, improvement in enumerate(evaluation.improvements[:3], 1):
        print(f"  {i}. {improvement}")
    
    print("\n" + "="*70 + "\n")

print("✅ Todas las evaluaciones completadas!")

## 5. 📊 Análisis Comparativo

In [None]:
# Crear DataFrame para análisis
comparison_data = []

for response_name, evaluation in results.items():
    row = {
        'Response': response_name,
        'Final Score': evaluation.final_score,
        'Consensus': evaluation.consensus_level,
        'Time (s)': evaluation.evaluation_time
    }
    
    # Agregar scores individuales
    for aspect, score in evaluation.individual_scores.items():
        row[aspect.title()] = score
        
    comparison_data.append(row)

df = pd.DataFrame(comparison_data)
display(df.round(2))

In [None]:
# Visualizaciones comparativas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Scores finales
axes[0,0].bar(df['Response'], df['Final Score'], color=['#1f77b4', '#ff7f0e', '#2ca02c'])
axes[0,0].set_title('🏆 Score Final por Respuesta', fontsize=14, fontweight='bold')
axes[0,0].set_ylabel('Score (0-10)')
axes[0,0].set_ylim(0, 10)
for i, v in enumerate(df['Final Score']):
    axes[0,0].text(i, v + 0.1, f'{v:.1f}', ha='center', fontweight='bold')
plt.setp(axes[0,0].xaxis.get_majorticklabels(), rotation=45, ha='right')

# 2. Nivel de consenso
axes[0,1].bar(df['Response'], df['Consensus'], color=['#d62728', '#9467bd', '#8c564b'])
axes[0,1].set_title('🤝 Nivel de Consenso entre Jueces', fontsize=14, fontweight='bold')
axes[0,1].set_ylabel('Consenso (0-1)')
axes[0,1].set_ylim(0, 1)
for i, v in enumerate(df['Consensus']):
    axes[0,1].text(i, v + 0.02, f'{v:.1%}', ha='center', fontweight='bold')
plt.setp(axes[0,1].xaxis.get_majorticklabels(), rotation=45, ha='right')

# 3. Heatmap de scores por aspecto
aspect_cols = ['Precision', 'Creativity', 'Coherence', 'Relevance', 'Efficiency']
heatmap_data = df[aspect_cols].T  # Transponer para mejor visualización
heatmap_data.columns = df['Response']

sns.heatmap(heatmap_data, annot=True, cmap='RdYlGn', center=5, 
            vmin=0, vmax=10, ax=axes[1,0], cbar_kws={'label': 'Score (0-10)'})
axes[1,0].set_title('🎯 Scores por Aspecto y Respuesta', fontsize=14, fontweight='bold')
axes[1,0].set_ylabel('Aspecto Evaluado')

# 4. Radar chart para la mejor respuesta
best_response_idx = df['Final Score'].idxmax()
best_response_name = df.loc[best_response_idx, 'Response']
best_scores = df.loc[best_response_idx, aspect_cols].values

angles = np.linspace(0, 2*np.pi, len(aspect_cols), endpoint=False)
angles = np.concatenate((angles, [angles[0]]))  # Cerrar el círculo
best_scores = np.concatenate((best_scores, [best_scores[0]]))

axes[1,1] = plt.subplot(2, 2, 4, projection='polar')
axes[1,1].plot(angles, best_scores, 'o-', linewidth=2, color='#ff7f0e')
axes[1,1].fill(angles, best_scores, alpha=0.25, color='#ff7f0e')
axes[1,1].set_xticks(angles[:-1])
axes[1,1].set_xticklabels(aspect_cols)
axes[1,1].set_ylim(0, 10)
axes[1,1].set_title(f'🌟 Perfil de {best_response_name}', fontsize=14, fontweight='bold', pad=20)

plt.tight_layout()
plt.show()

print(f"\n🎉 Análisis visual completado!")
print(f"🏆 Mejor respuesta: {best_response_name} (Score: {df.loc[best_response_idx, 'Final Score']:.1f})")

## 6. 🔍 Análisis Detallado del Juez de Precisión

In [None]:
# Obtener el juez de precisión específicamente
precision_judge = None
for judge in evaluator.judges:
    if judge.name == "Dr. Precisión":
        precision_judge = judge
        break

if precision_judge:
    print("🎯 Análisis Detallado del Dr. Precisión")
    print("=" * 50)
    
    # Obtener reporte de precisión
    precision_report = precision_judge.get_precision_report()
    
    print(f"📊 Total de evaluaciones realizadas: {precision_report['total_evaluations']}")
    print(f"✅ Porcentaje de alta precisión (≥8.0): {precision_report['high_precision_percentage']:.1f}%")
    print(f"❌ Porcentaje de baja precisión (<5.0): {precision_report['low_precision_percentage']:.1f}%")
    print(f"🎯 Confianza promedio del juez: {precision_report['average_confidence']:.1%}")
    print(f"🔒 Confiabilidad del juez: {precision_report['judge_reliability']}")
    
    # Análisis detallado de cada evaluación de precisión
    print("\n🔍 Detalles de Evaluaciones de Precisión:")
    print("-" * 50)
    
    for response_name, evaluation in results.items():
        if 'precision' in evaluation.detailed_feedback:
            precision_eval = evaluation.detailed_feedback['precision']
            print(f"\n📝 {response_name}:")
            print(f"   Score: {precision_eval.score:.1f}/10")
            print(f"   Confianza: {precision_eval.confidence:.1%}")
            print(f"   Razonamiento: {precision_eval.reasoning[:200]}...")
            
            # Información específica de precisión (si está disponible)
            if hasattr(precision_eval, 'metadata') and precision_eval.metadata:
                if 'factual_claims' in precision_eval.metadata:
                    claims = precision_eval.metadata.get('factual_claims', [])
                    if claims:
                        print(f"   Afirmaciones factuales detectadas: {len(claims)}")
                        
                if 'potential_hallucinations' in precision_eval.metadata:
                    hallucinations = precision_eval.metadata.get('potential_hallucinations', [])
                    if hallucinations:
                        print(f"   ⚠️ Posibles alucinaciones: {len(hallucinations)}")
                    else:
                        print(f"   ✅ No se detectaron alucinaciones")
else:
    print("❌ No se encontró el Juez de Precisión en el panel")

## 7. 📈 Resumen del Panel Completo

In [None]:
# Obtener resumen completo del panel
panel_summary = evaluator.get_panel_summary()

print("🏛️ RESUMEN DEL PANEL DE JUECES")
print("=" * 60)

print(f"📊 Evaluaciones totales realizadas: {panel_summary['total_evaluations']}")
print(f"🏆 Score promedio final: {panel_summary['average_final_score']}/10")
print(f"🤝 Consenso promedio: {panel_summary['average_consensus']:.1%}")
print(f"⏱️ Tiempo promedio de evaluación: {panel_summary['average_evaluation_time']:.2f}s")
print(f"👨‍⚖️ Total de jueces activos: {panel_summary['judges_count']}")

print("\n🎯 RENDIMIENTO POR ASPECTO:")
print("-" * 40)
for aspect, avg_score in panel_summary['aspect_performance'].items():
    weight = panel_summary['weights_distribution'].get(aspect, 0)
    print(f"{aspect.title():12} | Score: {avg_score:4.1f} | Peso: {weight:4.1%}")

# Crear visualización del rendimiento del panel
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# Gráfico de rendimiento por aspecto
aspects = list(panel_summary['aspect_performance'].keys())
scores = list(panel_summary['aspect_performance'].values())
colors = plt.cm.Set3(np.linspace(0, 1, len(aspects)))

bars = ax1.bar(aspects, scores, color=colors)
ax1.set_title('📊 Rendimiento Promedio por Aspecto', fontsize=14, fontweight='bold')
ax1.set_ylabel('Score Promedio (0-10)')
ax1.set_ylim(0, 10)

# Agregar valores en las barras
for bar, score in zip(bars, scores):
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height + 0.1,
             f'{score:.1f}', ha='center', va='bottom', fontweight='bold')

plt.setp(ax1.xaxis.get_majorticklabels(), rotation=45, ha='right')

# Gráfico de distribución de pesos
weights = list(panel_summary['weights_distribution'].values())
ax2.pie(weights, labels=aspects, autopct='%1.1f%%', startangle=90, colors=colors)
ax2.set_title('⚖️ Distribución de Pesos en Evaluación', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\n✨ Panel summary visualizado exitosamente!")

## 8. 🔧 Evaluación Personalizada

¡Ahora es tu turno! Ingresa tu propia pregunta y respuesta para ver cómo las evalúa nuestro panel de jueces.

In [None]:
# Input personalizable
custom_prompt = """¿Cuáles son los principales desafíos éticos de la inteligencia artificial 
y cómo deberían abordarse desde una perspectiva de política pública?"""

custom_response = """Los principales desafíos éticos de la IA incluyen:

1. **Sesgo algorítmico**: Los sistemas de IA pueden perpetuar o amplificar sesgos existentes en los datos de entrenamiento.

2. **Privacidad y vigilancia**: La capacidad de la IA para procesar grandes cantidades de datos personales plantea preocupaciones sobre la privacidad.

3. **Transparencia y explicabilidad**: Los modelos de "caja negra" dificultan entender cómo se toman las decisiones.

4. **Responsabilidad**: ¿Quién es responsable cuando un sistema de IA causa daño?

Desde política pública, se debe:
- Establecer marcos regulatorios claros pero flexibles
- Promover auditorías algorítmicas obligatorias
- Invertir en educación y capacitación ética para desarrolladores
- Fomentar la participación ciudadana en el desarrollo de políticas de IA"""

print("🔧 Evaluación Personalizada")
print("=" * 50)
print(f"❓ Pregunta: {custom_prompt}")
print(f"\n📝 Respuesta a evaluar:")
print(custom_response)
print("\n" + "=" * 60)

In [None]:
# Ejecutar evaluación personalizada
print("🏛️ Evaluando respuesta personalizada...\n")

custom_evaluation = evaluator.evaluate(
    prompt=custom_prompt,
    response=custom_response,
    domain="AI Ethics & Policy",
    include_automatic_metrics=False  # Sin respuesta de referencia
)

print("🎉 ¡RESULTADOS DE TU EVALUACIÓN PERSONALIZADA!")
print("=" * 60)

print(f"🏆 SCORE FINAL: {custom_evaluation.final_score:.1f}/10")
print(f"🤝 Consenso entre jueces: {custom_evaluation.consensus_level:.1%}")
print(f"⏱️ Tiempo de evaluación: {custom_evaluation.evaluation_time:.2f} segundos")

print("\n📊 SCORES DETALLADOS POR JUEZ:")
print("-" * 40)
for aspect, score in custom_evaluation.individual_scores.items():
    emoji = {"precision": "🎯", "creativity": "🎨", "coherence": "🧠", 
             "relevance": "🎪", "efficiency": "⚡"}.get(aspect, "📊")
    print(f"{emoji} {aspect.title():12} | {score:.1f}/10")

print("\n✅ PRINCIPALES FORTALEZAS:")
print("-" * 30)
for i, strength in enumerate(custom_evaluation.strengths[:5], 1):
    print(f"{i}. {strength}")

print("\n🔧 ÁREAS DE MEJORA:")
print("-" * 20)
for i, improvement in enumerate(custom_evaluation.improvements[:5], 1):
    print(f"{i}. {improvement}")

print("\n🎯 ANÁLISIS DE CONSENSO:")
if custom_evaluation.consensus_level > 0.8:
    print("✅ Alto consenso: Los jueces están muy de acuerdo en su evaluación")
elif custom_evaluation.consensus_level > 0.6:
    print("⚖️ Consenso moderado: Hay algunas diferencias de opinión entre jueces")
else:
    print("🤔 Bajo consenso: Los jueces tienen perspectivas muy diferentes")

print("\n" + "=" * 60)
print("🎊 ¡Evaluación personalizada completada!")

## 9. 🎯 Conclusiones y Próximos Pasos

### 🔍 ¿Qué hemos aprendido?

1. **Evaluación Multi-Dimensional**: Cada aspecto (precisión, creatividad, coherencia, etc.) proporciona insights únicos
2. **Consenso vs. Discrepancia**: Cuando los jueces no están de acuerdo, indica complejidad en la evaluación
3. **Especialización Importa**: Cada juez aporta expertise específico que enriquece la evaluación final
4. **Interpretabilidad**: A diferencia de métricas automáticas, obtenemos explicaciones detalladas

### 🚀 Ventajas del AI Judges Panel:
- ✅ **Evaluación holística** desde múltiples perspectivas
- ✅ **Feedback explicable** y accionable
- ✅ **Detección de consensos** y discrepancias
- ✅ **Adaptable** a diferentes dominios y contextos
- ✅ **Escalable** - fácil agregar nuevos jueces especializados

### 🔧 Próximos Pasos:
1. **Experimenta** con diferentes tipos de prompts y respuestas
2. **Personaliza pesos** según tu caso de uso específico
3. **Agrega jueces especializados** para tu dominio
4. **Integra métricas automáticas** reales (BLEU, ROUGE, BERTScore)
5. **Conecta con APIs reales** de LLMs para evaluación en vivo

### 📚 Para Aprender Más:
- Revisa `02_judge_comparison.ipynb` para análisis detallado de cada juez
- Explora `03_model_benchmarking.ipynb` para comparar diferentes LLMs
- Consulta `04_custom_evaluation.ipynb` para casos de uso especializados

In [None]:
# Resumen final de la sesión
total_evaluations = len(results) + 1  # +1 por la evaluación personalizada
avg_final_score = np.mean([eval.final_score for eval in results.values()] + [custom_evaluation.final_score])
avg_consensus = np.mean([eval.consensus_level for eval in results.values()] + [custom_evaluation.consensus_level])

print("🎊 RESUMEN FINAL DE LA SESIÓN")
print("=" * 50)
print(f"📊 Total de evaluaciones realizadas: {total_evaluations}")
print(f"🏆 Score promedio obtenido: {avg_final_score:.1f}/10")
print(f"🤝 Consenso promedio del panel: {avg_consensus:.1%}")
print(f"🏛️ Jueces especializados utilizados: {len(evaluator.judges)}")

print("\n🌟 ¡Gracias por explorar el AI Judges Panel!")
print("La evaluación multi-agente representa el futuro de la")
print("evaluación de IA: más robusta, interpretable y confiable.")

print("\n🚀 ¡Continúa experimentando y construyendo el futuro de la evaluación de IA!")