# 2. Evaluaci√≥n de Sistemas RAG con LangSmith

## Objetivos de Aprendizaje
- Comprender la importancia de la evaluaci√≥n en sistemas RAG.
- Configurar LangSmith para trazabilidad y evaluaci√≥n.
- Crear un dataset de evaluaci√≥n con preguntas y respuestas de referencia.
- Ejecutar evaluadores autom√°ticos para m√©tricas como relevancia y fidelidad.
- Analizar los resultados de la evaluaci√≥n para optimizar el sistema.

## ¬øQu√© es LangSmith?

LangSmith es una plataforma de LangChain para la observabilidad, el monitoreo y la evaluaci√≥n de aplicaciones construidas con Modelos de Lenguaje Grandes (LLMs). Permite visualizar cada paso de una cadena o agente, analizar su rendimiento y evaluar la calidad de las respuestas de forma sistem√°tica.

Para un sistema RAG, LangSmith nos ayuda a responder preguntas clave:
- **Recuperaci√≥n (Retrieval)**: ¬øLos documentos que encontramos son relevantes para la pregunta?
- **Generaci√≥n (Generation)**: ¬øLa respuesta generada es fiel a los documentos recuperados? ¬øResponde correctamente a la pregunta del usuario?

## 1. Instalaci√≥n y Configuraci√≥n

In [None]:
!pip install --upgrade openai langsmith langchain langchain-openai langchain-community httpx scikit-learn numpy -q

In [None]:
import os
from openai import OpenAI
from langsmith import Client
import json
from typing import Dict, Any, List
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

print("‚úÖ Librer√≠as importadas")

### Configuraci√≥n de Variables de Entorno

Para que LangSmith capture las trazas de nuestra aplicaci√≥n, necesitamos configurar cuatro variables de entorno:
1. `LANGCHAIN_TRACING_V2`: Se establece en `"true"` para activar la trazabilidad.
2. `LANGCHAIN_API_KEY`: Tu clave de API de LangSmith. La puedes obtener en [smith.langchain.com](https://smith.langchain.com).
3. `LANGCHAIN_PROJECT`: El nombre del proyecto bajo el cual se agrupar√°n las trazas. Esto es muy √∫til para organizar el trabajo.
4. `OPENAI_API_KEY`: Tu clave de API de OpenAI para que el modelo de lenguaje funcione.

In [None]:
# Configurar variables de entorno para LangSmith
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_PROJECT"] = "RAG-Evaluation-Tutorial"

# Si usas LangSmith, aseg√∫rate de tener tu API key
# os.environ["LANGCHAIN_API_KEY"] = "tu_langsmith_api_key"

# Configurar API keys para el modelo de lenguaje
# Si usas OpenAI directamente:
# os.environ["OPENAI_API_KEY"] = "tu_openai_api_key"

# Si usas GitHub Models o Azure AI:
os.environ["OPENAI_API_KEY"] = os.getenv("GITHUB_TOKEN", "")
os.environ["OPENAI_API_BASE"] = os.getenv("GITHUB_BASE_URL", "https://models.inference.ai.azure.com")

# Inicializar el cliente de LangSmith
try:
    client = Client()
    print("‚úÖ Cliente de LangSmith configurado")
except Exception as e:
    print(f"‚ö†Ô∏è LangSmith no configurado: {e}")
    print("Continuando sin LangSmith...")
    client = None

print("‚úÖ Variables de entorno configuradas")

## 2. Sistema RAG B√°sico

Reutilizaremos el sistema RAG simple del notebook anterior. Este sistema utiliza una lista de documentos en memoria, una funci√≥n de recuperaci√≥n por palabras clave y un LLM para generar respuestas.

In [None]:
# Base de documentos
documents = [
    "La inteligencia artificial es una rama de la inform√°tica que busca crear m√°quinas capaces de realizar tareas que requieren inteligencia humana.",
    "Los modelos de lenguaje grande (LLM) son sistemas de IA entrenados en enormes cantidades de texto para generar y comprender lenguaje natural.",
    "RAG (Retrieval-Augmented Generation) combina la b√∫squeda de informaci√≥n relevante con la generaci√≥n de texto para producir respuestas m√°s precisas.",
    "LangChain es un framework que facilita el desarrollo de aplicaciones con modelos de lenguaje, proporcionando herramientas para cadenas y agentes.",
    "El prompt engineering es la pr√°ctica de dise√±ar instrucciones efectivas para obtener los mejores resultados de los modelos de IA."
]

# Cliente de OpenAI
def initialize_client():
    client = OpenAI(
        base_url=os.getenv("OPENAI_API_BASE", "https://api.openai.com/v1"),
        api_key=os.getenv("OPENAI_API_KEY")
    )
    return client

openai_client = initialize_client()

print(f"üìö Base de datos con {len(documents)} documentos cargada.")
print("‚úÖ Cliente OpenAI inicializado correctamente.")

In [None]:
from langsmith.run_helpers import traceable

# Envolvemos las funciones con el decorador @traceable para que LangSmith las capture

@traceable(name="Recuperacion de Documentos")
def simple_retrieval(query: str, documents: List[str]) -> List[str]:
    """Recupera documentos relevantes bas√°ndose en palabras clave."""
    relevant_docs = []
    query_lower = query.lower()
    for doc in documents:
        if any(word in doc.lower() for word in query_lower.split()):
            relevant_docs.append(doc)
    return relevant_docs[:3]

@traceable(name="Generacion de Respuesta")
def generate_response(client, query: str, context: str) -> str:
    """Genera una respuesta basada en el contexto proporcionado."""
    prompt = f"""Contexto:
{context}

Pregunta: {query}

Responde bas√°ndote √∫nicamente en el contexto proporcionado. Si la informaci√≥n no est√° disponible en el contexto, indica que no puedes responder bas√°ndote en la informaci√≥n proporcionada."""
    
    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[{"role": "user", "content": prompt}],
            temperature=0,
        )
        return response.choices[0].message.content
    except Exception as e:
        print(f"Error al generar respuesta: {e}")
        return "Error al generar la respuesta."

@traceable(name="Pipeline RAG Completo")
def rag_pipeline(query: str) -> Dict[str, Any]:
    """Pipeline completo de RAG que incluye recuperaci√≥n y generaci√≥n."""
    context_docs = simple_retrieval(query, documents)
    context = "\n\n".join(context_docs)
    answer = generate_response(openai_client, query, context)
    return {
        "answer": answer, 
        "context": context_docs,
        "query": query
    }

print("‚úÖ Funciones del pipeline RAG definidas y trazables")

### Prueba de Trazabilidad

Ahora, si ejecutamos nuestro pipeline, LangSmith registrar√° la ejecuci√≥n completa, incluyendo los pasos intermedios que decoramos. Puedes ir a tu proyecto en LangSmith para ver la traza.

In [None]:
# Prueba del sistema
resultado = rag_pipeline("¬øQu√© es RAG?")
print("Respuesta:")
print(resultado["answer"])
print("\nDocumentos recuperados:")
for i, doc in enumerate(resultado["context"], 1):
    print(f"{i}. {doc[:100]}...")

## 3. Creaci√≥n de un Dataset de Evaluaci√≥n

Para evaluar nuestro sistema, necesitamos un "ground truth" (verdad fundamental), es decir, un conjunto de preguntas y las respuestas que consideramos correctas. En LangSmith, esto se gestiona a trav√©s de Datasets.

### Tipos de Datasets de Evaluaci√≥n

1. **Dataset de Exactitud**: Preguntas con respuestas espec√≠ficas y correctas
2. **Dataset de Relevancia**: Eval√∫a si la respuesta es √∫til, aunque no sea exacta
3. **Dataset de Fidelidad**: Verifica si la respuesta se basa en el contexto proporcionado
4. **Dataset de Completitud**: Eval√∫a si la respuesta aborda todos los aspectos de la pregunta

### Mejores Pr√°cticas para Crear Datasets:
- **Diversidad**: Incluir diferentes tipos de preguntas
- **Dificultad variada**: Preguntas f√°ciles, medianas y dif√≠ciles
- **Casos edge**: Preguntas que podr√≠an confundir al sistema
- **Actualizaci√≥n continua**: A√±adir nuevos ejemplos basados en casos reales

In [None]:
# Dataset de evaluaci√≥n m√°s completo y estructurado
def create_comprehensive_evaluation_dataset():
    """Crea un dataset de evaluaci√≥n m√°s completo con diferentes categor√≠as."""
    
    evaluation_examples = [
        # Categor√≠a: Definiciones b√°sicas
        {
            "inputs": {"query": "¬øQu√© es la inteligencia artificial?"},
            "outputs": {"answer": "La inteligencia artificial es una rama de la inform√°tica que busca crear m√°quinas capaces de realizar tareas que requieren inteligencia humana."},
            "metadata": {"category": "definicion", "difficulty": "facil", "expected_docs": 1}
        },
        {
            "inputs": {"query": "¬øQu√© son los LLM?"},
            "outputs": {"answer": "Los modelos de lenguaje grande (LLM) son sistemas de IA entrenados en enormes cantidades de texto para generar y comprender lenguaje natural."},
            "metadata": {"category": "definicion", "difficulty": "facil", "expected_docs": 1}
        },
        
        # Categor√≠a: Aplicaciones y uso
        {
            "inputs": {"query": "¬øPara qu√© sirve LangChain?"},
            "outputs": {"answer": "LangChain es un framework que facilita el desarrollo de aplicaciones con modelos de lenguaje, proporcionando herramientas para cadenas y agentes."},
            "metadata": {"category": "aplicacion", "difficulty": "medio", "expected_docs": 1}
        },
        {
            "inputs": {"query": "Explica qu√© es RAG y para qu√© se usa"},
            "outputs": {"answer": "RAG (Retrieval-Augmented Generation) combina la b√∫squeda de informaci√≥n relevante con la generaci√≥n de texto para producir respuestas m√°s precisas."},
            "metadata": {"category": "aplicacion", "difficulty": "medio", "expected_docs": 1}
        },
        
        # Categor√≠a: T√©cnicas y m√©todos
        {
            "inputs": {"query": "¬øQu√© es prompt engineering?"},
            "outputs": {"answer": "El prompt engineering es la pr√°ctica de dise√±ar instrucciones efectivas para obtener los mejores resultados de los modelos de IA."},
            "metadata": {"category": "tecnica", "difficulty": "medio", "expected_docs": 1}
        },
        
        # Categor√≠a: Preguntas combinadas (m√°s dif√≠ciles)
        {
            "inputs": {"query": "¬øC√≥mo se relacionan RAG y LangChain?"},
            "outputs": {"answer": "LangChain facilita la implementaci√≥n de sistemas RAG proporcionando herramientas para combinar la b√∫squeda de informaci√≥n con la generaci√≥n de respuestas usando modelos de lenguaje."},
            "metadata": {"category": "relacion", "difficulty": "dificil", "expected_docs": 2}
        },
        
        # Categor√≠a: Casos edge - preguntas que no tienen respuesta en los docs
        {
            "inputs": {"query": "¬øCu√°l es el precio de OpenAI GPT-4?"},
            "outputs": {"answer": "No se puede responder esta pregunta bas√°ndose en la informaci√≥n proporcionada en el contexto."},
            "metadata": {"category": "sin_respuesta", "difficulty": "dificil", "expected_docs": 0}
        },
        
        # Categor√≠a: Preguntas ambiguas
        {
            "inputs": {"query": "¬øQu√© es IA?"},
            "outputs": {"answer": "La inteligencia artificial es una rama de la inform√°tica que busca crear m√°quinas capaces de realizar tareas que requieren inteligencia humana."},
            "metadata": {"category": "ambigua", "difficulty": "facil", "expected_docs": 1}
        }
    ]
    
    return evaluation_examples

# Crear el dataset completo
comprehensive_examples = create_comprehensive_evaluation_dataset()

print(f"üìä Dataset completo con {len(comprehensive_examples)} ejemplos creado")
print("\nüìà Distribuci√≥n por categor√≠a:")
categories = {}
difficulties = {}

for example in comprehensive_examples:
    cat = example["metadata"]["category"]
    diff = example["metadata"]["difficulty"]
    categories[cat] = categories.get(cat, 0) + 1
    difficulties[diff] = difficulties.get(diff, 0) + 1

for cat, count in categories.items():
    print(f"  ‚Ä¢ {cat}: {count} ejemplos")
    
print(f"\nüéØ Distribuci√≥n por dificultad:")
for diff, count in difficulties.items():
    print(f"  ‚Ä¢ {diff}: {count} ejemplos")

In [None]:
def validate_dataset(examples):
    """Valida la calidad del dataset de evaluaci√≥n."""
    
    print("üîç Validando dataset de evaluaci√≥n...")
    print("=" * 50)
    
    issues = []
    
    # Validar estructura
    for i, example in enumerate(examples):
        # Verificar estructura requerida
        if "inputs" not in example or "outputs" not in example:
            issues.append(f"Ejemplo {i+1}: Estructura inv√°lida (falta inputs/outputs)")
        
        # Verificar que query no est√© vac√≠a
        if "query" not in example.get("inputs", {}) or not example["inputs"]["query"].strip():
            issues.append(f"Ejemplo {i+1}: Query vac√≠a o faltante")
        
        # Verificar que answer no est√© vac√≠a
        if "answer" not in example.get("outputs", {}) or not example["outputs"]["answer"].strip():
            issues.append(f"Ejemplo {i+1}: Answer vac√≠a o faltante")
        
        # Verificar longitud razonable
        query = example.get("inputs", {}).get("query", "")
        answer = example.get("outputs", {}).get("answer", "")
        
        if len(query) < 10:
            issues.append(f"Ejemplo {i+1}: Query muy corta (menos de 10 caracteres)")
        
        if len(answer) < 20:
            issues.append(f"Ejemplo {i+1}: Answer muy corta (menos de 20 caracteres)")
        
        if len(query) > 200:
            issues.append(f"Ejemplo {i+1}: Query muy larga (m√°s de 200 caracteres)")
    
    # Verificar diversidad
    queries = [ex["inputs"]["query"].lower() for ex in examples]
    unique_queries = set(queries)
    
    if len(unique_queries) < len(queries):
        issues.append("Dataset contiene queries duplicadas")
    
    # Verificar categor√≠as si existen metadatos
    if examples and "metadata" in examples[0]:
        categories = [ex["metadata"].get("category", "unknown") for ex in examples]
        unique_categories = set(categories)
        
        if len(unique_categories) == 1:
            issues.append("Dataset tiene poca diversidad de categor√≠as")
    
    # Mostrar resultados
    if issues:
        print("‚ùå Problemas encontrados:")
        for issue in issues:
            print(f"  ‚Ä¢ {issue}")
    else:
        print("‚úÖ Dataset v√°lido - No se encontraron problemas")
    
    print(f"\nüìä Estad√≠sticas del dataset:")
    print(f"  ‚Ä¢ Total de ejemplos: {len(examples)}")
    print(f"  ‚Ä¢ Queries √∫nicas: {len(unique_queries)}")
    
    if examples and "metadata" in examples[0]:
        categories = {}
        difficulties = {}
        for ex in examples:
            cat = ex["metadata"].get("category", "unknown")
            diff = ex["metadata"].get("difficulty", "unknown")
            categories[cat] = categories.get(cat, 0) + 1
            difficulties[diff] = difficulties.get(diff, 0) + 1
        
        print(f"  ‚Ä¢ Categor√≠as: {list(categories.keys())}")
        print(f"  ‚Ä¢ Dificultades: {list(difficulties.keys())}")
    
    return len(issues) == 0

# Validar nuestro dataset
is_valid = validate_dataset(comprehensive_examples)

In [None]:
def create_langsmith_dataset_advanced():
    """Crear dataset en LangSmith con metadatos y gesti√≥n avanzada."""
    
    if not client:
        print("‚ö†Ô∏è LangSmith no configurado")
        return None
    
    dataset_name = "RAG Evaluation - Comprehensive Dataset"
    description = """Dataset completo para evaluaci√≥n de sistemas RAG incluyendo:
    - Definiciones b√°sicas
    - Aplicaciones y casos de uso
    - T√©cnicas y m√©todos
    - Preguntas combinadas
    - Casos edge y preguntas sin respuesta
    - Diferentes niveles de dificultad"""
    
    try:
        # Eliminar dataset existente si existe
        try:
            existing_dataset = client.read_dataset(dataset_name=dataset_name)
            client.delete_dataset(dataset_id=str(existing_dataset.id))
            print(f"üóëÔ∏è Dataset existente '{dataset_name}' eliminado.")
        except:
            pass
        
        # Crear nuevo dataset
        dataset = client.create_dataset(
            dataset_name=dataset_name,
            description=description,
        )
        
        print(f"‚úÖ Dataset '{dataset_name}' creado con ID: {dataset.id}")
        
        # A√±adir ejemplos con metadatos
        for i, example in enumerate(comprehensive_examples):
            try:
                client.create_example(
                    inputs=example["inputs"],
                    outputs=example["outputs"],
                    metadata=example["metadata"],  # Incluir metadatos
                    dataset_id=dataset.id,
                )
                print(f"  üìù Ejemplo {i+1} a√±adido: {example['metadata']['category']}")
            except Exception as e:
                print(f"  ‚ùå Error a√±adiendo ejemplo {i+1}: {e}")
        
        print(f"‚úÖ {len(comprehensive_examples)} ejemplos a√±adidos exitosamente")
        
        return dataset
        
    except Exception as e:
        print(f"‚ùå Error creando dataset: {e}")
        return None

# Crear dataset avanzado
advanced_dataset = create_langsmith_dataset_advanced()

## 4. Evaluaci√≥n Manual (Sin LangSmith)

Si no tienes LangSmith configurado, puedes realizar una evaluaci√≥n b√°sica manual:

In [None]:
def simple_evaluation():
    """Evaluaci√≥n simple sin LangSmith"""
    results = []
    
    print("üîç Ejecutando evaluaci√≥n manual...\n")
    
    for i, example in enumerate(comprehensive_examples, 1):
        query = example["inputs"]["query"]
        expected = example["outputs"]["answer"]
        category = example["metadata"]["category"]
        difficulty = example["metadata"]["difficulty"]
        
        print(f"Ejemplo {i}/{len(comprehensive_examples)} - {category} ({difficulty})")
        print(f"Pregunta: {query}")
        
        # Ejecutar el pipeline
        result = rag_pipeline(query)
        generated = result["answer"]
        
        print(f"Respuesta esperada: {expected}")
        print(f"Respuesta generada: {generated}")
        
        # Evaluaci√≥n b√°sica de similitud (palabras en com√∫n)
        expected_words = set(expected.lower().split())
        generated_words = set(generated.lower().split())
        
        if len(expected_words) > 0:
            similarity = len(expected_words.intersection(generated_words)) / len(expected_words.union(generated_words))
        else:
            similarity = 0
        
        # Evaluaci√≥n de recuperaci√≥n
        context_retrieved = len(result["context"]) > 0
        expected_docs = example["metadata"]["expected_docs"]
        retrieval_success = len(result["context"]) >= expected_docs if expected_docs > 0 else len(result["context"]) == 0
        
        results.append({
            "query": query,
            "expected": expected,
            "generated": generated,
            "similarity": similarity,
            "context_docs": len(result["context"]),
            "category": category,
            "difficulty": difficulty,
            "retrieval_success": retrieval_success
        })
        
        print(f"Similitud: {similarity:.2f}")
        print(f"Documentos recuperados: {len(result['context'])}")
        print(f"Recuperaci√≥n exitosa: {'‚úÖ' if retrieval_success else '‚ùå'}")
        print("-" * 80 + "\n")
    
    # Resumen por categor√≠a
    print("üìä Resumen por Categor√≠a:")
    print("=" * 50)
    
    category_stats = {}
    for r in results:
        cat = r["category"]
        if cat not in category_stats:
            category_stats[cat] = {"total": 0, "similarity_sum": 0, "retrieval_success": 0}
        
        category_stats[cat]["total"] += 1
        category_stats[cat]["similarity_sum"] += r["similarity"]
        if r["retrieval_success"]:
            category_stats[cat]["retrieval_success"] += 1
    
    for cat, stats in category_stats.items():
        avg_similarity = stats["similarity_sum"] / stats["total"]
        retrieval_rate = stats["retrieval_success"] / stats["total"]
        print(f"{cat}: Similitud={avg_similarity:.2f}, Recuperaci√≥n={retrieval_rate:.2f}")
    
    # Resumen general
    avg_similarity = sum(r["similarity"] for r in results) / len(results)
    retrieval_rate = sum(r["retrieval_success"] for r in results) / len(results)
    
    print(f"\nüìà Resumen General:")
    print(f"Similitud promedio: {avg_similarity:.2f}")
    print(f"Tasa de recuperaci√≥n exitosa: {retrieval_rate:.2f}")
    print(f"Total de ejemplos: {len(results)}")
    
    return results

# Ejecutar evaluaci√≥n manual
manual_results = simple_evaluation()

## 5. Evaluaci√≥n con LangSmith (Si est√° configurado)

Si tienes LangSmith configurado, puedes ejecutar una evaluaci√≥n m√°s sofisticada:

In [None]:
# Solo ejecutar si LangSmith est√° configurado
if client and advanced_dataset:
    try:
        from langsmith.evaluation import evaluate
        from langchain_openai import ChatOpenAI
        
        print("üöÄ Configurando evaluaci√≥n con LangSmith...")
        
        # Modelo de lenguaje para la evaluaci√≥n
        llm = ChatOpenAI(
            model="gpt-4o",
            temperature=0.1,
            base_url=os.getenv("OPENAI_API_BASE", "https://api.openai.com/v1"),
            api_key=os.getenv("OPENAI_API_KEY")
        )
        
        # Funci√≥n target simplificada
        def target_function(inputs: Dict[str, Any]) -> str:
            """Funci√≥n target que retorna solo la respuesta como string."""
            result = rag_pipeline(inputs["query"])
            return result["answer"]  # Retornar solo la respuesta como string
        
        print("üîÑ Ejecutando evaluaci√≥n sin evaluadores autom√°ticos...")
        
        # ENFOQUE SIMPLIFICADO: Solo ejecutar y capturar las trazas
        experiment_results = evaluate(
            target_function,
            data="RAG Evaluation - Comprehensive Dataset",
            evaluators=[],  # Sin evaluadores autom√°ticos por ahora
            experiment_prefix="RAG Basico - Trace Only",
            metadata={
                "version": "2.2.0", 
                "model": "gpt-4o", 
                "dataset": "comprehensive", 
                "approach": "trace_only"
            }
        )
        
        print("‚úÖ Evaluaci√≥n de trazabilidad completada exitosamente.")
        print("üîó Revisa las trazas en la plataforma LangSmith.")
        print("üìù Las respuestas est√°n capturadas - puedes evaluar manualmente en la interfaz")
        
        # Mostrar informaci√≥n del experimento
        if hasattr(experiment_results, 'experiment_name'):
            print(f"üìä Nombre del experimento: {experiment_results.experiment_name}")
            
    except Exception as e:
        print(f"‚ùå Error en evaluaci√≥n con LangSmith: {e}")
        print("üîÑ Continuando con evaluaci√≥n manual local...")
        
else:
    print("‚ö†Ô∏è LangSmith no configurado, usando evaluaci√≥n manual √∫nicamente.")

In [None]:
def comprehensive_manual_evaluation():
    """Evaluaci√≥n manual completa con m√∫ltiples m√©tricas."""
    print("üîç Ejecutando evaluaci√≥n manual completa...")
    print("=" * 60)
    
    results = []
    total_time = 0
    
    for i, example in enumerate(comprehensive_examples, 1):
        query = example["inputs"]["query"]
        expected = example["outputs"]["answer"]
        category = example["metadata"]["category"]
        difficulty = example["metadata"]["difficulty"]
        
        print(f"\nüìù Ejemplo {i}/{len(comprehensive_examples)}")
        print(f"Categor√≠a: {category} | Dificultad: {difficulty}")
        print(f"Pregunta: {query}")
        
        # Medir tiempo de respuesta
        import time
        start_time = time.time()
        
        # Ejecutar pipeline
        result = rag_pipeline(query)
        
        end_time = time.time()
        response_time = end_time - start_time
        total_time += response_time
        
        generated = result["answer"]
        context_docs = result["context"]
        
        print(f"Respuesta generada: {generated}")
        print(f"Respuesta esperada: {expected}")
        print(f"Documentos recuperados: {len(context_docs)}")
        print(f"Tiempo de respuesta: {response_time:.2f}s")
        
        # M√∫ltiples m√©tricas de evaluaci√≥n
        
        # 1. Similitud de palabras (Jaccard)
        expected_words = set(expected.lower().split())
        generated_words = set(generated.lower().split())
        
        if len(expected_words) > 0:
            jaccard_similarity = len(expected_words.intersection(generated_words)) / len(expected_words.union(generated_words))
        else:
            jaccard_similarity = 0
        
        # 2. Contenci√≥n (¬øLa respuesta contiene conceptos clave?)
        key_concepts = ["inteligencia artificial", "llm", "rag", "langchain", "prompt engineering"]
        concepts_in_expected = [concept for concept in key_concepts if concept in expected.lower()]
        concepts_in_generated = [concept for concept in key_concepts if concept in generated.lower()]
        
        concept_coverage = len(concepts_in_generated) / max(1, len(concepts_in_expected)) if concepts_in_expected else 1
        
        # 3. Evaluaci√≥n de recuperaci√≥n
        expected_docs = example["metadata"]["expected_docs"]
        retrieval_success = len(context_docs) >= expected_docs if expected_docs > 0 else len(context_docs) == 0
        
        # 4. Longitud de respuesta (relativa a la esperada)
        length_ratio = len(generated) / max(1, len(expected))
        length_score = 1.0 if 0.5 <= length_ratio <= 2.0 else max(0, 1 - abs(length_ratio - 1))
        
        # 5. Detecci√≥n de "no puedo responder"
        no_answer_phrases = ["no puedo responder", "no se puede responder", "no est√° disponible", "no tengo informaci√≥n"]
        contains_no_answer = any(phrase in generated.lower() for phrase in no_answer_phrases)
        should_have_no_answer = expected_docs == 0
        no_answer_correct = (contains_no_answer and should_have_no_answer) or (not contains_no_answer and not should_have_no_answer)
        
        # Puntuaci√≥n compuesta
        composite_score = (
            jaccard_similarity * 0.3 +
            concept_coverage * 0.2 +
            (1.0 if retrieval_success else 0.0) * 0.2 +
            length_score * 0.15 +
            (1.0 if no_answer_correct else 0.0) * 0.15
        )
        
        result_data = {
            "query": query,
            "expected": expected,
            "generated": generated,
            "category": category,
            "difficulty": difficulty,
            "context_docs": len(context_docs),
            "response_time": response_time,
            "jaccard_similarity": jaccard_similarity,
            "concept_coverage": concept_coverage,
            "retrieval_success": retrieval_success,
            "length_score": length_score,
            "no_answer_correct": no_answer_correct,
            "composite_score": composite_score
        }
        
        results.append(result_data)
        
        print(f"Similitud Jaccard: {jaccard_similarity:.3f}")
        print(f"Cobertura conceptos: {concept_coverage:.3f}")
        print(f"Recuperaci√≥n exitosa: {'‚úÖ' if retrieval_success else '‚ùå'}")
        print(f"Puntuaci√≥n compuesta: {composite_score:.3f}")
        print("-" * 50)
    
    # An√°lisis de resultados
    print(f"\nüìä RESUMEN DE EVALUACI√ìN COMPLETA")
    print("=" * 60)
    
    avg_jaccard = sum(r["jaccard_similarity"] for r in results) / len(results)
    avg_concept = sum(r["concept_coverage"] for r in results) / len(results)
    avg_composite = sum(r["composite_score"] for r in results) / len(results)
    avg_time = total_time / len(results)
    retrieval_rate = sum(r["retrieval_success"] for r in results) / len(results)
    
    print(f"Similitud Jaccard promedio: {avg_jaccard:.3f}")
    print(f"Cobertura de conceptos promedio: {avg_concept:.3f}")
    print(f"Tasa de recuperaci√≥n exitosa: {retrieval_rate:.3f}")
    print(f"Tiempo promedio de respuesta: {avg_time:.2f}s")
    print(f"Puntuaci√≥n compuesta promedio: {avg_composite:.3f}")
    
    # An√°lisis por categor√≠a
    print(f"\nüìà An√°lisis por categor√≠a:")
    category_stats = {}
    for r in results:
        cat = r["category"]
        if cat not in category_stats:
            category_stats[cat] = []
        category_stats[cat].append(r["composite_score"])
    
    for cat, scores in category_stats.items():
        avg_score = sum(scores) / len(scores)
        print(f"  {cat}: {avg_score:.3f} ({len(scores)} ejemplos)")
    
    # An√°lisis por dificultad
    print(f"\nüéØ An√°lisis por dificultad:")
    difficulty_stats = {}
    for r in results:
        diff = r["difficulty"]
        if diff not in difficulty_stats:
            difficulty_stats[diff] = []
        difficulty_stats[diff].append(r["composite_score"])
    
    for diff, scores in difficulty_stats.items():
        avg_score = sum(scores) / len(scores)
        print(f"  {diff}: {avg_score:.3f} ({len(scores)} ejemplos)")
    
    return results

# Ejecutar evaluaci√≥n manual completa
comprehensive_results = comprehensive_manual_evaluation()

## 6. An√°lisis de Resultados y Mejoras

Bas√°ndose en los resultados de la evaluaci√≥n, aqu√≠ tienes algunas √°reas comunes de mejora para sistemas RAG:

In [None]:
def analyze_results_detailed(results):
    """Analiza los resultados y sugiere mejoras espec√≠ficas."""
    print("üìà An√°lisis Detallado de Resultados:")
    print("=" * 50)
    
    if not results:
        print("‚ö†Ô∏è No hay resultados para analizar")
        return
    
    # Estad√≠sticas generales
    avg_composite = sum(r["composite_score"] for r in results) / len(results)
    avg_jaccard = sum(r["jaccard_similarity"] for r in results) / len(results)
    retrieval_rate = sum(r["retrieval_success"] for r in results) / len(results)
    avg_time = sum(r["response_time"] for r in results) / len(results)
    
    print(f"Puntuaci√≥n compuesta promedio: {avg_composite:.3f}")
    print(f"Similitud Jaccard promedio: {avg_jaccard:.3f}")
    print(f"Tasa de recuperaci√≥n exitosa: {retrieval_rate:.3f}")
    print(f"Tiempo promedio de respuesta: {avg_time:.2f}s")
    
    # Identificar problemas espec√≠ficos
    problems = []
    
    if avg_composite < 0.6:
        problems.append("Puntuaci√≥n general baja")
    if avg_jaccard < 0.3:
        problems.append("Baja similitud en las respuestas")
    if retrieval_rate < 0.7:
        problems.append("Problemas en la recuperaci√≥n de documentos")
    if avg_time > 5.0:
        problems.append("Tiempo de respuesta lento")
    
    # Encontrar casos problem√°ticos
    low_performance = [r for r in results if r["composite_score"] < 0.4]
    retrieval_failures = [r for r in results if not r["retrieval_success"]]
    
    print(f"\nüö® Problemas identificados:")
    if problems:
        for problem in problems:
            print(f"  ‚Ä¢ {problem}")
    else:
        print("  ‚úÖ No se identificaron problemas mayores")
    
    if low_performance:
        print(f"\nüìâ Casos de bajo rendimiento ({len(low_performance)}):")
        for case in low_performance[:3]:  # Mostrar solo los primeros 3
            print(f"  ‚Ä¢ '{case['query'][:50]}...' (Score: {case['composite_score']:.3f})")
    
    if retrieval_failures:
        print(f"\nüîç Fallos de recuperaci√≥n ({len(retrieval_failures)}):")
        for case in retrieval_failures[:3]:
            print(f"  ‚Ä¢ '{case['query'][:50]}...' (Docs: {case['context_docs']})")
    
    # Recomendaciones espec√≠ficas
    print(f"\nüí° Recomendaciones espec√≠ficas:")
    
    if avg_jaccard < 0.3:
        print("  üîß Mejorar la generaci√≥n de respuestas:")
        print("    - Refinar el prompt de generaci√≥n")
        print("    - Usar ejemplos few-shot")
        print("    - Ajustar la temperatura del modelo")
    
    if retrieval_rate < 0.7:
        print("  üîß Mejorar la recuperaci√≥n:")
        print("    - Implementar b√∫squeda sem√°ntica con embeddings")
        print("    - Ajustar umbrales de similitud")
        print("    - Expandir la base de documentos")
    
    if avg_time > 3.0:
        print("  üîß Optimizar rendimiento:")
        print("    - Usar modelos m√°s r√°pidos para recuperaci√≥n")
        print("    - Implementar cache de respuestas")
        print("    - Paralelizar operaciones cuando sea posible")
    
    print(f"\nüîß Estrategias generales de mejora:")
    print("1. Implementar embeddings sem√°nticos (OpenAI, Sentence Transformers)")
    print("2. Usar re-ranking de documentos recuperados")
    print("3. Implementar query expansion y refinement")
    print("4. A√±adir evaluaci√≥n de confianza en las respuestas")
    print("5. Crear un sistema de feedback para mejorar continuamente")

# Analizar resultados detallados
analyze_results_detailed(comprehensive_results)

## 7. Ejemplo de Mejora: Sistema RAG con Embeddings

Como ejemplo de mejora, aqu√≠ tienes una versi√≥n mejorada que usa embeddings sem√°nticos:

In [None]:
# Versi√≥n mejorada con TF-IDF (como alternativa a embeddings reales)
class ImprovedRAGSystem:
    def __init__(self, documents):
        self.documents = documents
        self.vectorizer = TfidfVectorizer(
            stop_words='english',
            ngram_range=(1, 2),  # Usar unigramas y bigramas
            max_features=1000,   # Limitar caracter√≠sticas
            lowercase=True
        )
        self.doc_vectors = self.vectorizer.fit_transform(documents)
        print(f"‚úÖ Sistema mejorado inicializado con {len(documents)} documentos")
    
    @traceable(name="Recuperacion Semantica Mejorada")
    def semantic_retrieval(self, query, top_k=3, threshold=0.1):
        """Recuperaci√≥n basada en similitud sem√°ntica usando TF-IDF."""
        query_vector = self.vectorizer.transform([query])
        similarities = cosine_similarity(query_vector, self.doc_vectors)[0]
        
        # Obtener los √≠ndices de los documentos m√°s similares
        top_indices = np.argsort(similarities)[-top_k:][::-1]
        
        relevant_docs = []
        similarity_scores = []
        
        for i in top_indices:
            if similarities[i] > threshold:
                relevant_docs.append(self.documents[i])
                similarity_scores.append(similarities[i])
        
        return relevant_docs, similarity_scores
    
    @traceable(name="Generacion de Respuesta Mejorada")
    def generate_enhanced_response(self, query, context_docs, similarity_scores):
        """Genera respuesta con contexto enriquecido."""
        if not context_docs:
            return "No se encontr√≥ informaci√≥n relevante para responder la pregunta."
        
        # Crear contexto enriquecido con puntuaciones de similitud
        enriched_context = "Informaci√≥n relevante encontrada:\n\n"
        for i, (doc, score) in enumerate(zip(context_docs, similarity_scores), 1):
            enriched_context += f"Documento {i} (relevancia: {score:.3f}):\n{doc}\n\n"
        
        prompt = f"""Bas√°ndote en la informaci√≥n proporcionada, responde la siguiente pregunta de manera precisa y completa.

{enriched_context}

Pregunta: {query}

Instrucciones:
- Usa √∫nicamente la informaci√≥n proporcionada en los documentos
- Si la informaci√≥n no est√° disponible, indica claramente que no puedes responder
- S√© preciso y directo en tu respuesta
- Si hay m√∫ltiples documentos relevantes, sintetiza la informaci√≥n

Respuesta:"""
        
        try:
            response = openai_client.chat.completions.create(
                model="gpt-4o",
                messages=[{"role": "user", "content": prompt}],
                temperature=0.1,
                max_tokens=300
            )
            return response.choices[0].message.content
        except Exception as e:
            print(f"Error al generar respuesta: {e}")
            return "Error al generar la respuesta."
    
    @traceable(name="Pipeline RAG Mejorado Completo")
    def improved_rag_pipeline(self, query):
        """Pipeline RAG mejorado con recuperaci√≥n sem√°ntica y generaci√≥n enriquecida."""
        context_docs, similarity_scores = self.semantic_retrieval(query)
        answer = self.generate_enhanced_response(query, context_docs, similarity_scores)
        
        return {
            "answer": answer,
            "context": context_docs,
            "similarity_scores": similarity_scores,
            "query": query,
            "num_docs_retrieved": len(context_docs)
        }

# Crear sistema mejorado
improved_system = ImprovedRAGSystem(documents)

print("‚úÖ Sistema RAG mejorado creado con TF-IDF sem√°ntico")

In [None]:
def compare_systems_comprehensive():
    """Compara el sistema original con el mejorado de forma detallada."""
    print("üîç Comparaci√≥n Comprensiva de Sistemas RAG")
    print("=" * 60)
    
    test_queries = [
        "¬øQu√© es la inteligencia artificial?",
        "¬øC√≥mo funciona RAG?", 
        "Explica los modelos de lenguaje",
        "¬øQu√© herramientas usa LangChain?",
        "¬øQu√© es el deep learning?"  # Esta no deber√≠a tener respuesta clara
    ]
    
    comparison_results = []
    
    for i, query in enumerate(test_queries, 1):
        print(f"\nüîç Prueba {i}: '{query}'")
        print("-" * 50)
        
        # Medir tiempo sistema original
        import time
        start_time = time.time()
        original_result = rag_pipeline(query)
        original_time = time.time() - start_time
        
        # Medir tiempo sistema mejorado
        start_time = time.time()
        improved_result = improved_system.improved_rag_pipeline(query)
        improved_time = time.time() - start_time
        
        print("Sistema Original:")
        print(f"  Respuesta: {original_result['answer'][:200]}...")
        print(f"  Documentos recuperados: {len(original_result['context'])}")
        print(f"  Tiempo: {original_time:.3f}s")
        
        print("\nSistema Mejorado:")
        print(f"  Respuesta: {improved_result['answer'][:200]}...")
        print(f"  Documentos recuperados: {len(improved_result['context'])}")
        if improved_result.get('similarity_scores'):
            avg_similarity = sum(improved_result['similarity_scores']) / len(improved_result['similarity_scores'])
            print(f"  Similitud promedio: {avg_similarity:.3f}")
        print(f"  Tiempo: {improved_time:.3f}s")
        
        # Calcular m√©tricas de comparaci√≥n
        original_length = len(original_result['answer'])
        improved_length = len(improved_result['answer'])
        
        comparison_data = {
            "query": query,
            "original_docs": len(original_result['context']),
            "improved_docs": len(improved_result['context']),
            "original_time": original_time,
            "improved_time": improved_time,
            "original_length": original_length,
            "improved_length": improved_length,
            "time_improvement": ((original_time - improved_time) / original_time * 100) if original_time > 0 else 0
        }
        
        comparison_results.append(comparison_data)
        
        print(f"Mejora en tiempo: {comparison_data['time_improvement']:+.1f}%")
    
    # Resumen de comparaci√≥n
    print(f"\nüìä RESUMEN DE COMPARACI√ìN")
    print("=" * 40)
    
    avg_original_time = sum(r["original_time"] for r in comparison_results) / len(comparison_results)
    avg_improved_time = sum(r["improved_time"] for r in comparison_results) / len(comparison_results)
    avg_time_improvement = sum(r["time_improvement"] for r in comparison_results) / len(comparison_results)
    
    print(f"Tiempo promedio original: {avg_original_time:.3f}s")
    print(f"Tiempo promedio mejorado: {avg_improved_time:.3f}s")
    print(f"Mejora promedio en tiempo: {avg_time_improvement:+.1f}%")
    
    return comparison_results

# Ejecutar comparaci√≥n
comparison_data = compare_systems_comprehensive()

In [None]:
def evaluate_improved_system_complete():
    """Eval√∫a el sistema mejorado con el mismo dataset usando las mismas m√©tricas."""
    print("üöÄ Evaluando Sistema RAG Mejorado...")
    print("=" * 50)
    
    improved_results = []
    
    for i, example in enumerate(comprehensive_examples, 1):
        query = example["inputs"]["query"]
        expected = example["outputs"]["answer"]
        category = example["metadata"]["category"]
        difficulty = example["metadata"]["difficulty"]
        
        print(f"Evaluando ejemplo {i}/{len(comprehensive_examples)}: {category}")
        
        # Ejecutar pipeline mejorado
        import time
        start_time = time.time()
        result = improved_system.improved_rag_pipeline(query)
        response_time = time.time() - start_time
        
        generated = result["answer"]
        context_docs = result["context"]
        similarity_scores = result.get("similarity_scores", [])
        
        # Aplicar las mismas m√©tricas que la evaluaci√≥n manual
        expected_words = set(expected.lower().split())
        generated_words = set(generated.lower().split())
        
        if len(expected_words) > 0:
            jaccard_similarity = len(expected_words.intersection(generated_words)) / len(expected_words.union(generated_words))
        else:
            jaccard_similarity = 0
        
        # Cobertura de conceptos
        key_concepts = ["inteligencia artificial", "llm", "rag", "langchain", "prompt engineering"]
        concepts_in_expected = [concept for concept in key_concepts if concept in expected.lower()]
        concepts_in_generated = [concept for concept in key_concepts if concept in generated.lower()]
        concept_coverage = len(concepts_in_generated) / max(1, len(concepts_in_expected)) if concepts_in_expected else 1
        
        # Evaluaci√≥n de recuperaci√≥n
        expected_docs = example["metadata"]["expected_docs"]
        retrieval_success = len(context_docs) >= expected_docs if expected_docs > 0 else len(context_docs) == 0
        
        # Longitud de respuesta
        length_ratio = len(generated) / max(1, len(expected))
        length_score = 1.0 if 0.5 <= length_ratio <= 2.0 else max(0, 1 - abs(length_ratio - 1))
        
        # Detecci√≥n de "no puedo responder"
        no_answer_phrases = ["no puedo responder", "no se puede responder", "no est√° disponible", "no tengo informaci√≥n"]
        contains_no_answer = any(phrase in generated.lower() for phrase in no_answer_phrases)
        should_have_no_answer = expected_docs == 0
        no_answer_correct = (contains_no_answer and should_have_no_answer) or (not contains_no_answer and not should_have_no_answer)
        
        # Puntuaci√≥n compuesta (misma f√≥rmula)
        composite_score = (
            jaccard_similarity * 0.3 +
            concept_coverage * 0.2 +
            (1.0 if retrieval_success else 0.0) * 0.2 +
            length_score * 0.15 +
            (1.0 if no_answer_correct else 0.0) * 0.15
        )
        
        # M√©trica adicional: calidad de recuperaci√≥n sem√°ntica
        avg_semantic_similarity = sum(similarity_scores) / len(similarity_scores) if similarity_scores else 0
        
        result_data = {
            "query": query,
            "expected": expected,
            "generated": generated,
            "category": category,
            "difficulty": difficulty,
            "context_docs": len(context_docs),
            "response_time": response_time,
            "jaccard_similarity": jaccard_similarity,
            "concept_coverage": concept_coverage,
            "retrieval_success": retrieval_success,
            "length_score": length_score,
            "no_answer_correct": no_answer_correct,
            "composite_score": composite_score,
            "avg_semantic_similarity": avg_semantic_similarity
        }
        
        improved_results.append(result_data)
    
    # Calcular estad√≠sticas mejoradas
    avg_composite_improved = sum(r["composite_score"] for r in improved_results) / len(improved_results)
    avg_jaccard_improved = sum(r["jaccard_similarity"] for r in improved_results) / len(improved_results)
    retrieval_rate_improved = sum(r["retrieval_success"] for r in improved_results) / len(improved_results)
    avg_semantic_improved = sum(r["avg_semantic_similarity"] for r in improved_results) / len(improved_results)
    
    print(f"\nüìä Resultados del Sistema Mejorado:")
    print(f"Puntuaci√≥n compuesta promedio: {avg_composite_improved:.3f}")
    print(f"Similitud Jaccard promedio: {avg_jaccard_improved:.3f}")
    print(f"Tasa de recuperaci√≥n exitosa: {retrieval_rate_improved:.3f}")
    print(f"Similitud sem√°ntica promedio: {avg_semantic_improved:.3f}")
    
    # Comparar con resultados originales
    if 'comprehensive_results' in globals():
        original_avg = sum(r["composite_score"] for r in comprehensive_results) / len(comprehensive_results)
        original_jaccard = sum(r["jaccard_similarity"] for r in comprehensive_results) / len(comprehensive_results)
        original_retrieval = sum(r["retrieval_success"] for r in comprehensive_results) / len(comprehensive_results)
        
        print(f"\nüìà Comparaci√≥n con Sistema Original:")
        print(f"Mejora en puntuaci√≥n compuesta: {((avg_composite_improved - original_avg) / original_avg * 100):+.1f}%")
        print(f"Mejora en similitud Jaccard: {((avg_jaccard_improved - original_jaccard) / original_jaccard * 100):+.1f}%")
        print(f"Mejora en recuperaci√≥n: {((retrieval_rate_improved - original_retrieval) / original_retrieval * 100):+.1f}%")
    
    return improved_results

# Evaluar sistema mejorado
improved_evaluation_results = evaluate_improved_system_complete()

### A√±adir Ejemplos al Dataset

Cada ejemplo consta de:
- `inputs`: Un diccionario con las entradas de nuestro sistema (en este caso, la `query`).
- `outputs`: Un diccionario con la salida de referencia que esperamos (la `answer` correcta).

In [None]:
client.create_example(
    inputs={"query": "¬øQu√© es la inteligencia artificial?"},
    outputs={"answer": "La inteligencia artificial es una rama de la inform√°tica que busca crear m√°quinas capaces de realizar tareas que requieren inteligencia humana."},
    dataset_id=dataset.id,
)

client.create_example(
    inputs={"query": "¬øPara qu√© sirve LangChain?"},
    outputs={"answer": "LangChain es un framework que facilita el desarrollo de aplicaciones con modelos de lenguaje, proporcionando herramientas para cadenas y agentes."},
    dataset_id=dataset.id,
)

client.create_example(
    inputs={"query": "Explica qu√© es RAG"},
    outputs={"answer": "RAG (Retrieval-Augmented Generation) combina la b√∫squeda de informaci√≥n relevante con la generaci√≥n de texto para producir respuestas m√°s precisas."},
    dataset_id=dataset.id,
)

print(f"‚úÖ 3 ejemplos a√±adidos al dataset '{dataset_name}'.")

## 8. An√°lisis de Resultados

Una vez completada la evaluaci√≥n, puedes navegar a la pesta√±a **Experiments** en tu proyecto de LangSmith.

All√≠ encontrar√°s:
1. Un resumen del experimento con las puntuaciones medias de cada m√©trica.
2. Una tabla detallada con cada pregunta del dataset, la respuesta generada, la respuesta de referencia y las puntuaciones de la evaluaci√≥n.
3. Para cada fila, puedes hacer clic para ver la traza completa y entender por qu√© el sistema respondi√≥ de esa manera (qu√© documentos recuper√≥, qu√© prompt se us√≥, etc.).

Este an√°lisis te permite identificar puntos d√©biles. Por ejemplo:
- **Puntuaciones bajas de `correctness`**: Puede que la recuperaci√≥n no est√© funcionando bien o que el prompt de generaci√≥n necesite ajustes.
- **Documentos irrelevantes en el contexto**: Indica que el m√©todo de `retrieval` debe ser mejorado (por ejemplo, pasando de b√∫squeda por palabras clave a b√∫squeda sem√°ntica con embeddings).

## Conclusi√≥n

La evaluaci√≥n es un pilar fundamental en el desarrollo de sistemas de IA robustos. LangSmith nos ofrece un conjunto de herramientas poderosas para automatizar este proceso en sistemas RAG, permiti√©ndonos pasar de un desarrollo basado en la intuici√≥n a uno guiado por datos y m√©tricas objetivas. Con este enfoque, podemos mejorar de forma iterativa la calidad y fiabilidad de nuestras aplicaciones.