# üî¨ Grafo V2: Prompts Divididos

Este notebook implementa **una versi√≥n avanzada del grafo** que divide el prompt monol√≠tico en m√∫ltiples nodos especializados.

## üéØ Objetivo

Tener **m√°xima observabilidad y control** dividiendo el proceso de codificaci√≥n en:

1. **Validar** ‚Üí Filtrar respuestas inv√°lidas
2. **Buscar en Cat√°logo** ‚Üí Match con c√≥digos hist√≥ricos
3. **Generar Nuevos** ‚Üí Crear c√≥digos para lo no cubierto
4. **Justificar** ‚Üí Explicar las decisiones
5. **Ensamblar** ‚Üí Combinar resultados

---

## üìä Comparaci√≥n V1 vs V2

| Aspecto | V1 (Simple) | V2 (Dividido) |
|---------|-------------|---------------|
| **Llamadas GPT/batch** | 1 | 4 |
| **Observabilidad** | ‚ùå Baja | ‚úÖ Alta |
| **Modificabilidad** | ‚ö†Ô∏è Media | ‚úÖ Alta |
| **Costo** | ‚úÖ Menor | ‚ö†Ô∏è Mayor |
| **Control granular** | ‚ùå No | ‚úÖ S√≠ |

---

## ‚ö†Ô∏è Cu√°ndo Usar V2

- ‚úÖ Necesitas entender **exactamente** qu√© hace cada paso
- ‚úÖ Quieres **ajustar** solo una parte del proceso
- ‚úÖ Est√°s **experimentando** con diferentes estrategias
- ‚úÖ Necesitas **auditor√≠a** detallada

---


## üìã Prerrequisitos

Este notebook **extiende** el notebook 03. Puedes:

1. **Opci√≥n A:** Ejecutar las celdas 1-7 del notebook 03 primero
2. **Opci√≥n B:** Copiar las celdas de setup aqu√≠

**Necesitas:**
- ‚úÖ Respuestas cargadas (`respuestas_reales`)
- ‚úÖ Cat√°logo hist√≥rico (`catalogo_historico`)
- ‚úÖ Configuraci√≥n (`MODELO_GPT`, `BATCH_SIZE`, etc.)

---


In [None]:
# ========================================
# üì¶ REUTILIZAR SETUP DEL NOTEBOOK 03
# ========================================

# Opci√≥n 1: Ejecutar el notebook 03 completo
%run 03_experimentacion_real.ipynb

print("‚úÖ Setup del notebook 03 cargado")
print("‚úÖ Variables disponibles: respuestas_reales, catalogo_historico, etc.")


---

## üî¨ Paso 1: Definir Esquemas Pydantic Especializados

Cada nodo tiene su propio esquema de salida:

---


In [None]:
# ========================================
# üì¶ ESQUEMAS PYDANTIC V2
# ========================================

from pydantic import BaseModel, Field
from typing import List

# 1Ô∏è‚É£ Validaci√≥n
class ValidacionRespuesta(BaseModel):
    respuesta_id: int = Field(description="ID de la respuesta (1-based)")
    es_valida: bool = Field(description="True si la respuesta tiene contenido √∫til")
    razon: str = Field(description="Breve raz√≥n de por qu√© es v√°lida o no")

class ResultadoValidacion(BaseModel):
    validaciones: List[ValidacionRespuesta]

# 2Ô∏è‚É£ B√∫squeda en Cat√°logo
class CodigoHistoricoMatch(BaseModel):
    codigo: int = Field(description="C√≥digo del cat√°logo hist√≥rico")
    relevancia: float = Field(description="Qu√© tan relevante es (0.0-1.0)", ge=0.0, le=1.0)

class BusquedaCatalogo(BaseModel):
    respuesta_id: int
    codigos_historicos: List[CodigoHistoricoMatch] = Field(
        default_factory=list,
        description="C√≥digos hist√≥ricos que aplican"
    )

class ResultadoBusqueda(BaseModel):
    busquedas: List[BusquedaCatalogo]

# 3Ô∏è‚É£ Generaci√≥n de Nuevos C√≥digos
class CodigoNuevo(BaseModel):
    descripcion: str = Field(description="Descripci√≥n espec√≠fica del concepto")

class GeneracionNuevos(BaseModel):
    respuesta_id: int
    codigos_nuevos: List[CodigoNuevo] = Field(
        default_factory=list,
        description="C√≥digos nuevos a crear"
    )

class ResultadoGeneracion(BaseModel):
    generaciones: List[GeneracionNuevos]

# 4Ô∏è‚É£ Justificaci√≥n
class Justificacion(BaseModel):
    respuesta_id: int
    justificacion: str = Field(description="Explicaci√≥n de la codificaci√≥n")

class ResultadoJustificacion(BaseModel):
    justificaciones: List[Justificacion]

print("‚úÖ Esquemas Pydantic V2 definidos")
print(f"   ‚Ä¢ ValidacionRespuesta")
print(f"   ‚Ä¢ BusquedaCatalogo")
print(f"   ‚Ä¢ GeneracionNuevos")
print(f"   ‚Ä¢ Justificacion")


---

## üèóÔ∏è Paso 2: Definir Nodos del Grafo V2

Implementaci√≥n de los 5 nodos especializados:

---


In [None]:
# ========================================
# üèóÔ∏è NODOS DEL GRAFO V2
# ========================================

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

# NOTA: Reutilizamos nodos del notebook 03 que no cambian:
# - nodo_inicializar
# - nodo_preparar_batch  
# - nodo_incrementar_batch
# - nodo_normalizar
# - nodo_finalizar
# - decidir_continuar

# Solo definimos los nodos NUEVOS especializados:

def nodo_validar_respuestas_v2(state: EstadoCodificacion) -> EstadoCodificacion:
    """Paso 1: Valida qu√© respuestas son √∫tiles"""
    print(f"\n‚úÖ Validando {len(state['batch_respuestas'])} respuestas...")
    
    respuestas_str = "\n".join([
        f"{i+1}. {r['texto']}"
        for i, r in enumerate(state["batch_respuestas"])
    ])
    
    prompt = ChatPromptTemplate.from_messages([
        ("system", """Eres un experto en filtrar respuestas de encuestas.

RECHAZAR si:
- Est√° vac√≠a o solo tiene "-" o "."
- Es incomprensible
- No responde a la pregunta

ACEPTAR si tiene contenido relevante.

Responde en formato JSON."""),
        ("user", "PREGUNTA: {pregunta}\n\nRESPUESTAS:\n{respuestas}")
    ])
    
    llm = ChatOpenAI(model=state["modelo_gpt"], temperature=0)
    chain = prompt | llm.with_structured_output(ResultadoValidacion)
    
    resultado = chain.invoke({
        "pregunta": state["pregunta"],
        "respuestas": respuestas_str
    })
    
    validas = sum(1 for v in resultado.validaciones if v.es_valida)
    print(f"   ‚úÖ V√°lidas: {validas}/{len(resultado.validaciones)}")
    
    return {
        **state,
        "validaciones_batch": [v.model_dump() for v in resultado.validaciones]
    }


def nodo_buscar_en_catalogo_v2(state: EstadoCodificacion) -> EstadoCodificacion:
    """Paso 2: Busca c√≥digos hist√≥ricos relevantes"""
    
    # Solo procesar las v√°lidas
    validas = [
        (i, resp) 
        for i, (resp, val) in enumerate(zip(
            state["batch_respuestas"],
            state["validaciones_batch"]
        ))
        if val["es_valida"]
    ]
    
    if not validas or not state["catalogo"]:
        print(f"   ‚ö†Ô∏è  Sin respuestas v√°lidas o sin cat√°logo")
        return {**state, "busquedas_batch": []}
    
    print(f"\nüîç Buscando c√≥digos hist√≥ricos para {len(validas)} respuestas...")
    
    respuestas_validas_str = "\n".join([
        f"{idx+1}. {resp['texto']}"
        for idx, resp in validas
    ])
    
    catalogo_str = "\n".join([
        f"- C√≥digo {c['codigo']}: {c['descripcion']}"
        for c in state["catalogo"][:30]
    ])
    
    prompt = ChatPromptTemplate.from_messages([
        ("system", f"""Eres un experto en matching sem√°ntico.

CAT√ÅLOGO:
{catalogo_str}

Identifica c√≥digos del cat√°logo relevantes para cada respuesta.
- Relevancia de 0.0 a 1.0
- Solo incluye si relevancia >= 0.7
- Puedes asignar m√∫ltiples c√≥digos

Responde en JSON."""),
        ("user", "PREGUNTA: {pregunta}\n\nRESPUESTAS:\n{respuestas}")
    ])
    
    llm = ChatOpenAI(model=state["modelo_gpt"], temperature=0)
    chain = prompt | llm.with_structured_output(ResultadoBusqueda)
    
    resultado = chain.invoke({
        "pregunta": state["pregunta"],
        "respuestas": respuestas_validas_str
    })
    
    total_matches = sum(len(b.codigos_historicos) for b in resultado.busquedas)
    print(f"   ‚úÖ Matches encontrados: {total_matches}")
    
    return {
        **state,
        "busquedas_batch": [b.model_dump() for b in resultado.busquedas]
    }


def nodo_generar_nuevos_v2(state: EstadoCodificacion) -> EstadoCodificacion:
    """Paso 3: Genera c√≥digos nuevos para lo no cubierto"""
    
    respuestas_sin_match = []
    
    for i, (resp, val) in enumerate(zip(
        state["batch_respuestas"],
        state["validaciones_batch"]
    )):
        if not val["es_valida"]:
            continue
        
        busqueda = next(
            (b for b in state["busquedas_batch"] if b["respuesta_id"] == i+1),
            None
        )
        
        if not busqueda or len(busqueda["codigos_historicos"]) == 0:
            respuestas_sin_match.append((i+1, resp["texto"]))
    
    if not respuestas_sin_match:
        print(f"   ‚úÖ Todas cubiertas con c√≥digos hist√≥ricos")
        return {**state, "generaciones_batch": []}
    
    print(f"\nüÜï Generando c√≥digos nuevos para {len(respuestas_sin_match)} respuestas...")
    
    respuestas_str = "\n".join([
        f"{resp_id}. {texto}"
        for resp_id, texto in respuestas_sin_match
    ])
    
    prompt = ChatPromptTemplate.from_messages([
        ("system", """Eres un experto en crear c√≥digos de categorizaci√≥n.

REGLAS:
1. Descripciones ESPEC√çFICAS:
   ‚úÖ "Versatilidad de uso"
   ‚ùå "Versatilidad" (muy gen√©rico)

2. UNIFICA conceptos similares
3. Puedes asignar M√öLTIPLES c√≥digos
4. S√© CONSISTENTE

Responde en JSON."""),
        ("user", "PREGUNTA: {pregunta}\n\nRESPUESTAS:\n{respuestas}")
    ])
    
    llm = ChatOpenAI(model=state["modelo_gpt"], temperature=0)
    chain = prompt | llm.with_structured_output(ResultadoGeneracion)
    
    resultado = chain.invoke({
        "pregunta": state["pregunta"],
        "respuestas": respuestas_str
    })
    
    total_nuevos = sum(len(g.codigos_nuevos) for g in resultado.generaciones)
    print(f"   ‚úÖ C√≥digos nuevos: {total_nuevos}")
    
    return {
        **state,
        "generaciones_batch": [g.model_dump() for g in resultado.generaciones]
    }


def nodo_justificar_v2(state: EstadoCodificacion) -> EstadoCodificacion:
    """Paso 4: Genera justificaciones"""
    print(f"\nüìù Generando justificaciones...")
    
    resumen_decisiones = []
    
    for i, (resp, val) in enumerate(zip(
        state["batch_respuestas"],
        state["validaciones_batch"]
    )):
        resp_id = i + 1
        
        if not val["es_valida"]:
            resumen_decisiones.append(
                f"{resp_id}. RECHAZADA: {val['razon']}"
            )
            continue
        
        busqueda = next(
            (b for b in state["busquedas_batch"] if b["respuesta_id"] == resp_id),
            {"codigos_historicos": []}
        )
        
        generacion = next(
            (g for g in state["generaciones_batch"] if g["respuesta_id"] == resp_id),
            {"codigos_nuevos": []}
        )
        
        resumen_decisiones.append(
            f"{resp_id}. Hist:{len(busqueda.get('codigos_historicos', []))} "
            f"Nuevos:{len(generacion.get('codigos_nuevos', []))}"
        )
    
    resumen_str = "\n".join(resumen_decisiones)
    
    prompt = ChatPromptTemplate.from_messages([
        ("system", """Genera justificaciones BREVES (1-2 oraciones) explicando:
- Por qu√© se rechaz√≥
- Por qu√© se usaron c√≥digos hist√≥ricos
- Por qu√© se crearon nuevos

S√© CONCISO. Responde en JSON."""),
        ("user", "DECISIONES:\n{resumen}")
    ])
    
    llm = ChatOpenAI(model=state["modelo_gpt"], temperature=0)
    chain = prompt | llm.with_structured_output(ResultadoJustificacion)
    
    resultado = chain.invoke({"resumen": resumen_str})
    
    print(f"   ‚úÖ Justificaciones generadas")
    
    return {
        **state,
        "justificaciones_batch": [j.model_dump() for j in resultado.justificaciones]
    }


def nodo_ensamblar_resultados_v2(state: EstadoCodificacion) -> EstadoCodificacion:
    """Paso 5: Ensambla resultados finales"""
    print(f"\nüîß Ensamblando resultados...")
    
    codificaciones_batch = []
    
    for i, (resp, val) in enumerate(zip(
        state["batch_respuestas"],
        state["validaciones_batch"]
    )):
        resp_id = i + 1
        
        justif = next(
            (j for j in state["justificaciones_batch"] if j["respuesta_id"] == resp_id),
            {"justificacion": "Sin justificaci√≥n"}
        )
        
        if not val["es_valida"]:
            codificaciones_batch.append({
                "fila_excel": resp["fila_excel"],
                "texto": resp["texto"],
                "decision": "rechazar",
                "codigos_historicos": [],
                "codigos_nuevos": [],
                "justificacion": justif["justificacion"]
            })
            continue
        
        busqueda = next(
            (b for b in state["busquedas_batch"] if b["respuesta_id"] == resp_id),
            {"codigos_historicos": []}
        )
        
        generacion = next(
            (g for g in state["generaciones_batch"] if g["respuesta_id"] == resp_id),
            {"codigos_nuevos": []}
        )
        
        codigos_hist = [c["codigo"] for c in busqueda.get("codigos_historicos", [])]
        codigos_nuevos = [c["descripcion"] for c in generacion.get("codigos_nuevos", [])]
        
        if codigos_hist and codigos_nuevos:
            decision = "mixto"
        elif codigos_hist:
            decision = "historico"
        elif codigos_nuevos:
            decision = "nuevo"
        else:
            decision = "rechazar"
        
        codificaciones_batch.append({
            "fila_excel": resp["fila_excel"],
            "texto": resp["texto"],
            "decision": decision,
            "codigos_historicos": codigos_hist,
            "codigos_nuevos": codigos_nuevos,
            "justificacion": justif["justificacion"]
        })
    
    decisiones = {}
    for cod in codificaciones_batch:
        dec = cod["decision"]
        decisiones[dec] = decisiones.get(dec, 0) + 1
    
    print(f"   üìä Decisiones: {decisiones}")
    
    return {
        **state,
        "codificaciones": state["codificaciones"] + codificaciones_batch,
        "mensaje_estado": f"Batch {state['batch_actual'] + 1} completado (V2)"
    }

print("‚úÖ Nodos V2 definidos:")
print("   1. nodo_validar_respuestas_v2")
print("   2. nodo_buscar_en_catalogo_v2")
print("   3. nodo_generar_nuevos_v2")
print("   4. nodo_justificar_v2")
print("   5. nodo_ensamblar_resultados_v2")


---

## üîó Paso 3: Construir el Grafo V2

Conectar todos los nodos en el flujo especializado:

---


In [None]:
# ========================================
# üîó CONSTRUIR GRAFO V2
# ========================================

from langgraph.graph import StateGraph, END
from typing import TypedDict, List, Dict

# Extender el estado para incluir campos de V2
class EstadoCodificacionV2(TypedDict):
    # Campos originales (del notebook 03)
    pregunta: str
    modelo_gpt: str
    batch_size: int
    respuestas: List[Dict]
    catalogo: List[Dict]
    batch_actual: int
    total_batches: int
    batch_respuestas: List[Dict]
    codificaciones: List[Dict]
    codigos_nuevos_global: Dict[str, str]
    contador_codigo_nuevo: int
    costo_total: float
    tokens_total: int
    mensaje_estado: str
    progreso_pct: float
    tiempo_inicio: float
    tiempo_total: float
    
    # üÜï Campos nuevos para V2
    validaciones_batch: List[Dict]
    busquedas_batch: List[Dict]
    generaciones_batch: List[Dict]
    justificaciones_batch: List[Dict]


# Construir el grafo V2
workflow_v2 = StateGraph(EstadoCodificacionV2)

# Agregar nodos (reutilizamos los del notebook 03 cuando sea posible)
workflow_v2.add_node("inicializar", nodo_inicializar)
workflow_v2.add_node("preparar_batch", nodo_preparar_batch)

# üÜï Nodos especializados de V2
workflow_v2.add_node("validar", nodo_validar_respuestas_v2)
workflow_v2.add_node("buscar_catalogo", nodo_buscar_en_catalogo_v2)
workflow_v2.add_node("generar_nuevos", nodo_generar_nuevos_v2)
workflow_v2.add_node("justificar", nodo_justificar_v2)
workflow_v2.add_node("ensamblar", nodo_ensamblar_resultados_v2)

workflow_v2.add_node("incrementar", nodo_incrementar_batch)
workflow_v2.add_node("normalizar", nodo_normalizar)
workflow_v2.add_node("finalizar", nodo_finalizar)

# Conectar flujo
workflow_v2.set_entry_point("inicializar")
workflow_v2.add_edge("inicializar", "preparar_batch")

# üîÑ Flujo de codificaci√≥n dividido en 5 pasos
workflow_v2.add_edge("preparar_batch", "validar")
workflow_v2.add_edge("validar", "buscar_catalogo")
workflow_v2.add_edge("buscar_catalogo", "generar_nuevos")
workflow_v2.add_edge("generar_nuevos", "justificar")
workflow_v2.add_edge("justificar", "ensamblar")

# Continuar con siguiente batch o normalizar
workflow_v2.add_edge("ensamblar", "incrementar")

workflow_v2.add_conditional_edges(
    "incrementar",
    decidir_continuar,
    {
        "preparar_batch": "preparar_batch",
        "normalizar": "normalizar"
    }
)

workflow_v2.add_edge("normalizar", "finalizar")
workflow_v2.add_edge("finalizar", END)

# Compilar
app_v2 = workflow_v2.compile()

print("‚úÖ Grafo V2 compilado exitosamente")
print("\nüìä Flujo del Grafo V2:")
print("   inicializar ‚Üí preparar_batch")
print("   ‚Üì")
print("   validar ‚Üí buscar_catalogo ‚Üí generar_nuevos ‚Üí justificar ‚Üí ensamblar")
print("   ‚Üì")
print("   incrementar ‚Üí [preparar_batch √≥ normalizar]")
print("   ‚Üì")
print("   finalizar")


---

## üìä Paso 4: Visualizar el Grafo V2

Ahora veamos c√≥mo se ve la estructura del grafo:

---


In [None]:
# ========================================
# üìä VISUALIZAR GRAFO V2
# ========================================

from IPython.display import Image, display

print("="*60)
print("üìä VISUALIZACI√ìN DEL GRAFO V2")
print("="*60)

# Obtener info del grafo
graph_v2 = app_v2.get_graph()

print(f"\nüìã Informaci√≥n:")
print(f"   Total de nodos: {len(graph_v2.nodes)}")

# Lista de nodos
print(f"\nüîπ Nodos del grafo:")
for i, node_id in enumerate(graph_v2.nodes.keys(), 1):
    print(f"   {i}. {node_id}")

# Vista ASCII
print(f"\n{'='*60}")
print("üìä DIAGRAMA ASCII")
print("="*60)
print(graph_v2.draw_ascii())

# Intentar generar PNG
print(f"\n{'='*60}")
print("üñºÔ∏è  DIAGRAMA GR√ÅFICO")
print("="*60)

try:
    img_data = graph_v2.draw_mermaid_png()
    display(Image(img_data))
    print("\n‚úÖ Imagen generada correctamente")
except Exception as e:
    print("‚ö†Ô∏è  No se pudo generar imagen PNG")
    print(f"   Raz√≥n: {str(e)[:80]}...")
    print("\nüìã C√≥digo Mermaid (pega en https://mermaid.live):")
    print("="*60)
    mermaid_code = graph_v2.draw_mermaid()
    print(mermaid_code)
    print("="*60)
    
    # Guardar en archivo
    output_dir = project_root / "notebooks" / "diagramas"
    output_dir.mkdir(exist_ok=True)
    output_file = output_dir / "grafo_v2.mmd"
    output_file.write_text(mermaid_code, encoding="utf-8")
    print(f"\nüíæ C√≥digo guardado en: notebooks/diagramas/grafo_v2.mmd")
    print("üí° Visita https://mermaid.live y pega el contenido del archivo")


---

## üÜö Comparar V1 vs V2

Veamos las diferencias estructurales:

---


In [None]:
# ========================================
# üÜö COMPARACI√ìN V1 vs V2
# ========================================

print("="*60)
print("üÜö COMPARACI√ìN: V1 (Simple) vs V2 (Dividido)")
print("="*60)

# An√°lisis del grafo V1 (del notebook 03)
graph_v1 = app.get_graph()
nodos_v1 = len(graph_v1.nodes)
nodos_logicos_v1 = sum(1 for n in graph_v1.nodes.keys() if not n.startswith("__"))

# An√°lisis del grafo V2
nodos_v2 = len(graph_v2.nodes)
nodos_logicos_v2 = sum(1 for n in graph_v2.nodes.keys() if not n.startswith("__"))

# Mostrar comparaci√≥n
print(f"\n{'M√©trica':<30} {'V1 (Simple)':<20} {'V2 (Dividido)':<20}")
print("-" * 70)
print(f"{'Total de nodos':<30} {nodos_v1:<20} {nodos_v2:<20}")
print(f"{'Nodos l√≥gicos':<30} {nodos_logicos_v1:<20} {nodos_logicos_v2:<20}")

diferencia = nodos_logicos_v2 - nodos_logicos_v1
porcentaje = (diferencia / nodos_logicos_v1) * 100 if nodos_logicos_v1 > 0 else 0

print(f"\nüìä Diferencia: +{diferencia} nodos l√≥gicos (+{porcentaje:.1f}%)")

# An√°lisis por batch
print(f"\n{'='*60}")
print("üìà AN√ÅLISIS DE COMPLEJIDAD POR BATCH")
print("="*60)

print(f"\nüîπ V1 (Simple):")
print(f"   ‚Ä¢ Nodos ejecutados por batch: ~5")
print(f"   ‚Ä¢ Llamadas a GPT por batch: 1")
print(f"   ‚Ä¢ Observabilidad: ‚ö†Ô∏è  Baja")

print(f"\nüîπ V2 (Dividido):")
print(f"   ‚Ä¢ Nodos ejecutados por batch: ~10")
print(f"   ‚Ä¢ Llamadas a GPT por batch: 4")
print(f"   ‚Ä¢ Observabilidad: ‚úÖ Alta")

print(f"\nüí∞ IMPACTO EN COSTOS:")
print(f"   Con 100 respuestas y batch_size=10:")
print(f"   ‚Ä¢ V1: 10 batches √ó 1 llamada = 10 llamadas GPT")
print(f"   ‚Ä¢ V2: 10 batches √ó 4 llamadas = 40 llamadas GPT (4x m√°s caro)")

print(f"\n‚úÖ RECOMENDACIONES:")
print(f"   ‚Ä¢ Usa V1 para: Producci√≥n, menor costo, velocidad")
print(f"   ‚Ä¢ Usa V2 para: Experimentaci√≥n, ajustes finos, auditor√≠a")


---

## üöÄ Paso 5: Ejecutar con Datos Reales

Ahora vamos a procesar tus datos reales con el Grafo V2:

---


In [None]:
# ========================================
# üöÄ PREPARAR ESTADO INICIAL V2
# ========================================

import time

# Estado inicial extendido con campos de V2
estado_inicial_v2 = {
    "pregunta": nombre_pregunta,
    "modelo_gpt": MODELO_GPT,
    "batch_size": BATCH_SIZE,
    "respuestas": respuestas_reales,
    "catalogo": catalogo_historico,
    "batch_actual": 0,
    "total_batches": 0,
    "batch_respuestas": [],
    "codificaciones": [],
    "codigos_nuevos_global": {},
    "contador_codigo_nuevo": 1,
    "costo_total": 0.0,
    "tokens_total": 0,
    "mensaje_estado": "Iniciando",
    "progreso_pct": 0.0,
    "tiempo_inicio": time.time(),
    "tiempo_total": 0.0,
    
    # üÜï Campos adicionales para V2
    "validaciones_batch": [],
    "busquedas_batch": [],
    "generaciones_batch": [],
    "justificaciones_batch": []
}

print("="*60)
print("üìã ESTADO INICIAL V2")
print("="*60)

print(f"\nüìä Configuraci√≥n:")
print(f"   Pregunta: {nombre_pregunta}")
print(f"   Total respuestas: {len(respuestas_reales)}")
print(f"   Batch size: {BATCH_SIZE}")
print(f"   Cat√°logo hist√≥rico: {len(catalogo_historico)} c√≥digos")
print(f"   Modelo GPT: {MODELO_GPT}")

# Calcular batches esperados
batches_esperados = (len(respuestas_reales) + BATCH_SIZE - 1) // BATCH_SIZE
print(f"\nüßÆ C√°lculo de batches:")
print(f"   {len(respuestas_reales)} respuestas √∑ {BATCH_SIZE} por batch")
print(f"   = {batches_esperados} batches esperados")

if batches_esperados == 0:
    print(f"\n‚ùå ERROR: No hay respuestas para procesar!")
else:
    print(f"\n‚úÖ Listo para ejecutar con {batches_esperados} batches")
    
# Estimar llamadas y costo
llamadas_v1 = batches_esperados * 1
llamadas_v2 = batches_esperados * 4

print(f"\nüí∞ Estimaci√≥n de llamadas GPT:")
print(f"   V1 (Simple): {llamadas_v1} llamadas")
print(f"   V2 (Dividido): {llamadas_v2} llamadas (4x m√°s)")
print(f"\n‚ö†Ô∏è  V2 ser√° aproximadamente 4x m√°s costoso que V1")


In [None]:
# ========================================
# üöÄ EJECUTAR GRAFO V2 CON DATOS REALES
# ========================================

from langgraph.pregel.main import RunnableConfig

# Calcular l√≠mite de recursi√≥n apropiado
# V2 tiene m√°s nodos por batch (~10 vs ~5), necesitamos m√°s margen
limite_recursion = max(batches_esperados * 15 + 20, 100)

config_v2 = RunnableConfig(
    recursion_limit=limite_recursion
)

print("="*60)
print("üöÄ INICIANDO CODIFICACI√ìN CON GRAFO V2")
print("="*60)

print(f"\n‚öôÔ∏è  Configuraci√≥n de ejecuci√≥n:")
print(f"   L√≠mite de recursi√≥n: {limite_recursion}")
print(f"   (suficiente para {batches_esperados} batches)")

print(f"\n{'='*60}")
print("EJECUTANDO GRAFO V2...")
print("="*60)

try:
    # EJECUTAR
    resultado_final_v2 = app_v2.invoke(estado_inicial_v2, config=config_v2)
    
    print("\n" + "="*60)
    print("‚úÖ PROCESO V2 COMPLETADO EXITOSAMENTE")
    print("="*60)
    
    # Mostrar estad√≠sticas
    print(f"\nüìä Estad√≠sticas finales:")
    print(f"   Tiempo total: {resultado_final_v2['tiempo_total']:.1f}s")
    print(f"   Respuestas procesadas: {len(resultado_final_v2['codificaciones'])}")
    print(f"   C√≥digos nuevos generados: {len(resultado_final_v2['codigos_nuevos_global'])}")
    
    # An√°lisis de decisiones
    decisiones_v2 = {}
    for cod in resultado_final_v2["codificaciones"]:
        dec = cod["decision"]
        decisiones_v2[dec] = decisiones_v2.get(dec, 0) + 1
    
    print(f"\nüìà Distribuci√≥n de decisiones:")
    for decision, cantidad in sorted(decisiones_v2.items(), key=lambda x: -x[1]):
        porcentaje = (cantidad / len(resultado_final_v2['codificaciones'])) * 100
        print(f"   {decision:12} : {cantidad:3} ({porcentaje:.1f}%)")
    
except Exception as e:
    print("\n" + "="*60)
    print("‚ùå ERROR DURANTE EJECUCI√ìN V2")
    print("="*60)
    print(f"\nError: {e}")
    print(f"\nTipo: {type(e).__name__}")
    
    import traceback
    print("\nüìã Traceback completo:")
    traceback.print_exc()
    
    raise


---

## üìä Paso 6: Analizar Resultados

Veamos qu√© tan diferente es V2 vs V1:

---


In [None]:
# ========================================
# üìä AN√ÅLISIS COMPARATIVO DE RESULTADOS
# ========================================

print("="*60)
print("üìä AN√ÅLISIS: Resultados V1 vs V2")
print("="*60)

# Resultados de V1 (del notebook 03)
decisiones_v1 = {}
for cod in resultado_final["codificaciones"]:
    dec = cod["decision"]
    decisiones_v1[dec] = decisiones_v1.get(dec, 0) + 1

print(f"\nüîπ GRAFO V1 (Simple):")
print(f"   Tiempo: {resultado_final['tiempo_total']:.1f}s")
print(f"   Respuestas: {len(resultado_final['codificaciones'])}")
print(f"   C√≥digos nuevos: {len(resultado_final['codigos_nuevos_global'])}")
print(f"\n   Decisiones:")
for decision, cantidad in sorted(decisiones_v1.items(), key=lambda x: -x[1]):
    porcentaje = (cantidad / len(resultado_final['codificaciones'])) * 100
    print(f"      {decision:12} : {cantidad:3} ({porcentaje:.1f}%)")

print(f"\nüîπ GRAFO V2 (Dividido):")
print(f"   Tiempo: {resultado_final_v2['tiempo_total']:.1f}s")
print(f"   Respuestas: {len(resultado_final_v2['codificaciones'])}")
print(f"   C√≥digos nuevos: {len(resultado_final_v2['codigos_nuevos_global'])}")
print(f"\n   Decisiones:")
for decision, cantidad in sorted(decisiones_v2.items(), key=lambda x: -x[1]):
    porcentaje = (cantidad / len(resultado_final_v2['codificaciones'])) * 100
    print(f"      {decision:12} : {cantidad:3} ({porcentaje:.1f}%)")

# Comparaci√≥n
print(f"\n{'='*60}")
print("üÜö DIFERENCIAS")
print("="*60)

diferencia_tiempo = resultado_final_v2['tiempo_total'] - resultado_final['tiempo_total']
diferencia_pct = (diferencia_tiempo / resultado_final['tiempo_total']) * 100 if resultado_final['tiempo_total'] > 0 else 0

print(f"\n‚è±Ô∏è  Tiempo:")
print(f"   V2 tom√≥ {abs(diferencia_tiempo):.1f}s {'m√°s' if diferencia_tiempo > 0 else 'menos'}")
print(f"   ({abs(diferencia_pct):.1f}% {'m√°s lento' if diferencia_tiempo > 0 else 'm√°s r√°pido'})")

diferencia_codigos = len(resultado_final_v2['codigos_nuevos_global']) - len(resultado_final['codigos_nuevos_global'])
print(f"\nüÜï C√≥digos nuevos:")
print(f"   V2 gener√≥ {abs(diferencia_codigos)} c√≥digos {'m√°s' if diferencia_codigos > 0 else 'menos'} que V1")

print(f"\nüí° OBSERVACIONES:")
if diferencia_tiempo > 0:
    print(f"   ‚Ä¢ V2 es m√°s lento debido a 4x m√°s llamadas GPT")
else:
    print(f"   ‚Ä¢ Tiempos similares (las llamadas fueron r√°pidas)")

if diferencia_codigos != 0:
    print(f"   ‚Ä¢ V2 gener√≥ diferentes c√≥digos (prompts m√°s espec√≠ficos)")
else:
    print(f"   ‚Ä¢ Ambos generaron la misma cantidad de c√≥digos")


---

## üì• Paso 7: Exportar Resultados

Guardar los resultados de V2 para an√°lisis posterior:

---


In [None]:
# ========================================
# üì• EXPORTAR RESULTADOS V2
# ========================================

import pandas as pd
from datetime import datetime

# Preparar DataFrame con resultados de V2
datos_exportar_v2 = []

for cod in resultado_final_v2["codificaciones"]:
    # Preparar c√≥digos como strings
    if cod["decision"] == "rechazar":
        codigo_final = "RECHAZADO"
    else:
        codigos = []
        # C√≥digos hist√≥ricos
        if cod["codigos_historicos"]:
            codigos.extend([str(c) for c in cod["codigos_historicos"]])
        # C√≥digos nuevos (buscar sus n√∫meros)
        if cod["codigos_nuevos"]:
            for desc in cod["codigos_nuevos"]:
                # Buscar el c√≥digo num√©rico asignado
                codigo_num = next(
                    (k for k, v in resultado_final_v2["codigos_nuevos_global"].items() if v == desc),
                    desc  # Si no se encuentra, usar la descripci√≥n
                )
                codigos.append(str(codigo_num))
        
        codigo_final = "; ".join(codigos) if codigos else "SIN_CODIGO"
    
    datos_exportar_v2.append({
        "Respuesta": cod["texto"],
        "C√≥digo": codigo_final,
        "Decisi√≥n": cod["decision"],
        "Justificaci√≥n": cod.get("justificacion", "")
    })

df_resultados_v2 = pd.DataFrame(datos_exportar_v2)

# Generar nombre de archivo
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
nombre_archivo_base = ARCHIVO_RESPUESTAS.stem
modelo_limpio = MODELO_GPT.replace("-", "_").replace(".", "_")

archivo_salida_v2 = project_root / "notebooks" / "resultados" / f"{nombre_archivo_base}_v2_{modelo_limpio}_{timestamp}.xlsx"
archivo_salida_v2.parent.mkdir(exist_ok=True)

# Guardar
df_resultados_v2.to_excel(archivo_salida_v2, index=False)

print("="*60)
print("üì• EXPORTACI√ìN COMPLETADA")
print("="*60)

print(f"\n‚úÖ Archivo guardado en:")
print(f"   {archivo_salida_v2.relative_to(project_root)}")

print(f"\nüìä Contenido:")
print(f"   Filas: {len(df_resultados_v2)}")
print(f"   Columnas: {list(df_resultados_v2.columns)}")

print(f"\nüìã Vista previa (primeras 3 filas):")
print(df_resultados_v2.head(3).to_string())

# Tambi√©n guardar cat√°logo de c√≥digos nuevos si hay
if resultado_final_v2["codigos_nuevos_global"]:
    archivo_catalogo_v2 = project_root / "notebooks" / "resultados" / f"catalogo_nuevos_v2_{timestamp}.xlsx"
    
    df_catalogo_v2 = pd.DataFrame([
        {"C√≥digo": cod, "Descripci√≥n": desc}
        for cod, desc in resultado_final_v2["codigos_nuevos_global"].items()
    ])
    
    df_catalogo_v2.to_excel(archivo_catalogo_v2, index=False)
    
    print(f"\n‚úÖ Cat√°logo de c√≥digos nuevos guardado en:")
    print(f"   {archivo_catalogo_v2.relative_to(project_root)}")
    print(f"   Total c√≥digos: {len(df_catalogo_v2)}")


---

## üîç Inspecci√≥n Detallada (Opcional)

Veamos c√≥mo funcion√≥ cada nodo en detalle para un batch espec√≠fico:

---


In [None]:
# ========================================
# üîç INSPECCI√ìN DETALLADA (EJEMPLOS)
# ========================================

print("="*60)
print("üîç INSPECCI√ìN: Ejemplos de Resultados V2")
print("="*60)

# Mostrar algunos ejemplos de cada tipo de decisi√≥n
print("\nüìã Ejemplos por tipo de decisi√≥n:\n")

for tipo_decision in ["historico", "nuevo", "mixto", "rechazar"]:
    ejemplos = [
        cod for cod in resultado_final_v2["codificaciones"]
        if cod["decision"] == tipo_decision
    ][:2]  # Solo primeros 2 de cada tipo
    
    if ejemplos:
        print(f"\n{'='*60}")
        print(f"üîπ {tipo_decision.upper()}")
        print("="*60)
        
        for i, ej in enumerate(ejemplos, 1):
            print(f"\n{i}. Respuesta: \"{ej['texto'][:80]}...\"")
            
            if ej["decision"] != "rechazar":
                if ej["codigos_historicos"]:
                    print(f"   üìö C√≥digos hist√≥ricos: {ej['codigos_historicos']}")
                if ej["codigos_nuevos"]:
                    print(f"   üÜï C√≥digos nuevos: {ej['codigos_nuevos']}")
            
            if ej.get("justificacion"):
                print(f"   üí¨ Justificaci√≥n: {ej['justificacion']}")

# Mostrar c√≥digos nuevos m√°s comunes (si hay)
if resultado_final_v2["codigos_nuevos_global"]:
    print(f"\n{'='*60}")
    print("üÜï CAT√ÅLOGO DE C√ìDIGOS NUEVOS GENERADOS")
    print("="*60)
    
    # Contar uso de cada c√≥digo
    uso_codigos = {}
    for cod in resultado_final_v2["codificaciones"]:
        for desc in cod["codigos_nuevos"]:
            uso_codigos[desc] = uso_codigos.get(desc, 0) + 1
    
    # Top 10 m√°s usados
    top_codigos = sorted(uso_codigos.items(), key=lambda x: -x[1])[:10]
    
    print(f"\nüìä Top 10 c√≥digos nuevos m√°s usados:\n")
    for i, (desc, cantidad) in enumerate(top_codigos, 1):
        codigo_num = next(
            (k for k, v in resultado_final_v2["codigos_nuevos_global"].items() if v == desc),
            "?"
        )
        print(f"{i:2}. [{codigo_num:4}] {desc[:50]:50} (usado {cantidad} veces)")

print(f"\n{'='*60}")
print("‚úÖ Inspecci√≥n completada")
print("="*60)


---

## ‚úÖ Resumen Final

### **üéØ Qu√© Lograste:**

1. ‚úÖ Ejecutaste el **Grafo V2** con prompts divididos
2. ‚úÖ Procesaste tus **datos reales**
3. ‚úÖ Comparaste **V1 vs V2** en calidad y tiempo
4. ‚úÖ Exportaste **resultados** a Excel
5. ‚úÖ Analizaste **c√≥digos nuevos** generados

---

### **üìä Decisi√≥n: ¬øV1 o V2?**

#### **Usa V1 (Notebook 03) si:**
- ‚úÖ Los resultados son suficientemente buenos
- ‚úÖ Quieres **menor costo** (1 llamada vs 4 por batch)
- ‚úÖ Velocidad es importante
- ‚úÖ Vas a **producci√≥n**

#### **Usa V2 (Este notebook) si:**
- ‚úÖ Necesitas **ajustar** validaci√≥n/b√∫squeda/generaci√≥n por separado
- ‚úÖ Quieres **m√°xima observabilidad**
- ‚úÖ Est√°s **experimentando** con prompts
- ‚úÖ Necesitas **justificaciones** detalladas
- ‚úÖ El costo extra vale la pena

---

### **üöÄ Pr√≥ximos Pasos:**

1. **Revisar resultados** en los archivos Excel generados
2. **Comparar manualmente** 10-20 ejemplos de V1 vs V2
3. **Ajustar prompts** en nodos espec√≠ficos si es necesario
4. **Decidir arquitectura** para llevar a producci√≥n
5. **Migrar c√≥digo** al backend cuando est√© listo

---

### **üí° Tips para Optimizar V2:**

1. **Modelos diferentes por etapa:**
   ```python
   # En validar y generar: usa gpt-4o (preciso)
   # En buscar y justificar: usa gpt-3.5-turbo (barato)
   ```

2. **Ajustar umbrales:**
   ```python
   # En buscar_catalogo_v2:
   # Cambia: relevancia >= 0.7
   # Prueba: relevancia >= 0.8 (m√°s estricto)
   ```

3. **Cach√© para respuestas similares:**
   - Detecta respuestas casi id√©nticas
   - Reutiliza codificaci√≥n previa
   - Reduce llamadas a GPT

---

**¬øPreguntas? Revisa `README_NOTEBOOKS.md` en la carpeta notebooks** üìö

---
