# QMC Agent - Jupyter Notebook

Este notebook permite probar el agente de scraping de QMC celda por celda.

## Stack Tecnol√≥gico
- **Orquestaci√≥n**: LangGraph
- **Scraping**: Playwright
- **LLM**: Groq (LLaMA 3.3 70B)
- **Framework LLM**: langchain_groq

## 1. Instalaci√≥n de Dependencias

In [1]:
# Instalar dependencias (ejecutar solo una vez)
!pip install langgraph langchain-groq langchain-core playwright python-dotenv pydantic nest-asyncio
!playwright install chromium



## 2. Configuraci√≥n del Event Loop (IMPORTANTE para Windows)

In [2]:
# IMPORTANTE: Ejecutar esta celda PRIMERO antes de cualquier c√≥digo async
# Esto soluciona el problema de NotImplementedError con Playwright en Windows/Jupyter
import nest_asyncio
nest_asyncio.apply()

import asyncio
import sys

# Configuraci√≥n adicional para Windows
if sys.platform == 'win32':
    asyncio.set_event_loop_policy(asyncio.WindowsProactorEventLoopPolicy())

print("‚úÖ Event loop configurado correctamente para Windows/Jupyter")

‚úÖ Event loop configurado correctamente para Windows/Jupyter


## 3. Configuraci√≥n y Validaci√≥n

In [3]:
# Cargar configuraci√≥n
import sys
sys.path.insert(0, '.')

from src.config import Config

# Validar configuraci√≥n
missing = Config.validate()
if missing:
    print(f"‚ö†Ô∏è Configuraci√≥n incompleta. Faltan: {', '.join(missing)}")
    print("\nüìù Por favor, completa el archivo .env con los valores requeridos.")
else:
    print("‚úÖ Configuraci√≥n v√°lida!")
    print(f"   URL: {Config.QMC_URL}")
    print(f"   Usuario: {Config.QMC_USERNAME}")
    print(f"   Modelo LLM: {Config.GROQ_MODEL}")
    print(f"   Headless: {Config.HEADLESS}")

‚úÖ Configuraci√≥n v√°lida!
   URL: https://apqs.grupoefe.pe/qmc/tasks
   Usuario: srvlimprdap011\consultorqs1
   Modelo LLM: llama-3.3-70b-versatile
   Headless: True


## 4. Test: Nodo de Login

In [4]:
from src.state import create_initial_state
from src.nodes import login_node

# Crear estado inicial
state = create_initial_state()
print("Estado inicial:")
print(f"  current_step: {state['current_step']}")
print(f"  retry_count: {state['retry_count']}")

Estado inicial:
  current_step: init
  retry_count: 0


In [5]:
# Ejecutar login
print("üîê Ejecutando login...")
login_result = await login_node(state)

print(f"\nResultado:")
print(f"  current_step: {login_result.get('current_step')}")
print(f"  error: {login_result.get('error_message')}")
print(f"  cookies: {'‚úÖ' if login_result.get('session_cookies') else '‚ùå'}")

# Actualizar estado
state.update(login_result)

# Mostrar logs
for log in login_result.get('logs', []):
    print(log)

üîê Ejecutando login...


NotImplementedError: 

## 5. Test: Nodo de Filtrado

In [None]:
from src.nodes import filter_node

# Solo ejecutar si login fue exitoso
if state.get('current_step') == 'filter':
    print("üîç Aplicando filtros...")
    filter_result = await filter_node(state)
    
    print(f"\nResultado:")
    print(f"  current_step: {filter_result.get('current_step')}")
    print(f"  error: {filter_result.get('error_message')}")
    print(f"  page_html: {len(filter_result.get('page_html', '')) } chars")
    
    state.update(filter_result)
    
    for log in filter_result.get('logs', []):
        print(log)
else:
    print(f"‚ö†Ô∏è No se puede filtrar. Estado actual: {state.get('current_step')}")

## 6. Test: Nodo de Extracci√≥n

In [None]:
from src.nodes import extract_node

if state.get('current_step') == 'extract':
    print("üìä Extrayendo tabla...")
    extract_result = await extract_node(state)
    
    print(f"\nResultado:")
    print(f"  current_step: {extract_result.get('current_step')}")
    print(f"  raw_table_data: {len(extract_result.get('raw_table_data', ''))} chars")
    
    state.update(extract_result)
    
    # Preview de datos
    if extract_result.get('raw_table_data'):
        print("\nüìã Preview (primeros 500 chars):")
        print(extract_result['raw_table_data'][:500])
else:
    print(f"‚ö†Ô∏è No se puede extraer. Estado actual: {state.get('current_step')}")

## 7. Test: Nodo Analista (LLM)

In [None]:
from src.analyst import analyst_node
import json

if state.get('current_step') == 'analyze':
    print("ü§ñ Procesando con LLM (Groq)...")
    analyst_result = await analyst_node(state)
    
    print(f"\nResultado:")
    print(f"  current_step: {analyst_result.get('current_step')}")
    print(f"  error: {analyst_result.get('error_message')}")
    
    state.update(analyst_result)
    
    if analyst_result.get('structured_data'):
        print("\nüìÑ Datos estructurados:")
        print(json.dumps(analyst_result['structured_data'], indent=2, ensure_ascii=False))
else:
    print(f"‚ö†Ô∏è No se puede analizar. Estado actual: {state.get('current_step')}")

## 8. Ejecuci√≥n Completa del Grafo

In [None]:
from src.graph import run_agent
import json

print("üöÄ Ejecutando flujo completo...")
print("="*50)

try:
    final_state = await run_agent()
    
    print("\n" + "="*50)
    print("üìä RESULTADO FINAL")
    print("="*50)
    
    print(f"\nEstado: {final_state.get('current_step')}")
    
    if final_state.get('structured_data'):
        print(f"\n‚úÖ {len(final_state['structured_data'])} tareas extra√≠das:")
        print(json.dumps(final_state['structured_data'], indent=2, ensure_ascii=False))
    
    if final_state.get('error_message'):
        print(f"\n‚ùå Error: {final_state['error_message']}")
    
    if final_state.get('screenshots'):
        print(f"\nüì∏ Screenshots guardados: {final_state['screenshots']}")
        
except Exception as e:
    print(f"\n‚ùå Error de ejecuci√≥n: {e}")

## 9. Visualizar el Grafo

In [None]:
from src.graph import build_graph
from IPython.display import Image, display

# Construir y visualizar grafo
workflow = build_graph()
compiled = workflow.compile()

try:
    # Generar imagen del grafo
    graph_image = compiled.get_graph().draw_mermaid_png()
    display(Image(graph_image))
except Exception as e:
    print(f"No se pudo generar imagen del grafo: {e}")
    print("\nUsa el diagrama Mermaid en el implementation_plan.md")

## 10. Exportar Resultados

In [None]:
import json
from datetime import datetime

if 'final_state' in dir() and final_state.get('structured_data'):
    # Exportar a JSON
    output_file = f"qmc_tasks_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json"
    
    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump({
            "extracted_at": datetime.now().isoformat(),
            "tasks": final_state['structured_data']
        }, f, indent=2, ensure_ascii=False)
    
    print(f"‚úÖ Resultados exportados a: {output_file}")
else:
    print("‚ö†Ô∏è No hay datos para exportar. Ejecuta el flujo completo primero.")