In [1]:
import os
import sys
import time
from datetime import datetime
from IPython.display import display, HTML

# Asegurarnos que la ruta del código está en el path
project_root = "C:\\Users\\emers\\Documents\\SUNASS_CAMI_CENTRO\\DEV_SUNASS\\NewsAgent"
code_dir = os.path.join(project_root, "codigo")

if code_dir not in sys.path:
    sys.path.append(code_dir)

# Importar utilidades específicas para notebooks
from notebook_utils import setup_environment

# Mostrar un mensaje de inicio
print("Iniciando ejecución del orquestador...")

# Función para ejecutar el orquestador
def ejecutar_orquestador(fecha, prompt="detallado", batch_size=3, pause_seconds=60):
    """
    Ejecuta el orquestador para una fecha específica.
    
    Args:
        fecha (str): Fecha en formato DDMMYYYY
        prompt (str): Tipo de prompt (simple, detallado, estructurado, anti-ruido)
        batch_size (int): Tamaño del lote de imágenes
        pause_seconds (int): Segundos de pausa entre lotes
    """
    # Configurar el entorno y logging antes de importar main
    logger = setup_environment(project_root)
    
    # Ahora importamos run_pipeline (después de configurar el logging)
    from main3 import run_pipeline
    
    # Configurar el archivo config.yaml
    config_file = os.path.join(project_root, "config.yaml")
    try:
        # Guardar configuración existente si existe
        config_backup = None
        if os.path.exists(config_file):
            with open(config_file, 'r', encoding='utf-8') as f:
                config_backup = f.read()
        
        # Escribir nueva configuración
        with open(config_file, 'w', encoding='utf-8') as f:
            f.write(f"""api:
  prompt_key: "{prompt}"
  batch_size: {batch_size}
  pause_seconds: {pause_seconds}
""")
        
        print(f"Configuración aplicada: prompt={prompt}, batch_size={batch_size}, pause={pause_seconds}s")
        
        # Ejecutar el orquestador
        print(f"Ejecutando orquestador para fecha: {fecha}")
        print("Esto puede tomar varios minutos. Por favor, espera...")
        
        start_time = datetime.now()
        run_pipeline(custom_date_str=fecha)
        end_time = datetime.now()
        
        duration = (end_time - start_time).total_seconds()
        print(f"✅ Procesamiento completado en {duration:.2f} segundos")
        
        # Restaurar configuración original si existía
        if config_backup:
            with open(config_file, 'w', encoding='utf-8') as f:
                f.write(config_backup)
    
    except Exception as e:
        print(f"Error ejecutando orquestador: {str(e)}")
        import traceback
        traceback.print_exc()

# Ejemplo de uso - descomenta la línea que necesites:
# ejecutar_orquestador("01042025")                      # Fecha básica con valores predeterminados
# ejecutar_orquestador("01042025", prompt="simple")     # Cambiando el prompt
# ejecutar_orquestador("01042025", batch_size=2)        # Procesando sólo 2 imágenes antes de pausar

print("Script cargado. Descomenta y ejecuta una de las líneas de ejemplo o usa la función 'ejecutar_orquestador'.")

Iniciando ejecución del orquestador...
Script cargado. Descomenta y ejecuta una de las líneas de ejemplo o usa la función 'ejecutar_orquestador'.


In [3]:
# Ejemplo de ejecución:
ejecutar_orquestador("16042025")

2025-05-20 18:58:23,340 - main_orchestrator - INFO - INICIANDO PIPELINE DE SCRAPING
2025-05-20 18:58:23,340 - main_orchestrator - INFO - Usando fecha: 16042025
2025-05-20 18:58:23,349 - lib.config_manager - INFO - Configuración cargada desde C:\Users\emers\Documents\SUNASS_CAMI_CENTRO\DEV_SUNASS\NewsAgent\config.yaml
2025-05-20 18:58:23,352 - lib.config_manager - INFO - Clave API de Google cargada desde C:\Users\emers\Documents\SUNASS_CAMI_CENTRO\DEV_SUNASS\NewsAgent\credentials/api_keys.yaml
2025-05-20 18:58:23,356 - main_orchestrator - INFO - Configuración y rutas cargadas.
2025-05-20 18:58:23,359 - lib.history_tracker - INFO - Historial cargado desde C:\Users\emers\Documents\SUNASS_CAMI_CENTRO\DEV_SUNASS\NewsAgent\codigo\lib\history\processed_urls.json con 229 URLs.
2025-05-20 18:58:23,362 - main_orchestrator - INFO - Deduplicador optimizado inicializado correctamente
2025-05-20 18:58:23,364 - lib.api_client - INFO - API Gemini configurada con modelo: gemini-1.5-pro-latest
2025-05-2

Configuración aplicada: prompt=detallado, batch_size=3, pause=60s
Ejecutando orquestador para fecha: 16042025
Esto puede tomar varios minutos. Por favor, espera...


2025-05-20 18:58:23,812 - lib.pdf_processor - INFO - Se extrajeron 59 enlaces URI (no mailto) de 16042025.pdf.
2025-05-20 18:58:23,813 - main_orchestrator - INFO - PDF procesado en 0.44 seg. Enlaces encontrados: 59
2025-05-20 18:58:23,833 - lib.file_manager - INFO - Datos guardados en CSV: C:\Users\emers\Documents\SUNASS_CAMI_CENTRO\DEV_SUNASS\NewsAgent\input\In\links_extracted_16042025.csv
2025-05-20 18:58:23,836 - main_orchestrator - INFO - --- Paso 1.1: Extrayendo texto del PDF por secciones ---
2025-05-20 18:58:23,839 - lib.text_extractor - INFO - Abriendo PDF para extracción de texto: C:\Users\emers\Documents\SUNASS_CAMI_CENTRO\DEV_SUNASS\NewsAgent\base\16042025.pdf (6 páginas)
2025-05-20 18:58:23,907 - lib.text_extractor - INFO - Texto del PDF extraído y guardado en: C:\Users\emers\Documents\SUNASS_CAMI_CENTRO\DEV_SUNASS\NewsAgent\input\Out\scraped_pdf_16042025\pdf_text_16042025.json
2025-05-20 18:58:23,909 - lib.text_extractor - INFO - Se encontraron 1 secciones con un total de 

✅ Procesamiento completado en 420.00 segundos


## Panel de control para ejecución fácil

Para facilitar aún más el uso de esta herramienta a personas no familiarizadas con Python, puedes utilizar el siguiente panel interactivo:

In [None]:
#Descomenta y ejecuta esto para usar el panel interactivo
import ipywidgets as widgets
from IPython.display import display, clear_output

# Crear widgets para la entrada de datos
fecha_input = widgets.Text(value='19032025', description='Fecha (DDMMYYYY):')
prompt_dropdown = widgets.Dropdown(
    options=['simple', 'detallado', 'estructurado', 'anti-ruido'],
    value='estructurado',
    description='Tipo de prompt:'
)
batch_slider = widgets.IntSlider(value=3, min=1, max=10, description='Batch size:')
pause_slider = widgets.IntSlider(value=60, min=10, max=300, description='Pausa (seg):')

# Función para manejar el botón de ejecución
def on_ejecutar_button_clicked(b):
    with output:
        clear_output()
        ejecutar_orquestador(
            fecha_input.value,
            prompt=prompt_dropdown.value,
            batch_size=batch_slider.value,
            pause_seconds=pause_slider.value
        )

# Crear botón de ejecución
ejecutar_button = widgets.Button(description='Ejecutar Orquestador')
ejecutar_button.on_click(on_ejecutar_button_clicked)

# Crear área de salida
output = widgets.Output()

# Mostrar interfaz
display(widgets.VBox([
    widgets.HBox([fecha_input, prompt_dropdown]),
    widgets.HBox([batch_slider, pause_slider]),
    ejecutar_button,
    output
]))