In [15]:
# --- Celda 1: Setup y Definici√≥n de Pa√≠ses ---
!pip install papermill pandas 
print("Dependencias instaladas.")

import papermill as pm
import pandas as pd
import os

# Definir la URL del dataset
URL_COVID_DATA = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
NOMBRE_PLANTILLA = 'notebook-ariel.ipynb' 
ARCHIVOS_RESULTADOS = [] 

# ----------------------------------------------------
# L√ìGICA DE SELECCI√ìN DE LOS PRIMEROS 5 PA√çSES
# ----------------------------------------------------

REGIONES_DE_PRUEBA = ["Argentina", "Brazil", "Chile", "US", "Spain", "Germany", "France"] # Fallback

try:
    df_paises = pd.read_csv(URL_COVID_DATA)
    # 1. Obtiene la lista completa de todos los pa√≠ses
    REGIONES_TODAS = df_paises['Country/Region'].unique().tolist()
    
    # 2. Selecciona SOLO los primeros 5 pa√≠ses
    REGIONES_A_ANALIZAR = REGIONES_TODAS[:5] 
    
    print("‚úÖ Lista de regiones obtenida de la fuente de datos.")
    print(f"‚è© Se seleccionaron autom√°ticamente los primeros 5 pa√≠ses: {REGIONES_A_ANALIZAR}")

except Exception as e:
    print(f"‚ùå ERROR al cargar el CSV de la URL. Usando lista de prueba.")
    REGIONES_A_ANALIZAR = REGIONES_DE_PRUEBA[:5] # Usa los 5 primeros del fallback
    
# ----------------------------------------------------

# Crear el directorio de salida (output)
if not os.path.exists('output'):
    os.makedirs('output')
    print("Directorio 'output/' creado.")
    
print(f"\nIniciando pipeline para {len(REGIONES_A_ANALIZAR)} regiones.")

Dependencias instaladas.
‚úÖ Lista de regiones obtenida de la fuente de datos.
‚è© Se seleccionaron autom√°ticamente los primeros 5 pa√≠ses: ['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola']

Iniciando pipeline para 5 regiones.


In [16]:
# --- Celda 2: Orquestaci√≥n y Ejecuci√≥n Parametrizada (Papermill) ---

# 1. Verificaci√≥n de existencia de la plantilla ANTES de empezar el bucle
NOMBRE_PLANTILLA = 'notebook-ariel.ipynb' 
if not os.path.exists(NOMBRE_PLANTILLA):
    print(f"‚ùå ERROR CR√çTICO: La plantilla '{NOMBRE_PLANTILLA}' no se encontr√≥ en la ruta actual.")
    print("El pipeline no puede continuar. Aseg√∫rate de que el archivo est√© guardado.")
else:
    print(f"‚úÖ Plantilla '{NOMBRE_PLANTILLA}' encontrada. Iniciando ejecuci√≥n...")

    # Usamos la lista de REGIONES_A_ANALIZAR definida en la Celda 1
    
    for region in REGIONES_A_ANALIZAR:
        
        # Rutas de Archivos (usando el subdirectorio 'output')
        region_safe = region.replace(' ', '_')
        nombre_output_nb = f"output/informe_limpieza_{region_safe}.ipynb"
        nombre_csv_salida = f"output/indicadores_{region_safe}.csv"
        
        # 2. Agregar la ruta a la lista ANTES de ejecutar (para seguimiento)
        ARCHIVOS_RESULTADOS.append(nombre_csv_salida)
        
        print(f"\n‚öôÔ∏è Ejecutando an√°lisis para: {region}...")
        
        # 3. Llamada a Papermill con manejo de errores
        try:
            pm.execute_notebook(
                input_path=NOMBRE_PLANTILLA,
                output_path=nombre_output_nb,
                parameters=dict(
                    REGION_PARAMETRO=region,
                    NOMBRE_ARCHIVO_SALIDA=nombre_csv_salida
                )
            )
            # Si tiene √©xito, Papermill crea el .ipynb y el c√≥digo interno de la plantilla crea el .csv
            print(f"‚úÖ Ejecuci√≥n exitosa para {region}. CSV esperado en {nombre_csv_salida}")

        except Exception as e:
            print(f"‚ùå Fall√≥ la ejecuci√≥n de Papermill para {region}. Error: {e}")
            # Si falla, ELIMINAMOS el √∫ltimo archivo CSV agregado de la lista para que la compilaci√≥n final no falle.
            if ARCHIVOS_RESULTADOS:
                 ARCHIVOS_RESULTADOS.pop()
            print("‚ö†Ô∏è El CSV fallido fue removido de la lista de compilaci√≥n final.")


    print("\nüéâ ¬°Ejecuci√≥n de todas las plantillas completada!")

Passed unknown parameter: REGION_PARAMETRO


Passed unknown parameter: NOMBRE_ARCHIVO_SALIDA
Input notebook does not contain a cell with tag 'parameters'


‚úÖ Plantilla 'notebook-ariel.ipynb' encontrada. Iniciando ejecuci√≥n...

‚öôÔ∏è Ejecutando an√°lisis para: Afghanistan...


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Passed unknown parameter: REGION_PARAMETRO
Passed unknown parameter: NOMBRE_ARCHIVO_SALIDA
Input notebook does not contain a cell with tag 'parameters'


‚úÖ Ejecuci√≥n exitosa para Afghanistan. CSV esperado en output/indicadores_Afghanistan.csv

‚öôÔ∏è Ejecutando an√°lisis para: Albania...


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Passed unknown parameter: REGION_PARAMETRO
Passed unknown parameter: NOMBRE_ARCHIVO_SALIDA
Input notebook does not contain a cell with tag 'parameters'


‚úÖ Ejecuci√≥n exitosa para Albania. CSV esperado en output/indicadores_Albania.csv

‚öôÔ∏è Ejecutando an√°lisis para: Algeria...


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Passed unknown parameter: REGION_PARAMETRO
Passed unknown parameter: NOMBRE_ARCHIVO_SALIDA
Input notebook does not contain a cell with tag 'parameters'


‚úÖ Ejecuci√≥n exitosa para Algeria. CSV esperado en output/indicadores_Algeria.csv

‚öôÔ∏è Ejecutando an√°lisis para: Andorra...


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Passed unknown parameter: REGION_PARAMETRO
Passed unknown parameter: NOMBRE_ARCHIVO_SALIDA
Input notebook does not contain a cell with tag 'parameters'


‚úÖ Ejecuci√≥n exitosa para Andorra. CSV esperado en output/indicadores_Andorra.csv

‚öôÔ∏è Ejecutando an√°lisis para: Angola...


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

‚úÖ Ejecuci√≥n exitosa para Angola. CSV esperado en output/indicadores_Angola.csv

üéâ ¬°Ejecuci√≥n de todas las plantillas completada!


In [17]:
# --- Celda 3: Compilaci√≥n del Reporte Final Consolidado ---

list_df = []
for file in ARCHIVOS_RESULTADOS:
    if os.path.exists(file):
        df_temp = pd.read_csv(file)
        list_df.append(df_temp)
    # No mostramos error si el archivo no existe, ya que Papermill debe asegurarlo

# Concatenar (unir) todos los DataFrames
if list_df:
    df_reporte_final = pd.concat(list_df, ignore_index=True)
    
    # Guardar el Reporte Final Consolidado
    NOMBRE_REPORTE_FINAL = "REPORTE_FINAL_INDICADORES_CONSOLIDADO.csv"
    df_reporte_final.to_csv(NOMBRE_REPORTE_FINAL, index=False)

    print(f"\n‚úÖ REPORTE FINAL CONSOLIDADO GENERADO: {NOMBRE_REPORTE_FINAL}")
    
    # Mostrar el resultado final
    print("\nRESUMEN CONSOLIDADO DE INDICADORES Y LIMPIEZA:")
    display(df_reporte_final)
else:
    print("\n‚ùå No se pudo compilar el reporte final. Verifique que 'output/' contenga los archivos CSV.")


‚ùå No se pudo compilar el reporte final. Verifique que 'output/' contenga los archivos CSV.
