<a href="https://colab.research.google.com/github/josvaldes/trabajoGradoMCD/blob/release%2Fv1.1.0/scrapingColombiaTicFinal3_ipynb_clean.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ===============================================================
# NOTEBOOK 1 ‚Äì Extracci√≥n y ETL ColombiaTIC
# Versi√≥n: 1.1.0
# Fecha √∫ltima modificaci√≥n: 2025-11-05
# Autor: Jos√© Vald√©s
# Descripci√≥n: Descarga, normaliza y consolida los boletines trimestrales
# ===============================================================

# ============================================================
#  Versi√≥n optimizada: conexi√≥n segura, control_cargue, y logs persistentes
# ============================================================

# ===============================================================
# üß© BLOQUE 0. Preparaci√≥n e instalaciones autom√°ticas
# ===============================================================
import sys, subprocess, importlib, os

def pip_install(pkgs):
    for p in pkgs:
        try:
            importlib.import_module(p)
        except ImportError:
            print(f"üì¶ Instalando {p}...")
            subprocess.run([sys.executable, "-m", "pip", "install", p, "-q"], check=True)

# Paquetes requeridos de Python
pip_install([
    "duckdb",
    "pandas",
    "openpyxl",
    "tqdm",
    "requests",
    "lxml_html_clean",
    "nest_asyncio",
    "playwright",
    "requests-html"
])

# ===============================================================
# üîß Instalaci√≥n del navegador Chromium (si no existe)
# ===============================================================
chromium_path = "/root/.cache/ms-playwright/chromium_headless_shell-1194/chrome-linux/headless_shell"
if not os.path.exists(chromium_path):
    print("‚öôÔ∏è Chromium no encontrado, instalando...")
    subprocess.run(["playwright", "install", "chromium"], check=True)
else:
    print("‚úÖ Chromium ya disponible.")

# ===============================================================
# üß© Instalaci√≥n de dependencias del sistema para Playwright
# ===============================================================
try:
    print("‚öôÔ∏è Verificando dependencias del sistema...")
    subprocess.run(["playwright", "install-deps"], check=True)
    print("‚úÖ Dependencias del sistema listas.")
except Exception as e:
    print(f"‚ö†Ô∏è Error instalando dependencias del sistema: {e}")

print("‚úÖ Playwright ya disponible.")
print("‚úÖ Dependencias listas para ejecuci√≥n del ETL ColombiaTIC")



# ===============================================================
# ========== 1. Configuraci√≥n especial para Playwright ==========
# ===============================================================
# Instalaci√≥n del navegador Chromium (una sola vez por entorno)
try:
    from playwright.sync_api import sync_playwright
    print("‚úÖ Playwright ya disponible.")
except Exception:
    print("‚öôÔ∏è Instalando Playwright Chromium ...")
    subprocess.run(["playwright", "install", "chromium"], check=True)

print("‚úÖ Dependencias listas para ejecuci√≥n del ETL ColombiaTIC")


# ========== 1. Imports y paths ==========
import os, re, shutil, time, logging
from datetime import datetime
import duckdb
import pandas as pd
import requests
from tqdm import tqdm
import nest_asyncio
nest_asyncio.apply()

from requests_html import AsyncHTMLSession
from google.colab import drive

# Rutas base (ajusta si lo necesitas)
RUTA_EXCEL_DEST   = "/content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic"
RUTA_EXCEL_TEMP   = "/content/gdrive/MyDrive/trabajoGrado/temp_colombiatic"
RUTA_DB_DRIVE_DIR = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos"
RUTA_DB_DRIVE     = os.path.join(RUTA_DB_DRIVE_DIR, "colombiatic.duckdb")
RUTA_DB_LOCAL     = "/content/colombiatic_temp.duckdb"     # base temporal local para evitar IO de Drive
RUTA_LOG          = os.path.join(RUTA_DB_DRIVE_DIR, "colombiatic_etl.log")  # LOG persistente junto a la base

os.makedirs(RUTA_EXCEL_DEST, exist_ok=True)
os.makedirs(RUTA_EXCEL_TEMP, exist_ok=True)
os.makedirs(RUTA_DB_DRIVE_DIR, exist_ok=True)

# ============================================================
# üîó Montaje robusto de Google Drive
# ============================================================
from google.colab import drive
import os
import shutil

mount_path = "/content/gdrive"

try:
    # Si ya existe y contiene archivos, lo desmontamos primero
    if os.path.exists(mount_path) and os.listdir(mount_path):
        print("‚öôÔ∏è  Desmontando Drive previo...")
        drive.flush_and_unmount()
        shutil.rmtree(mount_path, ignore_errors=True)

    # Montar Drive limpio
    drive.mount(mount_path, force_remount=True)
    print("‚úÖ Google Drive montado correctamente en:", mount_path)
except Exception as e:
    print(f"‚ö†Ô∏è Error al montar Google Drive: {e}")



# ========== 2. Logger persistente (versi√≥n robusta) ==========
import logging, os

# Asegurar ruta del log
os.makedirs(os.path.dirname(RUTA_LOG), exist_ok=True)

logger = logging.getLogger("colombiatic_etl")
logger.setLevel(logging.INFO)

# Limpiar handlers previos (por si se reejecuta)
if logger.hasHandlers():
    logger.handlers.clear()

# Configurar handler de archivo
fh = logging.FileHandler(RUTA_LOG, mode="a", encoding="utf-8")
fmt = logging.Formatter("%(asctime)s | %(levelname)s | %(message)s")
fh.setFormatter(fmt)
logger.addHandler(fh)

# ‚úÖ Funciones de log seguras
def log_info(msg):
    try:
        print(msg)
        logger.info(msg)
    except Exception:
        # Si Drive se desconecta, no detiene el proceso
        print(f"[WARN logging deshabilitado temporalmente] {msg}")

def log_warn(msg):
    try:
        print(msg)
        logger.warning(msg)
    except Exception:
        print(f"[WARN logging deshabilitado temporalmente] {msg}")

def log_error(msg):
    try:
        print(msg)
        logger.error(msg)
    except Exception:
        print(f"[WARN logging deshabilitado temporalmente] {msg}")

# Informaci√≥n inicial
log_info("===== INICIO EJECUCI√ìN NOTEBOOK 1 (Scraping + ETL) =====")
log_info(f"Carpeta destino Excel: {RUTA_EXCEL_DEST}")
log_info(f"Carpeta temporal Excel: {RUTA_EXCEL_TEMP}")
log_info(f"Base en Drive: {RUTA_DB_DRIVE}")
log_info(f"Log persistente: {RUTA_LOG}")


# ========== 3. Utilidades (nombres y conexi√≥n) ==========
def normalizar_nombre(s: str, max_len: int = 60) -> str:
    s = s.lower()
    s = re.sub(r"[^a-z0-9_]", "_", s)
    s = re.sub(r"_+", "_", s).strip("_")
    return s[:max_len] if max_len else s

def conectar_duckdb_seguro(path_db: str):
    """Conecta o crea base. Si existe en Drive, copia a local y conecta local."""
    # Si existe base en Drive, hacer copia local para trabajar r√°pido/sin locks
    if os.path.exists(RUTA_DB_DRIVE):
        try:
            if os.path.exists(RUTA_DB_LOCAL):
                os.remove(RUTA_DB_LOCAL)
            shutil.copy2(RUTA_DB_DRIVE, RUTA_DB_LOCAL)
            log_info(f"‚úÖ Copia local creada desde Drive: {RUTA_DB_DRIVE} ‚Üí {RUTA_DB_LOCAL}")
        except Exception as e:
            log_warn(f"‚ö†Ô∏è No se pudo copiar base desde Drive. Se crear√° una nueva local. Detalle: {e}")
    # Conectar a la copia local (o nueva si no exist√≠a)
    con = duckdb.connect(RUTA_DB_LOCAL)
    log_info(f"üíæ Conexi√≥n establecida con base local: {RUTA_DB_LOCAL}")
    # Tabla de control (si no existe)
    con.execute("""
    CREATE TABLE IF NOT EXISTS control_cargue (
        archivo TEXT,
        hojas_cargadas INTEGER,
        filas_totales INTEGER,
        fecha_cargue TIMESTAMP,
        estado TEXT
    )
    """)
    log_info("üìä Tabla 'control_cargue' lista.")
    return con

def sincronizar_local_a_drive():
    """Cierra conexi√≥n si est√° abierta y copia local ‚Üí Drive."""
    try:
        con.close()
    except:
        pass
    try:
        if os.path.exists(RUTA_DB_LOCAL):
            shutil.copy2(RUTA_DB_LOCAL, RUTA_DB_DRIVE)
            log_info(f"üì¶ Base actualizada copiada de nuevo al Drive: {RUTA_DB_LOCAL} ‚Üí {RUTA_DB_DRIVE}")
    except Exception as e:
        log_error(f"‚ùå Error copiando base a Drive: {e}")

# ========== 4. Scraping (encuentra y descarga solo Excel; filtra TIC) ==========
URL_PORTAL = "https://colombiatic.mintic.gov.co/679/w3-channel.html"

# ===============================================================
# ========== 2. Scraping autom√°tico con Playwright ==========
# ===============================================================
# ===============================================================
# üåê FUNCI√ìN: obtener_urls_excel_playwright
# ---------------------------------------------------------------
# Usa Playwright solo para navegar y encontrar los enlaces de Excel (.xls / .xlsx)
# Luego descarga los archivos grandes directamente con requests (streaming)
# ===============================================================

# ===============================================================
# üåê FUNCI√ìN: obtener_urls_excel_playwright (versi√≥n con renombrado autom√°tico)
# ===============================================================

import os
import asyncio
from playwright.async_api import async_playwright
import requests
import shutil

async def obtener_urls_excel_playwright(carpeta_destino):
    archivos_descargados = []

    # Diccionario de correspondencia entre boletines y nombre deseado
    renombres = {
        "417629": "reporte_tic_segundo_trimestre_2025.xlsx",
        "407454": "reporte_tic_tercer_trimestre_2024.xlsx",
        "406102": "reporte_tic_segundo_trimestre_2024.xlsx",
        "404030": "reporte_tic_primer_trimestre_2024.xlsx",
        # Puedes ir ampliando esta tabla conforme salgan nuevos boletines
    }

    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        context = await browser.new_context(accept_downloads=True)
        page = await context.new_page()

        url_principal = "https://colombiatic.mintic.gov.co/679/w3-channel.html"
        log_info(f"üåê Ingresando a {url_principal} ...")
        await page.goto(url_principal, timeout=120000)

        # Extraer URLs de boletines
        boletines = await page.eval_on_selector_all(
            "a",
            "els => els.map(e => e.href).filter(h => h && h.includes('w3-article'))"
        )
        boletines = list(dict.fromkeys(boletines))  # quitar duplicados
        log_info(f"üì∞ Boletines detectados: {len(boletines)}")

        for i, href in enumerate(boletines):
            try:
                log_info(f"üîé Procesando bolet√≠n {i+1}: {href}")
                subpage = await context.new_page()
                await subpage.goto(href, timeout=90000)

                # Buscar enlaces Excel directamente
                links = await subpage.eval_on_selector_all(
                    "a",
                    "elements => elements.map(el => el.href).filter(h => h && (h.endsWith('.xls') || h.endsWith('.xlsx')))"
                )

                if links:
                    for enlace in links:
                        nombre_original = enlace.split("/")[-1]
                        destino_temp = os.path.join(carpeta_destino, nombre_original)

                        if not os.path.exists(destino_temp):
                            log_info(f"‚¨áÔ∏è Descargando: {nombre_original}")
                            try:
                                # Descarga directa con streaming
                                with requests.get(enlace, stream=True, timeout=600) as r:
                                    r.raise_for_status()
                                    with open(destino_temp, "wb") as f:
                                        for chunk in r.iter_content(chunk_size=8192):
                                            if chunk:
                                                f.write(chunk)
                                log_info(f"üì• Guardado correctamente: {destino_temp}")
                            except Exception as ex:
                                log_warn(f"‚ö†Ô∏è Error descargando {nombre_original}: {ex}")
                                continue
                        else:
                            log_info(f"‚è≠Ô∏è Ya existe: {destino_temp}")

                        # Intentar renombrar seg√∫n el diccionario
                        nuevo_nombre = None
                        for clave, nombre_final in renombres.items():
                            if clave in href or clave in nombre_original:
                                nuevo_nombre = nombre_final
                                break

                        if nuevo_nombre:
                            destino_final = os.path.join(carpeta_destino, nuevo_nombre)
                            if destino_temp != destino_final:
                                try:
                                    shutil.move(destino_temp, destino_final)
                                    log_info(f"üìù Renombrado a: {nuevo_nombre}")
                                    archivos_descargados.append(destino_final)
                                except Exception as ex:
                                    log_warn(f"‚ö†Ô∏è Error renombrando {nombre_original} ‚Üí {nuevo_nombre}: {ex}")
                        else:
                            archivos_descargados.append(destino_temp)
                            log_warn(f"‚ö†Ô∏è No se encontr√≥ nombre asignado para {nombre_original}, se conserva nombre original.")

                else:
                    log_warn(f"‚ö†Ô∏è No se encontraron enlaces .xlsx en {href}")

                await subpage.close()

            except Exception as ex:
                log_warn(f"‚ö†Ô∏è Error procesando bolet√≠n {i+1}: {ex}")
                continue

        await browser.close()

    log_info(f"‚úÖ Total archivos descargados y renombrados: {len(archivos_descargados)}")
    return archivos_descargados







def descargar_excel(url: str, destino_dir: str) -> str | None:
    """Descarga un Excel y lo nombra a partir del slug del art√≠culo o filename; retorna ruta destino."""
    try:
        resp = requests.get(url, timeout=60)
        if resp.status_code != 200:
            log_warn(f"‚ö†Ô∏è No se pudo descargar {url} (status {resp.status_code})")
            return None
        # nombre base por defecto
        base = url.split("/")[-1].replace(".xlsx", "")
        base = normalizar_nombre(base, 80)

        # guardar en temp
        nombre = f"{base}.xlsx"
        ruta = os.path.join(destino_dir, nombre)
        with open(ruta, "wb") as f:
            f.write(resp.content)
        return ruta
    except Exception as e:
        log_warn(f"‚ö†Ô∏è Error descargando {url}: {e}")
        return None


# Parchear pyppeteer para modo headless estable en Colab
import nest_asyncio, pyppeteer, asyncio
nest_asyncio.apply()

async def fix_pyppeteer():
    browser = await pyppeteer.launch(
        headless=True,
        args=[
            "--no-sandbox",
            "--disable-gpu",
            "--disable-dev-shm-usage",
            "--disable-setuid-sandbox",
            "--disable-extensions",
            "--disable-infobars",
            "--window-size=1920,1080",
        ]
    )
    await browser.close()

asyncio.get_event_loop().run_until_complete(fix_pyppeteer())
print("‚úÖ pyppeteer inicializado correctamente en modo headless.")

# ===============================================================
# üß© Instalar dependencias del sistema necesarias para Playwright
# ===============================================================
import subprocess

print("‚öôÔ∏è Instalando dependencias del sistema para Playwright (solo una vez)...")
subprocess.run(["apt-get", "install", "-y",
                "libatk1.0-0",
                "libatk-bridge2.0-0",
                "libatspi2.0-0",
                "libxcomposite1",
                "libxdamage1",
                "libxfixes3",
                "libxrandr2",
                "libgbm1",
                "libxkbcommon0",
                "libpango-1.0-0",
                "libasound2",
                "libgtk-3-0"], check=True)

print("‚úÖ Dependencias del sistema instaladas correctamente.")



# Lanzar scraping
log_info("üåê Iniciando scraping de boletines...")
try:
    # Ejecutar asincr√≥nicamente en Colab
    import asyncio
    urls_xlsx = asyncio.get_event_loop().run_until_complete(obtener_urls_excel_playwright(RUTA_EXCEL_DEST))
except RuntimeError:
    # Loop ya corriendo: usar nest_asyncio y crear uno nuevo
    loop = asyncio.new_event_loop()
    asyncio.set_event_loop(loop)
    urls_xlsx = loop.run_until_complete(obtener_urls_excel_playwright())

log_info(f"üìä Archivos Excel detectados (√∫nicos): {len(urls_xlsx)}")

# Descarga a carpeta temporal
descargados = []
for u in tqdm(urls_xlsx, desc="‚¨áÔ∏è Descargando archivos Excel"):
    ruta_tmp = descargar_excel(u, RUTA_EXCEL_TEMP)
    if ruta_tmp:
        descargados.append(ruta_tmp)

log_info(f"üì¶ Archivos descargados en temp: {len(descargados)}")

# Detectar TIC y mover a carpeta final. Borrar los no TIC
movidos = []
eliminados = []
for ruta in descargados:
    nombre = os.path.basename(ruta)
    # Heur√≠stica: debe contener "tic" en el nombre (en muchos casos funciona),
    # y/o es el archivo principal que el portal publica (ya trae "sector_tic" o similar).
    if "tic" in nombre.lower():
        destino = os.path.join(RUTA_EXCEL_DEST, nombre)
        if os.path.exists(destino):
            os.remove(destino)
        shutil.move(ruta, destino)
        movidos.append(destino)
        log_info(f"üì¶ Movido a carpeta destino: {os.path.basename(destino)}")
    else:
        os.remove(ruta)
        eliminados.append(nombre)
        log_info(f"üßπ Eliminado archivo no relevante: {nombre}")

# Limpieza final de temp (si qued√≥ algo)
try:
    for f in os.listdir(RUTA_EXCEL_TEMP):
        try:
            os.remove(os.path.join(RUTA_EXCEL_TEMP, f))
        except:
            pass
except:
    pass

log_info("üéØ Scraping finalizado.")


# üí° Limpieza interna para evitar crecimiento del archivo DuckDB
import duckdb
try:
    con = duckdb.connect("/content/colombiatic_temp.duckdb")
    con.execute("VACUUM;")  # Compacta y elimina espacio no usado
    con.close()
    log_info("üßπ Base compactada con VACUUM antes de copiar al Drive.")
except Exception as e:
    log_warn(f"‚ö†Ô∏è No se pudo ejecutar VACUUM: {e}")



# ========== 5. Conexi√≥n a DuckDB (local) ==========
# Importante: conectar despu√©s del scraping
con = conectar_duckdb_seguro(RUTA_DB_DRIVE)



# ========== 6. Carga incremental de Excel TIC ==========
def archivos_tic_actuales():
    return [f for f in os.listdir(RUTA_EXCEL_DEST) if f.lower().endswith((".xlsx", ".xls"))]

# Obt√©n los ya cargados desde control_cargue
try:
    ya_cargados = set(
        con.execute("SELECT DISTINCT archivo FROM control_cargue").fetchdf()["archivo"].tolist()
    )
except Exception:
    ya_cargados = set()

archivos = archivos_tic_actuales()
pendientes = [f for f in archivos if f not in ya_cargados]

print("\nüìÇ Archivos disponibles actualmente en carpeta destino:")
for f in archivos:
    print(f"   ‚Ä¢ {f}")

if not pendientes:
    log_info("‚è≠Ô∏è No hay archivos nuevos para cargar. La base est√° actualizada.")
else:
    log_info(f"üÜï Archivos TIC nuevos detectados: {len(pendientes)}")

for nombre_archivo in pendientes:
    ruta_archivo = os.path.join(RUTA_EXCEL_DEST, nombre_archivo)
    estado = "OK"
    total_filas = 0
    hojas_cargadas = 0
    log_info(f"\nüìò Procesando: {nombre_archivo}")

    try:
        xls = pd.ExcelFile(ruta_archivo)
        hojas = xls.sheet_names
        # proceso hoja a hoja
        for hoja in hojas:
            try:
                # Detectar encabezado: primeras 10 filas probando
                df_valid = None
                for fila_enc in range(0, 10):
                    df_try = pd.read_excel(ruta_archivo, sheet_name=hoja, header=fila_enc, engine="openpyxl")
                    if df_try.columns.notna().sum() > 2:
                        df_valid = df_try
                        break
                if df_valid is None or df_valid.empty:
                    continue

                df_valid = df_valid.astype(str)

                # nombre de tabla
                base = normalizar_nombre(os.path.splitext(nombre_archivo)[0], 48)
                hoja_n = normalizar_nombre(hoja, 10)  # corto para no pasarse de 63
                nombre_tabla = f"{base}_{hoja_n}"

                # Evitar duplicados de tabla
                tablas_existentes = con.execute("SHOW TABLES").fetchdf()["name"].tolist()
                if nombre_tabla in tablas_existentes:
                    log_info(f"   ‚è≠Ô∏è La tabla '{nombre_tabla}' ya existe, se omite.")
                else:
                    con.register("tmp_df", df_valid)
                    con.execute(f"CREATE TABLE '{nombre_tabla}' AS SELECT * FROM tmp_df")
                    con.unregister("tmp_df")
                    hojas_cargadas += 1
                    total_filas += len(df_valid)
                    log_info(f"   ‚úÖ Hoja '{hoja}' cargada como '{nombre_tabla}' ({len(df_valid)} filas)")
            except Exception as e_hoja:
                estado = f"ERROR_HOJA:{hoja}:{str(e_hoja)[:150]}"
                log_warn(f"‚ö†Ô∏è {estado}")

    except Exception as e_file:
        estado = f"ERROR_ARCHIVO:{str(e_file)[:150]}"
        log_warn(f"‚ö†Ô∏è {estado}")

    # Registrar cargue a nivel archivo (incremental)
    try:
        con.execute("""
            INSERT INTO control_cargue (archivo, hojas_cargadas, filas_totales, fecha_cargue, estado)
            VALUES (?, ?, ?, ?, ?)
        """, [nombre_archivo, hojas_cargadas, total_filas, datetime.now(), estado])
        log_info(f"üìù Registrado en control_cargue: {nombre_archivo} | hojas={hojas_cargadas} | filas={total_filas} | estado={estado}")
    except Exception as e_ins:
        log_warn(f"‚ö†Ô∏è Error insertando en control_cargue: {e_ins}")

# Sincronizar base local a Drive y cerrar
sincronizar_local_a_drive()

# ============================================================
# üßæ EXPORTAR TABLA DE CONTROL (para trazabilidad del proceso)
# ============================================================
import os
import pandas as pd
import duckdb
from datetime import datetime

# 1Ô∏è‚É£ Par√°metro del trimestre procesado
PERIODO_ACTUAL = "2025_T2"  # Ajustar seg√∫n trimestre a procesar

# 2Ô∏è‚É£ Conectarse a la base ya sincronizada en Drive
db_path = RUTA_DB_DRIVE
con_exp = duckdb.connect(db_path, read_only=True)

# 3Ô∏è‚É£ Leer la tabla de control_cargue
try:
    df_control = con_exp.execute("""
        SELECT archivo, hojas_cargadas, filas_totales, fecha_cargue, estado
        FROM control_cargue
        ORDER BY fecha_cargue DESC
    """).fetchdf()
    print(f"üìä Registros en control_cargue: {len(df_control)}")
except Exception as e:
    print(f"‚ö†Ô∏è No se pudo leer la tabla control_cargue: {e}")
    df_control = pd.DataFrame()

con_exp.close()

# 4Ô∏è‚É£ Crear carpeta destino en Drive
OUT_DIR = f"/content/gdrive/MyDrive/trabajoGrado/resultados/control_cargue/{PERIODO_ACTUAL}"
os.makedirs(OUT_DIR, exist_ok=True)

# 5Ô∏è‚É£ Exportar resultados
csv_path = f"{OUT_DIR}/control_cargue_{PERIODO_ACTUAL}.csv"
parquet_path = f"{OUT_DIR}/control_cargue_{PERIODO_ACTUAL}.parquet"

if not df_control.empty:
    df_control.to_csv(csv_path, index=False)
    df_control.to_parquet(parquet_path, index=False)
    print(f"‚úÖ Archivo exportado correctamente:\n - {csv_path}\n - {parquet_path}")
else:
    print("‚ö†Ô∏è No hay datos para exportar.")

# 6Ô∏è‚É£ Crear mini resumen Markdown (opcional)
md_path = f"{OUT_DIR}/RESUMEN_{PERIODO_ACTUAL}.md"
with open(md_path, "w", encoding="utf-8") as f:
    f.write(f"# Control de Cargue ‚Äì {PERIODO_ACTUAL}\n\n")
    f.write(f"Fecha de exportaci√≥n: {datetime.now():%Y-%m-%d %H:%M:%S}\n\n")
    if not df_control.empty:
        ultimos = df_control.head(10)
        f.write(ultimos.to_markdown(index=False))
    else:
        f.write("No se encontraron registros en control_cargue.\n")

print(f"üóÇÔ∏è Resumen generado en: {md_path}")


# ========== 7. Revisar la base (resumen final) ==========
# Para evitar el error de conexi√≥n cerrada, abrimos una conexi√≥n **ligera** a la base en Drive solo para consulta
try:
    con_check = duckdb.connect(RUTA_DB_DRIVE, read_only=True)
    tablas = con_check.execute("SHOW TABLES").fetchdf()
    print("\nüìÇ Tablas en la base:")
    display(tablas)

    control = con_check.execute("""
        SELECT archivo, hojas_cargadas, filas_totales, fecha_cargue, estado
        FROM control_cargue
        ORDER BY fecha_cargue DESC
        LIMIT 20
    """).fetchdf()
    print("\nüìã √öltimos registros en control_cargue:")
    display(control)

    total_control = con_check.execute("SELECT COUNT(*) AS total FROM control_cargue").fetchdf()
    print("\nüßÆ Total de registros en control_cargue:")
    display(total_control)

    # tama√±o del archivo de base
    tam_mb = os.path.getsize(RUTA_DB_DRIVE) / (1024*1024)
    print(f"\nüíæ Tama√±o actual de la base: {tam_mb:.2f} MB")
    con_check.close()
except Exception as e:
    log_warn(f"‚ö†Ô∏è No se pudo consultar la base final: {e}")

log_info("===== FIN EJECUCI√ìN NOTEBOOK 1 =====")
print("\n‚úÖ Proceso completado.")
print(f"üóÇ Log del ETL: {RUTA_LOG}")
print(f"üóÑÔ∏è Base DuckDB: {RUTA_DB_DRIVE}")
print(f"üìÅ Carpeta Excel (solo TIC): {RUTA_EXCEL_DEST}")


üì¶ Instalando requests-html...
‚úÖ Chromium ya disponible.
‚öôÔ∏è Verificando dependencias del sistema...
‚úÖ Dependencias del sistema listas.
‚úÖ Playwright ya disponible.
‚úÖ Dependencias listas para ejecuci√≥n del ETL ColombiaTIC
‚úÖ Playwright ya disponible.
‚úÖ Dependencias listas para ejecuci√≥n del ETL ColombiaTIC
‚öôÔ∏è  Desmontando Drive previo...


INFO:colombiatic_etl:===== INICIO EJECUCI√ìN NOTEBOOK 1 (Scraping + ETL) =====
INFO:colombiatic_etl:Carpeta destino Excel: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic
INFO:colombiatic_etl:Carpeta temporal Excel: /content/gdrive/MyDrive/trabajoGrado/temp_colombiatic
INFO:colombiatic_etl:Base en Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb
INFO:colombiatic_etl:Log persistente: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic_etl.log


Mounted at /content/gdrive
‚úÖ Google Drive montado correctamente en: /content/gdrive
===== INICIO EJECUCI√ìN NOTEBOOK 1 (Scraping + ETL) =====
Carpeta destino Excel: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic
Carpeta temporal Excel: /content/gdrive/MyDrive/trabajoGrado/temp_colombiatic
Base en Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb
Log persistente: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic_etl.log
‚úÖ pyppeteer inicializado correctamente en modo headless.
‚öôÔ∏è Instalando dependencias del sistema para Playwright (solo una vez)...


INFO:colombiatic_etl:üåê Iniciando scraping de boletines...


‚úÖ Dependencias del sistema instaladas correctamente.
üåê Iniciando scraping de boletines...


INFO:colombiatic_etl:üåê Ingresando a https://colombiatic.mintic.gov.co/679/w3-channel.html ...


üåê Ingresando a https://colombiatic.mintic.gov.co/679/w3-channel.html ...


INFO:colombiatic_etl:üì∞ Boletines detectados: 5
INFO:colombiatic_etl:üîé Procesando bolet√≠n 1: https://colombiatic.mintic.gov.co/679/w3-article-417629.html


üì∞ Boletines detectados: 5
üîé Procesando bolet√≠n 1: https://colombiatic.mintic.gov.co/679/w3-article-417629.html


INFO:colombiatic_etl:‚è≠Ô∏è Ya existe: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-417629_recurso_1.xlsx
INFO:colombiatic_etl:üìù Renombrado a: reporte_tic_segundo_trimestre_2025.xlsx
INFO:colombiatic_etl:‚¨áÔ∏è Descargando: articles-417629_recurso_1.xlsx


‚è≠Ô∏è Ya existe: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-417629_recurso_1.xlsx
üìù Renombrado a: reporte_tic_segundo_trimestre_2025.xlsx
‚¨áÔ∏è Descargando: articles-417629_recurso_1.xlsx


INFO:colombiatic_etl:üì• Guardado correctamente: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-417629_recurso_1.xlsx
INFO:colombiatic_etl:üìù Renombrado a: reporte_tic_segundo_trimestre_2025.xlsx
INFO:colombiatic_etl:üîé Procesando bolet√≠n 2: https://colombiatic.mintic.gov.co/679/w3-article-407454.html


üì• Guardado correctamente: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-417629_recurso_1.xlsx
üìù Renombrado a: reporte_tic_segundo_trimestre_2025.xlsx
üîé Procesando bolet√≠n 2: https://colombiatic.mintic.gov.co/679/w3-article-407454.html


INFO:colombiatic_etl:‚è≠Ô∏è Ya existe: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-407454_archivo_xls.xlsx
INFO:colombiatic_etl:üìù Renombrado a: reporte_tic_tercer_trimestre_2024.xlsx
INFO:colombiatic_etl:‚¨áÔ∏è Descargando: articles-407454_archivo_xls.xlsx


‚è≠Ô∏è Ya existe: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-407454_archivo_xls.xlsx
üìù Renombrado a: reporte_tic_tercer_trimestre_2024.xlsx
‚¨áÔ∏è Descargando: articles-407454_archivo_xls.xlsx


INFO:colombiatic_etl:üì• Guardado correctamente: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-407454_archivo_xls.xlsx
INFO:colombiatic_etl:üìù Renombrado a: reporte_tic_tercer_trimestre_2024.xlsx
INFO:colombiatic_etl:üîé Procesando bolet√≠n 3: https://colombiatic.mintic.gov.co/679/w3-article-406102.html


üì• Guardado correctamente: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-407454_archivo_xls.xlsx
üìù Renombrado a: reporte_tic_tercer_trimestre_2024.xlsx
üîé Procesando bolet√≠n 3: https://colombiatic.mintic.gov.co/679/w3-article-406102.html


INFO:colombiatic_etl:‚è≠Ô∏è Ya existe: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-406102_archivo_xls.xlsx
INFO:colombiatic_etl:üìù Renombrado a: reporte_tic_segundo_trimestre_2024.xlsx
INFO:colombiatic_etl:‚¨áÔ∏è Descargando: articles-406102_archivo_xls.xlsx


‚è≠Ô∏è Ya existe: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-406102_archivo_xls.xlsx
üìù Renombrado a: reporte_tic_segundo_trimestre_2024.xlsx
‚¨áÔ∏è Descargando: articles-406102_archivo_xls.xlsx


INFO:colombiatic_etl:üì• Guardado correctamente: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-406102_archivo_xls.xlsx
INFO:colombiatic_etl:üìù Renombrado a: reporte_tic_segundo_trimestre_2024.xlsx
INFO:colombiatic_etl:üîé Procesando bolet√≠n 4: https://www.mintic.gov.co/portal/715/w3-article-2627.html


üì• Guardado correctamente: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/articles-406102_archivo_xls.xlsx
üìù Renombrado a: reporte_tic_segundo_trimestre_2024.xlsx
üîé Procesando bolet√≠n 4: https://www.mintic.gov.co/portal/715/w3-article-2627.html


INFO:colombiatic_etl:üîé Procesando bolet√≠n 5: https://www.mintic.gov.co/portal/715/w3-article-196390.html


‚ö†Ô∏è No se encontraron enlaces .xlsx en https://www.mintic.gov.co/portal/715/w3-article-2627.html
üîé Procesando bolet√≠n 5: https://www.mintic.gov.co/portal/715/w3-article-196390.html




‚ö†Ô∏è No se encontraron enlaces .xlsx en https://www.mintic.gov.co/portal/715/w3-article-196390.html


INFO:colombiatic_etl:‚úÖ Total archivos descargados y renombrados: 6
INFO:colombiatic_etl:üìä Archivos Excel detectados (√∫nicos): 6


‚úÖ Total archivos descargados y renombrados: 6
üìä Archivos Excel detectados (√∫nicos): 6


‚¨áÔ∏è Descargando archivos Excel: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 6/6 [00:00<00:00, 221.49it/s]
INFO:colombiatic_etl:üì¶ Archivos descargados en temp: 0
INFO:colombiatic_etl:üéØ Scraping finalizado.


‚ö†Ô∏è Error descargando /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_segundo_trimestre_2025.xlsx: Invalid URL '/content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_segundo_trimestre_2025.xlsx': No scheme supplied. Perhaps you meant https:///content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_segundo_trimestre_2025.xlsx?
‚ö†Ô∏è Error descargando /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_segundo_trimestre_2025.xlsx: Invalid URL '/content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_segundo_trimestre_2025.xlsx': No scheme supplied. Perhaps you meant https:///content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_segundo_trimestre_2025.xlsx?
‚ö†Ô∏è Error descargando /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_tercer_trimestre_2024.xlsx: Invalid URL '/content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic/reporte_tic_tercer_trimestre_2024.xlsx': No scheme

INFO:colombiatic_etl:üßπ Base compactada con VACUUM antes de copiar al Drive.


üßπ Base compactada con VACUUM antes de copiar al Drive.


INFO:colombiatic_etl:‚úÖ Copia local creada desde Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb ‚Üí /content/colombiatic_temp.duckdb
INFO:colombiatic_etl:üíæ Conexi√≥n establecida con base local: /content/colombiatic_temp.duckdb
INFO:colombiatic_etl:üìä Tabla 'control_cargue' lista.
INFO:colombiatic_etl:üÜï Archivos TIC nuevos detectados: 1
INFO:colombiatic_etl:
üìò Procesando: reporte_tic_segundo_trimestre_2025.xlsx


‚úÖ Copia local creada desde Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb ‚Üí /content/colombiatic_temp.duckdb
üíæ Conexi√≥n establecida con base local: /content/colombiatic_temp.duckdb
üìä Tabla 'control_cargue' lista.

üìÇ Archivos disponibles actualmente en carpeta destino:
   ‚Ä¢ reporte_tic_segundo_trimestre_2024.xlsx
   ‚Ä¢ reporte_tic_tercer_trimestre_2024.xlsx
   ‚Ä¢ reporte_tic_cuarto_trimestre_2024.xlsx
   ‚Ä¢ boletn_trimestral_del_sector_tic_cifras_primer_trimestre_de_2025.xlsx
   ‚Ä¢ reporte_tic_segundo_trimestre_2025.xlsx
üÜï Archivos TIC nuevos detectados: 1

üìò Procesando: reporte_tic_segundo_trimestre_2025.xlsx


INFO:colombiatic_etl:   ‚úÖ Hoja 'CONTENIDO' cargada como 'reporte_tic_segundo_trimestre_2025_contenido' (48 filas)


   ‚úÖ Hoja 'CONTENIDO' cargada como 'reporte_tic_segundo_trimestre_2025_contenido' (48 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '1' cargada como 'reporte_tic_segundo_trimestre_2025_1' (12638 filas)


   ‚úÖ Hoja '1' cargada como 'reporte_tic_segundo_trimestre_2025_1' (12638 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '2' cargada como 'reporte_tic_segundo_trimestre_2025_2' (368 filas)


   ‚úÖ Hoja '2' cargada como 'reporte_tic_segundo_trimestre_2025_2' (368 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '3' cargada como 'reporte_tic_segundo_trimestre_2025_3' (12320 filas)


   ‚úÖ Hoja '3' cargada como 'reporte_tic_segundo_trimestre_2025_3' (12320 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '4,1' cargada como 'reporte_tic_segundo_trimestre_2025_4_1' (197075 filas)


   ‚úÖ Hoja '4,1' cargada como 'reporte_tic_segundo_trimestre_2025_4_1' (197075 filas)


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

INFO:colombiatic_etl:   ‚úÖ Hoja '4,2' cargada como 'reporte_tic_segundo_trimestre_2025_4_2' (818097 filas)


   ‚úÖ Hoja '4,2' cargada como 'reporte_tic_segundo_trimestre_2025_4_2' (818097 filas)


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

INFO:colombiatic_etl:   ‚úÖ Hoja '4,3' cargada como 'reporte_tic_segundo_trimestre_2025_4_3' (766401 filas)


   ‚úÖ Hoja '4,3' cargada como 'reporte_tic_segundo_trimestre_2025_4_3' (766401 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '4,4' cargada como 'reporte_tic_segundo_trimestre_2025_4_4' (354407 filas)


   ‚úÖ Hoja '4,4' cargada como 'reporte_tic_segundo_trimestre_2025_4_4' (354407 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '5' cargada como 'reporte_tic_segundo_trimestre_2025_5' (13661 filas)


   ‚úÖ Hoja '5' cargada como 'reporte_tic_segundo_trimestre_2025_5' (13661 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '6' cargada como 'reporte_tic_segundo_trimestre_2025_6' (630 filas)


   ‚úÖ Hoja '6' cargada como 'reporte_tic_segundo_trimestre_2025_6' (630 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '7' cargada como 'reporte_tic_segundo_trimestre_2025_7' (235 filas)


   ‚úÖ Hoja '7' cargada como 'reporte_tic_segundo_trimestre_2025_7' (235 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '8' cargada como 'reporte_tic_segundo_trimestre_2025_8' (172 filas)


   ‚úÖ Hoja '8' cargada como 'reporte_tic_segundo_trimestre_2025_8' (172 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '9' cargada como 'reporte_tic_segundo_trimestre_2025_9' (615 filas)


   ‚úÖ Hoja '9' cargada como 'reporte_tic_segundo_trimestre_2025_9' (615 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '10' cargada como 'reporte_tic_segundo_trimestre_2025_10' (231 filas)


   ‚úÖ Hoja '10' cargada como 'reporte_tic_segundo_trimestre_2025_10' (231 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '11' cargada como 'reporte_tic_segundo_trimestre_2025_11' (88 filas)


   ‚úÖ Hoja '11' cargada como 'reporte_tic_segundo_trimestre_2025_11' (88 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '12' cargada como 'reporte_tic_segundo_trimestre_2025_12' (132 filas)


   ‚úÖ Hoja '12' cargada como 'reporte_tic_segundo_trimestre_2025_12' (132 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '13' cargada como 'reporte_tic_segundo_trimestre_2025_13' (2123 filas)


   ‚úÖ Hoja '13' cargada como 'reporte_tic_segundo_trimestre_2025_13' (2123 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '14' cargada como 'reporte_tic_segundo_trimestre_2025_14' (130 filas)


   ‚úÖ Hoja '14' cargada como 'reporte_tic_segundo_trimestre_2025_14' (130 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '15' cargada como 'reporte_tic_segundo_trimestre_2025_15' (124426 filas)


   ‚úÖ Hoja '15' cargada como 'reporte_tic_segundo_trimestre_2025_15' (124426 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '16' cargada como 'reporte_tic_segundo_trimestre_2025_16' (45800 filas)


   ‚úÖ Hoja '16' cargada como 'reporte_tic_segundo_trimestre_2025_16' (45800 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '17' cargada como 'reporte_tic_segundo_trimestre_2025_17' (214 filas)


   ‚úÖ Hoja '17' cargada como 'reporte_tic_segundo_trimestre_2025_17' (214 filas)


INFO:colombiatic_etl:üìù Registrado en control_cargue: reporte_tic_segundo_trimestre_2025.xlsx | hojas=21 | filas=2349811 | estado=ERROR_HOJA:18:Passed header=[4], len of 1, but only 4 lines in file (sheet: 18)


‚ö†Ô∏è ERROR_HOJA:18:Passed header=[4], len of 1, but only 4 lines in file (sheet: 18)
üìù Registrado en control_cargue: reporte_tic_segundo_trimestre_2025.xlsx | hojas=21 | filas=2349811 | estado=ERROR_HOJA:18:Passed header=[4], len of 1, but only 4 lines in file (sheet: 18)


INFO:colombiatic_etl:üì¶ Base actualizada copiada de nuevo al Drive: /content/colombiatic_temp.duckdb ‚Üí /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb


üì¶ Base actualizada copiada de nuevo al Drive: /content/colombiatic_temp.duckdb ‚Üí /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb
üìä Registros en control_cargue: 23
‚úÖ Archivo exportado correctamente:
 - /content/gdrive/MyDrive/trabajoGrado/resultados/control_cargue/2025_T2/control_cargue_2025_T2.csv
 - /content/gdrive/MyDrive/trabajoGrado/resultados/control_cargue/2025_T2/control_cargue_2025_T2.parquet
üóÇÔ∏è Resumen generado en: /content/gdrive/MyDrive/trabajoGrado/resultados/control_cargue/2025_T2/RESUMEN_2025_T2.md

üìÇ Tablas en la base:


Unnamed: 0,name
0,articles_404030_archivo_xls_1
1,articles_404030_archivo_xls_10
2,articles_404030_archivo_xls_11
3,articles_404030_archivo_xls_12
4,articles_404030_archivo_xls_13
...,...
139,reporte_tic_tercer_trimestre_2024_7
140,reporte_tic_tercer_trimestre_2024_8
141,reporte_tic_tercer_trimestre_2024_9
142,reporte_tic_tercer_trimestre_2024_CONTENIDO



üìã √öltimos registros en control_cargue:


Unnamed: 0,archivo,hojas_cargadas,filas_totales,fecha_cargue,estado
0,reporte_tic_segundo_trimestre_2025.xlsx,21,2349811,2025-11-12 20:54:30.836810,"ERROR_HOJA:18:Passed header=[4], len of 1, but..."
1,articles-406102_archivo_xls.xlsx,0,0,2025-11-12 19:50:26.395185,OK
2,articles-407454_archivo_xls.xlsx,0,0,2025-11-12 19:50:24.786946,"ERROR_HOJA:3:Passed header=[4], len of 1, but ..."
3,articles-417629_recurso_1.xlsx,21,2349811,2025-11-12 19:47:47.034690,"ERROR_HOJA:18:Passed header=[4], len of 1, but..."
4,articles_404030_archivo_xls.xlsx,21,2363737,2025-10-23 18:32:13.245150,"ERROR_HOJA:18:Passed header=[4], len of 1, but..."
5,articles_407454_archivo_xls.xlsx,3,864401,2025-10-23 18:26:17.344438,"ERROR_HOJA:3:Passed header=[4], len of 1, but ..."
6,articles_406102_archivo_xls.xlsx,3,11398,2025-10-23 18:23:45.249435,OK
7,reporte_tic_tercer_trimestre_2024.xlsx,22,2364691,2025-10-23 02:24:33.008973,OK
8,reporte_tic_cuarto_trimestre_2024.xlsx,23,2365465,2025-10-23 02:18:42.719431,OK
9,reporte_tic_segundo_trimestre_2024.xlsx,23,2269671,2025-10-23 02:12:54.000494,OK



üßÆ Total de registros en control_cargue:


Unnamed: 0,total
0,23


INFO:colombiatic_etl:===== FIN EJECUCI√ìN NOTEBOOK 1 =====



üíæ Tama√±o actual de la base: 854.51 MB
===== FIN EJECUCI√ìN NOTEBOOK 1 =====

‚úÖ Proceso completado.
üóÇ Log del ETL: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic_etl.log
üóÑÔ∏è Base DuckDB: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb
üìÅ Carpeta Excel (solo TIC): /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic


In [None]:
import duckdb, pandas as pd

# Conexi√≥n (solo lectura)
db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path, read_only=True)

# Listar todas las tablas que contengan "_4_1"
tablas_41 = con.execute("""
    SELECT table_name AS name
    FROM duckdb_tables()
    WHERE table_name LIKE '%4_1%'
    ORDER BY table_name
""").fetchdf()

print("üìã Tablas 4_1 detectadas:")
display(tablas_41)



üìã Tablas 4_1 detectadas:


Unnamed: 0,name
0,articles_404030_archivo_xls_4_1
1,articles_417629_recurso_1_4_1
2,consolidado_tic_4_1
3,consolidado_tic_4_1_filtrado
4,consolidado_tic_4_1_limpia
5,reporte_tic_cuarto_trimestre_2024_1
6,reporte_tic_cuarto_trimestre_2024_10
7,reporte_tic_cuarto_trimestre_2024_11
8,reporte_tic_cuarto_trimestre_2024_12
9,reporte_tic_cuarto_trimestre_2024_13


Bloque de c√≥digo final para consolidar autom√°ticamente

In [None]:
import duckdb, pandas as pd

# --- Asegurar conexi√≥n limpia ---
try:
    con.close()
except:
    pass

db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path)
print("‚úÖ Conectado a la base correctamente.\n")

# --- Buscar todas las tablas que terminen en _4_1 ---
tablas_41 = con.execute("""
    SELECT table_name AS name
    FROM duckdb_tables()
    WHERE table_name LIKE '%4_1'
    ORDER BY table_name
""").fetchdf()

if tablas_41.empty:
    print("‚ö†Ô∏è No hay tablas 4.1 disponibles.")
else:
    print(f"üìã Tablas detectadas para consolidar ({len(tablas_41)}):")
    display(tablas_41)

    # --- Obtener todas las columnas √∫nicas entre las tablas 4.1 ---
    columnas_union = set()
    columnas_por_tabla = {}

    for t in tablas_41["name"]:
        cols = con.execute(f"PRAGMA table_info('{t}')").fetchdf()["name"].tolist()
        columnas_union.update(cols)
        columnas_por_tabla[t] = cols

    columnas_union = sorted(list(columnas_union))
    print(f"üß± Total columnas √∫nicas detectadas: {len(columnas_union)}\n")

    # --- Crear sentencias SELECT alineadas ---
    selects = []
    for t, cols in columnas_por_tabla.items():
        # agregar NULL para columnas faltantes
        select_cols = [f"'{t}' AS origen"]
        for col in columnas_union:
            if col in cols:
                select_cols.append(f'"{col}"')
            else:
                select_cols.append(f"NULL AS \"{col}\"")
        selects.append(f"SELECT {', '.join(select_cols)} FROM '{t}'")

    union_query = " UNION ALL ".join(selects)

    # --- Crear tabla consolidada ---
    con.execute(f"""
        CREATE OR REPLACE TABLE consolidado_tic_4_1 AS {union_query}
    """)
    print("‚úÖ Tabla consolidada creada: consolidado_tic_4_1")

    # --- Mostrar resumen de consolidaci√≥n ---
    resumen = con.execute("""
        SELECT origen, COUNT(*) AS registros
        FROM consolidado_tic_4_1
        GROUP BY origen
        ORDER BY origen
    """).fetchdf()

    print("\nüìä Registros por tabla origen:")
    display(resumen)

    total = con.execute("SELECT COUNT(*) FROM consolidado_tic_4_1").fetchone()[0]
    print(f"üßÆ Total de registros consolidados: {total:,}")

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


‚úÖ Conectado a la base correctamente.

üìã Tablas detectadas para consolidar (10):


Unnamed: 0,name
0,articles_404030_archivo_xls_4_1
1,articles_417629_recurso_1_4_1
2,consolidado_tic_4_1
3,reporte_tic_cuarto_trimestre_2024_1
4,reporte_tic_cuarto_trimestre_2024_4_1
5,reporte_tic_segundo_trimestre_2024_1
6,reporte_tic_segundo_trimestre_2024_4_1
7,reporte_tic_segundo_trimestre_2025_4_1
8,reporte_tic_tercer_trimestre_2024_1
9,reporte_tic_tercer_trimestre_2024_4_1


üß± Total columnas √∫nicas detectadas: 22



FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

‚úÖ Tabla consolidada creada: consolidado_tic_4_1

üìä Registros por tabla origen:


Unnamed: 0,origen,registros
0,articles_404030_archivo_xls_4_1,385911
1,articles_417629_recurso_1_4_1,197075
2,consolidado_tic_4_1,18709615
3,reporte_tic_cuarto_trimestre_2024_1,11698
4,reporte_tic_cuarto_trimestre_2024_4_1,571379
5,reporte_tic_segundo_trimestre_2024_1,10657
6,reporte_tic_segundo_trimestre_2024_4_1,104218
7,reporte_tic_segundo_trimestre_2025_4_1,197075
8,reporte_tic_tercer_trimestre_2024_1,11316
9,reporte_tic_tercer_trimestre_2024_4_1,756075


üßÆ Total de registros consolidados: 20,955,019

üîö Conexi√≥n cerrada correctamente.


Bloque para explorar y visualizar la tabla consolidada

C√≥digo optimizado para limpiar y renombrar consolidado_tic_4_1

In [None]:
# ============================================================
# üß† UNI√ìN SEGURA DE TABLAS CON COLUMNAS DIFERENTES
# ============================================================

# 1Ô∏è‚É£ Identificar las columnas clave comunes esperadas
columnas_requeridas = ["A√ëO", "TRIMESTRE", "DEPARTAMENTO", "MUNICIPIO", "PROVEEDOR", "TECNOLOG√çA"]

# 2Ô∏è‚É£ Filtrar solo las tablas que contienen todas esas columnas
tablas_validas = []
for t in tablas["table_name"]:
    cols = con.execute(f"""
        SELECT column_name
        FROM information_schema.columns
        WHERE table_name = '{t}'
    """).df()["column_name"].str.upper().tolist()

    if all(c in [col.upper() for col in cols] for c in columnas_requeridas):
        tablas_validas.append(t)

print(f"üß© Tablas con estructura compatible: {len(tablas_validas)}")
if len(tablas_validas) == 0:
    raise Exception("‚ùå Ninguna tabla tiene todas las columnas requeridas. Verifica los nombres o limpia las fuentes.")

# 3Ô∏è‚É£ Construir UNION ALL solo con las columnas comunes
query_union_segura = " UNION ALL ".join([
    f"""
    SELECT
        CAST(A√ëO AS INTEGER) AS A√ëO,
        CAST(TRIMESTRE AS INTEGER) AS TRIMESTRE,
        TRIM(DEPARTAMENTO) AS DEPARTAMENTO,
        TRIM(MUNICIPIO) AS MUNICIPIO,
        TRIM(PROVEEDOR) AS PROVEEDOR,
        TRIM(TECNOLOG√çA) AS TECNOLOG√çA,
        '{t}' AS origen
    FROM {t}
    WHERE TRY_CAST(A√ëO AS INTEGER) IS NOT NULL
    """
    for t in tablas_validas
])

# 4Ô∏è‚É£ Crear vista previa con LIMIT (procesado en disco, sin cargar todo)
vista = con.execute(f"""
    {query_union_segura}
    LIMIT 20;
""").df()

print("üëÄ Vista previa consolidada (20 filas):")
display(vista.head(20))

# 5Ô∏è‚É£ Resumen general de registros por departamento y a√±o
print("\nüìä Resumen por DEPARTAMENTO y A√ëO:")
resumen_final = con.execute(f"""
    SELECT
        DEPARTAMENTO,
        A√ëO,
        COUNT(DISTINCT MUNICIPIO) AS municipios_unicos,
        COUNT(*) AS total_registros
    FROM ({query_union_segura})
    GROUP BY DEPARTAMENTO, A√ëO
    ORDER BY A√ëO DESC, total_registros DESC
    LIMIT 20;
""").df()

display(resumen_final)


üß© Tablas con estructura compatible: 2
üëÄ Vista previa consolidada (20 filas):


Unnamed: 0,A√ëO,TRIMESTRE,DEPARTAMENTO,MUNICIPIO,PROVEEDOR,TECNOLOG√çA,origen
0,2022,3,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,WIFI,consolidado_tic_4_1_filtrado
1,2022,3,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,WIFI,consolidado_tic_4_1_filtrado
2,2022,3,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,WIFI,consolidado_tic_4_1_filtrado
3,2022,3,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,WIFI,consolidado_tic_4_1_filtrado
4,2022,3,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,WIFI,consolidado_tic_4_1_filtrado
5,2022,3,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,FIBER TO THE HOME (FTTH),consolidado_tic_4_1_filtrado
6,2022,3,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,FIBER TO THE HOME (FTTH),consolidado_tic_4_1_filtrado
7,2022,3,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,FIBER TO THE HOME (FTTH),consolidado_tic_4_1_filtrado
8,2022,3,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,FIBER TO THE HOME (FTTH),consolidado_tic_4_1_filtrado
9,2022,3,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,FIBER TO THE HOME (FTTH),consolidado_tic_4_1_filtrado



üìä Resumen por DEPARTAMENTO y A√ëO:


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

Unnamed: 0,DEPARTAMENTO,A√ëO,municipios_unicos,total_registros
0,ANTIOQUIA,2022,125,2184976
1,CUNDINAMARCA,2022,116,1911216
2,VALLE DEL CAUCA,2022,42,1367984
3,SANTANDER,2022,87,819008
4,BOYAC√Å,2022,123,629424
5,CALDAS,2022,27,511976
6,ATL√ÅNTICO,2022,23,505608
7,TOLIMA,2022,47,487256
8,RISARALDA,2022,14,484080
9,BOGOT√Å D.C.,2022,1,454920


Validaci√≥n de cobertura y consistencia

In [None]:
import duckdb, pandas as pd

db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path, read_only=True)

print("‚úÖ Conectado a la base para an√°lisis exploratorio.\n")

# --- 1Ô∏è‚É£ Departamentos √∫nicos y conteo ---
print("üìç Departamentos y n√∫mero de municipios reportados:")
deptos = con.execute("""
    SELECT DEPARTAMENTO, COUNT(DISTINCT MUNICIPIO) AS municipios_unicos, COUNT(*) AS total_registros
    FROM consolidado_tic_4_1_limpia
    GROUP BY DEPARTAMENTO
    ORDER BY DEPARTAMENTO
""").fetchdf()
display(deptos)

# --- 2Ô∏è‚É£ Cobertura temporal ---
print("\nüóìÔ∏è A√±os y trimestres disponibles:")
periodos = con.execute("""
    SELECT A√ëO, TRIMESTRE, COUNT(*) AS registros
    FROM consolidado_tic_4_1_limpia
    GROUP BY A√ëO, TRIMESTRE
    ORDER BY A√ëO, TRIMESTRE
""").fetchdf()
display(periodos)

# --- 3Ô∏è‚É£ Validaci√≥n de velocidades ---
print("\nüìà Rango de velocidades detectadas:")
velocidades = con.execute("""
    SELECT
        MIN("VELOCIDAD SUBIDA") AS min_subida,
        MAX("VELOCIDAD SUBIDA") AS max_subida,
        MIN("VELOCIDAD BAJADA") AS min_bajada,
        MAX("VELOCIDAD BAJADA") AS max_bajada,
        ROUND(AVG("VELOCIDAD SUBIDA"),2) AS promedio_subida,
        ROUND(AVG("VELOCIDAD BAJADA"),2) AS promedio_bajada
    FROM consolidado_tic_4_1_limpia
""").fetchdf()
display(velocidades)

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


‚úÖ Conectado a la base para an√°lisis exploratorio.

üìç Departamentos y n√∫mero de municipios reportados:


Unnamed: 0,DEPARTAMENTO,municipios_unicos,total_registros
0,AMAZONAS,9,5390
1,ANTIOQUIA,125,1437515
2,ARAUCA,7,48350
3,"ARCHIPI√âLAGO DE SAN ANDR√âS, PROVIDENCIA Y SANT...",2,10355
4,ATL√ÅNTICO,23,332620
5,BOGOT√Å D.C.,1,298635
6,BOL√çVAR,46,255200
7,BOYAC√Å,123,422270
8,CALDAS,27,337885
9,CAQUETA,16,66290



üóìÔ∏è A√±os y trimestres disponibles:


Unnamed: 0,A√ëO,TRIMESTRE,registros
0,2021.0,4.0,521065
1,2021.0,,5
2,2022.0,1.0,924320
3,2022.0,2.0,1854545
4,2022.0,3.0,2840780
5,2022.0,4.0,2947105
6,2022.0,,14
7,,,76



üìà Rango de velocidades detectadas:


Unnamed: 0,min_subida,max_subida,min_bajada,max_bajada,promedio_subida,promedio_bajada
0,0.0,3450300.0,0.0,3450300.0,111.03,161.31



üîö Conexi√≥n cerrada correctamente.


In [None]:
import duckdb
con = duckdb.connect("/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb")
con.execute("SHOW TABLES").fetchdf()


Unnamed: 0,name
0,articles_404030_archivo_xls_1
1,articles_404030_archivo_xls_10
2,articles_404030_archivo_xls_11
3,articles_404030_archivo_xls_12
4,articles_404030_archivo_xls_13
...,...
139,reporte_tic_tercer_trimestre_2024_7
140,reporte_tic_tercer_trimestre_2024_8
141,reporte_tic_tercer_trimestre_2024_9
142,reporte_tic_tercer_trimestre_2024_CONTENIDO


Verificaci√≥n de unicidad

In [None]:
import duckdb
con = duckdb.connect("/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb")

duplicados = con.execute("""
    SELECT COUNT(*) AS total_registros,
           COUNT(DISTINCT (A√ëO, TRIMESTRE, DEPARTAMENTO, MUNICIPIO, PROVEEDOR, "TECNOLOG√çA")) AS registros_unicos
    FROM consolidado_tic_4_1_limpia
""").fetchdf()

print(duplicados)
con.close()


   total_registros  registros_unicos
0          9087910             55982


Consulta para verificar dimensiones y muestra de datos

In [None]:
import duckdb
import pandas as pd

# --- Conexi√≥n a la base ---
db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path)

# --- 1Ô∏è‚É£ Dimensiones de la tabla ---
dim = con.execute("""
    SELECT
        COUNT(*) AS total_registros,
        COUNT(DISTINCT DEPARTAMENTO) AS departamentos,
        COUNT(DISTINCT MUNICIPIO) AS municipios,
        COUNT(DISTINCT A√ëO) AS anios,
        COUNT(DISTINCT TRIMESTRE) AS trimestres,
        COUNT(DISTINCT PROVEEDOR) AS proveedores,
        COUNT(DISTINCT "TECNOLOG√çA") AS tecnologias
    FROM consolidado_tic_4_1_limpia
""").fetchdf()

print("üìè Dimensiones de la tabla `consolidado_tic_4_1_limpia`:")
display(dim)

# --- 2Ô∏è‚É£ Vista previa ordenada por a√±o y trimestre ---
muestra = con.execute("""
    SELECT A√ëO, TRIMESTRE, DEPARTAMENTO, MUNICIPIO, PROVEEDOR,
           "SEGMENTO", "TECNOLOG√çA", "VELOCIDAD SUBIDA", "VELOCIDAD BAJADA",
           "NO. ACCESOS FIJOS A INTERNET"
    FROM consolidado_tic_4_1_limpia
    WHERE A√ëO IS NOT NULL
    ORDER BY A√ëO DESC, TRIMESTRE DESC
    LIMIT 20
""").fetchdf()

print("\nüëÄ Vista previa de registros representativos:")
display(muestra)

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


üìè Dimensiones de la tabla `consolidado_tic_4_1_limpia`:


Unnamed: 0,total_registros,departamentos,municipios,anios,trimestres,proveedores,tecnologias
0,9087910,35,1037,2,4,1085,18



üëÄ Vista previa de registros representativos:


Unnamed: 0,A√ëO,TRIMESTRE,DEPARTAMENTO,MUNICIPIO,PROVEEDOR,SEGMENTO,TECNOLOG√çA,VELOCIDAD SUBIDA,VELOCIDAD BAJADA,NO. ACCESOS FIJOS A INTERNET
0,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,30.0,60.0,2
1,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,15.0,30.0,1
2,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,5.0,10.0,3
3,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,4.0,8.0,3
4,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,20.0,40.0,1
5,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,RESIDENCIAL - ESTRATO 1,WIFI,2.5,5.0,147
6,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,2.5,5.0,3
7,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,12.5,25.0,3
8,2022.0,4.0,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,RESIDENCIAL - ESTRATO 4,FIBER TO THE HOME (FTTH),7.0,15.0,1
9,2022.0,4.0,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,RESIDENCIAL - ESTRATO 4,FIBER TO THE HOME (FTTH),6.0,12.0,5



üîö Conexi√≥n cerrada correctamente.


Bloque de detecci√≥n y limpieza de outliers

In [None]:
import duckdb
import pandas as pd
import numpy as np

db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path)

# --- Cargar los datos a memoria para depuraci√≥n ---
df = con.execute("SELECT * FROM consolidado_tic_4_1_limpia").fetchdf()

print(f"üìä Registros iniciales: {len(df):,}")

# --- Convertir a num√©rico por seguridad ---
for col in ["VELOCIDAD SUBIDA", "VELOCIDAD BAJADA"]:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# --- Calcular IQR para cada variable ---
def limpiar_outliers_iqr(serie):
    q1 = serie.quantile(0.25)
    q3 = serie.quantile(0.75)
    iqr = q3 - q1
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    return serie.clip(lower=limite_inferior, upper=limite_superior)

df["VELOCIDAD SUBIDA_LIMPIA"] = limpiar_outliers_iqr(df["VELOCIDAD SUBIDA"])
df["VELOCIDAD BAJADA_LIMPIA"] = limpiar_outliers_iqr(df["VELOCIDAD BAJADA"])

# --- Conteo de valores corregidos ---
cambios_subida = (df["VELOCIDAD SUBIDA"] != df["VELOCIDAD SUBIDA_LIMPIA"]).sum()
cambios_bajada = (df["VELOCIDAD BAJADA"] != df["VELOCIDAD BAJADA_LIMPIA"]).sum()

print(f"‚öôÔ∏è Registros ajustados (subida): {cambios_subida:,}")
print(f"‚öôÔ∏è Registros ajustados (bajada): {cambios_bajada:,}")

# --- Guardar tabla limpia ---
con.execute("DROP TABLE IF EXISTS consolidado_tic_4_1_filtrado")
con.register("df_temp", df)
con.execute("""
    CREATE TABLE consolidado_tic_4_1_filtrado AS
    SELECT
        origen, A√ëO, TRIMESTRE, DEPARTAMENTO, MUNICIPIO, PROVEEDOR,
        SEGMENTO, TECNOLOG√çA,
        "NO. ACCESOS FIJOS A INTERNET",
        "C√ìDIGO DANE", "C√ìDIGO DANE_1",
        "VELOCIDAD SUBIDA_LIMPIA" AS VELOCIDAD_SUBIDA,
        "VELOCIDAD BAJADA_LIMPIA" AS VELOCIDAD_BAJADA
    FROM df_temp
""")
con.unregister("df_temp")

# --- Verificar dimensiones ---
dim = con.execute("SELECT COUNT(*) AS total, COUNT(DISTINCT MUNICIPIO) AS municipios FROM consolidado_tic_4_1_filtrado").fetchdf()
print("\n‚úÖ Tabla `consolidado_tic_4_1_filtrado` creada correctamente:")
display(dim)

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

üìä Registros iniciales: 9,087,910
‚öôÔ∏è Registros ajustados (subida): 1,520,190
‚öôÔ∏è Registros ajustados (bajada): 829,565


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))


‚úÖ Tabla `consolidado_tic_4_1_filtrado` creada correctamente:


Unnamed: 0,total,municipios
0,9087910,1037



üîö Conexi√≥n cerrada correctamente.


Validaci√≥n de duplicados

In [None]:
# ============================================================
# üîç VERIFICACI√ìN DE DUPLICADOS EN TABLA CONTROL_CARGUE
# ============================================================

import duckdb
import pandas as pd

# Reutilizamos la ruta de conexi√≥n existente
db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"

# Conexi√≥n en modo lectura
con_chk = duckdb.connect(db_path, read_only=True)

# Consulta de verificaci√≥n
dup = con_chk.execute("""
    SELECT archivo, COUNT(*) AS veces
    FROM control_cargue
    GROUP BY archivo
    HAVING veces > 1
""").fetchdf()

con_chk.close()

# Resultado
if dup.empty:
    print("‚úÖ Sin duplicados en control_cargue.")
else:
    print("‚ö†Ô∏è Archivos duplicados detectados:")
    display(dup)


‚ö†Ô∏è Archivos duplicados detectados:


Unnamed: 0,archivo,veces
0,boletn_trimestral_del_sector_de_tv_por_suscrip...,3
1,boletn_trimestral_del_sector_tic_cifras_primer...,4
2,reporte_tic_segundo_trimestre_2024.xlsx,2
3,boletn_trimestral_del_sector_postal_cifras_seg...,3
4,reporte_tic_cuarto_trimestre_2024.xlsx,2
5,reporte_tic_tercer_trimestre_2024.xlsx,2


limpiar metadatos autom√°ticamente

In [None]:
import json, os

nb_path = "/content/gdrive/MyDrive/Colab Notebooks/scrapingColombiaTicFinal3_ipynb_clean.ipynb"

if os.path.exists(nb_path):
    with open(nb_path, "r", encoding="utf-8") as f:
        nb = json.load(f)

    if "widgets" in nb.get("metadata", {}):
        nb["metadata"].pop("widgets", None)
        print("üßπ Metadatos de widgets eliminados.")
    else:
        print("‚úÖ No hab√≠a metadatos de widgets problem√°ticos.")

    with open(nb_path, "w", encoding="utf-8") as f:
        json.dump(nb, f, ensure_ascii=False, indent=2)
    print(f"Notebook listo para subir: {nb_path}")
else:
    print("‚ö†Ô∏è No se encontr√≥ el archivo .ipynb en /content/")


‚ö†Ô∏è No se encontr√≥ el archivo .ipynb en /content/


In [None]:
import os

# Detectar notebook actual
!pwd
!ls -l *.ipynb


/content
ls: cannot access '*.ipynb': No such file or directory
