<a href="https://colab.research.google.com/github/josvaldes/trabajoGradoMCD/blob/feature%2Fnotebook1_colombiatic/scrapingColombiaTicFinal3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ============================================================
#  Notebook 1 - ColombiaTIC: Scraping + Carga Incremental a DuckDB
#  Versi√≥n optimizada: conexi√≥n segura, control_cargue, y logs persistentes
# ============================================================

# ========== 0. Preparaci√≥n e instalaciones (auto) ==========
import sys, subprocess, importlib

def pip_install(pkgs):
    for p in pkgs:
        try:
            importlib.import_module(p if p != 'requests_html' else 'requests_html')
        except ImportError:
            print(f"üì¶ Instalando {p}...")
            subprocess.run([sys.executable, "-m", "pip", "install", p, "-q"], check=True)

# Paquetes requeridos
pip_install(["duckdb", "pandas", "openpyxl", "tqdm", "requests", "requests_html", "lxml_html_clean", "nest_asyncio"])

# ========== 1. Imports y paths ==========
import os, re, shutil, time, logging
from datetime import datetime
import duckdb
import pandas as pd
import requests
from tqdm import tqdm
import nest_asyncio
nest_asyncio.apply()

from requests_html import AsyncHTMLSession
from google.colab import drive

# Rutas base (ajusta si lo necesitas)
RUTA_EXCEL_DEST   = "/content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic"
RUTA_EXCEL_TEMP   = "/content/gdrive/MyDrive/trabajoGrado/temp_colombiatic"
RUTA_DB_DRIVE_DIR = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos"
RUTA_DB_DRIVE     = os.path.join(RUTA_DB_DRIVE_DIR, "colombiatic.duckdb")
RUTA_DB_LOCAL     = "/content/colombiatic_temp.duckdb"     # base temporal local para evitar IO de Drive
RUTA_LOG          = os.path.join(RUTA_DB_DRIVE_DIR, "colombiatic_etl.log")  # LOG persistente junto a la base

os.makedirs(RUTA_EXCEL_DEST, exist_ok=True)
os.makedirs(RUTA_EXCEL_TEMP, exist_ok=True)
os.makedirs(RUTA_DB_DRIVE_DIR, exist_ok=True)

# ============================================================
# üîó Montaje robusto de Google Drive
# ============================================================
from google.colab import drive
import os
import shutil

mount_path = "/content/gdrive"

try:
    # Si ya existe y contiene archivos, lo desmontamos primero
    if os.path.exists(mount_path) and os.listdir(mount_path):
        print("‚öôÔ∏è  Desmontando Drive previo...")
        drive.flush_and_unmount()
        shutil.rmtree(mount_path, ignore_errors=True)

    # Montar Drive limpio
    drive.mount(mount_path, force_remount=True)
    print("‚úÖ Google Drive montado correctamente en:", mount_path)
except Exception as e:
    print(f"‚ö†Ô∏è Error al montar Google Drive: {e}")



# ========== 2. Logger persistente ==========
logger = logging.getLogger("colombiatic_etl")
logger.setLevel(logging.INFO)
# Evitar handlers duplicados en re-ejecuciones
if not logger.handlers:
    fh = logging.FileHandler(RUTA_LOG, encoding="utf-8")
    fh.setLevel(logging.INFO)
    fmt = logging.Formatter("%(asctime)s | %(levelname)s | %(message)s")
    fh.setFormatter(fmt)
    logger.addHandler(fh)

def log_info(msg):
    print(msg)
    logger.info(msg)

def log_warn(msg):
    print(msg)
    logger.warning(msg)

def log_error(msg):
    print(msg)
    logger.error(msg)

log_info("===== INICIO EJECUCI√ìN NOTEBOOK 1 (Scraping + ETL) =====")
log_info(f"Carpeta destino Excel: {RUTA_EXCEL_DEST}")
log_info(f"Carpeta temporal Excel: {RUTA_EXCEL_TEMP}")
log_info(f"Base en Drive: {RUTA_DB_DRIVE}")
log_info(f"Log persistente: {RUTA_LOG}")

# ========== 3. Utilidades (nombres y conexi√≥n) ==========
def normalizar_nombre(s: str, max_len: int = 60) -> str:
    s = s.lower()
    s = re.sub(r"[^a-z0-9_]", "_", s)
    s = re.sub(r"_+", "_", s).strip("_")
    return s[:max_len] if max_len else s

def conectar_duckdb_seguro(path_db: str):
    """Conecta o crea base. Si existe en Drive, copia a local y conecta local."""
    # Si existe base en Drive, hacer copia local para trabajar r√°pido/sin locks
    if os.path.exists(RUTA_DB_DRIVE):
        try:
            if os.path.exists(RUTA_DB_LOCAL):
                os.remove(RUTA_DB_LOCAL)
            shutil.copy2(RUTA_DB_DRIVE, RUTA_DB_LOCAL)
            log_info(f"‚úÖ Copia local creada desde Drive: {RUTA_DB_DRIVE} ‚Üí {RUTA_DB_LOCAL}")
        except Exception as e:
            log_warn(f"‚ö†Ô∏è No se pudo copiar base desde Drive. Se crear√° una nueva local. Detalle: {e}")
    # Conectar a la copia local (o nueva si no exist√≠a)
    con = duckdb.connect(RUTA_DB_LOCAL)
    log_info(f"üíæ Conexi√≥n establecida con base local: {RUTA_DB_LOCAL}")
    # Tabla de control (si no existe)
    con.execute("""
    CREATE TABLE IF NOT EXISTS control_cargue (
        archivo TEXT,
        hojas_cargadas INTEGER,
        filas_totales INTEGER,
        fecha_cargue TIMESTAMP,
        estado TEXT
    )
    """)
    log_info("üìä Tabla 'control_cargue' lista.")
    return con

def sincronizar_local_a_drive():
    """Cierra conexi√≥n si est√° abierta y copia local ‚Üí Drive."""
    try:
        con.close()
    except:
        pass
    try:
        if os.path.exists(RUTA_DB_LOCAL):
            shutil.copy2(RUTA_DB_LOCAL, RUTA_DB_DRIVE)
            log_info(f"üì¶ Base actualizada copiada de nuevo al Drive: {RUTA_DB_LOCAL} ‚Üí {RUTA_DB_DRIVE}")
    except Exception as e:
        log_error(f"‚ùå Error copiando base a Drive: {e}")

# ========== 4. Scraping (encuentra y descarga solo Excel; filtra TIC) ==========
URL_PORTAL = "https://colombiatic.mintic.gov.co/679/w3-channel.html"

async def obtener_urls_excel():
    """Rastrea art√≠culos del canal y devuelve URLs .xlsx √∫nicas."""
    session = AsyncHTMLSession()
    try:
        r = await session.get(URL_PORTAL)
        await r.html.arender(timeout=60, sleep=2)
        # enlances a art√≠culos del canal
        links = r.html.absolute_links
        urls_articulos = [u for u in links if "/w3-article-" in u or "/articles-" in u]
        urls_articulos = list(dict.fromkeys(urls_articulos))  # √∫nicos
        log_info(f"üì∞ Art√≠culos detectados: {len(urls_articulos)}")

        urls_xlsx = set()
        for u in tqdm(urls_articulos, desc="üîé Explorando art√≠culos"):
            try:
                a = await session.get(u)
                await a.html.arender(timeout=60, sleep=1)
                for l in a.html.absolute_links:
                    if l.lower().endswith(".xlsx") or "archivo_xls.xlsx" in l.lower():
                        urls_xlsx.add(l)
            except Exception as e:
                log_warn(f"‚ö†Ô∏è Error explorando {u}: {e}")

        return list(urls_xlsx)
    finally:
        await session.close()

def descargar_excel(url: str, destino_dir: str) -> str | None:
    """Descarga un Excel y lo nombra a partir del slug del art√≠culo o filename; retorna ruta destino."""
    try:
        resp = requests.get(url, timeout=60)
        if resp.status_code != 200:
            log_warn(f"‚ö†Ô∏è No se pudo descargar {url} (status {resp.status_code})")
            return None
        # nombre base por defecto
        base = url.split("/")[-1].replace(".xlsx", "")
        base = normalizar_nombre(base, 80)

        # guardar en temp
        nombre = f"{base}.xlsx"
        ruta = os.path.join(destino_dir, nombre)
        with open(ruta, "wb") as f:
            f.write(resp.content)
        return ruta
    except Exception as e:
        log_warn(f"‚ö†Ô∏è Error descargando {url}: {e}")
        return None

# Lanzar scraping
log_info("üåê Iniciando scraping de boletines...")
try:
    # Ejecutar asincr√≥nicamente en Colab
    import asyncio
    urls_xlsx = asyncio.get_event_loop().run_until_complete(obtener_urls_excel())
except RuntimeError:
    # Loop ya corriendo: usar nest_asyncio y crear uno nuevo
    loop = asyncio.new_event_loop()
    asyncio.set_event_loop(loop)
    urls_xlsx = loop.run_until_complete(obtener_urls_excel())

log_info(f"üìä Archivos Excel detectados (√∫nicos): {len(urls_xlsx)}")

# Descarga a carpeta temporal
descargados = []
for u in tqdm(urls_xlsx, desc="‚¨áÔ∏è Descargando archivos Excel"):
    ruta_tmp = descargar_excel(u, RUTA_EXCEL_TEMP)
    if ruta_tmp:
        descargados.append(ruta_tmp)

log_info(f"üì¶ Archivos descargados en temp: {len(descargados)}")

# Detectar TIC y mover a carpeta final. Borrar los no TIC
movidos = []
eliminados = []
for ruta in descargados:
    nombre = os.path.basename(ruta)
    # Heur√≠stica: debe contener "tic" en el nombre (en muchos casos funciona),
    # y/o es el archivo principal que el portal publica (ya trae "sector_tic" o similar).
    if "tic" in nombre.lower():
        destino = os.path.join(RUTA_EXCEL_DEST, nombre)
        if os.path.exists(destino):
            os.remove(destino)
        shutil.move(ruta, destino)
        movidos.append(destino)
        log_info(f"üì¶ Movido a carpeta destino: {os.path.basename(destino)}")
    else:
        os.remove(ruta)
        eliminados.append(nombre)
        log_info(f"üßπ Eliminado archivo no relevante: {nombre}")

# Limpieza final de temp (si qued√≥ algo)
try:
    for f in os.listdir(RUTA_EXCEL_TEMP):
        try:
            os.remove(os.path.join(RUTA_EXCEL_TEMP, f))
        except:
            pass
except:
    pass

log_info("üéØ Scraping finalizado.")

# ========== 5. Conexi√≥n a DuckDB (local) ==========
# Importante: conectar despu√©s del scraping
con = conectar_duckdb_seguro(RUTA_DB_DRIVE)

# ========== 6. Carga incremental de Excel TIC ==========
def archivos_tic_actuales():
    return [f for f in os.listdir(RUTA_EXCEL_DEST) if f.lower().endswith((".xlsx", ".xls"))]

# Obt√©n los ya cargados desde control_cargue
try:
    ya_cargados = set(
        con.execute("SELECT DISTINCT archivo FROM control_cargue").fetchdf()["archivo"].tolist()
    )
except Exception:
    ya_cargados = set()

archivos = archivos_tic_actuales()
pendientes = [f for f in archivos if f not in ya_cargados]

print("\nüìÇ Archivos disponibles actualmente en carpeta destino:")
for f in archivos:
    print(f"   ‚Ä¢ {f}")

if not pendientes:
    log_info("‚è≠Ô∏è No hay archivos nuevos para cargar. La base est√° actualizada.")
else:
    log_info(f"üÜï Archivos TIC nuevos detectados: {len(pendientes)}")

for nombre_archivo in pendientes:
    ruta_archivo = os.path.join(RUTA_EXCEL_DEST, nombre_archivo)
    estado = "OK"
    total_filas = 0
    hojas_cargadas = 0
    log_info(f"\nüìò Procesando: {nombre_archivo}")

    try:
        xls = pd.ExcelFile(ruta_archivo)
        hojas = xls.sheet_names
        # proceso hoja a hoja
        for hoja in hojas:
            try:
                # Detectar encabezado: primeras 10 filas probando
                df_valid = None
                for fila_enc in range(0, 10):
                    df_try = pd.read_excel(ruta_archivo, sheet_name=hoja, header=fila_enc, engine="openpyxl")
                    if df_try.columns.notna().sum() > 2:
                        df_valid = df_try
                        break
                if df_valid is None or df_valid.empty:
                    continue

                df_valid = df_valid.astype(str)

                # nombre de tabla
                base = normalizar_nombre(os.path.splitext(nombre_archivo)[0], 48)
                hoja_n = normalizar_nombre(hoja, 10)  # corto para no pasarse de 63
                nombre_tabla = f"{base}_{hoja_n}"

                # Evitar duplicados de tabla
                tablas_existentes = con.execute("SHOW TABLES").fetchdf()["name"].tolist()
                if nombre_tabla in tablas_existentes:
                    log_info(f"   ‚è≠Ô∏è La tabla '{nombre_tabla}' ya existe, se omite.")
                else:
                    con.register("tmp_df", df_valid)
                    con.execute(f"CREATE TABLE '{nombre_tabla}' AS SELECT * FROM tmp_df")
                    con.unregister("tmp_df")
                    hojas_cargadas += 1
                    total_filas += len(df_valid)
                    log_info(f"   ‚úÖ Hoja '{hoja}' cargada como '{nombre_tabla}' ({len(df_valid)} filas)")
            except Exception as e_hoja:
                estado = f"ERROR_HOJA:{hoja}:{str(e_hoja)[:150]}"
                log_warn(f"‚ö†Ô∏è {estado}")

    except Exception as e_file:
        estado = f"ERROR_ARCHIVO:{str(e_file)[:150]}"
        log_warn(f"‚ö†Ô∏è {estado}")

    # Registrar cargue a nivel archivo (incremental)
    try:
        con.execute("""
            INSERT INTO control_cargue (archivo, hojas_cargadas, filas_totales, fecha_cargue, estado)
            VALUES (?, ?, ?, ?, ?)
        """, [nombre_archivo, hojas_cargadas, total_filas, datetime.now(), estado])
        log_info(f"üìù Registrado en control_cargue: {nombre_archivo} | hojas={hojas_cargadas} | filas={total_filas} | estado={estado}")
    except Exception as e_ins:
        log_warn(f"‚ö†Ô∏è Error insertando en control_cargue: {e_ins}")

# Sincronizar base local a Drive y cerrar
sincronizar_local_a_drive()

# ========== 7. Revisar la base (resumen final) ==========
# Para evitar el error de conexi√≥n cerrada, abrimos una conexi√≥n **ligera** a la base en Drive solo para consulta
try:
    con_check = duckdb.connect(RUTA_DB_DRIVE, read_only=True)
    tablas = con_check.execute("SHOW TABLES").fetchdf()
    print("\nüìÇ Tablas en la base:")
    display(tablas)

    control = con_check.execute("""
        SELECT archivo, hojas_cargadas, filas_totales, fecha_cargue, estado
        FROM control_cargue
        ORDER BY fecha_cargue DESC
        LIMIT 20
    """).fetchdf()
    print("\nüìã √öltimos registros en control_cargue:")
    display(control)

    total_control = con_check.execute("SELECT COUNT(*) AS total FROM control_cargue").fetchdf()
    print("\nüßÆ Total de registros en control_cargue:")
    display(total_control)

    # tama√±o del archivo de base
    tam_mb = os.path.getsize(RUTA_DB_DRIVE) / (1024*1024)
    print(f"\nüíæ Tama√±o actual de la base: {tam_mb:.2f} MB")
    con_check.close()
except Exception as e:
    log_warn(f"‚ö†Ô∏è No se pudo consultar la base final: {e}")

log_info("===== FIN EJECUCI√ìN NOTEBOOK 1 =====")
print("\n‚úÖ Proceso completado.")
print(f"üóÇ Log del ETL: {RUTA_LOG}")
print(f"üóÑÔ∏è Base DuckDB: {RUTA_DB_DRIVE}")
print(f"üìÅ Carpeta Excel (solo TIC): {RUTA_EXCEL_DEST}")


‚öôÔ∏è  Desmontando Drive previo...
Drive not mounted, so nothing to flush and unmount.
Mounted at /content/gdrive
‚úÖ Google Drive montado correctamente en: /content/gdrive


INFO:colombiatic_etl:===== INICIO EJECUCI√ìN NOTEBOOK 1 (Scraping + ETL) =====
INFO:colombiatic_etl:Carpeta destino Excel: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic
INFO:colombiatic_etl:Carpeta temporal Excel: /content/gdrive/MyDrive/trabajoGrado/temp_colombiatic
INFO:colombiatic_etl:Base en Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb
INFO:colombiatic_etl:Log persistente: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic_etl.log
INFO:colombiatic_etl:üåê Iniciando scraping de boletines...


===== INICIO EJECUCI√ìN NOTEBOOK 1 (Scraping + ETL) =====
Carpeta destino Excel: /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic
Carpeta temporal Excel: /content/gdrive/MyDrive/trabajoGrado/temp_colombiatic
Base en Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb
Log persistente: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic_etl.log
üåê Iniciando scraping de boletines...


[INFO] Starting Chromium download.
INFO:pyppeteer.chromium_downloader:Starting Chromium download.
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 183M/183M [00:00<00:00, 212Mb/s]
[INFO] Beginning extraction
INFO:pyppeteer.chromium_downloader:Beginning extraction
[INFO] Chromium extracted to: /root/.local/share/pyppeteer/local-chromium/1181205
INFO:pyppeteer.chromium_downloader:Chromium extracted to: /root/.local/share/pyppeteer/local-chromium/1181205
INFO:colombiatic_etl:üì∞ Art√≠culos detectados: 6


üì∞ Art√≠culos detectados: 6


üîé Explorando art√≠culos: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 6/6 [00:21<00:00,  3.56s/it]
INFO:colombiatic_etl:üìä Archivos Excel detectados (√∫nicos): 3


üìä Archivos Excel detectados (√∫nicos): 3


‚¨áÔ∏è Descargando archivos Excel: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3/3 [02:03<00:00, 41.30s/it]
INFO:colombiatic_etl:üì¶ Archivos descargados en temp: 3
INFO:colombiatic_etl:üì¶ Movido a carpeta destino: articles_406102_archivo_xls.xlsx
INFO:colombiatic_etl:üì¶ Movido a carpeta destino: articles_407454_archivo_xls.xlsx
INFO:colombiatic_etl:üì¶ Movido a carpeta destino: articles_404030_archivo_xls.xlsx
INFO:colombiatic_etl:üéØ Scraping finalizado.


üì¶ Archivos descargados en temp: 3
üì¶ Movido a carpeta destino: articles_406102_archivo_xls.xlsx
üì¶ Movido a carpeta destino: articles_407454_archivo_xls.xlsx
üì¶ Movido a carpeta destino: articles_404030_archivo_xls.xlsx
üéØ Scraping finalizado.


INFO:colombiatic_etl:‚úÖ Copia local creada desde Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb ‚Üí /content/colombiatic_temp.duckdb


‚úÖ Copia local creada desde Drive: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb ‚Üí /content/colombiatic_temp.duckdb


INFO:colombiatic_etl:üíæ Conexi√≥n establecida con base local: /content/colombiatic_temp.duckdb
INFO:colombiatic_etl:üìä Tabla 'control_cargue' lista.
INFO:colombiatic_etl:üÜï Archivos TIC nuevos detectados: 3
INFO:colombiatic_etl:
üìò Procesando: articles_406102_archivo_xls.xlsx


üíæ Conexi√≥n establecida con base local: /content/colombiatic_temp.duckdb
üìä Tabla 'control_cargue' lista.

üìÇ Archivos disponibles actualmente en carpeta destino:
   ‚Ä¢ reporte_tic_segundo_trimestre_2024.xlsx
   ‚Ä¢ reporte_tic_tercer_trimestre_2024.xlsx
   ‚Ä¢ reporte_tic_cuarto_trimestre_2024.xlsx
   ‚Ä¢ boletn_trimestral_del_sector_tic_cifras_primer_trimestre_de_2025.xlsx
   ‚Ä¢ articles_406102_archivo_xls.xlsx
   ‚Ä¢ articles_407454_archivo_xls.xlsx
   ‚Ä¢ articles_404030_archivo_xls.xlsx
üÜï Archivos TIC nuevos detectados: 3

üìò Procesando: articles_406102_archivo_xls.xlsx


INFO:colombiatic_etl:   ‚úÖ Hoja 'CONTENIDO' cargada como 'articles_406102_archivo_xls_contenido' (15 filas)
INFO:colombiatic_etl:   ‚úÖ Hoja 'CORREO' cargada como 'articles_406102_archivo_xls_correo' (386 filas)


   ‚úÖ Hoja 'CONTENIDO' cargada como 'articles_406102_archivo_xls_contenido' (15 filas)
   ‚úÖ Hoja 'CORREO' cargada como 'articles_406102_archivo_xls_correo' (386 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja 'MENSAJER√çA EXPRESA' cargada como 'articles_406102_archivo_xls_mensajer_a' (10997 filas)
INFO:colombiatic_etl:üìù Registrado en control_cargue: articles_406102_archivo_xls.xlsx | hojas=3 | filas=11398 | estado=OK
INFO:colombiatic_etl:
üìò Procesando: articles_407454_archivo_xls.xlsx


   ‚úÖ Hoja 'MENSAJER√çA EXPRESA' cargada como 'articles_406102_archivo_xls_mensajer_a' (10997 filas)
üìù Registrado en control_cargue: articles_406102_archivo_xls.xlsx | hojas=3 | filas=11398 | estado=OK

üìò Procesando: articles_407454_archivo_xls.xlsx


INFO:colombiatic_etl:   ‚úÖ Hoja 'CONTENIDO' cargada como 'articles_407454_archivo_xls_contenido' (14 filas)


   ‚úÖ Hoja 'CONTENIDO' cargada como 'articles_407454_archivo_xls_contenido' (14 filas)


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

INFO:colombiatic_etl:   ‚úÖ Hoja '1' cargada como 'articles_407454_archivo_xls_1' (850027 filas)


   ‚úÖ Hoja '1' cargada como 'articles_407454_archivo_xls_1' (850027 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '2' cargada como 'articles_407454_archivo_xls_2' (14360 filas)


   ‚úÖ Hoja '2' cargada como 'articles_407454_archivo_xls_2' (14360 filas)


INFO:colombiatic_etl:üìù Registrado en control_cargue: articles_407454_archivo_xls.xlsx | hojas=3 | filas=864401 | estado=ERROR_HOJA:3:Passed header=[4], len of 1, but only 4 lines in file (sheet: 3)
INFO:colombiatic_etl:
üìò Procesando: articles_404030_archivo_xls.xlsx


‚ö†Ô∏è ERROR_HOJA:3:Passed header=[4], len of 1, but only 4 lines in file (sheet: 3)
üìù Registrado en control_cargue: articles_407454_archivo_xls.xlsx | hojas=3 | filas=864401 | estado=ERROR_HOJA:3:Passed header=[4], len of 1, but only 4 lines in file (sheet: 3)

üìò Procesando: articles_404030_archivo_xls.xlsx


INFO:colombiatic_etl:   ‚úÖ Hoja 'CONTENIDO' cargada como 'articles_404030_archivo_xls_contenido' (48 filas)


   ‚úÖ Hoja 'CONTENIDO' cargada como 'articles_404030_archivo_xls_contenido' (48 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '1' cargada como 'articles_404030_archivo_xls_1' (12142 filas)


   ‚úÖ Hoja '1' cargada como 'articles_404030_archivo_xls_1' (12142 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '2' cargada como 'articles_404030_archivo_xls_2' (368 filas)


   ‚úÖ Hoja '2' cargada como 'articles_404030_archivo_xls_2' (368 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '3' cargada como 'articles_404030_archivo_xls_3' (12316 filas)


   ‚úÖ Hoja '3' cargada como 'articles_404030_archivo_xls_3' (12316 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '4,1' cargada como 'articles_404030_archivo_xls_4_1' (385911 filas)


   ‚úÖ Hoja '4,1' cargada como 'articles_404030_archivo_xls_4_1' (385911 filas)


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

INFO:colombiatic_etl:   ‚úÖ Hoja '4,2' cargada como 'articles_404030_archivo_xls_4_2' (817168 filas)


   ‚úÖ Hoja '4,2' cargada como 'articles_404030_archivo_xls_4_2' (817168 filas)


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

INFO:colombiatic_etl:   ‚úÖ Hoja '4,3' cargada como 'articles_404030_archivo_xls_4_3' (764507 filas)


   ‚úÖ Hoja '4,3' cargada como 'articles_404030_archivo_xls_4_3' (764507 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '4,4' cargada como 'articles_404030_archivo_xls_4_4' (182708 filas)


   ‚úÖ Hoja '4,4' cargada como 'articles_404030_archivo_xls_4_4' (182708 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '5' cargada como 'articles_404030_archivo_xls_5' (13271 filas)


   ‚úÖ Hoja '5' cargada como 'articles_404030_archivo_xls_5' (13271 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '6' cargada como 'articles_404030_archivo_xls_6' (627 filas)


   ‚úÖ Hoja '6' cargada como 'articles_404030_archivo_xls_6' (627 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '7' cargada como 'articles_404030_archivo_xls_7' (237 filas)


   ‚úÖ Hoja '7' cargada como 'articles_404030_archivo_xls_7' (237 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '8' cargada como 'articles_404030_archivo_xls_8' (172 filas)


   ‚úÖ Hoja '8' cargada como 'articles_404030_archivo_xls_8' (172 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '9' cargada como 'articles_404030_archivo_xls_9' (612 filas)


   ‚úÖ Hoja '9' cargada como 'articles_404030_archivo_xls_9' (612 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '10' cargada como 'articles_404030_archivo_xls_10' (236 filas)


   ‚úÖ Hoja '10' cargada como 'articles_404030_archivo_xls_10' (236 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '11' cargada como 'articles_404030_archivo_xls_11' (89 filas)


   ‚úÖ Hoja '11' cargada como 'articles_404030_archivo_xls_11' (89 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '12' cargada como 'articles_404030_archivo_xls_12' (132 filas)


   ‚úÖ Hoja '12' cargada como 'articles_404030_archivo_xls_12' (132 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '13' cargada como 'articles_404030_archivo_xls_13' (2135 filas)


   ‚úÖ Hoja '13' cargada como 'articles_404030_archivo_xls_13' (2135 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '14' cargada como 'articles_404030_archivo_xls_14' (131 filas)


   ‚úÖ Hoja '14' cargada como 'articles_404030_archivo_xls_14' (131 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '15' cargada como 'articles_404030_archivo_xls_15' (123988 filas)


   ‚úÖ Hoja '15' cargada como 'articles_404030_archivo_xls_15' (123988 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '16' cargada como 'articles_404030_archivo_xls_16' (46723 filas)


   ‚úÖ Hoja '16' cargada como 'articles_404030_archivo_xls_16' (46723 filas)


INFO:colombiatic_etl:   ‚úÖ Hoja '17' cargada como 'articles_404030_archivo_xls_17' (216 filas)


   ‚úÖ Hoja '17' cargada como 'articles_404030_archivo_xls_17' (216 filas)


INFO:colombiatic_etl:üìù Registrado en control_cargue: articles_404030_archivo_xls.xlsx | hojas=21 | filas=2363737 | estado=ERROR_HOJA:18:Passed header=[4], len of 1, but only 4 lines in file (sheet: 18)


‚ö†Ô∏è ERROR_HOJA:18:Passed header=[4], len of 1, but only 4 lines in file (sheet: 18)
üìù Registrado en control_cargue: articles_404030_archivo_xls.xlsx | hojas=21 | filas=2363737 | estado=ERROR_HOJA:18:Passed header=[4], len of 1, but only 4 lines in file (sheet: 18)


INFO:colombiatic_etl:üì¶ Base actualizada copiada de nuevo al Drive: /content/colombiatic_temp.duckdb ‚Üí /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb


üì¶ Base actualizada copiada de nuevo al Drive: /content/colombiatic_temp.duckdb ‚Üí /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb

üìÇ Tablas en la base:


Unnamed: 0,name
0,articles_404030_archivo_xls_1
1,articles_404030_archivo_xls_10
2,articles_404030_archivo_xls_11
3,articles_404030_archivo_xls_12
4,articles_404030_archivo_xls_13
...,...
94,reporte_tic_tercer_trimestre_2024_7
95,reporte_tic_tercer_trimestre_2024_8
96,reporte_tic_tercer_trimestre_2024_9
97,reporte_tic_tercer_trimestre_2024_CONTENIDO



üìã √öltimos registros en control_cargue:


Unnamed: 0,archivo,hojas_cargadas,filas_totales,fecha_cargue,estado
0,articles_404030_archivo_xls.xlsx,21,2363737,2025-10-23 18:32:13.245150,"ERROR_HOJA:18:Passed header=[4], len of 1, but..."
1,articles_407454_archivo_xls.xlsx,3,864401,2025-10-23 18:26:17.344438,"ERROR_HOJA:3:Passed header=[4], len of 1, but ..."
2,articles_406102_archivo_xls.xlsx,3,11398,2025-10-23 18:23:45.249435,OK
3,reporte_tic_tercer_trimestre_2024.xlsx,22,2364691,2025-10-23 02:24:33.008973,OK
4,reporte_tic_cuarto_trimestre_2024.xlsx,23,2365465,2025-10-23 02:18:42.719431,OK
5,reporte_tic_segundo_trimestre_2024.xlsx,23,2269671,2025-10-23 02:12:54.000494,OK
6,boletn_trimestral_del_sector_tic_cifras_primer...,23,2363774,2025-10-23 02:07:11.672925,OK
7,boletn_trimestral_del_sector_postal_cifras_seg...,3,11398,2025-10-23 01:57:11.487435,OK
8,boletn_trimestral_del_sector_de_tv_por_suscrip...,5,864438,2025-10-23 01:57:10.044003,OK
9,reporte_tic_tercer_trimestre_2024.xlsx,22,2364691,2025-10-23 01:54:42.788831,OK



üßÆ Total de registros en control_cargue:


Unnamed: 0,total
0,19


INFO:colombiatic_etl:===== FIN EJECUCI√ìN NOTEBOOK 1 =====



üíæ Tama√±o actual de la base: 154.51 MB
===== FIN EJECUCI√ìN NOTEBOOK 1 =====

‚úÖ Proceso completado.
üóÇ Log del ETL: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic_etl.log
üóÑÔ∏è Base DuckDB: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb
üìÅ Carpeta Excel (solo TIC): /content/gdrive/MyDrive/trabajoGrado/reporte_colombiatic


In [None]:
import duckdb, pandas as pd

# Conexi√≥n (solo lectura)
db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path, read_only=True)

# Listar todas las tablas que contengan "_4_1"
tablas_41 = con.execute("""
    SELECT table_name AS name
    FROM duckdb_tables()
    WHERE table_name LIKE '%4_1%'
    ORDER BY table_name
""").fetchdf()

print("üìã Tablas 4_1 detectadas:")
display(tablas_41)



üìã Tablas 4_1 detectadas:


Unnamed: 0,name
0,articles_404030_archivo_xls_4_1
1,reporte_tic_cuarto_trimestre_2024_1
2,reporte_tic_cuarto_trimestre_2024_10
3,reporte_tic_cuarto_trimestre_2024_11
4,reporte_tic_cuarto_trimestre_2024_12
5,reporte_tic_cuarto_trimestre_2024_13
6,reporte_tic_cuarto_trimestre_2024_14
7,reporte_tic_cuarto_trimestre_2024_15
8,reporte_tic_cuarto_trimestre_2024_16
9,reporte_tic_cuarto_trimestre_2024_17


Bloque de c√≥digo final para consolidar autom√°ticamente

In [None]:
import duckdb, pandas as pd

# --- Asegurar conexi√≥n limpia ---
try:
    con.close()
except:
    pass

db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path)
print("‚úÖ Conectado a la base correctamente.\n")

# --- Buscar todas las tablas que terminen en _4_1 ---
tablas_41 = con.execute("""
    SELECT table_name AS name
    FROM duckdb_tables()
    WHERE table_name LIKE '%4_1'
    ORDER BY table_name
""").fetchdf()

if tablas_41.empty:
    print("‚ö†Ô∏è No hay tablas 4.1 disponibles.")
else:
    print(f"üìã Tablas detectadas para consolidar ({len(tablas_41)}):")
    display(tablas_41)

    # --- Obtener todas las columnas √∫nicas entre las tablas 4.1 ---
    columnas_union = set()
    columnas_por_tabla = {}

    for t in tablas_41["name"]:
        cols = con.execute(f"PRAGMA table_info('{t}')").fetchdf()["name"].tolist()
        columnas_union.update(cols)
        columnas_por_tabla[t] = cols

    columnas_union = sorted(list(columnas_union))
    print(f"üß± Total columnas √∫nicas detectadas: {len(columnas_union)}\n")

    # --- Crear sentencias SELECT alineadas ---
    selects = []
    for t, cols in columnas_por_tabla.items():
        # agregar NULL para columnas faltantes
        select_cols = [f"'{t}' AS origen"]
        for col in columnas_union:
            if col in cols:
                select_cols.append(f'"{col}"')
            else:
                select_cols.append(f"NULL AS \"{col}\"")
        selects.append(f"SELECT {', '.join(select_cols)} FROM '{t}'")

    union_query = " UNION ALL ".join(selects)

    # --- Crear tabla consolidada ---
    con.execute(f"""
        CREATE OR REPLACE TABLE consolidado_tic_4_1 AS {union_query}
    """)
    print("‚úÖ Tabla consolidada creada: consolidado_tic_4_1")

    # --- Mostrar resumen de consolidaci√≥n ---
    resumen = con.execute("""
        SELECT origen, COUNT(*) AS registros
        FROM consolidado_tic_4_1
        GROUP BY origen
        ORDER BY origen
    """).fetchdf()

    print("\nüìä Registros por tabla origen:")
    display(resumen)

    total = con.execute("SELECT COUNT(*) FROM consolidado_tic_4_1").fetchone()[0]
    print(f"üßÆ Total de registros consolidados: {total:,}")

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


‚úÖ Conectado a la base correctamente.

üìã Tablas detectadas para consolidar (7):


Unnamed: 0,name
0,articles_404030_archivo_xls_4_1
1,reporte_tic_cuarto_trimestre_2024_1
2,reporte_tic_cuarto_trimestre_2024_4_1
3,reporte_tic_segundo_trimestre_2024_1
4,reporte_tic_segundo_trimestre_2024_4_1
5,reporte_tic_tercer_trimestre_2024_1
6,reporte_tic_tercer_trimestre_2024_4_1


üß± Total columnas √∫nicas detectadas: 12



FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

‚úÖ Tabla consolidada creada: consolidado_tic_4_1

üìä Registros por tabla origen:


Unnamed: 0,origen,registros
0,articles_404030_archivo_xls_4_1,385911
1,reporte_tic_cuarto_trimestre_2024_1,11698
2,reporte_tic_cuarto_trimestre_2024_4_1,571379
3,reporte_tic_segundo_trimestre_2024_1,10657
4,reporte_tic_segundo_trimestre_2024_4_1,104218
5,reporte_tic_tercer_trimestre_2024_1,11316
6,reporte_tic_tercer_trimestre_2024_4_1,756075


üßÆ Total de registros consolidados: 1,851,254

üîö Conexi√≥n cerrada correctamente.


Bloque para explorar y visualizar la tabla consolidada

C√≥digo optimizado para limpiar y renombrar consolidado_tic_4_1

In [None]:
import duckdb, pandas as pd

# --- Cerrar conexi√≥n previa si est√° abierta ---
try:
    con.close()
    print("üîí Conexi√≥n anterior cerrada correctamente.")
except:
    print("‚ÑπÔ∏è No hab√≠a conexi√≥n previa activa.")

# --- Reconexi√≥n a la base ---
db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path)
print(f"‚úÖ Conectado a la base: {db_path}")

# --- Leer muestra para detectar encabezado correcto ---
df_preview = con.execute("""
    SELECT * FROM consolidado_tic_4_1
    LIMIT 10
""").fetchdf()

print("\nüëÄ Vista previa actual:")
display(df_preview)

# --- Extraer nombres reales desde la fila 5 (√≠ndice 4) ---
header_row = df_preview.iloc[4, 1:].tolist()
header_row = [h.strip().upper() if isinstance(h, str) else f"COLUMN_{i}" for i, h in enumerate(header_row)]

print("\nüß≠ Encabezados detectados:")
print(header_row)

# --- Cargar todo el dataset saltando las filas de metadatos (primeras 5 filas) ---
df = con.execute("""
    SELECT * FROM consolidado_tic_4_1
""").fetchdf().iloc[5:].copy()

# --- Asignar nombres de columnas ---
df.columns = ["origen"] + header_row

# --- Limpiar filas vac√≠as o irrelevantes ---
df = df.dropna(subset=["A√ëO", "DEPARTAMENTO", "MUNICIPIO"], how="any")

# --- Convertir tipos num√©ricos ---
cols_numericas = ["A√ëO", "TRIMESTRE", "VELOCIDAD SUBIDA", "VELOCIDAD BAJADA", "No. ACCESOS FIJOS A INTERNET"]
for col in cols_numericas:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors="coerce")

# --- Guardar tabla limpia ---
con.register("df_clean", df)
con.execute("CREATE OR REPLACE TABLE consolidado_tic_4_1_limpia AS SELECT * FROM df_clean")
con.unregister("df_clean")

print("\n‚úÖ Tabla 'consolidado_tic_4_1_limpia' creada correctamente.")

# --- Ver estructura y muestra ---
estructura = con.execute("PRAGMA table_info('consolidado_tic_4_1_limpia')").fetchdf()
print("\nüìã Nueva estructura:")
display(estructura)

muestra = con.execute("SELECT * FROM consolidado_tic_4_1_limpia LIMIT 10").fetchdf()
print("\nüëÄ Vista previa de datos limpios:")
display(muestra)

# --- Cerrar conexi√≥n ---
con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


üîí Conexi√≥n anterior cerrada correctamente.
‚úÖ Conectado a la base: /content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb

üëÄ Vista previa actual:


Unnamed: 0.1,origen,Unnamed: 0,Unnamed: 1,Unnamed: 10,Unnamed: 11,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,articles_404030_archivo_xls_4_1,INFORMACI√ìN TRIMESTRAL DE ACCESOS FIJOS A INTE...,,,,,,,,,,,
1,articles_404030_archivo_xls_4_1,2022,,,,,,,,,,,
2,articles_404030_archivo_xls_4_1,- Cifras remitidas por los Proveedores de Red...,,,,,,,,,,,
3,articles_404030_archivo_xls_4_1,Contenido: Informaci√≥n de accesos fijos a Inte...,,,,,,,,,,,
4,articles_404030_archivo_xls_4_1,A√ëO,TRIMESTRE,VELOCIDAD SUBIDA,No. ACCESOS FIJOS A INTERNET,PROVEEDOR,C√ìDIGO DANE,DEPARTAMENTO,C√ìDIGO DANE,MUNICIPIO,SEGMENTO,TECNOLOG√çA,VELOCIDAD BAJADA
5,articles_404030_archivo_xls_4_1,2022,3,12.5,1,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,25
6,articles_404030_archivo_xls_4_1,2022,3,5,1,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,10
7,articles_404030_archivo_xls_4_1,2022,3,2.5,49,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,RESIDENCIAL - ESTRATO 2,WIFI,5
8,articles_404030_archivo_xls_4_1,2022,3,4,1,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,8
9,articles_404030_archivo_xls_4_1,2022,3,2.5,2,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,5



üß≠ Encabezados detectados:
['A√ëO', 'TRIMESTRE', 'VELOCIDAD SUBIDA', 'NO. ACCESOS FIJOS A INTERNET', 'PROVEEDOR', 'C√ìDIGO DANE', 'DEPARTAMENTO', 'C√ìDIGO DANE', 'MUNICIPIO', 'SEGMENTO', 'TECNOLOG√çA', 'VELOCIDAD BAJADA']


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))


‚úÖ Tabla 'consolidado_tic_4_1_limpia' creada correctamente.

üìã Nueva estructura:


Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,origen,VARCHAR,False,,False
1,1,A√ëO,DOUBLE,False,,False
2,2,TRIMESTRE,DOUBLE,False,,False
3,3,VELOCIDAD SUBIDA,DOUBLE,False,,False
4,4,NO. ACCESOS FIJOS A INTERNET,VARCHAR,False,,False
5,5,PROVEEDOR,VARCHAR,False,,False
6,6,C√ìDIGO DANE,VARCHAR,False,,False
7,7,DEPARTAMENTO,VARCHAR,False,,False
8,8,C√ìDIGO DANE_1,VARCHAR,False,,False
9,9,MUNICIPIO,VARCHAR,False,,False



üëÄ Vista previa de datos limpios:


Unnamed: 0,origen,A√ëO,TRIMESTRE,VELOCIDAD SUBIDA,NO. ACCESOS FIJOS A INTERNET,PROVEEDOR,C√ìDIGO DANE,DEPARTAMENTO,C√ìDIGO DANE_1,MUNICIPIO,SEGMENTO,TECNOLOG√çA,VELOCIDAD BAJADA
0,articles_404030_archivo_xls_4_1,2022.0,3.0,12.5,1,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,25.0
1,articles_404030_archivo_xls_4_1,2022.0,3.0,5.0,1,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,10.0
2,articles_404030_archivo_xls_4_1,2022.0,3.0,2.5,49,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,RESIDENCIAL - ESTRATO 2,WIFI,5.0
3,articles_404030_archivo_xls_4_1,2022.0,3.0,4.0,1,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,8.0
4,articles_404030_archivo_xls_4_1,2022.0,3.0,2.5,2,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,19,CAUCA,19698,SANTANDER DE QUILICHAO,CORPORATIVO,WIFI,5.0
5,articles_404030_archivo_xls_4_1,2022.0,3.0,6.0,2,@DIGITAL GROUP SAS,5,ANTIOQUIA,5031,AMALFI,RESIDENCIAL - ESTRATO 4,FIBER TO THE HOME (FTTH),12.0
6,articles_404030_archivo_xls_4_1,2022.0,3.0,10.0,1,@DIGITAL GROUP SAS,5,ANTIOQUIA,5031,AMALFI,RESIDENCIAL - ESTRATO 4,FIBER TO THE HOME (FTTH),20.0
7,articles_404030_archivo_xls_4_1,2022.0,3.0,10.0,9,@DIGITAL GROUP SAS,5,ANTIOQUIA,5031,AMALFI,RESIDENCIAL - ESTRATO 3,FIBER TO THE HOME (FTTH),20.0
8,articles_404030_archivo_xls_4_1,2022.0,3.0,4.0,6,@DIGITAL GROUP SAS,5,ANTIOQUIA,5031,AMALFI,RESIDENCIAL - ESTRATO 3,FIBER TO THE HOME (FTTH),8.0
9,articles_404030_archivo_xls_4_1,2022.0,3.0,6.0,35,@DIGITAL GROUP SAS,5,ANTIOQUIA,5031,AMALFI,RESIDENCIAL - ESTRATO 1,FIBER TO THE HOME (FTTH),12.0



üîö Conexi√≥n cerrada correctamente.


Validaci√≥n de cobertura y consistencia

In [None]:
import duckdb, pandas as pd

db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path, read_only=True)

print("‚úÖ Conectado a la base para an√°lisis exploratorio.\n")

# --- 1Ô∏è‚É£ Departamentos √∫nicos y conteo ---
print("üìç Departamentos y n√∫mero de municipios reportados:")
deptos = con.execute("""
    SELECT DEPARTAMENTO, COUNT(DISTINCT MUNICIPIO) AS municipios_unicos, COUNT(*) AS total_registros
    FROM consolidado_tic_4_1_limpia
    GROUP BY DEPARTAMENTO
    ORDER BY DEPARTAMENTO
""").fetchdf()
display(deptos)

# --- 2Ô∏è‚É£ Cobertura temporal ---
print("\nüóìÔ∏è A√±os y trimestres disponibles:")
periodos = con.execute("""
    SELECT A√ëO, TRIMESTRE, COUNT(*) AS registros
    FROM consolidado_tic_4_1_limpia
    GROUP BY A√ëO, TRIMESTRE
    ORDER BY A√ëO, TRIMESTRE
""").fetchdf()
display(periodos)

# --- 3Ô∏è‚É£ Validaci√≥n de velocidades ---
print("\nüìà Rango de velocidades detectadas:")
velocidades = con.execute("""
    SELECT
        MIN("VELOCIDAD SUBIDA") AS min_subida,
        MAX("VELOCIDAD SUBIDA") AS max_subida,
        MIN("VELOCIDAD BAJADA") AS min_bajada,
        MAX("VELOCIDAD BAJADA") AS max_bajada,
        ROUND(AVG("VELOCIDAD SUBIDA"),2) AS promedio_subida,
        ROUND(AVG("VELOCIDAD BAJADA"),2) AS promedio_bajada
    FROM consolidado_tic_4_1_limpia
""").fetchdf()
display(velocidades)

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


‚úÖ Conectado a la base para an√°lisis exploratorio.

üìç Departamentos y n√∫mero de municipios reportados:


Unnamed: 0,DEPARTAMENTO,municipios_unicos,total_registros
0,AMAZONAS,9,1078
1,ANTIOQUIA,125,287503
2,ARAUCA,7,9670
3,"ARCHIPI√âLAGO DE SAN ANDR√âS, PROVIDENCIA Y SANT...",2,2071
4,ATL√ÅNTICO,23,66524
5,BOGOT√Å D.C.,1,59727
6,BOL√çVAR,46,51040
7,BOYAC√Å,123,84454
8,CALDAS,27,67577
9,CAQUETA,16,13258



üóìÔ∏è A√±os y trimestres disponibles:


Unnamed: 0,A√ëO,TRIMESTRE,registros
0,2021.0,4.0,104213
1,2021.0,,1
2,2022.0,1.0,184864
3,2022.0,2.0,370909
4,2022.0,3.0,568156
5,2022.0,4.0,589421
6,2022.0,,2
7,,,12



üìà Rango de velocidades detectadas:


Unnamed: 0,min_subida,max_subida,min_bajada,max_bajada,promedio_subida,promedio_bajada
0,0.0,3450300.0,0.0,3450300.0,111.03,161.31



üîö Conexi√≥n cerrada correctamente.


In [None]:
import duckdb
con = duckdb.connect("/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb")
con.execute("SHOW TABLES").fetchdf()


Unnamed: 0,name
0,articles_404030_archivo_xls_1
1,articles_404030_archivo_xls_10
2,articles_404030_archivo_xls_11
3,articles_404030_archivo_xls_12
4,articles_404030_archivo_xls_13
...,...
96,reporte_tic_tercer_trimestre_2024_7
97,reporte_tic_tercer_trimestre_2024_8
98,reporte_tic_tercer_trimestre_2024_9
99,reporte_tic_tercer_trimestre_2024_CONTENIDO


Verificaci√≥n de unicidad

In [None]:
import duckdb
con = duckdb.connect("/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb")

duplicados = con.execute("""
    SELECT COUNT(*) AS total_registros,
           COUNT(DISTINCT (A√ëO, TRIMESTRE, DEPARTAMENTO, MUNICIPIO, PROVEEDOR, "TECNOLOG√çA")) AS registros_unicos
    FROM consolidado_tic_4_1_limpia
""").fetchdf()

print(duplicados)
con.close()


   total_registros  registros_unicos
0          1817578             55982


Consulta para verificar dimensiones y muestra de datos

In [None]:
import duckdb
import pandas as pd

# --- Conexi√≥n a la base ---
db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path)

# --- 1Ô∏è‚É£ Dimensiones de la tabla ---
dim = con.execute("""
    SELECT
        COUNT(*) AS total_registros,
        COUNT(DISTINCT DEPARTAMENTO) AS departamentos,
        COUNT(DISTINCT MUNICIPIO) AS municipios,
        COUNT(DISTINCT A√ëO) AS anios,
        COUNT(DISTINCT TRIMESTRE) AS trimestres,
        COUNT(DISTINCT PROVEEDOR) AS proveedores,
        COUNT(DISTINCT "TECNOLOG√çA") AS tecnologias
    FROM consolidado_tic_4_1_limpia
""").fetchdf()

print("üìè Dimensiones de la tabla `consolidado_tic_4_1_limpia`:")
display(dim)

# --- 2Ô∏è‚É£ Vista previa ordenada por a√±o y trimestre ---
muestra = con.execute("""
    SELECT A√ëO, TRIMESTRE, DEPARTAMENTO, MUNICIPIO, PROVEEDOR,
           "SEGMENTO", "TECNOLOG√çA", "VELOCIDAD SUBIDA", "VELOCIDAD BAJADA",
           "NO. ACCESOS FIJOS A INTERNET"
    FROM consolidado_tic_4_1_limpia
    WHERE A√ëO IS NOT NULL
    ORDER BY A√ëO DESC, TRIMESTRE DESC
    LIMIT 20
""").fetchdf()

print("\nüëÄ Vista previa de registros representativos:")
display(muestra)

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


üìè Dimensiones de la tabla `consolidado_tic_4_1_limpia`:


Unnamed: 0,total_registros,departamentos,municipios,anios,trimestres,proveedores,tecnologias
0,1817578,35,1037,2,4,1085,18



üëÄ Vista previa de registros representativos:


Unnamed: 0,A√ëO,TRIMESTRE,DEPARTAMENTO,MUNICIPIO,PROVEEDOR,SEGMENTO,TECNOLOG√çA,VELOCIDAD SUBIDA,VELOCIDAD BAJADA,NO. ACCESOS FIJOS A INTERNET
0,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,30.0,60.0,2
1,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,15.0,30.0,1
2,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,5.0,10.0,3
3,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,4.0,8.0,3
4,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,20.0,40.0,1
5,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,RESIDENCIAL - ESTRATO 1,WIFI,2.5,5.0,147
6,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,2.5,5.0,3
7,2022.0,4.0,CAUCA,SANTANDER DE QUILICHAO,SERVICIOS DE COMUNICACIONES INTEGRALES S.A.S,CORPORATIVO,WIFI,12.5,25.0,3
8,2022.0,4.0,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,RESIDENCIAL - ESTRATO 4,FIBER TO THE HOME (FTTH),7.0,15.0,1
9,2022.0,4.0,ANTIOQUIA,AMALFI,@DIGITAL GROUP SAS,RESIDENCIAL - ESTRATO 4,FIBER TO THE HOME (FTTH),6.0,12.0,5



üîö Conexi√≥n cerrada correctamente.


Bloque de detecci√≥n y limpieza de outliers

In [None]:
import duckdb
import pandas as pd
import numpy as np

db_path = "/content/gdrive/MyDrive/trabajoGrado/colombiatic_datos/colombiatic.duckdb"
con = duckdb.connect(db_path)

# --- Cargar los datos a memoria para depuraci√≥n ---
df = con.execute("SELECT * FROM consolidado_tic_4_1_limpia").fetchdf()

print(f"üìä Registros iniciales: {len(df):,}")

# --- Convertir a num√©rico por seguridad ---
for col in ["VELOCIDAD SUBIDA", "VELOCIDAD BAJADA"]:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# --- Calcular IQR para cada variable ---
def limpiar_outliers_iqr(serie):
    q1 = serie.quantile(0.25)
    q3 = serie.quantile(0.75)
    iqr = q3 - q1
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    return serie.clip(lower=limite_inferior, upper=limite_superior)

df["VELOCIDAD SUBIDA_LIMPIA"] = limpiar_outliers_iqr(df["VELOCIDAD SUBIDA"])
df["VELOCIDAD BAJADA_LIMPIA"] = limpiar_outliers_iqr(df["VELOCIDAD BAJADA"])

# --- Conteo de valores corregidos ---
cambios_subida = (df["VELOCIDAD SUBIDA"] != df["VELOCIDAD SUBIDA_LIMPIA"]).sum()
cambios_bajada = (df["VELOCIDAD BAJADA"] != df["VELOCIDAD BAJADA_LIMPIA"]).sum()

print(f"‚öôÔ∏è Registros ajustados (subida): {cambios_subida:,}")
print(f"‚öôÔ∏è Registros ajustados (bajada): {cambios_bajada:,}")

# --- Guardar tabla limpia ---
con.execute("DROP TABLE IF EXISTS consolidado_tic_4_1_filtrado")
con.register("df_temp", df)
con.execute("""
    CREATE TABLE consolidado_tic_4_1_filtrado AS
    SELECT
        origen, A√ëO, TRIMESTRE, DEPARTAMENTO, MUNICIPIO, PROVEEDOR,
        SEGMENTO, TECNOLOG√çA,
        "NO. ACCESOS FIJOS A INTERNET",
        "C√ìDIGO DANE", "C√ìDIGO DANE_1",
        "VELOCIDAD SUBIDA_LIMPIA" AS VELOCIDAD_SUBIDA,
        "VELOCIDAD BAJADA_LIMPIA" AS VELOCIDAD_BAJADA
    FROM df_temp
""")
con.unregister("df_temp")

# --- Verificar dimensiones ---
dim = con.execute("SELECT COUNT(*) AS total, COUNT(DISTINCT MUNICIPIO) AS municipios FROM consolidado_tic_4_1_filtrado").fetchdf()
print("\n‚úÖ Tabla `consolidado_tic_4_1_filtrado` creada correctamente:")
display(dim)

con.close()
print("\nüîö Conexi√≥n cerrada correctamente.")


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

üìä Registros iniciales: 1,817,578
‚öôÔ∏è Registros ajustados (subida): 304,034
‚öôÔ∏è Registros ajustados (bajada): 165,909


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))


‚úÖ Tabla `consolidado_tic_4_1_filtrado` creada correctamente:


Unnamed: 0,total,municipios
0,1817578,1037



üîö Conexi√≥n cerrada correctamente.
