In [1]:
# ===================================================================
# PASO 1: CONFIGURACIÓN E INSTALACIÓN DE LIBRERÍAS
# ===================================================================

import pandas as pd
import requests
import sqlite3
import random

print("✅ Librerías importadas.")

# ===================================================================
# PASO 2: EXTRACCIÓN (EXTRACT) DE LOS DATOS - SEGMENTO ALEATORIO
# ===================================================================

# API URL actualizada
base_url = "https://www.datos.gov.co/resource/rpmr-utcd.json"
total_registros_deseados = 1_000_000
limite_por_lote = 50_000  # máximo que permite sin token
data_total = []

print("📥 Iniciando descarga de datos por lotes...")

# Descargar múltiples lotes hasta superar el millón de registros
for offset in range(0, 1_500_000, limite_por_lote):  # descargo 1.5 millones para asegurarme de tener suficiente para muestrear
    url = f"{base_url}?$limit={limite_por_lote}&$offset={offset}"
    try:
        response = requests.get(url)
        response.raise_for_status()
        data_lote = response.json()
        
        if not data_lote:
            break  # Si ya no hay más datos, detenemos la descarga

        data_total.extend(data_lote)
        print(f"✅ Lote cargado con offset {offset}. Total acumulado: {len(data_total)}")

        if len(data_total) >= total_registros_deseados * 1.2:
            break  # Paramos si ya tenemos más de lo necesario

    except Exception as e:
        print(f"❌ Error con offset {offset}: {e}")
        break

# Crear DataFrame
df_completo = pd.DataFrame(data_total)

# Selección aleatoria de 1 millón de registros (sin reemplazo)
if len(df_completo) >= total_registros_deseados:
    df_raw = df_completo.sample(n=total_registros_deseados, random_state=42).reset_index(drop=True)
    print(f"✅ Segmento aleatorio de 1 millón de registros creado.")
else:
    df_raw = df_completo
    print(f"⚠️ Solo se lograron descargar {len(df_raw)} registros.")

# Vista previa del DataFrame
display(df_raw.head())


✅ Librerías importadas.
📥 Iniciando descarga de datos por lotes...
✅ Lote cargado con offset 0. Total acumulado: 50000
✅ Lote cargado con offset 50000. Total acumulado: 100000
✅ Lote cargado con offset 100000. Total acumulado: 150000
✅ Lote cargado con offset 150000. Total acumulado: 200000
✅ Lote cargado con offset 200000. Total acumulado: 250000
✅ Lote cargado con offset 250000. Total acumulado: 300000
✅ Lote cargado con offset 300000. Total acumulado: 350000
✅ Lote cargado con offset 350000. Total acumulado: 400000
✅ Lote cargado con offset 400000. Total acumulado: 450000
✅ Lote cargado con offset 450000. Total acumulado: 500000
✅ Lote cargado con offset 500000. Total acumulado: 550000
✅ Lote cargado con offset 550000. Total acumulado: 600000
✅ Lote cargado con offset 600000. Total acumulado: 650000
✅ Lote cargado con offset 650000. Total acumulado: 700000
✅ Lote cargado con offset 700000. Total acumulado: 750000
✅ Lote cargado con offset 750000. Total acumulado: 800000
✅ Lote carga

Unnamed: 0,nivel_entidad,codigo_entidad_en_secop,nombre_de_la_entidad,nit_de_la_entidad,departamento_entidad,municipio_entidad,estado_del_proceso,modalidad_de_contrataci_n,objeto_a_contratar,objeto_del_proceso,...,fecha_inicio_ejecuci_n,fecha_fin_ejecuci_n,numero_del_contrato,numero_de_proceso,valor_contrato,nom_raz_social_contratista,url_contrato,origen,tipo_documento_proveedor,documento_proveedor
0,TERRITORIAL,273200011,TOLIMA - ALCALDÍA MUNICIPIO DE COELLO,800100051,Tolima,Coello,Celebrado,Contratación Directa (Ley 1150 de 2007),PRESTACION DE SERVICIO PROFESIONALES DE ASESOR...,PRESTACION DE SERVICIO PROFESIONALES DE ASESOR...,...,2018-08-14T00:00:00.000,2019-01-01T00:00:00.000,18-12-8376446,CONTRATO # 206 DEL 2018,23554050,EDWIN ALEXY RUEDA BRAVO,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,93400036
1,TERRITORIAL,213244011,BOLÍVAR - ALCALDÍA MUNICIPIO DE CARMEN DE BOLÍVAR,800100050-1,Bolívar,El Carmen de Bolívar,Celebrado,Contratación Mínima Cuantía,PRESTACION DE SERVICIO LOGISTICO PARA LA ORGAN...,PRESTACIoN DE SERVICIO LOGiSTICO PARA LA ORGAN...,...,2018-11-13T00:00:00.000,2018-11-15T00:00:00.000,18-13-8630506,MC-59-2018,12007000,NILSA LEONILDA CUETO RIVERA,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,33140742
2,TERRITORIAL,205001001,ANTIOQUIA - DISTRITO ESPECIAL DE CIENCIA TECNO...,890905211-1,Antioquia,Medellín,Celebrado,Régimen Especial,ESTIMULAR PROCESOS ARTISTICOS Y CULTURALES MED...,ESTIMULAR PROCESO ARTiSTICO Y CULTURAL MEDIANT...,...,2018-07-18T00:00:00.000,2018-08-18T00:00:00.000,18-4-7947515,0009012549,5858500000,GERARDO TORRES LEMA,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,19433345
3,TERRITORIAL,227073011,CHOCÓ - ALCALDÍA MUNICIPIO DE BAGADÓ,891680055,Chocó,Bagadó,Celebrado,Contratación Mínima Cuantía,EL SUMINISTRO DE ELEMENTOS DE OFICINA PARA EL ...,EL OBJETO A CONTRATAR POR LA ENTIDAD ES EL SUM...,...,2017-10-10T00:00:00.000,2017-10-15T00:00:00.000,17-13-7119127,MB-SMC-042-2017,14197000,JOSE DE JESUS TABARES ARBOLEDA,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,11794475
4,TERRITORIAL,213268011,BOLÍVAR - ALCALDÍA MUNICIPIO DE EL PEÑÓN,814002243-5,Bolívar,El Peñón,Terminado Anormalmente después de Convocado,Contratación Mínima Cuantía,NO DEFINIDO,APOYO LOGISTICO PARA LA REALIZACION DE LOS JUE...,...,,,24-13-14150106,MC-035-2024,36400000,NO DEFINIDO,https://www.contratos.gov.co/consultas/detalle...,SECOPI,NO DEFINIDO,NO DEFINIDO


In [3]:
# Información básica
print("🔎 Información general del DataFrame:")
print(df_raw.info())

# Número de valores nulos por columna
print("\n🧼 Valores nulos por columna:")
print(df_raw.isnull().sum())

🔎 Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 22 columns):
 #   Column                       Non-Null Count    Dtype 
---  ------                       --------------    ----- 
 0   nivel_entidad                1000000 non-null  object
 1   codigo_entidad_en_secop      1000000 non-null  object
 2   nombre_de_la_entidad         1000000 non-null  object
 3   nit_de_la_entidad            1000000 non-null  object
 4   departamento_entidad         1000000 non-null  object
 5   municipio_entidad            1000000 non-null  object
 6   estado_del_proceso           1000000 non-null  object
 7   modalidad_de_contrataci_n    1000000 non-null  object
 8   objeto_a_contratar           999998 non-null   object
 9   objeto_del_proceso           999515 non-null   object
 10  tipo_de_contrato             1000000 non-null  object
 11  fecha_de_firma_del_contrato  889429 non-null   object
 12  fecha_inicio_ejecuci

In [5]:
print("\n🔍 Primeras filas del DataFrame:")
display(df_raw.head())



🔍 Primeras filas del DataFrame:


Unnamed: 0,nivel_entidad,codigo_entidad_en_secop,nombre_de_la_entidad,nit_de_la_entidad,departamento_entidad,municipio_entidad,estado_del_proceso,modalidad_de_contrataci_n,objeto_a_contratar,objeto_del_proceso,...,fecha_inicio_ejecuci_n,fecha_fin_ejecuci_n,numero_del_contrato,numero_de_proceso,valor_contrato,nom_raz_social_contratista,url_contrato,origen,tipo_documento_proveedor,documento_proveedor
0,TERRITORIAL,273200011,TOLIMA - ALCALDÍA MUNICIPIO DE COELLO,800100051,Tolima,Coello,Celebrado,Contratación Directa (Ley 1150 de 2007),PRESTACION DE SERVICIO PROFESIONALES DE ASESOR...,PRESTACION DE SERVICIO PROFESIONALES DE ASESOR...,...,2018-08-14T00:00:00.000,2019-01-01T00:00:00.000,18-12-8376446,CONTRATO # 206 DEL 2018,23554050,EDWIN ALEXY RUEDA BRAVO,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,93400036
1,TERRITORIAL,213244011,BOLÍVAR - ALCALDÍA MUNICIPIO DE CARMEN DE BOLÍVAR,800100050-1,Bolívar,El Carmen de Bolívar,Celebrado,Contratación Mínima Cuantía,PRESTACION DE SERVICIO LOGISTICO PARA LA ORGAN...,PRESTACIoN DE SERVICIO LOGiSTICO PARA LA ORGAN...,...,2018-11-13T00:00:00.000,2018-11-15T00:00:00.000,18-13-8630506,MC-59-2018,12007000,NILSA LEONILDA CUETO RIVERA,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,33140742
2,TERRITORIAL,205001001,ANTIOQUIA - DISTRITO ESPECIAL DE CIENCIA TECNO...,890905211-1,Antioquia,Medellín,Celebrado,Régimen Especial,ESTIMULAR PROCESOS ARTISTICOS Y CULTURALES MED...,ESTIMULAR PROCESO ARTiSTICO Y CULTURAL MEDIANT...,...,2018-07-18T00:00:00.000,2018-08-18T00:00:00.000,18-4-7947515,0009012549,5858500000,GERARDO TORRES LEMA,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,19433345
3,TERRITORIAL,227073011,CHOCÓ - ALCALDÍA MUNICIPIO DE BAGADÓ,891680055,Chocó,Bagadó,Celebrado,Contratación Mínima Cuantía,EL SUMINISTRO DE ELEMENTOS DE OFICINA PARA EL ...,EL OBJETO A CONTRATAR POR LA ENTIDAD ES EL SUM...,...,2017-10-10T00:00:00.000,2017-10-15T00:00:00.000,17-13-7119127,MB-SMC-042-2017,14197000,JOSE DE JESUS TABARES ARBOLEDA,https://www.contratos.gov.co/consultas/detalle...,SECOPI,Cédula de Ciudadanía,11794475
4,TERRITORIAL,213268011,BOLÍVAR - ALCALDÍA MUNICIPIO DE EL PEÑÓN,814002243-5,Bolívar,El Peñón,Terminado Anormalmente después de Convocado,Contratación Mínima Cuantía,NO DEFINIDO,APOYO LOGISTICO PARA LA REALIZACION DE LOS JUE...,...,,,24-13-14150106,MC-035-2024,36400000,NO DEFINIDO,https://www.contratos.gov.co/consultas/detalle...,SECOPI,NO DEFINIDO,NO DEFINIDO


In [None]:
# Tamaño del DataFrame
print(f"Filas: {df_raw.shape[0]} | Columnas: {df_raw.shape[1]}")


# Mostrar todas las columnas disponibles
print("🧾 Columnas del DataFrame:")
print(df_raw.columns.tolist())
df_raw.columns.tolist()

Filas: 1000000 | Columnas: 23
🧾 Columnas del DataFrame:
['nivel_entidad', 'codigo_entidad_en_secop', 'nombre_de_la_entidad', 'nit_de_la_entidad', 'departamento_entidad', 'municipio_entidad', 'estado_del_proceso', 'modalidad_de_contrataci_n', 'objeto_a_contratar', 'objeto_del_proceso', 'tipo_de_contrato', 'fecha_de_firma_del_contrato', 'fecha_inicio_ejecuci_n', 'fecha_fin_ejecuci_n', 'numero_del_contrato', 'numero_de_proceso', 'valor_contrato', 'nom_raz_social_contratista', 'url_contrato', 'origen', 'tipo_documento_proveedor', 'documento_proveedor', 'departamento_limpio']


['nivel_entidad',
 'codigo_entidad_en_secop',
 'nombre_de_la_entidad',
 'nit_de_la_entidad',
 'departamento_entidad',
 'municipio_entidad',
 'estado_del_proceso',
 'modalidad_de_contrataci_n',
 'objeto_a_contratar',
 'objeto_del_proceso',
 'tipo_de_contrato',
 'fecha_de_firma_del_contrato',
 'fecha_inicio_ejecuci_n',
 'fecha_fin_ejecuci_n',
 'numero_del_contrato',
 'numero_de_proceso',
 'valor_contrato',
 'nom_raz_social_contratista',
 'url_contrato',
 'origen',
 'tipo_documento_proveedor',
 'documento_proveedor',
 'departamento_limpio']

In [13]:
# Limpiar nombres de columnas
df_raw.columns = (
    df_raw.columns
    .str.strip()
    .str.lower()
    .str.normalize('NFKD')  # quitar tildes
    .str.encode('ascii', errors='ignore')
    .str.decode('utf-8')
    .str.replace(" ", "_")
    .str.replace(r"[^\w]", "", regex=True)  # quita signos raros como punto, coma
)

print("🧽 Columnas normalizadas:")
print(df_raw.columns.tolist())

🧽 Columnas normalizadas:
['nivel_entidad', 'codigo_entidad_en_secop', 'nombre_de_la_entidad', 'nit_de_la_entidad', 'departamento_entidad', 'municipio_entidad', 'estado_del_proceso', 'modalidad_de_contrataci_n', 'objeto_a_contratar', 'objeto_del_proceso', 'tipo_de_contrato', 'fecha_de_firma_del_contrato', 'fecha_inicio_ejecuci_n', 'fecha_fin_ejecuci_n', 'numero_del_contrato', 'numero_de_proceso', 'valor_contrato', 'nom_raz_social_contratista', 'url_contrato', 'origen', 'tipo_documento_proveedor', 'documento_proveedor', 'departamento_limpio']
