In [None]:
import requests
import pandas as pd
from tqdm import tqdm

# ---------------------------------------------
# CONFIGURACI√ìN
# ---------------------------------------------
BASE_URL = "https://www.datos.gov.co/resource/jbjy-vk9h.json"
LIMIT = 10000
ANIOS = list(range(2015, 2026))  # de 2015 a 2025

CAMPOS = [
    "nombre_entidad", "nit_entidad", "departamento", "ciudad",
    "tipo_de_contrato", "modalidad_de_contratacion", "fecha_de_firma",
    "fecha_de_inicio_del_contrato", "fecha_de_fin_del_contrato",
    "valor_del_contrato", "proveedor_adjudicado", "documento_proveedor",
    "descripcion_del_proceso", "objeto_del_contrato", "urlproceso",
]

df_total = pd.DataFrame()

# ---------------------------------------------
# DESCARGA POR A√ëO
# ---------------------------------------------
for year in ANIOS:
    print(f"\nüìÖ Descargando contratos de INTERVENTOR√çA del a√±o {year}...")
    offset = 0
    lote = 0
    year_data = []

    # Filtro de a√±o usando rango de fechas
    start_date = f"{year}-01-01T00:00:00"
    end_date = f"{year}-12-31T23:59:59"
    where_clause = (
        f"tipo_de_contrato like '%Interventor%' "
        f"AND fecha_de_firma between '{start_date}' and '{end_date}'"
    )

    with tqdm(total=None, desc=f"A√±o {year}", unit="lote") as pbar:
        while True:
            params = {
                "$select": ",".join(CAMPOS),
                "$where": where_clause,
                "$limit": LIMIT,
                "$offset": offset
            }

            response = requests.get(BASE_URL, params=params)

            if response.status_code != 200:
                print(f"‚ö†Ô∏è Error {response.status_code} en el lote {lote} del a√±o {year}")
                break

            batch = response.json()
            if not batch:
                print(f"‚úÖ A√±o {year} completado ({lote} lotes descargados)")
                break

            df_batch = pd.DataFrame(batch)
            year_data.append(df_batch)

            offset += LIMIT
            lote += 1
            pbar.update(1)
            pbar.set_postfix({"Registros": len(df_batch), "Offset": offset})

    if year_data:
        df_year = pd.concat(year_data, ignore_index=True)
        df_year["a√±o"] = year
        df_total = pd.concat([df_total, df_year], ignore_index=True)
        print(f"üìä Total {len(df_year):,} registros del a√±o {year}")

print("\n‚úÖ Descarga completa")
print(f"üìà Total general: {len(df_total):,} contratos de interventor√≠a")


In [None]:
import requests
import pandas as pd
from tqdm import tqdm

# ---------------------------------------------
# CONFIGURACI√ìN FUENTE 2
# ---------------------------------------------
BASE_URL_F2 = "https://www.datos.gov.co/resource/f789-7hwg.json"
LIMIT_F2 = 10000
ANIOS_F2 = list(range(2015, 2026))

CAMPOS_F2 = [
    "nombre_entidad","nit_de_la_entidad","departamento_entidad","municipio_entidad",
    "tipo_de_contrato","modalidad_de_contratacion","fecha_de_firma_del_contrato",
    "fecha_ini_ejec_contrato","fecha_fin_ejec_contrato","cuantia_contrato",
    "nom_razon_social_contratista","identificacion_del_contratista",
    "objeto_del_contrato_a_la","detalle_del_objeto_a_contratar","ruta_proceso_en_secop_i",
]

df_secop2 = pd.DataFrame()

# ---------------------------------------------
# DESCARGA POR A√ëO FUENTE 2
# ---------------------------------------------
for year in ANIOS_F2:
    print(f"\nüìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o {year}...")
    offset = 0
    lote = 0
    year_data = []

    start_date = f"{year}-01-01T00:00:00"
    end_date = f"{year}-12-31T23:59:59"
    where_clause = (
        f"upper(tipo_de_contrato) like '%INTERVENTOR%' "
        f"AND fecha_de_firma_del_contrato between '{start_date}' and '{end_date}'"
    )

    with tqdm(total=None, desc=f"F2 A√±o {year}", unit="lote") as pbar:
        while True:
            params = {
                "$select": ",".join(CAMPOS_F2),
                "$where": where_clause,
                "$limit": LIMIT_F2,
                "$offset": offset
            }

            response = requests.get(BASE_URL_F2, params=params)

            if response.status_code != 200:
                print(f"‚ö†Ô∏è [F2] Error {response.status_code} en lote {lote} a√±o {year}")
                break

            batch = response.json()
            if not batch:
                print(f"‚úÖ [F2] A√±o {year} completado ({lote} lotes)")
                break

            df_batch = pd.DataFrame(batch)
            year_data.append(df_batch)

            offset += LIMIT_F2
            lote += 1
            pbar.update(1)
            pbar.set_postfix({"Registros": len(df_batch)})

    if year_data:
        df_year = pd.concat(year_data, ignore_index=True)
        df_year["a√±o"] = year
        df_secop2 = pd.concat([df_secop2, df_year], ignore_index=True)
        print(f"üìä [F2] Total {len(df_year):,} registros del a√±o {year}")

print("\n‚úÖ Descarga completa F2")
print(f"üìà Total general F2: {len(df_secop2):,} contratos")


üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2015...


F2 A√±o 2015: 1lote [00:00,  1.02lote/s, Registros=2]


‚úÖ [F2] A√±o 2015 completado (1 lotes)
üìä [F2] Total 2 registros del a√±o 2015

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2016...


F2 A√±o 2016: 1lote [00:01,  1.37s/lote, Registros=2]


‚úÖ [F2] A√±o 2016 completado (1 lotes)
üìä [F2] Total 2 registros del a√±o 2016

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2017...


F2 A√±o 2017: 1lote [00:03,  3.43s/lote, Registros=87]


‚úÖ [F2] A√±o 2017 completado (1 lotes)
üìä [F2] Total 87 registros del a√±o 2017

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2018...


F2 A√±o 2018: 1lote [00:09,  9.77s/lote, Registros=4187]


‚úÖ [F2] A√±o 2018 completado (1 lotes)
üìä [F2] Total 4,187 registros del a√±o 2018

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2019...


F2 A√±o 2019: 1lote [00:08,  8.38s/lote, Registros=6223]


‚úÖ [F2] A√±o 2019 completado (1 lotes)
üìä [F2] Total 6,223 registros del a√±o 2019

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2020...


F2 A√±o 2020: 1lote [00:06,  6.53s/lote, Registros=1794]


‚úÖ [F2] A√±o 2020 completado (1 lotes)
üìä [F2] Total 1,794 registros del a√±o 2020

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2021...


F2 A√±o 2021: 1lote [00:05,  5.92s/lote, Registros=3375]


‚úÖ [F2] A√±o 2021 completado (1 lotes)
üìä [F2] Total 3,375 registros del a√±o 2021

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2022...


F2 A√±o 2022: 1lote [00:04,  4.16s/lote, Registros=2825]


‚úÖ [F2] A√±o 2022 completado (1 lotes)
üìä [F2] Total 2,825 registros del a√±o 2022

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2023...


F2 A√±o 2023: 1lote [00:02,  2.46s/lote, Registros=3424]


‚úÖ [F2] A√±o 2023 completado (1 lotes)
üìä [F2] Total 3,424 registros del a√±o 2023

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2024...


F2 A√±o 2024: 1lote [00:02,  2.32s/lote, Registros=917]


‚úÖ [F2] A√±o 2024 completado (1 lotes)
üìä [F2] Total 917 registros del a√±o 2024

üìÖ [F2] Descargando contratos de INTERVENTOR√çA del a√±o 2025...


F2 A√±o 2025: 1lote [00:02,  2.04s/lote, Registros=931]

‚úÖ [F2] A√±o 2025 completado (1 lotes)
üìä [F2] Total 931 registros del a√±o 2025

‚úÖ Descarga completa F2
üìà Total general F2: 23,767 contratos





In [None]:
df_total.isnull().sum()

nombre_entidad                    0
nit_entidad                       0
departamento                      0
ciudad                            0
tipo_de_contrato                  0
modalidad_de_contratacion         0
fecha_de_firma                    0
fecha_de_inicio_del_contrato    312
fecha_de_fin_del_contrato         0
valor_del_contrato                0
proveedor_adjudicado              0
documento_proveedor               0
descripcion_del_proceso           0
objeto_del_contrato               0
urlproceso                        0
a√±o                               0
dtype: int64

In [None]:
df_secop2.isnull().sum()

nombre_entidad                    0
nit_de_la_entidad                 0
departamento_entidad              0
municipio_entidad                 0
tipo_de_contrato                  0
modalidad_de_contratacion         0
fecha_de_firma_del_contrato       0
fecha_ini_ejec_contrato           0
fecha_fin_ejec_contrato           0
cuantia_contrato                  0
nom_razon_social_contratista      0
identificacion_del_contratista    0
objeto_del_contrato_a_la          0
detalle_del_objeto_a_contratar    0
ruta_proceso_en_secop_i           0
a√±o                               0
dtype: int64

In [None]:
# 1. Strip en columnas string
for col in df_total.select_dtypes(include='object').columns:
    df_total[col] = df_total[col].astype(str).str.strip()

# 2. Convertir fechas a datetime
df_total['fecha_de_firma'] = pd.to_datetime(df_total['fecha_de_firma'], errors='coerce')
df_total['fecha_de_inicio_del_contrato'] = pd.to_datetime(df_total['fecha_de_inicio_del_contrato'], errors='coerce')
df_total['fecha_de_fin_del_contrato'] = pd.to_datetime(df_total['fecha_de_fin_del_contrato'], errors='coerce')

# 3. Reemplazar nulos de fecha_inicio por fecha_firma
df_total['fecha_de_inicio_del_contrato'] = df_total['fecha_de_inicio_del_contrato'].fillna(df_total['fecha_de_firma'])

# 4. Convertir valor a num√©rico
df_total['valor_del_contrato'] = (
    df_total['valor_del_contrato']
    .astype(str)
    .str.replace(r'[^\d.,]', '', regex=True)
    .str.replace(',', '')
    .astype(float)
)

# 5. A√±o a int
df_total['a√±o'] = df_total['a√±o'].astype(int)

# 6. Renombrar columnas para merge
df_total = df_total.rename(columns={
    'nit_entidad': 'nit',
    'departamento': 'departamento',
    'ciudad': 'municipio',
    'fecha_de_inicio_del_contrato': 'fecha_inicio',
    'fecha_de_fin_del_contrato': 'fecha_fin',
    'fecha_de_firma': 'fecha_firma',
    'valor_del_contrato': 'cuantia',
    'proveedor_adjudicado': 'contratista',
    'documento_proveedor': 'identificacion_contratista',
    'objeto_del_contrato': 'objeto',
    'descripcion_del_proceso': 'detalle_objeto',
    'urlproceso': 'url_proceso'
})

In [None]:
# 1. Strip texto
for col in df_secop2.select_dtypes(include='object').columns:
    df_secop2[col] = df_secop2[col].astype(str).str.strip()

# 2. Convertir fechas
df_secop2['fecha_de_firma_del_contrato'] = pd.to_datetime(df_secop2['fecha_de_firma_del_contrato'], errors='coerce')
df_secop2['fecha_ini_ejec_contrato'] = pd.to_datetime(df_secop2['fecha_ini_ejec_contrato'], errors='coerce')
df_secop2['fecha_fin_ejec_contrato'] = pd.to_datetime(df_secop2['fecha_fin_ejec_contrato'], errors='coerce')

# 3. Convertir cuant√≠a
df_secop2['cuantia_contrato'] = (
    df_secop2['cuantia_contrato']
    .astype(str)
    .str.replace(r'[^\d.,]', '', regex=True)
    .str.replace(',', '')
    .astype(float)
)

# 4. A√±o como int
df_secop2['a√±o'] = df_secop2['a√±o'].astype(int)

# 5. Renombrar columnas a est√°ndar del DF1
df_secop2 = df_secop2.rename(columns={
    'nit_de_la_entidad': 'nit',
    'departamento_entidad': 'departamento',
    'municipio_entidad': 'municipio',
    'fecha_de_firma_del_contrato': 'fecha_firma',
    'fecha_ini_ejec_contrato': 'fecha_inicio',
    'fecha_fin_ejec_contrato': 'fecha_fin',
    'cuantia_contrato': 'cuantia',
    'nom_razon_social_contratista': 'contratista',
    'identificacion_del_contratista': 'identificacion_contratista',
    'objeto_del_contrato_a_la': 'objeto',
    'detalle_del_objeto_a_contratar': 'detalle_objeto',
    'ruta_proceso_en_secop_i': 'url_proceso'
})

In [None]:
df_unido = pd.concat([df_total, df_secop2], ignore_index=True)

In [None]:
df_unido

Unnamed: 0,nombre_entidad,nit,departamento,municipio,tipo_de_contrato,modalidad_de_contratacion,fecha_firma,fecha_inicio,fecha_fin,cuantia,contratista,identificacion_contratista,detalle_objeto,objeto,url_proceso,a√±o
0,MINISTERIO DE EDUCACION NACIONAL (MEN),899999001,Distrito Capital de Bogot√°,Bogot√°,Interventor√≠a,Concurso de m√©ritos abierto,2016-06-23,2016-06-20,2016-12-31,448499078.0,C & M Asesor√≠a y Consultor√≠a S.A.S- BIC absorb...,830061474,‚ÄúREALIZAR LA INTERVENTOR√çA INTEGRAL (ADMINISTR...,‚ÄúREALIZAR LA INTERVENTOR√çA INTEGRAL (ADMINISTR...,{'url': 'https://community.secop.gov.co/Public...,2016
1,FONDO ROTATORIO,8605110716,Distrito Capital de Bogot√°,No Definido,Interventor√≠a,Concurso de m√©ritos abierto,2016-08-04,2016-07-25,2016-12-31,57482000.0,PANIVI DIEZ,No Definido,CONTRATAR LA INTERVENTOR√çA T√âCNICA; ADMINISTRA...,CONTRATAR LA INTERVENTOR√çA T√âCNICA; ADMINISTRA...,{'url': 'https://community.secop.gov.co/Public...,2016
2,FUERZA AEROESPACIAL COLOMBIANA,899999102,Distrito Capital de Bogot√°,Bogot√°,Interventor√≠a,Concurso de m√©ritos abierto,2016-11-02,2016-11-01,2018-03-31,526587388.0,MEDINA & RIVERA INGENIEROS ASOCIADOS S.A.S.,830013230,INTERVENTOR√çA T√âCNICA; ADMINISTRATIVA; FINANCI...,INTERVENTOR√çA T√âCNICA; ADMINISTRATIVA; FINANCI...,{'url': 'https://community.secop.gov.co/Public...,2016
3,FUERZA AEROESPACIAL COLOMBIANA,899999102,Distrito Capital de Bogot√°,Bogot√°,Interventor√≠a,Concurso de m√©ritos abierto,2016-11-02,2016-11-01,2018-03-31,526587388.0,MEDINA & RIVERA INGENIEROS ASOCIADOS S.A.S.,830013230,INTERVENTOR√çA T√âCNICA; ADMINISTRATIVA; FINANCI...,INTERVENTOR√çA T√âCNICA; ADMINISTRATIVA; FINANCI...,{'url': 'https://community.secop.gov.co/Public...,2016
4,FONDO DE VIGILANCIA Y SEGURIDAD DE BOGOT√Å D.C ...,860526499,No Definido,No Definido,Interventor√≠a,Concurso de m√©ritos abierto,2017-02-10,2017-01-17,2017-10-16,893297074.0,CONSORCIO CANTON,9007946104,El contratista se obliga con la SCJ a prestar ...,El contratista se obliga con la SCJ a prestar ...,{'url': 'https://community.secop.gov.co/Public...,2017
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35115,NARI√ëO - ALCALDiA MUNICIPIO DE YACUANQUER,800099153,NARI√ëO,YACUANQUER,INTERVENTORiA,CONTRATACIoN MiNIMA CUANTiA,2025-10-27,2025-10-27,2025-12-27,17196849.0,SANDRA DEL PILAR PAZ JOJOA,1085282785,INTERVENTORIA TeCNICA; ADMINISTRATIVA Y FINANC...,INTERVENTORIA TECNICA; ADMINISTRATIVA Y FINANC...,{'url': 'https://www.contratos.gov.co/consulta...,2025
35116,NARI√ëO - ALCALDiA MUNICIPIO DE TANGUA,800099151,NARI√ëO,TANGUA,INTERVENTORiA,CONTRATACIoN MiNIMA CUANTiA,2025-10-27,2025-10-27,2026-01-25,12000000.0,JENNY JOHANNA TELLEZ SALAS,59833203,INTERVENTORiA TeCNICA; Y ADMINISTRATIVA; PARA ...,INTERVENTORIA TECNICA; Y ADMINISTRATIVA; PARA ...,{'url': 'https://www.contratos.gov.co/consulta...,2025
35117,NORTE DE SANTANDER - ALCALDiA MUNICIPIO DE SAN...,890501876-4,NORTE DE SANTANDER,SAN CAYETANO,INTERVENTORiA,CONTRATACIoN MiNIMA CUANTiA,2025-10-30,2025-10-30,2025-12-30,34013000.0,UNION TEMPORAL INTER EDUCATIVA SAN CAYETANO,902002797,INTERVENTORiA INTEGRAL (ADMINISTRATIVA; FINANC...,INTERVENTORIA INTEGRAL (ADMINISTRATIVA; FINANC...,{'url': 'https://www.contratos.gov.co/consulta...,2025
35118,CAUCA - EMPRESA CAUCANA DE SERVICIOS PuBLICOS ...,900316215,CAUCA,POPAYaN,INTERVENTORiA,CONTRATACIoN MiNIMA CUANTiA,2025-10-31,2025-10-31,2026-03-31,36500870.0,CONSORCIO AQUA VITAL,901998643,EL CONTRATISTA SE OBLIGA PARA CON EMCASERVICIO...,EL CONTRATISTA SE OBLIGA PARA CON EMCASERVICIO...,{'url': 'https://www.contratos.gov.co/consulta...,2025


In [None]:
# PARA SABER NOMBRE DE LAS COLUMNAS DE DATOS
import requests
import json

BASE_URL = "https://www.datos.gov.co/resource/f789-7hwg.json"

resp = requests.get(BASE_URL, params={"$limit": 1})
print(json.dumps(resp.json(), indent=2, ensure_ascii=False))

[
  {
    "uid": "19-4-8885396-8083687",
    "anno_cargue_secop": "2019",
    "anno_firma_contrato": "2018",
    "nivel_entidad": "TERRITORIAL",
    "orden_entidad": "TERRITORIAL DISTRITAL MUNICIPAL NIVEL 2",
    "nombre_entidad": "ARAUCA - E.S.E. MORENO Y CLAVIJO - ARAUCA",
    "nit_de_la_entidad": "900034131",
    "c_digo_de_la_entidad": "281000038",
    "id_modalidad": "4",
    "modalidad_de_contratacion": "ReGIMEN ESPECIAL",
    "estado_del_proceso": "CELEBRADO",
    "causal_de_otras_formas_de": "No Definido",
    "id_regimen_de_contratacion": "4",
    "nombre_regimen_de_contratacion": "ReGIMEN ESPECIAL",
    "id_objeto_a_contratar": "80000000",
    "objeto_a_contratar": "SERVICIOS DE GESTION, SERVICIOS PROFESIONALES DE EMPRESA Y SERVICIOS ADMINISTRATIVOS",
    "detalle_del_objeto_a_contratar": "AUXILIAR DE ENFERMERIA",
    "tipo_de_contrato": "PRESTACIoN DE SERVICIOS",
    "municipio_de_obtencion": "No Definido",
    "municipio_de_entrega": "No Definido",
    "municipios_ejecucion