# Exploración de los datos

In [None]:
# 
import pandas as pd
import os

In [41]:
BASE_PATH = r"C:\Users\usuario\OneDrive - POTENCIA\ARCHIVOS\TAREA_ENTIDADES"
DATAPATH = os.path.join(BASE_PATH, "data", "2_categorized")
RESULTSPATH = os.path.join(BASE_PATH, "data", "3_results")
os.makedirs(DATAPATH, exist_ok=True)
os.makedirs(RESULTSPATH, exist_ok=True)

df = pd.read_excel(os.path.join(DATAPATH, "SECOP_recursos.xlsx"))
df['nombre_entidad'] = (df['nombre_entidad']
    .str.replace(r'[°*+]', ' ', regex=True).str.upper()
)

In [49]:
# Descripcion del dataset
print("Descripción del dataset:")
print(f" - Número de filas: {df.shape[0]}")
print(f" - Número de columnas: {df.shape[1]}")
print(f" - Columnas: {df.columns}")

Descripción del dataset:
 - Número de filas: 2485
 - Número de columnas: 33
 - Columnas: Index(['nombre_entidad', 'nit_entidad', 'codigo_entidad', 'sector',
       'id_contrato', 'estado_contrato', 'modalidad_contrato', 'anio',
       'codigo_categoria', 'fecha_de_firma', 'tipodocproveedor',
       'documento_proveedor', 'codigo_proveedor', 'proveedor_adjudicado',
       'origen_de_los_recursos', 'destino_gasto', 'valor_del_contrato',
       'codigo_BPIN', 'urlproceso', 'recursos_PGN', 'recursos_SGP',
       'recursos_SGR', 'recursos_territorio', 'recursos_credito',
       'recursos_propios', 'codigo_familia_UNSPSC', 'nombre_familia_UNSPSC',
       'texto', 'objetos', 'objeto_contractual', 'sub_categorias', 'SUB',
       'MACRO'],
      dtype='object')


In [50]:
# TOP ENTIDADES CONTRATANTES
top_entidades = (
    df
    .groupby('nombre_entidad', as_index=False)
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
    .head(30)   # ajusta Top N aquí
)
print("Top 30 Entidades Contratantes por Valor Total de Contratos:")
display(top_entidades)

Top 30 Entidades Contratantes por Valor Total de Contratos:


Unnamed: 0,nombre_entidad,valor_total,contratos
152,INVIAS,16173763958697,1190
0,AEROCIVIL,1338874412525,403
60,CVC,418390436721,17
57,CORPORACIÓN AUTÓNOMA DEL RÍO GRANDE DE LA MAGD...,356412469246,7
103,FUERZA AEROESPACIAL COLOMBIANA,104858421043,26
35,CENTRAL ADMINISTRATIVA ESPECIALIZADA INGENIERO...,87453158463,18
77,ENTERRITORIO S.A,86475445007,16
144,INSTITUTO DE CASAS FISCALES DE EJERCITO,54692625028,11
101,FONDO ROTATORIO DE LA POLICIA NACIONAL,49489783648,4
56,CORPORACION NASA KIWE,40592399987,26


In [51]:
entidad_macro = (
    df
    .groupby(
        ['nombre_entidad', 'MACRO'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 10 entidades por MACRO
entidad_macro_top = (
    entidad_macro
    .groupby('MACRO', group_keys=False)
    .head(10)
)
entidad_macro_top.columns = [
    "Entidad",
    "Categoría MACRO",
    "Valor Total",
    "Número de contratos"
]
print("Top 10 Entidades Contratantes por MACRO Categoria:")
display(entidad_macro_top)

Top 10 Entidades Contratantes por MACRO Categoria:


Unnamed: 0,Entidad,Categoría MACRO,Valor Total,Número de contratos
211,INVIAS,Transporte,15721367522955,1174
2,AEROCIVIL,Transporte,1336872168085,389
210,INVIAS,Ambiental y gestion del territorio,452396435742,16
92,CORPORACIÓN AUTÓNOMA DEL RÍO GRANDE DE LA MAGD...,Ambiental y gestion del territorio,356363059435,6
97,CVC,Productiva y de servicios,343917667842,8
61,CENTRAL ADMINISTRATIVA ESPECIALIZADA INGENIERO...,Urbanismo y desarrollo metropolitano,72752396664,10
96,CVC,Ambiental y gestion del territorio,67907017390,6
156,FUERZA AEROESPACIAL COLOMBIANA,Urbanismo y desarrollo metropolitano,67005775224,15
124,ENTERRITORIO S.A,Urbanismo y desarrollo metropolitano,63289617090,5
200,INSTITUTO DE CASAS FISCALES DE EJERCITO,Urbanismo y desarrollo metropolitano,54692625028,11


In [52]:
entidad_macro_sub = (
    df
    .groupby(
        ['nombre_entidad', 'MACRO', 'SUB'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 10 por MACRO + SUB
entidad_macro_sub_top = (
    entidad_macro_sub
    .groupby(
        ['MACRO', 'SUB'],
        group_keys=False
    )
    .head(10)
)

print("Top 10 Entidades Contratantes por MACRO y SUB Categoria:")
display(entidad_macro_sub_top)


Top 10 Entidades Contratantes por MACRO y SUB Categoria:


Unnamed: 0,nombre_entidad,MACRO,SUB,valor_total,contratos
254,INVIAS,Transporte,Vias,11374883094216,944
252,INVIAS,Transporte,Puente,1913914124939,44
253,INVIAS,Transporte,Puerto,1758752352164,37
3,AEROCIVIL,Transporte,Aeropuerto,1311756168008,354
255,INVIAS,Transporte,Vias terciarias,642830810634,147
...,...,...,...,...,...
27,ALCALDÍA MUNICIPAL DE MAGANGUE,Transporte,Puente,32268000,1
315,SENA REGIONAL CAQUETA,Urbanismo y desarrollo metropolitano,Deporte,24510080,1
302,SENA REGIONAL AMAZONAS,Productiva y de servicios,Turismo,20482500,1
233,INSTITUTO COLOMBIANO AGROPECUARIO - ICA,Transporte,Aeropuerto,18047699,1


In [54]:
entidad_objeto = (
    df
    .groupby(
        ['nombre_entidad', 'objeto_contractual'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 20 objetos por entidad
entidad_objeto_top = (
    entidad_objeto
    .groupby('nombre_entidad', group_keys=False)
    .head(20)
)
print("Top 20 Objetos Contractuales por Entidad Contratante:")
display(entidad_objeto_top)

Top 20 Objetos Contractuales por Entidad Contratante:


Unnamed: 0,nombre_entidad,objeto_contractual,valor_total,contratos
245,INVIAS,Mejoramiento,10198785263840,419
243,INVIAS,Construccion,3083309947487,84
244,INVIAS,Mantenimiento,2142531428079,408
2,AEROCIVIL,Construccion,444155154718,37
4,AEROCIVIL,Mejoramiento,425554623917,24
...,...,...,...,...
292,RNEC,Mantenimiento,7987780,1
123,DIRECCION GENERAL MARITIMA - SUBDIRECCION ADMI...,Construccion,7305069,1
289,RAMA JUDICIAL  DIRECCIÓN SECCIONAL DE ADMINIS...,Otros,5953007,1
197,INSTITUCION EDUCATIVA DISTRITAL ANTONIO JOSE D...,Reparacion,3500000,1


In [47]:
macro_objeto_entidad = (
    df
    .groupby(
        ['MACRO', 'objeto_contractual', 'nombre_entidad'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 10 entidades por MACRO + objeto
macro_objeto_entidad_top = (
    macro_objeto_entidad
    .groupby(
        ['MACRO', 'objeto_contractual'],
        group_keys=False
    )
    .head(10)
)

print("Top 10 Entidades Contratantes por MACRO Categoria y Objeto Contractual:")
display(macro_objeto_entidad_top)


Top 10 Entidades Contratantes por MACRO Categoria y Objeto Contractual:


Unnamed: 0,MACRO,objeto_contractual,nombre_entidad,valor_total,contratos
255,Transporte,Mejoramiento,INVIAS,9889185872442,416
211,Transporte,Construccion,INVIAS,3075946477272,82
240,Transporte,Mantenimiento,INVIAS,2064572894982,400
201,Transporte,Construccion,AEROCIVIL,443492421134,34
244,Transporte,Mejoramiento,AEROCIVIL,425004913341,18
...,...,...,...,...,...
161,Productiva y de servicios,Mejoramiento,SENA HOTELERIA TURISMO Y ALIMENTOS,28638836,1
3,Ambiental y gestion del territorio,Adecuacion,SUBCUENTA DEL SISTEMA DE PARQUES NACIONALES NA...,24485305,1
274,Transporte,Reparacion,INSTITUTO NACIONAL DE MEDICINA LEGAL Y CIENCIA...,16621182,1
41,Ambiental y gestion del territorio,Otros,SENA REGIONAL GUAINÍA GRUPO DE APOYO ADMINISTR...,10659700,1


In [None]:
ruta_salida = "Contratacion.xlsx"


with pd.ExcelWriter(
    os.path.join(RESULTSPATH, ruta_salida),
    engine="openpyxl",
    mode="a",                # abrir en modo append
    if_sheet_exists="replace"  # reemplaza la hoja si ya existe
) as writer:
    top_entidades.to_excel(writer, sheet_name="Top_Entidades", index=False)
    entidad_macro_top.to_excel(writer, sheet_name="Entidad_x_MACRO", index=False)
    entidad_macro_sub_top.to_excel(writer, sheet_name="Entidad_x_MACRO_x_SUB", index=False)
    entidad_objeto_top.to_excel(writer, sheet_name="Entidad_x_Objeto", index=False)
    macro_objeto_entidad_top.to_excel(writer, sheet_name="MACRO_x_Objeto_x_Entidad", index=False)
