# Exploración de los datos

In [34]:
import pandas as pd

df = pd.read_excel("../data/2_categorized/SECOP_CAT_final.xlsx")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3570 entries, 0 to 3569
Data columns (total 33 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   nombre_entidad          3570 non-null   object        
 1   nit_entidad             3570 non-null   int64         
 2   codigo_entidad          3570 non-null   int64         
 3   sector                  3570 non-null   object        
 4   id_contrato             3570 non-null   object        
 5   estado_contrato         3570 non-null   object        
 6   modalidad_contrato      3570 non-null   object        
 7   anio                    3570 non-null   int64         
 8   codigo_categoria        3570 non-null   object        
 9   fecha_de_firma          3570 non-null   datetime64[ns]
 10  tipodocproveedor        3570 non-null   object        
 11  documento_proveedor     3568 non-null   object        
 12  codigo_proveedor        3570 non-null   int64   

In [35]:
# Descripcion del dataset
print("Descripción del dataset:")
print(f" - Número de filas: {df.shape[0]}")
print(f" - Número de columnas: {df.shape[1]}")
print(f" - Columnas: {df.columns.tolist()}")

Descripción del dataset:
 - Número de filas: 3570
 - Número de columnas: 33
 - Columnas: ['nombre_entidad', 'nit_entidad', 'codigo_entidad', 'sector', 'id_contrato', 'estado_contrato', 'modalidad_contrato', 'anio', 'codigo_categoria', 'fecha_de_firma', 'tipodocproveedor', 'documento_proveedor', 'codigo_proveedor', 'proveedor_adjudicado', 'origen_de_los_recursos', 'destino_gasto', 'valor_del_contrato', 'codigo_BPIN', 'urlproceso', 'recursos_PGN', 'recursos_SGP', 'recursos_SGR', 'recursos_territorio', 'recursos_credito', 'recursos_propios', 'codigo_familia_UNSPSC', 'nombre_familia_UNSPSC', 'texto', 'objetos', 'objeto_contractual', 'sub_categorias', 'SUB', 'MACRO']


In [36]:
df['nombre_entidad'] = df['nombre_entidad'].str.replace(r'[°*+]', ' ', regex=True).str.upper()

In [37]:
# TOP ENTIDADES CONTRATANTES
top_entidades = (
    df
    .groupby('nombre_entidad', as_index=False)
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
    .head(30)   # ajusta Top N aquí
)
print("Top 30 Entidades Contratantes por Valor Total de Contratos:")
display(top_entidades)

Top 30 Entidades Contratantes por Valor Total de Contratos:


Unnamed: 0,nombre_entidad,valor_total,contratos
161,INVIAS,17858897949448,2017
0,AEROCIVIL,1397161857481,543
64,CVC,418390436721,17
61,CORPORACIÓN AUTÓNOMA DEL RÍO GRANDE DE LA MAGD...,356412469246,7
108,FUERZA AEROESPACIAL COLOMBIANA,125052680222,34
36,CENTRAL ADMINISTRATIVA ESPECIALIZADA INGENIERO...,92488391718,23
81,ENTERRITORIO S.A,87042508678,19
153,INSTITUTO DE CASAS FISCALES DE EJERCITO,55288501937,14
106,FONDO ROTATORIO DE LA POLICIA NACIONAL,49616268391,5
60,CORPORACION NASA KIWE,41980999987,28


In [38]:
entidad_macro = (
    df
    .groupby(
        ['nombre_entidad', 'MACRO'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 10 entidades por MACRO
entidad_macro_top = (
    entidad_macro
    .groupby('MACRO', group_keys=False)
    .head(10)
)
print("Top 10 Entidades Contratantes por MACRO Categoria:")
display(entidad_macro_top)

Top 10 Entidades Contratantes por MACRO Categoria:


Unnamed: 0,nombre_entidad,MACRO,valor_total,contratos
232,INVIAS,Transporte,17367048309138,1994
2,AEROCIVIL,Transporte,1394999613041,525
231,INVIAS,Ambiental y gestion del territorio,491849640310,23
102,CORPORACIÓN AUTÓNOMA DEL RÍO GRANDE DE LA MAGD...,Ambiental y gestion del territorio,356363059435,6
107,CVC,Productiva y de servicios,343917667842,8
171,FUERZA AEROESPACIAL COLOMBIANA,Urbanismo y desarrollo metropolitano,87200034403,23
68,CENTRAL ADMINISTRATIVA ESPECIALIZADA INGENIERO...,Urbanismo y desarrollo metropolitano,77787629919,15
106,CVC,Ambiental y gestion del territorio,67907017390,6
135,ENTERRITORIO S.A,Urbanismo y desarrollo metropolitano,63289617090,5
221,INSTITUTO DE CASAS FISCALES DE EJERCITO,Urbanismo y desarrollo metropolitano,54987485028,12


In [39]:
entidad_macro_sub = (
    df
    .groupby(
        ['nombre_entidad', 'MACRO', 'SUB'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 10 por MACRO + SUB
entidad_macro_sub_top = (
    entidad_macro_sub
    .groupby(
        ['MACRO', 'SUB'],
        group_keys=False
    )
    .head(10)
)

print("Top 10 Entidades Contratantes por MACRO y SUB Categoria:")
display(entidad_macro_sub_top)


Top 10 Entidades Contratantes por MACRO y SUB Categoria:


Unnamed: 0,nombre_entidad,MACRO,SUB,valor_total,contratos
281,INVIAS,Transporte,Vias,13135388584647,1595
280,INVIAS,Transporte,Puerto,1779516883475,42
279,INVIAS,Transporte,Puente,1639717957593,57
3,AEROCIVIL,Transporte,Aeropuerto,1365398387469,474
282,INVIAS,Transporte,Vias terciarias,781437742421,298
...,...,...,...,...,...
382,SENA REGIONAL SUCRE,Productiva y de servicios,Turismo,50192827,1
33,ALCALDÍA MUNICIPAL DE MAGANGUE,Urbanismo y desarrollo metropolitano,Vias urbanas,36710795,1
333,SENA REGIONAL AMAZONAS,Productiva y de servicios,Turismo,20482500,1
258,INSTITUTO COLOMBIANO AGROPECUARIO - ICA,Transporte,Aeropuerto,18047699,1


In [40]:
entidad_objeto = (
    df
    .groupby(
        ['nombre_entidad', 'objeto_contractual'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 20 objetos por entidad
entidad_objeto_top = (
    entidad_objeto
    .groupby('nombre_entidad', group_keys=False)
    .head(20)
)
print("Top 20 Objetos Contractuales por Entidad Contratante:")
display(entidad_objeto_top)

Top 20 Objetos Contractuales por Entidad Contratante:


Unnamed: 0,nombre_entidad,objeto_contractual,valor_total,contratos
266,INVIAS,Mejoramiento,10370312851429,476
264,INVIAS,Construccion,3758155297706,108
265,INVIAS,Mantenimiento,2955104000785,1092
2,AEROCIVIL,Construccion,466864008352,55
4,AEROCIVIL,Mejoramiento,432361390072,42
...,...,...,...,...
133,DIRECCION GENERAL MARITIMA - SUBDIRECCION ADMI...,Construccion,7305069,1
206,ICBF REGIONAL VICHADA,Construccion,6428335,1
313,RAMA JUDICIAL  DIRECCIÓN SECCIONAL DE ADMINIS...,Otros,5953007,1
217,INSTITUCION EDUCATIVA DISTRITAL ANTONIO JOSE D...,Reparacion,3500000,1


In [41]:
macro_objeto_entidad = (
    df
    .groupby(
        ['MACRO', 'objeto_contractual', 'nombre_entidad'],
        as_index=False
    )
    .agg(
        valor_total=('valor_del_contrato', 'sum'),
        contratos=('id_contrato', 'count')
    )
    .sort_values('valor_total', ascending=False)
)

# Top 10 entidades por MACRO + objeto
macro_objeto_entidad_top = (
    macro_objeto_entidad
    .groupby(
        ['MACRO', 'objeto_contractual'],
        group_keys=False
    )
    .head(10)
)

print("Top 10 Entidades Contratantes por MACRO Categoria y Objeto Contractual:")
display(macro_objeto_entidad_top)


Top 10 Entidades Contratantes por MACRO Categoria y Objeto Contractual:


Unnamed: 0,MACRO,objeto_contractual,nombre_entidad,valor_total,contratos
282,Transporte,Mejoramiento,INVIAS,10060713460031,473
234,Transporte,Construccion,INVIAS,3750791827491,106
267,Transporte,Mantenimiento,INVIAS,2839760513420,1078
220,Transporte,Construccion,AEROCIVIL,466201274768,52
271,Transporte,Mejoramiento,AEROCIVIL,431811679496,36
...,...,...,...,...,...
179,Productiva y de servicios,Mejoramiento,SENA HOTELERIA TURISMO Y ALIMENTOS,28638836,1
6,Ambiental y gestion del territorio,Adecuacion,SUBCUENTA DEL SISTEMA DE PARQUES NACIONALES NA...,24485305,1
302,Transporte,Reparacion,INSTITUTO NACIONAL DE MEDICINA LEGAL Y CIENCIA...,16621182,1
46,Ambiental y gestion del territorio,Otros,SENA REGIONAL GUAINÍA GRUPO DE APOYO ADMINISTR...,10659700,1


In [None]:
ruta_salida = "tablas_resultado_contratacion.xlsx"

    top_entidades.to_excel(writer, sheet_name="Top_Entidades", index=False)
    entidad_macro_top.to_excel(writer, sheet_name="Entidad_x_MACRO", index=False)
    entidad_macro_sub_top.to_excel(writer, sheet_name="Entidad_x_MACRO_x_SUB", index=False)
    entidad_objeto_top.to_excel(writer, sheet_name="Entidad_x_Objeto", index=False)
    macro_objeto_entidad_top.to_excel(writer, sheet_name="MACRO_x_Objeto_x_Entidad", index=False)


ModuleNotFoundError: No module named 'xlsxwriter'