In [1]:
import os
import dotenv
from sodapy import Socrata
import pandas as pd

In [2]:
# SECOP II - Contratos Electrónicos
# https://www.datos.gov.co/resource/jbjy-vk9h.json

socrata_domain = 'www.datos.gov.co'
socrata_dataset_identifier = 'jbjy-vk9h'
socrata_token = os.environ.get("SODAPY_APPTOKEN")

client = Socrata(socrata_domain, socrata_token)



In [3]:
df = pd.DataFrame(
        client.get(
            socrata_dataset_identifier,
            query="select * limit 100"
    )
)

df.head()

Unnamed: 0,nombre_entidad,nit_entidad,departamento,ciudad,localizaci_n,orden,sector,rama,entidad_centralizada,proceso_de_compra,...,sistema_general_de_participaciones,sistema_general_de_regal_as,recursos_propios_alcald_as_gobernaciones_y_resguardos_ind_genas_,recursos_de_credito,recursos_propios,ultima_actualizacion,codigo_entidad,fecha_inicio_liquidacion,fecha_fin_liquidacion,codigo_proveedor
0,SENA REGIONAL ANTIOQUIA Grupo Administrativo CRNR,899999034,Antioquia,Caldas,"Colombia, Antioquia , Caldas",Nacional,Trabajo,Ejecutivo,Descentralizada,CO1.BDOS.1107643,...,0,0,0,0,0,2020-12-31T00:00:00.000,704161553,2021-01-01 17:00:00,2021-05-01 04:59:00,708133640
1,SUBRED INTEGRADA DE SERVICIOS DE SALUD SUR E.S.E,9009585649,Distrito Capital de Bogotá,Bogotá,"Colombia, Bogotá, Bogotá",Territorial,Salud y Protección Social,Ejecutivo,Descentralizada,CO1.BDOS.646904,...,0,0,0,0,0,2021-07-10T00:00:00.000,702730482,,,703349027
2,SUBRED INTEGRADA DE SERVICIOS DE SALUD SUR OCC...,900959048,Distrito Capital de Bogotá,No Definido,"Colombia, Bogotá, Bogotá",Territorial,Salud y Protección Social,Ejecutivo,Descentralizada,CO1.BDOS.1668838,...,0,0,17557996,0,0,2022-01-07T00:00:00.000,702486788,,,711392191
3,CORPORACION AUTONOMA REGIONAL DEL MAGDALENA,800099287,Magdalena,Santa Marta,"Colombia, Magdalena , Santa Marta",Corporación Autónoma,Ambiente y Desarrollo Sostenible,Corporación Autónoma,Centralizada,CO1.BDOS.2208530,...,0,0,0,0,16000000,2021-12-30T00:00:00.000,703876458,,,714813276
4,SENA REGIONAL GUAVIARE,899999034,Guaviare,San José Del Guaviare,"Colombia, Guaviare , San José Del Guaviare",Nacional,Educación Nacional,Ejecutivo,Centralizada,CO1.BDOS.1876259,...,0,0,0,0,0,2022-01-12T00:00:00.000,703931881,,,711228015


In [4]:
df.columns

Index(['nombre_entidad', 'nit_entidad', 'departamento', 'ciudad',
       'localizaci_n', 'orden', 'sector', 'rama', 'entidad_centralizada',
       'proceso_de_compra', 'id_contrato', 'referencia_del_contrato',
       'estado_contrato', 'codigo_de_categoria_principal',
       'descripcion_del_proceso', 'tipo_de_contrato',
       'modalidad_de_contratacion', 'justificacion_modalidad_de',
       'fecha_de_firma', 'fecha_de_inicio_del_contrato',
       'fecha_de_fin_del_contrato', 'fecha_de_inicio_de_ejecucion',
       'fecha_de_fin_de_ejecucion', 'condiciones_de_entrega',
       'tipodocproveedor', 'documento_proveedor', 'proveedor_adjudicado',
       'es_grupo', 'es_pyme', 'habilita_pago_adelantado', 'liquidaci_n',
       'obligaci_n_ambiental', 'obligaciones_postconsumo', 'reversion',
       'valor_del_contrato', 'valor_de_pago_adelantado', 'valor_facturado',
       'valor_pendiente_de_pago', 'valor_pagado', 'valor_amortizado',
       'valor_pendiente_de', 'valor_pendiente_de_ejecucion'

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 70 columns):
 #   Column                                                            Non-Null Count  Dtype 
---  ------                                                            --------------  ----- 
 0   nombre_entidad                                                    100 non-null    object
 1   nit_entidad                                                       100 non-null    object
 2   departamento                                                      100 non-null    object
 3   ciudad                                                            100 non-null    object
 4   localizaci_n                                                      100 non-null    object
 5   orden                                                             100 non-null    object
 6   sector                                                            100 non-null    object
 7   rama                                         

In [30]:
# Variables importantes segun contactos de agencia
df = pd.DataFrame(
        client.get(
            socrata_dataset_identifier,
            query="""
            
            select descripcion_del_proceso, 
                   codigo_de_categoria_principal, 
                   date_extract_y(ultima_actualizacion) as year,   
                   date_extract_m(ultima_actualizacion)
            WHERE date_extract_y(ultima_actualizacion) in (2017, 2018, 2019, 2021, 2022)
              AND  date_extract_m(ultima_actualizacion) in (3,6,9,12)
            LIMIT 500000
            
            """,
    )
)

df.head()

Unnamed: 0,descripcion_del_proceso,codigo_de_categoria_principal,year,date_extract_m_ultima_actualizacion
0,Prestar los servicios profesionales de apoyo j...,V1.77101604,2021,12
1,CONTRATAR EL SERVICIO DE GESTIÓN DE EVENTOS O ...,V1.90101604,2021,9
2,Censo_Economico_2021_SECGEN_BDMGN_TH Prestació...,V1.80111500,2021,12
3,PRESTAR SERVICIOS DE CARÁCTER TEMPORAL COMO IN...,V1.80111600,2022,3
4,AUNAR ESFUERZOS ENTRE EL DEPARTAMENTO Y EL MUN...,V1.72141003,2021,9


In [31]:
df.to_csv("data.csv")

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 466088 entries, 0 to 466087
Data columns (total 4 columns):
 #   Column                               Non-Null Count   Dtype 
---  ------                               --------------   ----- 
 0   descripcion_del_proceso              466088 non-null  object
 1   codigo_de_categoria_principal        466088 non-null  object
 2   year                                 466088 non-null  object
 3   date_extract_m_ultima_actualizacion  466088 non-null  object
dtypes: object(4)
memory usage: 14.2+ MB


In [7]:
len(df.codigo_de_categoria_principal.unique())

46

In [27]:

len(df.codigo_de_categoria_principal.str.extract('.*\.([0-9]{2}).*')[0].unique())

57