<div style="
  padding: 30px;
  text-align: center;" class='row'>
<div style="float:left;width: 15%;" class='column'><a href="https://www.colombiacompra.gov.co"><img alt="Logo Colombia Compra Eficiente" id="logocce" src="https://www.colombiacompra.gov.co/sites/cce_public/files/files_2020/cce-color.png" style="height: 45px;"></a></div>
    <div style="float:left;width: 70%;" class='column'>
        <h1> Descarga de datos y unificación de fuentes
        </h1> 
    </div>
<div style="float:left;width: 15%;" class='column'><a href="https://www.dnp.gov.co/" target="_blank"><img class="float-right" id="logodnp" src="https://www.dnp.gov.co/img/logoNuevo.jpg" style="width: 200px;"></a></div>
</div>

# Introducción

En el presente documento se muestra el proceso de descarga y unificación de las bases de datos del SECOP I y del SECOP II desde las fuentes "Reports" y "Sandbox" respectivamente. Tiendo como objetivo, proporcionar una guía detallada y clara sobre el proceso llevado a cabo para adquirir y consolidar la información de ambas plataformas, abarcando el período desde el año 2020 hasta el 30 de junio del 2023.

El Sistema Electrónico de Contratación Pública, conocido como SECOP, es una herramienta fundamental para el registro y seguimiento de los procesos de contratación en entidades estatales. Consta de dos versiones distintas: SECOP I y SECOP II. Cada versión maneja información relevante para la gestión de contratos públicos, y la unificación de ambas bases de datos permitirá obtener una visión más completa y detallada de los procesos de contratación en el país.

Este cuadernillo servirá como una guía paso a paso para comprender el proceso de descarga y unificación de los datos, detallando cada etapa desde la obtención de la información desde las fuentes originales hasta su integración en una base de datos consolidada. Se presentarán los procedimientos técnicos utilizados, así como las herramientas y tecnologías empleadas para garantizar la precisión y la integridad de los datos.

Cabe destacar que el período de descarga y unificación abarca desde el 1 de enero del 2020 hasta el 30 de junio del 2023, lo que nos permitirá obtener una perspectiva histórica amplia y actualizada sobre los procesos de contratación durante este periodo.

Es importante señalar que el proceso de unificación de las bases de datos busca facilitar el análisis y la toma de decisiones informadas para las entidades estatales, los investigadores, analistas y el público en general, contribuyendo así a una mayor transparencia en el manejo de los recursos públicos y fomentando una gestión más eficiente y responsable.

Esperamos que este cuadernillo sea de gran utilidad para todos aquellos involucrados en el análisis de datos del SECOP y que contribuya a un mejor entendimiento de los procesos de contratación pública en nuestro país. Agradecemos su interés y compromiso en este importante proyecto, y estamos seguros de que juntos lograremos un proceso de descarga y unificación exitoso y enriquecedor.

In [1]:
# Decarga de librarías
import pandas as pd # Tratamiento de datos
from libreria import login # Lógica para el inicio de sesión a las fuentes de datos

# Cargue de las conexiones a las fuentes de datos
cnxn_sandbox, cursor_sandbox = login.login_sql(login.tipo_bodega.SANDBOX)
cnxn_reports, cursor_reports = login.login_sql(login.tipo_bodega.REPORTS)

# Descarga de Información desde las Fuentes Originales (SECOP I - SECOP II)

En esta sección, detallaremos el código utilizado para realizar la descarga directa de la información desde las fuentes originales del SECOP I y SECOP II, específicamente desde las plataformas "Reports" y "Sandbox", respectivamente. El proceso de obtención de datos es esencial para garantizar la precisión y actualización de la información que se utilizará en la unificación posterior de las bases de datos. A continuación, se presenta el código utilizado para cada plataforma:

In [None]:
# SECOP I
DF_SECOPI_contratos_2023 = pd.read_sql_query("select * from [CCE_Sandbox].[SECOPI].[V_SECOPI] where FECHA_FIRMA_CONTRATO > '2019-12-31' and FECHA_FIRMA_CONTRATO < '2023-07-01'", cnxn_sandbox)
DF_SECOPI_contratos_2023.to_csv('../../../muestras de datos/sin procesar/SECOPI_contratos_2022_2023.csv', index=False, sep=';')

# SECOP II
DF_SECOPII_contratos_2023 = pd.read_sql_query("Select * from [CCE_Reports].[SECOPII].[V_HistoricoContratos_Depurado] where AprovalDate > '2019-12-31' and AprovalDate < '2023-07-01'", cnxn_reports)
DF_SECOPII_contratos_2023.to_csv('../../../muestras de datos/sin procesar/SECOPII_contratos_2022_2023.csv', index=False, sep=';')

# TVEC
DF_TVEC_Ordenes = pd.read_sql_query("select * from TVEC.Ordenes where Fecha > '2021-12-31' and Fecha < '2023-07-01'", cnxn_sandbox)
DF_TVEC_Ordenes.to_csv('../../../muestras de datos/sin procesar/TVEC_Ordenes_2022_2023.csv', index=False, sep=';')
DF_TVEC_Ordenes_Items = pd.read_sql_query("select * from TVEC.Ordenes_Items", cnxn_sandbox)
DF_TVEC_Ordenes_Items.to_csv('../../../muestras de datos/sin procesar/TVEC_Ordenes_Items.csv', index=False, sep=';')
DF_TVEC_Entidades = pd.read_sql_query("select * from TVEC.Entidades", cnxn_sandbox)
DF_TVEC_Entidades.to_csv('../../../muestras de datos/sin procesar/TVEC_Entidades.csv', index=False, sep=';')
DF_TVEC_Proveedores = pd.read_sql_query("select * from TVEC.Proveedores", cnxn_sandbox)
DF_TVEC_Proveedores.to_csv('../../../muestras de datos/sin procesar/TVEC_Proveedores.csv', index=False, sep=';')

Se separán los registros que no tengan un ```ID_Entidad``` o un ```ID_Proveedor``` de la base de ordenes de la tienda virtual.

In [None]:
Ordenes_Entidades_SIN_ID=DF_TVEC_Ordenes[DF_TVEC_Ordenes['ID_Entidad'].isna()]
Ordenes_Proveedores_SIN_ID=DF_TVEC_Ordenes[DF_TVEC_Ordenes['ID_Proveedor'].isna()]

Ordenes_Entidades_SIN_ID.to_excel("../../../muestras de datos/procesados/Ordenes_Entidades_TVEC_SIN_ID.xlsx")
Ordenes_Proveedores_SIN_ID.to_excel("../../../muestras de datos/procesados/Ordenes_Proveedores_TVEC_SIN_ID.xlsx")

DF_TVEC_Ordenes.dropna(subset=['ID_Entidad'],inplace=True)
DF_TVEC_Ordenes.dropna(subset=['ID_Proveedor'],inplace=True)

Ejecutamos un cambio de tipo para los campos que contengan id's.

In [None]:
DF_TVEC_Ordenes['ID_Entidad']=DF_TVEC_Ordenes['ID_Entidad'].astype(int).astype(str)
DF_TVEC_Ordenes['ID_Proveedor']=DF_TVEC_Ordenes['ID_Proveedor'].astype(int).astype(str)
DF_TVEC_Entidades['ID']=DF_TVEC_Entidades['ID'].fillna(0).astype(int).astype(str)
DF_TVEC_Proveedores['ID']=DF_TVEC_Proveedores['ID'].fillna(0).astype(int).astype(str)

Y por último, en lo que corresponde a la TVEC, se hace un merge para consolidar toda la información en un solo dataframe, de modo que, se pueda ejecutar la unificación con las bases del SECOP I y del SECOP II.

In [88]:
# Primero, unimos DF_TVEC_Ordenes con DF_TVEC_Entidades
df_merge_Ordenes_Entidades = pd.merge(DF_TVEC_Ordenes, DF_TVEC_Entidades, left_on='ID_Entidad', right_on='ID', suffixes=('_Ordenes', '_Entidades'),how='left')

# Luego, unimos el DataFrame resultante con DF_TVEC_Proveedores
df_final_TVEC = pd.merge(df_merge_Ordenes_Entidades, DF_TVEC_Proveedores, left_on='ID_Proveedor', right_on='ID', suffixes=('', '_Proveedores'),how='left')

df_final_TVEC['URL']='https://www.colombiacompra.gov.co/content/tienda-virtual'
df_final_TVEC['Modalidad']='TVEC'
df_final_TVEC['Tipo']='TVEC'
df_final_TVEC['Tipo Documento Proveedor']='TVEC'
df_final_TVEC['Objeto Contrato']=df_final_TVEC['Agregacion']
df_final_TVEC['Tipo de documento proveedor']='NIT'

df_final_TVEC.columns

Index(['ID_Ordenes', 'ID_Entidad', 'Entidad', 'Solicitante', 'Fecha_Ordenes',
       'Fecha_vence', 'ID_Proveedor', 'Proveedor', 'Estado', 'Solicitud',
       'Items', 'Total', 'Agregacion', 'Cotizacion', 'Padre', 'Ciudad_Ordenes',
       'Categoria', 'RFQ', 'Paz', 'Proceso', 'UNSPSC', 'Contrato', 'email',
       'Supervisor', 'Version', 'ID_Entidades', 'Nombre', 'NIT', 'Obligada',
       'Orden', 'Rama', 'Sector', 'Departamento', 'Ciudad_Entidades',
       'Fecha_Entidades', 'Active', 'Fechatemporal', 'Telefono', 'ID',
       'Nombre_Proveedores', 'NombreComercial', 'NIT_Proveedores',
       'Estado_Proveedores', 'Contacto', 'email_Proveedores', 'Direccion',
       'Ciudad', 'Departamento_Proveedores', 'Agregacion_Proveedores',
       'ActividadEconomica', 'RegTributario', 'FechaCreacion'],
      dtype='object')

Se crea la columna ```Fuente``` para identificar la información por plataforma

In [None]:
DF_SECOPI_contratos_2023['Fuente'] = 'SECOP I'
DF_SECOPII_contratos_2023['Fuente'] = 'SECOP II'
df_final_TVEC['Fuente'] = 'TVEC'

A continuación, se eliminarán los registros de la base del SECOP I que no tienen un ```ID_ADJUDICACION```. Adicionalmente, haremos una transformación del tipo de datos a entero.

In [None]:
DF_SECOPI_contratos_2023.dropna(subset=['ID_ADJUDICACION'],inplace=True)
DF_SECOPI_contratos_2023['ID_ADJUDICACION']=DF_SECOPI_contratos_2023['ID_ADJUDICACION'].astype('int64').astype('str')

Una vez se han suprimido los contratos con ```ID_ADJUDICACION``` nulo, daremos inicio a la unificación de la información en una única tabla.

# Proceso de Unificación de Datos

Una vez que los datos están preparados, procederemos a unificarlos en una sola tabla consolidada. Dado que las bases de datos del SECOP I y SECOP II pueden tener diferentes esquemas y campos, se realizará una adecuada identificación y mapeo de columnas para garantizar una correspondencia adecuada.

In [None]:
# Leer el archivo Excel que contiene la homologación de columnas (Mapeo de variables)
HC = pd.read_excel('../../../muestras de datos/auxiliar/Homologa_columnas.xlsx')

# Crear dos DataFrames vacíos para almacenar los datos unificados
new_SECOP_I = pd.DataFrame()
new_SECOP_II = pd.DataFrame()
new_TVEC = pd.DataFrame()

for ind_column in HC.index:
    # Asignar los valores de la columna del DataFrame SECOP I original a la nueva columna unificada
    new_SECOP_I[HC['Unificado'][ind_column]]=DF_SECOPI_contratos_2023[HC['SECOP I'][ind_column]]
    # Asignar los valores de la columna del DataFrame SECOP II original a la nueva columna unificada
    new_SECOP_II[HC['Unificado'][ind_column]]=DF_SECOPII_contratos_2023[HC['SECOP II'][ind_column]]
    # Asignar los valores de la columna del DataFrame TVEC original a la nueva columna unificada
    new_TVEC[HC['Unificado'][ind_column]]=df_final_TVEC[HC['TVEC'][ind_column]]

# Eliminar los DataFrames originales para liberar memoria
del DF_SECOPI_contratos_2023
del DF_SECOPII_contratos_2023
del df_final_TVEC

Iniciamos con la limpieza del código de naciones unidas (UNSPSC) para cada una de las bases.

In [None]:
new_SECOP_I['UNSPSC']=new_SECOP_I['UNSPSC'].astype('str').str.replace('.0','00')
new_SECOP_II['UNSPSC']=new_SECOP_II['UNSPSC'].astype('str').str.replace('V1.','')
new_TVEC['UNSPSC']=new_TVEC['UNSPSC'].fillna('No Definido').str.split(';').str[0]

Finalmente, procedemos a unificar la información en la tabla ```DF_Consulta```

In [None]:
DF_Consulta = pd.concat([new_SECOP_I,new_SECOP_II,new_TVEC])
DF_Consulta.reset_index(inplace=True)

# Almacenado de la información para dar inicio al proceso de limpieza.
DF_Consulta.to_csv('../../../muestras de datos/procesados/SECOP.csv', index=False, sep=';')

# Metricas de la base previas al proceso de limpieza

Con la siguiente línea, se proporcionará un resumen conciso y útil sobre la estructura y contenido del DataFrame, incluyendo:

* El número total de filas en el DataFrame.
* El número de columnas en el DataFrame.
* El nombre de cada columna y su tipo de datos.
* La cantidad de valores no nulos en cada columna.
* La cantidad de memoria utilizada por el DataFrame.

Esta información será útil para verificar la integridad y la consistencia de la base consolidada y para identificar posibles problemas, como valores faltantes o tipos de datos incorrectos. También proporciona una visión general rápida de la cantidad de datos presentes en el DataFrame y ayudará a tomar decisiones informadas sobre el manejo de los datos y el análisis posterior.

In [104]:
DF_Consulta.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2296478 entries, 0 to 2296477
Data columns (total 26 columns):
 #   Column                       Dtype  
---  ------                       -----  
 0   index                        int64  
 1   Fuente                       object 
 2   ID Contrato                  object 
 3   ID Proceso                   object 
 4   ID entidad Plataforma        object 
 5   Entidad                      object 
 6   NIT Entidad                  object 
 7   Orden                        object 
 8   Modalidad                    object 
 9   Estado                       object 
 10  Descripción proceso          object 
 11  Objeto Contrato              object 
 12  Tipo de contrato             object 
 13  Fecha de Firma               object 
 14  UNSPSC                       object 
 15  Nombre Proveedor             object 
 16  Documento Proveedor          object 
 17  Tipo de documento proveedor  object 
 18  Valor del contrato           float64
 19  

Y, por último, usaremos la función ```describe()``` de pandas para proporcionar información clave sobre las variables numéricas del DataFrame, incluyendo el número de observaciones (count), la media (mean), la desviación estándar (std), el valor mínimo (min), los percentiles (25%, 50% y 75%), y el valor máximo (max) de cada columna numérica.

El resumen estadístico generado por la siguiente línea de código será útil para obtener una visión general rápida de la distribución y las tendencias centrales de los datos numéricos en el DataFrame. 

In [105]:
DF_Consulta.describe()

Unnamed: 0,index,Valor del contrato
count,2296478.0,2296478.0
mean,593205.8,275963400.0
std,351746.7,123404900000.0
min,0.0,0.0
25%,290338.0,5800000.0
50%,588770.0,13197800.0
75%,888929.0,28451560.0
max,1280129.0,142076900000000.0


### Generación de base integrada de TVEC

### Lectura de las bases del SECOP I y del SECOP II

In [27]:
DF_Consulta = [DF_Consulta_2020, DF_Consulta_2021, DF_Consulta_2022, DF_Consulta_2023]

## Estado de los contratos (2023)

# Diccionario de estandarización de estados contractuales
estado_contractual = {
    'En ejecución': 'En ejecución',
    'Modificado': 'Modificado',
    'Celebrado': 'Celebrado',
    'terminado': 'Terminado',
    'Liquidado': 'Liquidado',
    'Cerrado': 'Cerrado',
    'Activo': 'Activo',
    'Terminado sin Liquidar': 'Terminado sin Liquidar',
    'cedido': 'Cedido',
    'Suspendido': 'Suspendido',
    'Convocado': 'Convocado',
    'Adjudicado': 'Adjudicado'
}

# Corregir los estados contractuales utilizando el diccionario
# DF_Consulta['Estado'] = DF_Consulta['Estado'].replace(estado_contractual)
# DF_Consulta['Estado'].value_counts()
for consulta in DF_Consulta:
    consulta['Estado'] = consulta['Estado'].replace(estado_contractual)

# Separación por años

In [7]:
df_s1_orig = pd.read_csv('../../../muestras de datos/sin procesar/SECOPI_contratos_2022_2023.csv', sep=';')
df_s2_orig = pd.read_csv('../../../muestras de datos/sin procesar/SECOPII_contratos_2022_2023.csv', sep=';')

  df_s1_orig = pd.read_csv('../../../muestras de datos/sin procesar/SECOPI_contratos_2022_2023.csv', sep=';')
  df_s2_orig = pd.read_csv('../../../muestras de datos/sin procesar/SECOPII_contratos_2022_2023.csv', sep=';')


In [8]:
df_s1 = df_s1_orig
df_s2 = df_s2_orig

In [10]:
# Registros que no se pueden convertir a datetime por fuente
# df_no_convertidos = []
# for i, valor in df_s1['FECHA_FIRMA_CONTRATO'].iteritems():
#     try:
#         df_s1.loc[i]['FECHA_FIRMA_CONTRATO'] = pd.to_datetime(valor)
#     except:
#         df_no_convertidos.append(df_s1.loc[i], ignore_index=True)
#         df_s1 = df_s1.drop(df_s1.index[i])
# df_s1_no_convertidos = pd.DataFrame(df_no_convertidos)

# df_no_convertidos = []
# for i, valor in df_s2['AprovalDate'].iteritems():
#     try:
#         df_s2.loc[i]['AprovalDate'] = pd.to_datetime(valor)
#     except:
#         df_no_convertidos.append(df_s2.loc[i], ignore_index=True)
#         df_s2 = df_s2.drop(df_s2.index[i])
# df_s2_no_convertidos = pd.DataFrame(df_no_convertidos)

df_s1['FECHA_FIRMA_CONTRATO'] = pd.to_datetime(df_s1['FECHA_FIRMA_CONTRATO'], errors='coerce')
df_s2['AprovalDate'] = pd.to_datetime(df_s2['AprovalDate'], errors='coerce')

# SECOP 2023
df_s1_2023 = df_s1[df_s1['FECHA_FIRMA_CONTRATO'].dt.year == 2023]
df_s2_2023 = df_s2[df_s2['AprovalDate'].dt.year == 2023]

# SECOP 2022
df_s1_2022 = df_s1[df_s1['FECHA_FIRMA_CONTRATO'].dt.year == 2022]
df_s2_2022 = df_s2[df_s2['AprovalDate'].dt.year == 2022]

# SECOP 2021
df_s1_2021 = df_s1[df_s1['FECHA_FIRMA_CONTRATO'].dt.year == 2021]
df_s2_2021 = df_s2[df_s2['AprovalDate'].dt.year == 2021]

# SECOP 2020
df_s1_2020 = df_s1[df_s1['FECHA_FIRMA_CONTRATO'].dt.year == 2020]
df_s2_2020 = df_s2[df_s2['AprovalDate'].dt.year == 2020]

# SECOP 2019
df_s1_2019 = df_s1[df_s1['FECHA_FIRMA_CONTRATO'].dt.year == 2019]
df_s2_2019 = df_s2[df_s2['AprovalDate'].dt.year == 2019]

df_s1_2023.to_csv('../../../muestras de datos/sin procesar/separados/df_s1_2023.csv', index=False, sep=';')
df_s2_2023.to_csv('../../../muestras de datos/sin procesar/separados/df_s2_2023.csv', index=False, sep=';')
df_s1_2022.to_csv('../../../muestras de datos/sin procesar/separados/df_s1_2022.csv', index=False, sep=';')
df_s2_2022.to_csv('../../../muestras de datos/sin procesar/separados/df_s2_2022.csv', index=False, sep=';')
df_s1_2021.to_csv('../../../muestras de datos/sin procesar/separados/df_s1_2021.csv', index=False, sep=';')
df_s2_2021.to_csv('../../../muestras de datos/sin procesar/separados/df_s2_2021.csv', index=False, sep=';')
df_s1_2020.to_csv('../../../muestras de datos/sin procesar/separados/df_s1_2020.csv', index=False, sep=';')
df_s2_2020.to_csv('../../../muestras de datos/sin procesar/separados/df_s2_2020.csv', index=False, sep=';')
df_s1_2019.to_csv('../../../muestras de datos/sin procesar/separados/df_s1_2019.csv', index=False, sep=';')
df_s2_2019.to_csv('../../../muestras de datos/sin procesar/separados/df_s2_2019.csv', index=False, sep=';')

In [11]:
df_s1_no_convertidos.to_csv('../../../muestras de datos/sin procesar/separados/df_s1_no_convertidos.csv', index=False, sep=';')
df_s2_no_convertidos.to_csv('../../../muestras de datos/sin procesar/separados/df_s2_no_convertidos.csv', index=False, sep=';')