### Pipeline - Python Basic

#### Preparation previus tools

In [74]:
#Loading Libraries
import pandas as pd
import numpy as np
import openpyxl
import smtplib

###### This code´s help us to liberate all visual limits when you process the dataset

In [49]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
np.set_printoptions(threshold=np.inf)

#### Uploading Dataset

In [13]:
# Upload Dataset

url = "https://www.datos.gov.co/resource/w8tr-p8mr.json?$limit=5000"
df_main = pd.read_json(url)

###### Summary - Information on Electronic Contracts for SECOP I and II of the District Attorney's Office of Santiago de Cali

###### I want to work on real dataframes, those that we will really evidence in our day to day, for this I rely on the free database of the Colombian government, many of these data are fed from surveys or questionnaires, where there are no standards for the possible answers that can be given, for example for the name, we find values in lowercase and uppercase, so they are ideal to apply as many tools as possible.

###### Something important that we must have clear before starting to work on a dataset is its structure and its unit, all the measures or calculations that we do, must have results and it is of vital importance to know in what is expressed, if they are X amount of some product, for this specific case, for our DF the unit is CONTRACTS.

###### Unit: Contracts

#### Getting to Know the Dataset

###### An important part before starting any pipeline is to understand the structure, form and content of the data with which we are going to deal, this to give us a glimpse of what we can find, in addition to begin to rule out errors that may affect us in the movement of information.

In [19]:
df_main.columns

Index(['nivel_entidad', 'codigo_entidad_en_secop', 'nombre_de_la_entidad',
       'nit_de_la_entidad', 'departamento_entidad', 'municipio_entidad',
       'estado_del_proceso', 'modalidad_de_contrataci_n', 'objeto_a_contratar',
       'objeto_del_proceso', 'tipo_de_contrato', 'fecha_de_firma_del_contrato',
       'fecha_fin_ejecuci_n', 'numero_del_contrato', 'numero_de_proceso',
       'valor_contrato', 'nom_raz_social_contratista', 'url_contrato',
       'origen', 'tipo_documento_proveedor', 'documento_proveedor',
       'fecha_inicio_ejecuci_n'],
      dtype='object')

###### The first error, that I can find is the name of the last columns, in the Data movement, this can suffer changes by the conditions in each tool, in this dataframe the name suffered a change in its name because in the O it had a tilde, some databases do not know these symbols and change this for another in this case change Ó for _.

In [20]:
df_main.shape

(1941, 22)

###### We have to have clarity in the totality of the data because all the data that we have in the input, must appear in the output, regardless of the transformations and leaving aside if we have to make filters.
###### So, our dataframe have a 1941 registers and 22 columns.

###### Tip: Always leave the main dataframe as a separate dataset, if you make changes, do it in the other dataframes created from the main dataframe, never use directly the main dataframe, because if you have an error, you must load again and in some cases this process is very difficult and slow.

###### This is a very important step, because here we can know and standardize the dataset.
###### 

##### Firts Step: Getting to Know our columns

###### In this step, we will getting to know our columns, every one, his values and we can star the standardize process, so we going to consult every column and his unique values

###### Unique Values

In [30]:
df_main.nunique()

nivel_entidad                     1
codigo_entidad_en_secop           1
nombre_de_la_entidad              1
nit_de_la_entidad                 1
departamento_entidad              1
municipio_entidad                 1
estado_del_proceso                9
modalidad_de_contrataci_n         8
objeto_a_contratar             1059
objeto_del_proceso             1057
tipo_de_contrato                  4
fecha_de_firma_del_contrato     332
fecha_fin_ejecuci_n              52
numero_del_contrato            1840
numero_de_proceso              1812
valor_contrato                  373
nom_raz_social_contratista      601
url_contrato                   1807
origen                            1
tipo_documento_proveedor          4
documento_proveedor             601
fecha_inicio_ejecuci_n          327
dtype: int64

###### Null Values

In [33]:
df_main.isnull().sum()

nivel_entidad                    0
codigo_entidad_en_secop          0
nombre_de_la_entidad             0
nit_de_la_entidad                0
departamento_entidad             0
municipio_entidad                0
estado_del_proceso               0
modalidad_de_contrataci_n        0
objeto_a_contratar               0
objeto_del_proceso               0
tipo_de_contrato                 0
fecha_de_firma_del_contrato     96
fecha_fin_ejecuci_n              4
numero_del_contrato              0
numero_de_proceso                0
valor_contrato                   0
nom_raz_social_contratista       0
url_contrato                     0
origen                           0
tipo_documento_proveedor         0
documento_proveedor              0
fecha_inicio_ejecuci_n         136
dtype: int64

###### If you want view every value for columns, you can use this line df_main.apply(lambda x: x.unique()), but in this case in some columns you have a lot values, more 1000 registers, and this code, it will saturate the visual with all the values, so it is better to check the unique values of each column in numbers and then check one by one, the ones we think are important to validate.

#### Cleaning and Transform Dataset

###### We will start with the identify the corrupt values on every column and solve that, if need.

###### Estado_Del_Proceso Column

In [35]:
df_main['estado_del_proceso'].unique()

array(['Activo', 'En ejecución', 'terminado', 'Modificado', 'Suspendido',
       'Cerrado', 'Borrador', 'Cancelado', 'enviado Proveedor'],
      dtype=object)

In [36]:
df_main['estado_del_proceso'] = df_main['estado_del_proceso'].replace("En ejecución", "En Ejecución")
df_main['estado_del_proceso'] = df_main['estado_del_proceso'].replace("terminado", "Terminado")
df_main['estado_del_proceso'] = df_main['estado_del_proceso'].replace("enviado Proveedor", "Enviado a Proveedor")

In [37]:
df_main['estado_del_proceso'].unique()

array(['Activo', 'En Ejecución', 'Terminado', 'Modificado', 'Suspendido',
       'Cerrado', 'Borrador', 'Cancelado', 'Enviado a Proveedor'],
      dtype=object)

###### Modalidad_De_Contrataci_n Column

In [39]:
df_main.rename(columns={'modalidad_de_contrataci_n': 'modalidad_de_contratación'}, inplace=True)

In [40]:
df_main['modalidad_de_contratación'].unique()

array(['Mínima cuantía', 'No Definido', 'Contratación directa',
       'Selección Abreviada de Menor Cuantía',
       'Contratación Directa (con ofertas)',
       'Selección abreviada subasta inversa', 'Licitación pública',
       'Seleccion Abreviada Menor Cuantia Sin Manifestacion Interes'],
      dtype=object)

In [None]:
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Mínima cuantía", "Mínima Cuantía")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Contratación directa", "Contratación Directa")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Contratación Directa (con ofertas)", "Contratación Directa")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Selección abreviada subasta inversa", "Selección Abreviada Subasta Inversa")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Licitación pública", "Licitación Pública")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Seleccion Abreviada Menor Cuantia Sin Manifestacion Interes", "Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes")

In [44]:
df_main['modalidad_de_contratación'].unique()

array(['Mínima Cuantía', 'No Definido', 'Contratación Directa',
       'Selección Abreviada de Menor Cuantía',
       'Selección Abreviada Subasta Inversa', 'Licitación Pública',
       'Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes'],
      dtype=object)

###### Objeto_A_Contratar Column

###### As this dataframe has many records, it is very complicated to observe one by one, so to give an answer to this basic Python exercise we will use lines of code to eliminate the symbols most likely to cause problems, if within the dataframes that we treat, we find specific symbols we can eliminate them directly using the following code; df_main['object_to_contract'] = df_main['object_to_contract']. str.replace('WEIRD SYMBOL', ' ', regex=True)

In [59]:
df_main['objeto_a_contratar'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES ESPECIALIZADOS EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI'],
      dtype=object)

In [None]:
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.replace('\n', ' ', regex=True)
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.upper()
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.replace(': ', ' ', regex=True)
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.replace(r'[^A-ZÁÉÍÓÚÑÜ0-9 .,;:()/-]', '', regex=True)

In [62]:
df_main['objeto_a_contratar'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES ESPECIALIZADOS EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI'],
      dtype=object)

###### Objeto_Del_Proceso Column

In [63]:
df_main['objeto_del_proceso'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE\nSANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI'],
      dtype=object)

In [64]:
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.replace('\n', ' ', regex=True)
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.upper()
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.replace(': ', ' ', regex=True)
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.replace(r'[^A-ZÁÉÍÓÚÑÜ0-9 .,;:()/-]', '', regex=True)

In [65]:
df_main['objeto_del_proceso'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES ESPECIALIZADOS EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI'],
      dtype=object)

###### Tipo_De_Contrato column

In [66]:
df_main['tipo_de_contrato'].unique()

array(['Prestación de servicios', 'Suministros', 'Compraventa', 'Otro'],
      dtype=object)

In [67]:
df_main['tipo_de_contrato'] = df_main['tipo_de_contrato'].replace("Prestación de servicios", "Prestación de Servicios")

In [68]:
df_main['tipo_de_contrato'].unique()

array(['Prestación de Servicios', 'Suministros', 'Compraventa', 'Otro'],
      dtype=object)

###### As an additional step we must work on the null values that we have in the dataframe, given the context of the data and the source, it is vital to understand if we can perform data filling processes, if we put it in real life situation, we could support the areas that own the data, this to scale the null values and that can be filled with the greatest possible veracity, if this is not feasible, the ideal is to understand what would be the most feasible factor to not have the nulls.

In [77]:
df_main.rename(columns={'fecha_fin_ejecuci_n': 'fecha_fin_ejecución'}, inplace=True)
df_main.rename(columns={'fecha_inicio_ejecuci_n': 'fecha_inicio_ejecución'}, inplace=True)

###### We have two columns with nulls fecha_de_firma_del_contrato and fecha_fin_ejecución, so undertstand the context, we can complete this fecha_fin_ejecución columns using "Undetermined", understanding that the end date is empty because the project still continues, however the other column does not have the same luck therefore for this practical example we will divide them in two, in one part we will fill these nulls with a value X, in the other we will use an example of sending an alert to a dummy mail simulating that we are sending the data to the responsible area so that this manages to fill them or to make the validations, what we want in complement of our function of moving data using ETLs, is to have an integrity in the data from the beginning to the end, as this exercise is basic, we will not send it.

In [78]:
df_main['fecha_fin_ejecución'] = df_main['fecha_fin_ejecución'].fillna('Undetermined')
df_main['fecha_inicio_ejecución'] = df_main['fecha_inicio_ejecución'].fillna('Undetermined')
df_main['fecha_de_firma_del_contrato'] = df_main['fecha_de_firma_del_contrato'].fillna('En Revision')

###### As an additional step we will have to transform the dates to be compatible with the database engines.

In [80]:
df_main[['fecha_de_firma_del_contrato', 'fecha_fin_ejecución', 'fecha_inicio_ejecución']].head()

Unnamed: 0,fecha_de_firma_del_contrato,fecha_fin_ejecución,fecha_inicio_ejecución
0,2025-03-11T00:00:00.000,2025-04-30T00:00:00.000,Undetermined
1,2025-03-11T00:00:00.000,2025-05-31T00:00:00.000,2025-03-12T00:00:00.000
2,2025-03-10T00:00:00.000,2025-05-31T00:00:00.000,2025-03-11T00:00:00.000
3,2025-03-10T00:00:00.000,2025-05-31T00:00:00.000,2025-03-11T00:00:00.000
4,2025-03-11T00:00:00.000,2025-05-31T00:00:00.000,2025-03-12T00:00:00.000


###### As shown in the dataframe we have a wrong date format so when we move it to the final databases, this will cause problems when we want to filter or interact with the visualization tools, the solution is to understand what we have and start to transform it according to the known formats, also apply a DATE to finish standardizing the date.

In [None]:
df_main['fecha_de_firma_del_contrato'] = df_main['fecha_de_firma_del_contrato'].str.replace('T00:00:00.000', '', regex=False)
df_main['fecha_fin_ejecución'] = df_main['fecha_fin_ejecución'].str.replace('T00:00:00.000', '', regex=False)
df_main['fecha_inicio_ejecución'] = df_main['fecha_inicio_ejecución'].str.replace('T00:00:00.000', '', regex=False)

###### We remove the following value T00:00:00:00.000 and find that we have a similar visual format.

In [83]:
df_main[['fecha_de_firma_del_contrato', 'fecha_fin_ejecución', 'fecha_inicio_ejecución']].head()

Unnamed: 0,fecha_de_firma_del_contrato,fecha_fin_ejecución,fecha_inicio_ejecución
0,2025-03-11,2025-04-30,Undetermined
1,2025-03-11,2025-05-31,2025-03-12
2,2025-03-10,2025-05-31,2025-03-11
3,2025-03-10,2025-05-31,2025-03-11
4,2025-03-11,2025-05-31,2025-03-12


###### Then, we convert it to datetime

In [None]:
df_main['fecha_de_firma_del_contrato'] = pd.to_datetime(df_main['fecha_de_firma_del_contrato'], format='%Y-%m-%d', errors='coerce')
df_main['fecha_fin_ejecución'] = pd.to_datetime(df_main['fecha_fin_ejecución'], format='%Y-%m-%d', errors='coerce')
df_main['fecha_inicio_ejecución'] = pd.to_datetime(df_main['fecha_inicio_ejecución'], format='%Y-%m-%d', errors='coerce')

###### And finally...

In [85]:
df_main[['fecha_de_firma_del_contrato', 'fecha_fin_ejecución', 'fecha_inicio_ejecución']].head()

Unnamed: 0,fecha_de_firma_del_contrato,fecha_fin_ejecución,fecha_inicio_ejecución
0,2025-03-11,2025-04-30,NaT
1,2025-03-11,2025-05-31,2025-03-12
2,2025-03-10,2025-05-31,2025-03-11
3,2025-03-10,2025-05-31,2025-03-11
4,2025-03-11,2025-05-31,2025-03-12


###### So, the last step, depending on how the database is built or how the DB structure is, you must remove the garbage columns, for example, in this dataframe the url_contract column, it does not work for our activity because there is no way to show it in visualization tools, neither does it make a change if it takes you for an analysis, so we have to remove it.

In [None]:
df_main.drop(columns=['url_contrato'], inplace=True)

###### Finally, this is our dataframe;

In [90]:
df_main.head()

Unnamed: 0,nivel_entidad,codigo_entidad_en_secop,nombre_de_la_entidad,nit_de_la_entidad,departamento_entidad,municipio_entidad,estado_del_proceso,modalidad_de_contratación,objeto_a_contratar,objeto_del_proceso,tipo_de_contrato,fecha_de_firma_del_contrato,fecha_fin_ejecución,numero_del_contrato,numero_de_proceso,valor_contrato,nom_raz_social_contratista,origen,tipo_documento_proveedor,documento_proveedor,fecha_inicio_ejecución
0,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,Activo,Mínima Cuantía,REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN,REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN,Prestación de Servicios,2025-03-11,2025-04-30,CO1.PCCNTR.7620665,131.7.1.2025.MC-154,800000,NUEVO DIARIO OCCIDENTE SAS,SECOPII,No Definido,805017188,NaT
1,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,No Definido,PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-11,2025-05-31,CO1.PCCNTR.7626699,131.7.1.2025.CD-161,7737000,Juan Carlos Martínez Bonilla,SECOPII,Cédula de Ciudadanía,1107529934,2025-03-12
2,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,Contratación Directa,PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-10,2025-05-31,CO1.PCCNTR.7626468,131.7.1.2025.CD-123,13314000,Harold Humberto Cairasco Calderón,SECOPII,Cédula de Ciudadanía,16804043,2025-03-11
3,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,Contratación Directa,PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-10,2025-05-31,CO1.PCCNTR.7626688,131.7.1.2025.CD-159,9840000,LEONARDO DELGADO LOPEZ,SECOPII,Cédula de Ciudadanía,94060109,2025-03-11
4,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,Contratación Directa,PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-11,2025-05-31,CO1.PCCNTR.7627306,131.7.1.2025.CD-162,15693000,Jaime Portocarrero Banguera,SECOPII,Cédula de Ciudadanía,10386217,2025-03-12


###### Now, we filter by the column modalidad_de_contratación, in order to simulate a separate shipment to separate tables or bases, we are going to filter it by different values and save it in csv.

###### So, remember the unique values in the columns;

In [None]:
df_main['modalidad_de_contratación'].unique()

array(['Mínima Cuantía', 'No Definido', 'Contratación Directa',
       'Selección Abreviada de Menor Cuantía',
       'Selección Abreviada Subasta Inversa', 'Licitación Pública',
       'Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes'],
      dtype=object)

###### Lets separate them in three groups, 
###### Group #1: 'Mínima Cuantía', 'No Definido', 'Contratación Directa','Selección Abreviada de Menor Cuantía'
###### Group #2: 'Selección Abreviada Subasta Inversa', 'Licitación Pública'
###### Group #3: 'Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes'

In [92]:
group_1 = ['Mínima Cuantía', 'No Definido', 'Contratación Directa', 'Selección Abreviada de Menor Cuantía']
group_2 = ['Selección Abreviada Subasta Inversa', 'Licitación Pública']
group_3 = ['Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes']

###### Filtering the contents

In [94]:
df_group_1 = df_main[df_main['modalidad_de_contratación'].isin(group_1)]
df_group_2 = df_main[df_main['modalidad_de_contratación'].isin(group_2)]
df_group_3 = df_main[df_main['modalidad_de_contratación'].isin(group_3)]

In [96]:
df_group_1.head()

Unnamed: 0,nivel_entidad,codigo_entidad_en_secop,nombre_de_la_entidad,nit_de_la_entidad,departamento_entidad,municipio_entidad,estado_del_proceso,modalidad_de_contratación,objeto_a_contratar,objeto_del_proceso,tipo_de_contrato,fecha_de_firma_del_contrato,fecha_fin_ejecución,numero_del_contrato,numero_de_proceso,valor_contrato,nom_raz_social_contratista,origen,tipo_documento_proveedor,documento_proveedor,fecha_inicio_ejecución
0,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,Activo,Mínima Cuantía,REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN,REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN,Prestación de Servicios,2025-03-11,2025-04-30,CO1.PCCNTR.7620665,131.7.1.2025.MC-154,800000,NUEVO DIARIO OCCIDENTE SAS,SECOPII,No Definido,805017188,NaT
1,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,No Definido,PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-11,2025-05-31,CO1.PCCNTR.7626699,131.7.1.2025.CD-161,7737000,Juan Carlos Martínez Bonilla,SECOPII,Cédula de Ciudadanía,1107529934,2025-03-12
2,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,Contratación Directa,PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-10,2025-05-31,CO1.PCCNTR.7626468,131.7.1.2025.CD-123,13314000,Harold Humberto Cairasco Calderón,SECOPII,Cédula de Ciudadanía,16804043,2025-03-11
3,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,Contratación Directa,PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-10,2025-05-31,CO1.PCCNTR.7626688,131.7.1.2025.CD-159,9840000,LEONARDO DELGADO LOPEZ,SECOPII,Cédula de Ciudadanía,94060109,2025-03-11
4,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,Contratación Directa,PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI,Prestación de Servicios,2025-03-11,2025-05-31,CO1.PCCNTR.7627306,131.7.1.2025.CD-162,15693000,Jaime Portocarrero Banguera,SECOPII,Cédula de Ciudadanía,10386217,2025-03-12


In [97]:
df_group_2.head()

Unnamed: 0,nivel_entidad,codigo_entidad_en_secop,nombre_de_la_entidad,nit_de_la_entidad,departamento_entidad,municipio_entidad,estado_del_proceso,modalidad_de_contratación,objeto_a_contratar,objeto_del_proceso,tipo_de_contrato,fecha_de_firma_del_contrato,fecha_fin_ejecución,numero_del_contrato,numero_de_proceso,valor_contrato,nom_raz_social_contratista,origen,tipo_documento_proveedor,documento_proveedor,fecha_inicio_ejecución
692,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,En Ejecución,Selección Abreviada Subasta Inversa,LA ADQUISICIÓN CONSUMIBLES DE IMPRESIÓN CON DESTINO A LOS EQUIPOS PERIFÉRICOS DE LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI,LA ADQUISICIÓN CONSUMIBLES DE IMPRESIÓN CON DESTINO A LOS EQUIPOS PERIFÉRICOS DE LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI,Compraventa,2024-11-14,2024-12-14,CO1.PCCNTR.7014760,131.7.1.2024.465,121446100,REDOX COLOMBIA S.A.S.,SECOPII,No Definido,800078360,2024-11-18
1253,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,Modificado,Licitación Pública,CONTRATAR LA PRESTACIÓN DE SERVICIOS PARA LA PROMOCIÓN PREVENCIÓN Y PROTECCIÓN DE LOS DERECHOS HUMANOS DERECHOS COLECTIVOS MINORÍAS Y MIGRANTES A TRAVES DE UNA OFICINA MOVIL PARA GARANTIZAR LA PRESENCIA INSTITUCIONAL EN EL DISTRITO DE SANTIAGO DE CALI.,CONTRATAR LA PRESTACIÓN DE SERVICIOS PARA LA PROMOCIÓN PREVENCIÓN Y PROTECCIÓN DE LOS DERECHOS HUMANOS DERECHOS COLECTIVOS MINORÍAS Y MIGRANTES A TRAVES DE UNA OFICINA MOVIL PARA GARANTIZAR LA PRESENCIA INSTITUCIONAL EN EL DISTRITO DE SANTIAGO DE CALI.,Prestación de Servicios,2023-04-10,2023-12-29,CO1.PCCNTR.4832871,131.7.1.2023.157,654769943,VICBAY SAS,SECOPII,No Definido,900384450,2023-04-12


In [98]:
df_group_3.head()

Unnamed: 0,nivel_entidad,codigo_entidad_en_secop,nombre_de_la_entidad,nit_de_la_entidad,departamento_entidad,municipio_entidad,estado_del_proceso,modalidad_de_contratación,objeto_a_contratar,objeto_del_proceso,tipo_de_contrato,fecha_de_firma_del_contrato,fecha_fin_ejecución,numero_del_contrato,numero_de_proceso,valor_contrato,nom_raz_social_contratista,origen,tipo_documento_proveedor,documento_proveedor,fecha_inicio_ejecución
1495,Territorial,701511206,PERSONERIA DISTRITAL DE SANTIAGO DE CALI,805003895,Valle del Cauca,Cali,Cerrado,Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes,CONTRATAR LA PRESTACIÓN DE SERVICIOS PARA LA PROMOCIÓN PREVENCIÓN Y PROTECCIÓN DE LOS DERECHOS HUMANOS DERECHOS COLECTIVOS MINORÍAS Y MIGRANTES A TRAVES DE UNA OFICINA MOVIL PARA GARANTIZAR LA PRESENCIA INSTITUCIONAL EN EL DISTRITO DE SANTIAGO DE CALI,CONTRATAR LA PRESTACIÓN DE SERVICIOS PARA LA PROMOCIÓN PREVENCIÓN Y PROTECCIÓN DE LOS DERECHOS HUMANOS DERECHOS COLECTIVOS MINORÍAS Y MIGRANTES A TRAVES DE UNA OFICINA MOVIL PARA GARANTIZAR LA PRESENCIA INSTITUCIONAL EN EL DISTRITO DE SANTIAGO DE CALI,Prestación de Servicios,2022-09-20,2022-12-31,CO1.PCCNTR.4031294,131.7.1.2022.222,489448321,VICBAY SAS,SECOPII,No Definido,900384450,2022-09-26


###### And send this groups to CSV Files

In [95]:
df_group_1.to_csv('grupo_1.csv', index=False)
df_group_2.to_csv('grupo_2.csv', index=False)
df_group_3.to_csv('grupo_3.csv', index=False)

###### As part of the exercise we simulate that these files will be manually uploaded to some database, so this process will be automatic, so you can connect to any API or other form of data interaction and have it processed.

###### And these are the final values

In [99]:
df_main.shape

(1941, 21)

In [101]:
df_group_1.shape

(1938, 21)

In [102]:
df_group_2.shape

(2, 21)

In [103]:
df_group_3.shape

(1, 21)

###### This is all, I hope it helps.