### Pipeline - Python Basic

#### Preparation previus tools

In [48]:
#Loading Libraries
import pandas as pd
import numpy as np

###### This code´s help us to liberate all visual limits when you process the dataset

In [49]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
np.set_printoptions(threshold=np.inf)

#### Uploading Dataset

In [13]:
# Upload Dataset

url = "https://www.datos.gov.co/resource/w8tr-p8mr.json?$limit=5000"
df_main = pd.read_json(url)

###### Summary - Information on Electronic Contracts for SECOP I and II of the District Attorney's Office of Santiago de Cali

###### I want to work on real dataframes, those that we will really evidence in our day to day, for this I rely on the free database of the Colombian government, many of these data are fed from surveys or questionnaires, where there are no standards for the possible answers that can be given, for example for the name, we find values in lowercase and uppercase, so they are ideal to apply as many tools as possible.

###### Something important that we must have clear before starting to work on a dataset is its structure and its unit, all the measures or calculations that we do, must have results and it is of vital importance to know in what is expressed, if they are X amount of some product, for this specific case, for our DF the unit is CONTRACTS.

###### Unit: Contracts

#### Getting to Know the Dataset

###### An important part before starting any pipeline is to understand the structure, form and content of the data with which we are going to deal, this to give us a glimpse of what we can find, in addition to begin to rule out errors that may affect us in the movement of information.

In [19]:
df_main.columns

Index(['nivel_entidad', 'codigo_entidad_en_secop', 'nombre_de_la_entidad',
       'nit_de_la_entidad', 'departamento_entidad', 'municipio_entidad',
       'estado_del_proceso', 'modalidad_de_contrataci_n', 'objeto_a_contratar',
       'objeto_del_proceso', 'tipo_de_contrato', 'fecha_de_firma_del_contrato',
       'fecha_fin_ejecuci_n', 'numero_del_contrato', 'numero_de_proceso',
       'valor_contrato', 'nom_raz_social_contratista', 'url_contrato',
       'origen', 'tipo_documento_proveedor', 'documento_proveedor',
       'fecha_inicio_ejecuci_n'],
      dtype='object')

###### The first error, that I can find is the name of the last columns, in the Data movement, this can suffer changes by the conditions in each tool, in this dataframe the name suffered a change in its name because in the O it had a tilde, some databases do not know these symbols and change this for another in this case change Ó for _.

In [20]:
df_main.shape

(1941, 22)

###### We have to have clarity in the totality of the data because all the data that we have in the input, must appear in the output, regardless of the transformations and leaving aside if we have to make filters.
###### So, our dataframe have a 1941 registers and 22 columns.

###### Tip: Always leave the main dataframe as a separate dataset, if you make changes, do it in the other dataframes created from the main dataframe, never use directly the main dataframe, because if you have an error, you must load again and in some cases this process is very difficult and slow.

###### This is a very important step, because here we can know and standardize the dataset.
###### 

##### Firts Step: Getting to Know our columns

###### In this step, we will getting to know our columns, every one, his values and we can star the standardize process, so we going to consult every column and his unique values

###### Unique Values

In [30]:
df_main.nunique()

nivel_entidad                     1
codigo_entidad_en_secop           1
nombre_de_la_entidad              1
nit_de_la_entidad                 1
departamento_entidad              1
municipio_entidad                 1
estado_del_proceso                9
modalidad_de_contrataci_n         8
objeto_a_contratar             1059
objeto_del_proceso             1057
tipo_de_contrato                  4
fecha_de_firma_del_contrato     332
fecha_fin_ejecuci_n              52
numero_del_contrato            1840
numero_de_proceso              1812
valor_contrato                  373
nom_raz_social_contratista      601
url_contrato                   1807
origen                            1
tipo_documento_proveedor          4
documento_proveedor             601
fecha_inicio_ejecuci_n          327
dtype: int64

###### Null Values

In [33]:
df_main.isnull().sum()

nivel_entidad                    0
codigo_entidad_en_secop          0
nombre_de_la_entidad             0
nit_de_la_entidad                0
departamento_entidad             0
municipio_entidad                0
estado_del_proceso               0
modalidad_de_contrataci_n        0
objeto_a_contratar               0
objeto_del_proceso               0
tipo_de_contrato                 0
fecha_de_firma_del_contrato     96
fecha_fin_ejecuci_n              4
numero_del_contrato              0
numero_de_proceso                0
valor_contrato                   0
nom_raz_social_contratista       0
url_contrato                     0
origen                           0
tipo_documento_proveedor         0
documento_proveedor              0
fecha_inicio_ejecuci_n         136
dtype: int64

###### If you want view every value for columns, you can use this line df_main.apply(lambda x: x.unique()), but in this case in some columns you have a lot values, more 1000 registers, and this code, it will saturate the visual with all the values, so it is better to check the unique values of each column in numbers and then check one by one, the ones we think are important to validate.

#### Cleaning Dataset

###### We will start with the identify the corrupt values on every column and solve that, if need.

###### Estado_Del_Proceso Column

In [35]:
df_main['estado_del_proceso'].unique()

array(['Activo', 'En ejecución', 'terminado', 'Modificado', 'Suspendido',
       'Cerrado', 'Borrador', 'Cancelado', 'enviado Proveedor'],
      dtype=object)

In [36]:
df_main['estado_del_proceso'] = df_main['estado_del_proceso'].replace("En ejecución", "En Ejecución")
df_main['estado_del_proceso'] = df_main['estado_del_proceso'].replace("terminado", "Terminado")
df_main['estado_del_proceso'] = df_main['estado_del_proceso'].replace("enviado Proveedor", "Enviado a Proveedor")

In [37]:
df_main['estado_del_proceso'].unique()

array(['Activo', 'En Ejecución', 'Terminado', 'Modificado', 'Suspendido',
       'Cerrado', 'Borrador', 'Cancelado', 'Enviado a Proveedor'],
      dtype=object)

###### Modalidad_De_Contrataci_n Column

In [39]:
df_main.rename(columns={'modalidad_de_contrataci_n': 'modalidad_de_contratación'}, inplace=True)

In [40]:
df_main['modalidad_de_contratación'].unique()

array(['Mínima cuantía', 'No Definido', 'Contratación directa',
       'Selección Abreviada de Menor Cuantía',
       'Contratación Directa (con ofertas)',
       'Selección abreviada subasta inversa', 'Licitación pública',
       'Seleccion Abreviada Menor Cuantia Sin Manifestacion Interes'],
      dtype=object)

In [None]:
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Mínima cuantía", "Mínima Cuantía")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Contratación directa", "Contratación Directa")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Contratación Directa (con ofertas)", "Contratación Directa")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Selección abreviada subasta inversa", "Selección Abreviada Subasta Inversa")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Licitación pública", "Licitación Pública")
df_main['modalidad_de_contratación'] = df_main['modalidad_de_contratación'].replace("Seleccion Abreviada Menor Cuantia Sin Manifestacion Interes", "Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes")

In [44]:
df_main['modalidad_de_contratación'].unique()

array(['Mínima Cuantía', 'No Definido', 'Contratación Directa',
       'Selección Abreviada de Menor Cuantía',
       'Selección Abreviada Subasta Inversa', 'Licitación Pública',
       'Seleccion Abreviada Menor Cuantía Sin Manifestacion Interes'],
      dtype=object)

###### Objeto_A_Contratar Column

###### As this dataframe has many records, it is very complicated to observe one by one, so to give an answer to this basic Python exercise we will use lines of code to eliminate the symbols most likely to cause problems, if within the dataframes that we treat, we find specific symbols we can eliminate them directly using the following code; df_main['object_to_contract'] = df_main['object_to_contract']. str.replace('WEIRD SYMBOL', ' ', regex=True)

In [59]:
df_main['objeto_a_contratar'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES ESPECIALIZADOS EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI'],
      dtype=object)

In [None]:
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.replace('\n', ' ', regex=True)
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.upper()
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.replace(': ', ' ', regex=True)
df_main['objeto_a_contratar'] = df_main['objeto_a_contratar'].str.replace(r'[^A-ZÁÉÍÓÚÑÜ0-9 .,;:()/-]', '', regex=True)

In [62]:
df_main['objeto_a_contratar'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES ESPECIALIZADOS EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI'],
      dtype=object)

###### Objeto_Del_Proceso Column

In [63]:
df_main['objeto_del_proceso'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE\nSANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI'],
      dtype=object)

In [64]:
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.replace('\n', ' ', regex=True)
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.upper()
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.replace(': ', ' ', regex=True)
df_main['objeto_del_proceso'] = df_main['objeto_del_proceso'].str.replace(r'[^A-ZÁÉÍÓÚÑÜ0-9 .,;:()/-]', '', regex=True)

In [65]:
df_main['objeto_del_proceso'].unique()[:10]

array(['REALIZAR LA PUBLICACIÓN DE EDICTOS EN UN DIARIO DE AMPLIA CIRCULACIÓN',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES S EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTION EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS  SERVICIOS PROFESIONALES  EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI',
       'PRESTAR LOS SERVICIOS  DE APOYO A LA GESTIÓN EN  LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS DE APOYO A LA GESTIÓN EN LA PERSONERÍA DISTRITAL DE CALI',
       'PRESTAR LOS SERVICIOS PROFESIONALES ESPECIALIZADOS EN LA PERSONERIA DISTRITAL DE SANTIAGO DE CALI'],
      dtype=object)



Limpia los datos

Transforma los datos

Filtra los datos

Muestra los resultados

In [17]:
#Aplicar modelo SOLID - Eficiencia
#Peso del File al final
#Alerta por data incompleta
#Estandarizar Names
#Validacion Persona natural o 