In [1]:
import pandas as pd
import json
import regex as re
from unidecode import unidecode


def print_null_count(df):
    null_count = df.isnull().sum()
    print(null_count[null_count > 0])

# ETL for mop_details_spider.json file

## 1. Importing the data

In [2]:
with open("../mopscrapper/mop_details_spider.json", "r") as f:
    data = json.load(f)

df = pd.DataFrame(data)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129 entries, 0 to 128
Data columns (total 26 columns):
 #   Column                                   Non-Null Count  Dtype 
---  ------                                   --------------  ----- 
 0   id                                       129 non-null    object
 1   status                                   129 non-null    object
 2   url                                      129 non-null    object
 3   Tipo Iniciativa                          38 non-null     object
 4   Región                                   129 non-null    object
 5   Provincia                                129 non-null    object
 6   Comuna                                   129 non-null    object
 7   Volumen                                  129 non-null    object
 8   Presupuesto Oficial                      98 non-null     object
 9   *Valor de referencia                     38 non-null     object
 10  Llamado a Licitación                     38 non-null     objec

## 2. Cleaning the data

### 2.1. Handling missing values

In [3]:
print_null_count(df)

Tipo Iniciativa                            91
Presupuesto Oficial                        31
*Valor de referencia                       91
Llamado a Licitación                       91
Fecha de Apertura de Ofertas Económicas    31
Fecha de Inicio Concesión                  91
Plazo Total de la Concesión                60
Puesta en Servicio Provisoria (PSP)        91
Inspector (a) Fiscal                       40
Tipo de Iniciativa                         38
Presupuesto oficial                        98
*Valor de Referencia                       38
Fecha de Llamado a Licitación              38
Fecha de Apertura Oferta Económica         98
Inicio Plazo Concesión                     38
Plazo de Concesión                         69
dtype: int64


#### "Tipo Iniciativa" and "Tipo de Iniciativa" columns are equivalent and comlmenetary, we will merge them and drop "Tipo de Iniciativa" column.

In [4]:
df["Tipo Iniciativa"] = df["Tipo Iniciativa"].fillna(df["Tipo de Iniciativa"])
df.drop("Tipo de Iniciativa", axis=1, inplace=True)

print_null_count(df)

Presupuesto Oficial                        31
*Valor de referencia                       91
Llamado a Licitación                       91
Fecha de Apertura de Ofertas Económicas    31
Fecha de Inicio Concesión                  91
Plazo Total de la Concesión                60
Puesta en Servicio Provisoria (PSP)        91
Inspector (a) Fiscal                       40
Presupuesto oficial                        98
*Valor de Referencia                       38
Fecha de Llamado a Licitación              38
Fecha de Apertura Oferta Económica         98
Inicio Plazo Concesión                     38
Plazo de Concesión                         69
dtype: int64


#### "Presupuesto Oficial" and "Presupuesto Oficial" columns are equivalent and complmenetary, we will merge them and drop "Presupuesto Oficial" column.

In [5]:
df["Presupuesto Oficial"] = df["Presupuesto Oficial"].fillna(df["Presupuesto oficial"])
df.drop("Presupuesto oficial", axis=1, inplace=True)

print_null_count(df)

*Valor de referencia                       91
Llamado a Licitación                       91
Fecha de Apertura de Ofertas Económicas    31
Fecha de Inicio Concesión                  91
Plazo Total de la Concesión                60
Puesta en Servicio Provisoria (PSP)        91
Inspector (a) Fiscal                       40
*Valor de Referencia                       38
Fecha de Llamado a Licitación              38
Fecha de Apertura Oferta Económica         98
Inicio Plazo Concesión                     38
Plazo de Concesión                         69
dtype: int64


#### Columns "*Valor de referencia" and "*Valor de Referencia" are equivalent and complmenetary, we will merge them and drop "*Valor de Referencia" column.

#### 

In [6]:
df["*Valor de referencia"] = df["*Valor de referencia"].fillna(
    df["*Valor de Referencia"]
)
df.drop("*Valor de Referencia", axis=1, inplace=True)

print_null_count(df)

Llamado a Licitación                       91
Fecha de Apertura de Ofertas Económicas    31
Fecha de Inicio Concesión                  91
Plazo Total de la Concesión                60
Puesta en Servicio Provisoria (PSP)        91
Inspector (a) Fiscal                       40
Fecha de Llamado a Licitación              38
Fecha de Apertura Oferta Económica         98
Inicio Plazo Concesión                     38
Plazo de Concesión                         69
dtype: int64


#### Columns "Llamado a Licitación" and "Fecha de Llamado a Licitación" are equivalent and complmenetary, we will merge them and drop "Fecha de Llamado a Licitación" column.

In [7]:
df["Llamado a Licitación"] = df["Llamado a Licitación"].fillna(
    df["Fecha de Llamado a Licitación"]
)
df.drop("Fecha de Llamado a Licitación", axis=1, inplace=True)

print_null_count(df)

Fecha de Apertura de Ofertas Económicas    31
Fecha de Inicio Concesión                  91
Plazo Total de la Concesión                60
Puesta en Servicio Provisoria (PSP)        91
Inspector (a) Fiscal                       40
Fecha de Apertura Oferta Económica         98
Inicio Plazo Concesión                     38
Plazo de Concesión                         69
dtype: int64


#### Columns "Fecha de Apertura de Ofertas Económicas" and "Fecha de Apertura Oferta Económica" are equivalent and complmenetary, we will merge them and drop "Fecha de Apertura Oferta Económica" column.

In [8]:
df["Fecha de Apertura de Ofertas Económicas"] = df[
    "Fecha de Apertura de Ofertas Económicas"
].fillna(df["Fecha de Apertura Oferta Económica"])
df.drop("Fecha de Apertura Oferta Económica", axis=1, inplace=True)

print_null_count(df)

Fecha de Inicio Concesión              91
Plazo Total de la Concesión            60
Puesta en Servicio Provisoria (PSP)    91
Inspector (a) Fiscal                   40
Inicio Plazo Concesión                 38
Plazo de Concesión                     69
dtype: int64


#### Columns "Fecha de Inicio Concesión" and "Inicio Plazo Concesión" are equivalent and complmenetary, we will merge them and drop "Inicio Plazo Concesión" column.

In [9]:
df["Fecha de Inicio Concesión"] = df["Fecha de Inicio Concesión"].fillna(
    df["Inicio Plazo Concesión"]
)
df.drop("Inicio Plazo Concesión", axis=1, inplace=True)

print_null_count(df)

Plazo Total de la Concesión            60
Puesta en Servicio Provisoria (PSP)    91
Inspector (a) Fiscal                   40
Plazo de Concesión                     69
dtype: int64


#### Columns "Plazo Total de la Concesión" and "Plazo de Concesión" are equivalent and complmenetary, we will merge them and drop "Plazo de Concesión" column.

In [10]:
df["Plazo Total de la Concesión"] = df["Plazo Total de la Concesión"].fillna(
    df["Plazo de Concesión"]
)
df.drop("Plazo de Concesión", axis=1, inplace=True)

print_null_count(df)

Puesta en Servicio Provisoria (PSP)    91
Inspector (a) Fiscal                   40
dtype: int64


#### For columns "Puesta en Servicio Provisoria (PSP)" and "Inspector (a) Fiscal" the missed values are because they are not assigned yet, we will assignd "No Asignado" to them.

In [11]:
df["Puesta en Servicio Provisoria (PSP)"] = df[
    "Puesta en Servicio Provisoria (PSP)"
].fillna("No Asignado")
df["Inspector (a) Fiscal"] = df["Inspector (a) Fiscal"].fillna("No Asignado")

print_null_count(df)

df.reset_index(drop=True, inplace=True)

print(df.info())

Series([], dtype: int64)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129 entries, 0 to 128
Data columns (total 19 columns):
 #   Column                                   Non-Null Count  Dtype 
---  ------                                   --------------  ----- 
 0   id                                       129 non-null    object
 1   status                                   129 non-null    object
 2   url                                      129 non-null    object
 3   Tipo Iniciativa                          129 non-null    object
 4   Región                                   129 non-null    object
 5   Provincia                                129 non-null    object
 6   Comuna                                   129 non-null    object
 7   Volumen                                  129 non-null    object
 8   Presupuesto Oficial                      129 non-null    object
 9   *Valor de referencia                     129 non-null    object
 10  Llamado a Licitación                 

### 2.2 Normalize column names

In [12]:
df.rename(
    columns={
        "Tipo Iniciativa": "tipo iniciativa",
        "Región": "region",
        "Provincia": "provincia",
        "Comuna": "comuna",
        "Volumen": "volumen",
        "Presupuesto Oficial": "presupuesto oficial",
        "*Valor de referencia": "valor de referencia",
        "Llamado a Licitación": "llamado a licitacion",
        "Fecha de Recepción de Ofertas Técnicas": "recepcion ofertas tecnicas",
        "Fecha de Apertura de Ofertas Económicas": "apertura ofertas economicas",
        "Decreto de Adjudicación": "decreto adjudicacion",
        "Sociedad Concesionaria": "sociedad concesionaria",
        "Fecha de Inicio Concesión": "inicio concesion",
        "Plazo Total de la Concesión": "plazo concesion",
        "Puesta en Servicio Provisoria (PSP)": "psp",
        "Inspector (a) Fiscal": "inspector fiscal",
    },
    inplace=True,
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129 entries, 0 to 128
Data columns (total 19 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   id                           129 non-null    object
 1   status                       129 non-null    object
 2   url                          129 non-null    object
 3   tipo iniciativa              129 non-null    object
 4   region                       129 non-null    object
 5   provincia                    129 non-null    object
 6   comuna                       129 non-null    object
 7   volumen                      129 non-null    object
 8   presupuesto oficial          129 non-null    object
 9   valor de referencia          129 non-null    object
 10  llamado a licitacion         129 non-null    object
 11  recepcion ofertas tecnicas   129 non-null    object
 12  apertura ofertas economicas  129 non-null    object
 13  decreto adjudicacion         129 no

### 2.3 Handling duplicate rows

#### Complete row analysis

In [13]:
df[df.duplicated(keep=False)].sort_values(by="id")

Unnamed: 0,id,status,url,tipo iniciativa,region,provincia,comuna,volumen,presupuesto oficial,valor de referencia,llamado a licitacion,recepcion ofertas tecnicas,apertura ofertas economicas,decreto adjudicacion,sociedad concesionaria,inicio concesion,plazo concesion,psp,inspector fiscal
118,117,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Metropolitana,Santiago,Pudahuel,379.000 m2,UF 14.980.000 (MM USD 700),La inversión en MM USD se calcula en base a la...,20 de junio de 2014,30 de diciembre de 2014,20 de junio de 2014,N° 105 del 12 de marzo de 2015,Sociedad Concesionaria Nuevo Pudahuel S.A.,1 de octubre de 2015,Plazo fijo 20 años,,Juan Carlos Figueroa Quezada
108,117,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Metropolitana,Santiago,Pudahuel,379.000 m2,UF 14.980.000 (MM USD 700),La inversión en MM USD se calcula en base a la...,20 de junio de 2014,30 de diciembre de 2014,20 de junio de 2014,N° 105 del 12 de marzo de 2015,Sociedad Concesionaria Nuevo Pudahuel S.A.,1 de octubre de 2015,Plazo fijo 20 años,,Juan Carlos Figueroa Quezada
103,161,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Valparaíso,"Valparaíso, Quillota","Puchuncaví, Quintero y Nogales",43 km aproximadamente,UF 5.250.000 (MM USD 220),La inversión en MM USD se calcula en base a la...,27 de noviembre de 2015,29 de marzo de 2016,22 de abril de 2016,N° 199 del 7 de junio de 2016,Sociedad Concesionaria Nuevo Camino Nogales - ...,23 de agosto de 2016,"Plazo variable, máximo 38 años (456 meses)",,Claudio Asenjo Schultz
113,161,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Valparaíso,"Valparaíso, Quillota","Puchuncaví, Quintero y Nogales",43 km aproximadamente,UF 5.250.000 (MM USD 220),La inversión en MM USD se calcula en base a la...,27 de noviembre de 2015,29 de marzo de 2016,22 de abril de 2016,N° 199 del 7 de junio de 2016,Sociedad Concesionaria Nuevo Camino Nogales - ...,23 de agosto de 2016,"Plazo variable, máximo 38 años (456 meses)",,Claudio Asenjo Schultz
114,187,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Coquimbo,"Elqui, Choapa, Limarí","La Serena, Coquimbo, Ovalle, Canela y Los Vilos","244,5 km tramo interurbano y 16 km tramo urbano",UF 12.155.000,La inversión en MM USD se calcula en base a la...,12 de mayo de 2018,30 de noviembre de 2018,26 de diciembre de 2018,Decreto Nº 47 del 30 de abril de 2019 (DO 28.1...,Sociedad Concesionaria Ruta del Elqui S.A.,28 de octubre de 2019,"Plazo variable, máximo 30 años (360 meses)",,Jaime Yáñez Urzúa (construcción) / Max Schrade...
106,187,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Coquimbo,"Elqui, Choapa, Limarí","La Serena, Coquimbo, Ovalle, Canela y Los Vilos","244,5 km tramo interurbano y 16 km tramo urbano",UF 12.155.000,La inversión en MM USD se calcula en base a la...,12 de mayo de 2018,30 de noviembre de 2018,26 de diciembre de 2018,Decreto Nº 47 del 30 de abril de 2019 (DO 28.1...,Sociedad Concesionaria Ruta del Elqui S.A.,28 de octubre de 2019,"Plazo variable, máximo 30 años (360 meses)",,Jaime Yáñez Urzúa (construcción) / Max Schrade...
110,197,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Arica y Parinacota,Arica,Arica,11.600 m2 (aproximadamente),"UF 2.031.000 (MM USD 83,1)",La inversión en MM USD se calcula en base a la...,21 de septiembre de 2018,21 de diciembre de 2018,16 de enero 2019,Nº 11 del 4 de febrero de 2019 (publicado en e...,Sociedad Concesionaria Aeropuerto de Arica S.A.,20 de marzo de 2019,Plazo fijo 15 años,,Fernanda Ardiles
121,197,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Arica y Parinacota,Arica,Arica,11.600 m2 (aproximadamente),"UF 2.031.000 (MM USD 83,1)",La inversión en MM USD se calcula en base a la...,21 de septiembre de 2018,21 de diciembre de 2018,16 de enero 2019,Nº 11 del 4 de febrero de 2019 (publicado en e...,Sociedad Concesionaria Aeropuerto de Arica S.A.,20 de marzo de 2019,Plazo fijo 15 años,,Fernanda Ardiles
105,200,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Maule y Ñuble,"Talca, Linares, Punilla y Diguillín","Río Claro, San Rafael, Pelarco, Talca, Maule, ...",195 kms,UF 19.180.000 (MM USD 785),La inversión en MM USD se calcula en base a la...,19 de octubre de 2019,30 de octubre de 2020,27 de noviembre de 2020,N° 5 del 13 de marzo de 2021,Sociedad Concesionaria Survías Maule-Ñuble S.A.,13 de marzo de 2021,"Plazo variable, máximo 32 años (384 meses)",,Ricardo Oyarzo Cárcamo
115,200,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Maule y Ñuble,"Talca, Linares, Punilla y Diguillín","Río Claro, San Rafael, Pelarco, Talca, Maule, ...",195 kms,UF 19.180.000 (MM USD 785),La inversión en MM USD se calcula en base a la...,19 de octubre de 2019,30 de octubre de 2020,27 de noviembre de 2020,N° 5 del 13 de marzo de 2021,Sociedad Concesionaria Survías Maule-Ñuble S.A.,13 de marzo de 2021,"Plazo variable, máximo 32 años (384 meses)",,Ricardo Oyarzo Cárcamo


##### There are 9 duplicate rows, we will drop them.

In [14]:
df.drop_duplicates(keep="first", inplace=True)
df.reset_index(drop=True, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 19 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   id                           120 non-null    object
 1   status                       120 non-null    object
 2   url                          120 non-null    object
 3   tipo iniciativa              120 non-null    object
 4   region                       120 non-null    object
 5   provincia                    120 non-null    object
 6   comuna                       120 non-null    object
 7   volumen                      120 non-null    object
 8   presupuesto oficial          120 non-null    object
 9   valor de referencia          120 non-null    object
 10  llamado a licitacion         120 non-null    object
 11  recepcion ofertas tecnicas   120 non-null    object
 12  apertura ofertas economicas  120 non-null    object
 13  decreto adjudicacion         120 no

#### id column analysis

In [15]:
df.duplicated(["id"], keep=False).sum()

df[df.duplicated(["id"], keep=False)].sort_values(by=["id", "status"])

Unnamed: 0,id,status,url,tipo iniciativa,region,provincia,comuna,volumen,presupuesto oficial,valor de referencia,llamado a licitacion,recepcion ofertas tecnicas,apertura ofertas economicas,decreto adjudicacion,sociedad concesionaria,inicio concesion,plazo concesion,psp,inspector fiscal
118,117,Adjudicación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Metropolitana,Santiago,Pudahuel,379.000 m2,UF 14.980.000 (MM USD 700),La inversión en MM USD se calcula en base a la...,20 de junio de 2014,30 de diciembre de 2014,20 de junio de 2014,N° 105 del 12 de marzo de 2015,Sociedad Concesionaria Nuevo Pudahuel S.A.,1 de octubre de 2015,Plazo fijo 20 años,No Asignado,No Asignado
108,117,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Metropolitana,Santiago,Pudahuel,379.000 m2,UF 14.980.000 (MM USD 700),La inversión en MM USD se calcula en base a la...,20 de junio de 2014,30 de diciembre de 2014,20 de junio de 2014,N° 105 del 12 de marzo de 2015,Sociedad Concesionaria Nuevo Pudahuel S.A.,1 de octubre de 2015,Plazo fijo 20 años,,Juan Carlos Figueroa Quezada
115,161,Adjudicación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Valparaíso,"Valparaíso, Quillota","Puchuncaví, Quintero y Nogales",43 km aproximadamente,UF 5.250.000 (MM USD 220),La inversión en MM USD se calcula en base a la...,27 de noviembre de 2015,29 de marzo de 2016,22 de abril de 2016,N° 199 del 7 de junio de 2016,Sociedad Concesionaria Nuevo Camino Nogales - ...,23 de agosto de 2016,"Plazo variable, máximo 38 años (456 meses)",No Asignado,No Asignado
103,161,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Valparaíso,"Valparaíso, Quillota","Puchuncaví, Quintero y Nogales",43 km aproximadamente,UF 5.250.000 (MM USD 220),La inversión en MM USD se calcula en base a la...,27 de noviembre de 2015,29 de marzo de 2016,22 de abril de 2016,N° 199 del 7 de junio de 2016,Sociedad Concesionaria Nuevo Camino Nogales - ...,23 de agosto de 2016,"Plazo variable, máximo 38 años (456 meses)",,Claudio Asenjo Schultz
112,187,Adjudicación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Coquimbo,"Elqui, Choapa, Limarí","La Serena, Coquimbo, Ovalle, Canela y Los Vilos","244,5 km tramo interurbano y 16 km tramo urbano",UF 12.155.000,La inversión en MM USD se calcula en base a la...,12 de mayo de 2018,30 de noviembre de 2018,26 de diciembre de 2018,Decreto Nº 47 del 30 de abril de 2019 (DO 28.1...,Sociedad Concesionaria Ruta del Elqui S.A.,28 de octubre de 2019,"Plazo variable, máximo 30 años (360 meses)",No Asignado,No Asignado
106,187,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Coquimbo,"Elqui, Choapa, Limarí","La Serena, Coquimbo, Ovalle, Canela y Los Vilos","244,5 km tramo interurbano y 16 km tramo urbano",UF 12.155.000,La inversión en MM USD se calcula en base a la...,12 de mayo de 2018,30 de noviembre de 2018,26 de diciembre de 2018,Decreto Nº 47 del 30 de abril de 2019 (DO 28.1...,Sociedad Concesionaria Ruta del Elqui S.A.,28 de octubre de 2019,"Plazo variable, máximo 30 años (360 meses)",,Jaime Yáñez Urzúa (construcción) / Max Schrade...
117,197,Adjudicación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Arica y Parinacota,Arica,Arica,11.600 m2 (aproximadamente),"UF 2.031.000 (MM USD 83,1)",La inversión en MM USD se calcula en base a la...,21 de septiembre de 2018,21 de diciembre de 2018,16 de enero 2019,Nº 11 del 4 de febrero de 2019 (publicado en e...,Sociedad Concesionaria Aeropuerto de Arica S.A.,20 de marzo de 2019,Plazo fijo 15 años,No Asignado,No Asignado
110,197,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Arica y Parinacota,Arica,Arica,11.600 m2 (aproximadamente),"UF 2.031.000 (MM USD 83,1)",La inversión en MM USD se calcula en base a la...,21 de septiembre de 2018,21 de diciembre de 2018,16 de enero 2019,Nº 11 del 4 de febrero de 2019 (publicado en e...,Sociedad Concesionaria Aeropuerto de Arica S.A.,20 de marzo de 2019,Plazo fijo 15 años,,Fernanda Ardiles
113,200,Adjudicación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Maule y Ñuble,"Talca, Linares, Punilla y Diguillín","Río Claro, San Rafael, Pelarco, Talca, Maule, ...",195 kms,UF 19.180.000 (MM USD 785),La inversión en MM USD se calcula en base a la...,19 de octubre de 2019,30 de octubre de 2020,27 de noviembre de 2020,N° 5 del 13 de marzo de 2021,Sociedad Concesionaria Survías Maule-Ñuble S.A.,13 de marzo de 2021,"Plazo variable, máximo 32 años (384 meses)",No Asignado,No Asignado
105,200,Construcción y Operación,https://concesiones.mop.gob.cl/proyectos/Pagin...,Pública,Maule y Ñuble,"Talca, Linares, Punilla y Diguillín","Río Claro, San Rafael, Pelarco, Talca, Maule, ...",195 kms,UF 19.180.000 (MM USD 785),La inversión en MM USD se calcula en base a la...,19 de octubre de 2019,30 de octubre de 2020,27 de noviembre de 2020,N° 5 del 13 de marzo de 2021,Sociedad Concesionaria Survías Maule-Ñuble S.A.,13 de marzo de 2021,"Plazo variable, máximo 32 años (384 meses)",,Ricardo Oyarzo Cárcamo


##### There are 9 duplicate rows, we will drop them where status is "Adjudicación"

In [16]:
# There are 9 duplicate rows, we will drop them where status is "Adjudicación"
df = (
    df.sort_values(["id", "status"])
    .drop_duplicates(["id"], keep="last")
    .reset_index(drop=True)
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 111 entries, 0 to 110
Data columns (total 19 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   id                           111 non-null    object
 1   status                       111 non-null    object
 2   url                          111 non-null    object
 3   tipo iniciativa              111 non-null    object
 4   region                       111 non-null    object
 5   provincia                    111 non-null    object
 6   comuna                       111 non-null    object
 7   volumen                      111 non-null    object
 8   presupuesto oficial          111 non-null    object
 9   valor de referencia          111 non-null    object
 10  llamado a licitacion         111 non-null    object
 11  recepcion ofertas tecnicas   111 non-null    object
 12  apertura ofertas economicas  111 non-null    object
 13  decreto adjudicacion         111 no

### 2.4 Transforming data by column.

#### Column "status"

#### Column "tipo iniciativa"

In [17]:
df["status"].value_counts()
df["status"] = df["status"].astype(str)
df["status"] = df["status"].apply(lambda x: unidecode(x.lower()))

df.replace({"status": "adjudicacion"}, "1-adjudicacion", inplace=True)
df.replace({"status": "construccion"}, "2-construccion", inplace=True)
df.replace({"status": "operacion"}, "3-operacion", inplace=True)
df.replace(
    {"status": "construccion y operacion"}, "4-construccion y operacion", inplace=True
)
df.replace({"status": "finalizada"}, "5-finalizada", inplace=True)
df["status"].value_counts()

status
3-operacion                   51
5-finalizada                  31
2-construccion                20
4-construccion y operacion     9
Name: count, dtype: int64

#### Column "tipo iniciativa"

In [18]:
df["tipo iniciativa"].value_counts()
df.replace({"tipo iniciativa": "Iniciativa Pública"}, "Pública", inplace=True)
df.replace({"tipo iniciativa": ""}, "No definido", inplace=True)
df["tipo iniciativa"].value_counts()

tipo iniciativa
Pública        77
Privada        26
No definido     8
Name: count, dtype: int64

#### Column "region"

In [19]:
def get_region_number(x):
    for i in x:
        if i.find("arica") != -1:
            x[x.index(i)] = str(15)
        elif i.find("tarapaca") != -1:
            x[x.index(i)] = str(1)
        elif i.find("antofagasta") != -1:
            x[x.index(i)] = str(2)
        elif i.find("atacama") != -1:
            x[x.index(i)] = str(3)
        elif i.find("coquimbo") != -1:
            x[x.index(i)] = str(4)
        elif i.find("valparaiso") != -1:
            x[x.index(i)] = str(5)
        elif i.find("metropolitana") != -1:
            x[x.index(i)] = str(13)
        elif i.find("o'higgins") != -1:
            x[x.index(i)] = str(6)
        elif i.find("maule") != -1:
            x[x.index(i)] = str(7)
        elif i.find("biobio") != -1:
            x[x.index(i)] = str(8)
        elif i.find("araucania") != -1:
            x[x.index(i)] = str(9)
        elif i.find("lagos") != -1:
            x[x.index(i)] = str(10)
        elif i.find("rios") != -1:
            x[x.index(i)] = str(14)
        elif i.find("aysen") != -1:
            x[x.index(i)] = str(11)
        elif i.find("magallanes") != -1:
            x[x.index(i)] = str(12)
        elif i.find("nuble") != -1:
            x[x.index(i)] = str(16)
    return x


def extract_region_data(x):
    x = x.lower()
    x = unidecode(x)
    x = x.replace("arica y parinacota", "arica_y_parinacota")
    x = x.replace("es y an", "es_y_an")
    print(x)
    x = re.split(",| y ", x)
    x = [i.strip() for i in x]
    x = get_region_number(x)
    x.sort(key=int)
    return ",".join(x)

In [20]:
df["region"] = df["region"].apply(lambda x: extract_region_data(x))
df["region"].value_counts()

metropolitana
metropolitana
coquimbo
metropolitana
libertador general bernardo o'higgins
antofagasta
metropolitana
region metropolitana
la araucania
antofagasta y biobio
region de tarapaca
tarapaca
magallanes
los lagos
coquimbo
biobio
region de tarapaca
metropolitana
biobio
tarapaca
los lagos
valparaiso
valparaiso
nuble
los lagos
metropolitana
biobio
valparaiso, metropolitana y libertador general bernardo o'higgins
antofagasta
metropolitana
coquimbo
region metropolitana
metropolitana
valparaiso
arica_y_parinacota
metropolitana y valparaiso
maule y nuble
metropolitana
coquimbo
region metropolitana
biobio
magallanes y aysen del general carlos ibanez del campo
del maule
biobio
metropolitana
metropolitana
metropolitana y valparaiso
coquimbo
valparaiso
los rios y los lagos
coquimbo
metropolitana
libertador general bernardo o'higgins
nuble, biobio y la araucania
valparaiso y metropolitana
antofagasta
metropolitana
valparaiso y metropolitana
valparaiso
biobio
region del maule
valparaiso
regio

region
13          33
2            9
8            9
5            9
4            8
1            5
10           5
5,13         4
9            2
12           2
15           2
6            2
8,9,16       2
10,14        2
7,16         2
7            2
3            2
2,8          1
16           1
5,6,13       1
11,12        1
4,5,13       1
9,14         1
6,7,13       1
3,4          1
8,9          1
1,4,6        1
10,13,14     1
Name: count, dtype: int64

#### Column "provincia"

In [21]:
def extract_provincia_data(x):
    x = x.lower()
    x = unidecode(x)
    print(x)
    x = re.split(",| y ", x)
    x = [i.strip() for i in x]
    x.sort()
    return ",".join(x)

In [22]:
df["provincia"].value_counts()
df["provincia"] = df["provincia"].apply(lambda x: extract_provincia_data(x))
df["provincia"].value_counts()

santiago
santiago
elqui
santiago
colchagua y cardenal caro
antofagasta
santiago
santiago
cautin
antofagasta y concepcion
iquique
iquique
magallanes
llanquihue
limari y elqui
concepcion
iquique
santiago
concepcion
iquique
llanquihue
valparaiso, quillota
petorca y quillota
punilla
llanquihue
santiago
nuble y concepcion
san antonio y cachapoal
antofagasta y el loa
santiago
elqui, choapa, limari
santiago
santiago
petorca
arica
santiago, san antonio, talagante y melipilla
talca, linares, punilla y diguillin
santiago
elqui
santiago
biobio y concepcion
magallanes y coyhaique
cauquenes, linares y talca
biobio y concepcion
maipo
maipo y melipilla
santiago, san antonio, talagante y melipilla
coquimbo
valparaiso y quillota
valdivia, ranco y llanquihue
coquimbo
santiago
cachapoal y cardenal caro
diguillin, biobio y malleco
santiago, chacabuco y los andes
el loa
santiago
santiago, marga marga, melipilla y valparaiso
san antonio y valparaiso
concepcion
talca
petorca y quillota
melipilla
nuble, biobi

provincia
santiago                                                 28
llanquihue                                                5
iquique                                                   4
concepcion                                                4
elqui                                                     3
antofagasta,el loa                                        3
antofagasta                                               3
el loa                                                    3
magallanes                                                2
biobio,concepcion                                         2
melipilla,san antonio,santiago,talagante                  2
arica                                                     2
quillota,valparaiso                                       2
choapa,elqui,limari                                       2
los andes                                                 2
coquimbo                                                  2
petorca,quillota              

#### Column "comuna"

In [23]:
df["comuna"].value_counts()
df["comuna"] = df["comuna"].apply(lambda x: extract_provincia_data(x))
df["comuna"].value_counts()

maipu y la florida
cerillos, cerro navia, conchali, estacion central, independencia, la cisterna, la florida, la pintana, la reina, lo barnechea, lo prado, nunoa, penalolen, puente alto, recoleta, renca, san bernardo, san miguel, santiago y vitacura
la serena
pudahuel
nancagua, chepica, santa cruz, palmilla, peralillo, marchigue, lolol y chimbarongo
antofagasta
providencia
cerro navia
temuco
antofagasta y concepcion
iquique
iquique
punta arenas
puerto montt
coquimbo y ovalle
san pedro de la paz y hualpen
iquique
huechuraba, vitacura, las condes y providencia
talcahuano
iquique
puerto montt
puchuncavi, quintero y nogales
zapallar y nogales
coihueco y san fabian
puerto montt
la reina, nunoa, penalolen y macul
chillan, chillan viejo, ranquil, florida, tome y penco
malloa, san vicente de tagua tagua, peumo, las cabras, san pedro, santo domingo y san antonio
sierra gorda y calama
maipu y pudahuel
la serena, coquimbo, ovalle, canela y los vilos
pudahuel
lo barnechea
petorca
arica
cartagena, 

comuna
pudahuel                                                                                                                                                                                                                         5
la serena                                                                                                                                                                                                                        4
puerto montt                                                                                                                                                                                                                     4
iquique                                                                                                                                                                                                                          4
antofagasta                                                                          

#### Column "volumen"

In [24]:
print(df["volumen"].value_counts())

volumen
             15
9 km          2
136 kms       2
5,2 km        2
3 kms         2
             ..
116 m2        1
201 kms       1
42.166 m2     1
56.390 m2     1
14,68 km      1
Name: count, Length: 93, dtype: int64


## 3. Exporting the data

In [25]:
df.to_json("../data/mop_details_clean.json", orient="records")