# 1. Import dependencies

In [1]:
import pandas as pd
import numpy as np
import unidecode

import seaborn as sns

# from src.api import get_contracts

# 2. Read data

In [2]:
# Read latest data
df = pd.read_csv("../../data/raw_20220718.csv", sep=";")
df.head()

Unnamed: 0,CODIGO INSCRIPCION,TIPO DE CONTRATO,PROCEDIMIENTO,OBJETO,IMPORTE LICITACION (IVA INCLUIDO),IMPORTE ADJUDICACION (IVA INCLUIDO),ADJUDICATARIO DESCRIPCION,ADJUDICATARIO CODIGO,FECHA FORMALIZACION,DURACION,ORGANO DE CONTRATACION,COD-ORGANO-CONTRATACION,CPV DESCRIPCION,CPV CODIGO,NUM_MODIFICACIONES
0,299/2022,SUMINISTROS,ABIERTO SIMPLIFICADO ABREVIADO,SUMINISTRO DE EQUIPOS INFORMÁTICOS PARA INTEGR...,26931.8,26426.4,"INFORMÁTICA FAER, S.L.",B98198286,29/04/2022,1 meses,ÁREA DE SALUD II (CARTAGENA - H.G.U. SANTA LUCÍA),30236000,EQUIPO INFORMÁTICO DIVERSO,0,0
1,280/2022,SERVICIOS,ABIERTO,CONTRATO DE SERVICIO DE COLABORACIÓN Y ASISTEN...,80778.11,58160.24,"UTE AUDIEST/AUREN EXPEDIENTE 11031/2021, UNION...",U09675604,28/04/2022,6 meses,"C. DE ECONOMIA, HACIENDA Y ADMINISTRACION DIGITAL",79212100,SERVICIOS DE AUDITORÍA FINANCIERA,0,11
2,286/2022,SERVICIOS,ABIERTO SIMPLIFICADO,SERVICIO DE VIGILANCIA Y SEGURIDAD DE LAS SEDE...,68873.63,58224.57,VIGILANTES ASOCIADOS AL SERVICIO DE BANCA Y EM...,B37033297,28/04/2022,7 meses,C. DE SALUD,79710000,SERVICIOS DE SEGURIDAD,0,12
3,368/2022,SUMINISTROS,NEGOCIACIÓN SIN PUBLICIDAD,SUMINISTRO DE MEDICAMENTOS CON PRINCIPIOS ACTI...,46272.2,46272.2,"TEVA PHARMA, S.L.U",B83959379,27/04/2022,24 meses,SERVICIOS CENTRALES (SMS),33600000,PRODUCTOS FARMACÉUTICOS,0,0
4,354/2022,SUMINISTROS,NEGOCIACIÓN SIN PUBLICIDAD,SUMINISTRO DE MEDICAMENTOS CON PRINCIPIOS ACTI...,221989.01,221989.01,"EISAI FARMACEUTICA, S.A.",A83117192,27/04/2022,24 meses,SERVICIOS CENTRALES (SMS),33600000,PRODUCTOS FARMACÉUTICOS,0,0


# 3. Preprocessing

## 3.1. Normalize strings
 - Camel-case
 - Remove accents

In [3]:
def to_camel_case(text):
    '''
    Function to camel-case the given input string

    :return: input string as camel-case
    :rtype: string
    '''
    s = text.replace("-", " ").replace("_", " ").replace("\n", " ")
    s = s.split()
    if len(text) == 0:
        return text
    return ' '.join(i.capitalize() for i in s[0:])


def normalize_string(text):
    '''
    Function to normailze the given input string:
        - Camel-case
        - Remove accents
    :return: input string normalized
    :rtype: string
    '''
    accented_string = to_camel_case(text)
    normalized_string = unidecode.unidecode(accented_string)

    return normalized_string


In [4]:
# Normalize some string columns
df["TIPO DE CONTRATO"] = df["TIPO DE CONTRATO"].apply(lambda x: normalize_string(x))
df["PROCEDIMIENTO"] = df["PROCEDIMIENTO"].apply(lambda x: normalize_string(x))
df["OBJETO"] = df["OBJETO"].apply(lambda x: normalize_string(x))
df["ORGANO DE CONTRATACION"] = df["ORGANO DE CONTRATACION"].apply(lambda x: normalize_string(x))
df["CPV DESCRIPCION"] = df["CPV DESCRIPCION"].apply(lambda x: normalize_string(x))

df.head()

Unnamed: 0,CODIGO INSCRIPCION,TIPO DE CONTRATO,PROCEDIMIENTO,OBJETO,IMPORTE LICITACION (IVA INCLUIDO),IMPORTE ADJUDICACION (IVA INCLUIDO),ADJUDICATARIO DESCRIPCION,ADJUDICATARIO CODIGO,FECHA FORMALIZACION,DURACION,ORGANO DE CONTRATACION,COD-ORGANO-CONTRATACION,CPV DESCRIPCION,CPV CODIGO,NUM_MODIFICACIONES
0,299/2022,Suministros,Abierto Simplificado Abreviado,Suministro De Equipos Informaticos Para Integr...,26931.8,26426.4,"INFORMÁTICA FAER, S.L.",B98198286,29/04/2022,1 meses,Area De Salud Ii (cartagena H.g.u. Santa Lucia),30236000,Equipo Informatico Diverso,0,0
1,280/2022,Servicios,Abierto,Contrato De Servicio De Colaboracion Y Asisten...,80778.11,58160.24,"UTE AUDIEST/AUREN EXPEDIENTE 11031/2021, UNION...",U09675604,28/04/2022,6 meses,"C. De Economia, Hacienda Y Administracion Digital",79212100,Servicios De Auditoria Financiera,0,11
2,286/2022,Servicios,Abierto Simplificado,Servicio De Vigilancia Y Seguridad De Las Sede...,68873.63,58224.57,VIGILANTES ASOCIADOS AL SERVICIO DE BANCA Y EM...,B37033297,28/04/2022,7 meses,C. De Salud,79710000,Servicios De Seguridad,0,12
3,368/2022,Suministros,Negociacion Sin Publicidad,Suministro De Medicamentos Con Principios Acti...,46272.2,46272.2,"TEVA PHARMA, S.L.U",B83959379,27/04/2022,24 meses,Servicios Centrales (sms),33600000,Productos Farmaceuticos,0,0
4,354/2022,Suministros,Negociacion Sin Publicidad,Suministro De Medicamentos Con Principios Acti...,221989.01,221989.01,"EISAI FARMACEUTICA, S.A.",A83117192,27/04/2022,24 meses,Servicios Centrales (sms),33600000,Productos Farmaceuticos,0,0


## 3.2. Normalize institutions and companies

In [5]:
def normalize_institutions(inst):
    '''
    Normalize instituions names

    :param inst: input name of the institution to be normalized
    :type inst: string
    :return: normalized name of the given institution
    :rtype: string
    '''
    # Check if the institution is a Consejeria
    if "C. De " in inst:
        if "salud"  in inst.lower():
            normalized_inst = "Consejeria de Salud"
        elif "fomento" in inst.lower():
            normalized_inst = "Consejeria de Fomento e Infraestructuras"
        elif "hacienda" in inst.lower():
            normalized_inst = "Consejeria de Economía, Hacienda y Administración Digital"
        elif "empleo" in inst.lower():
            normalized_inst = "Consejeria de Empresa, Empleo, Universidades y Portavocía"
        elif "educacion" in inst.lower():
            normalized_inst = "Consejeria de Educacion"
        elif "turismo" or "cultura" or "deportes" in inst.lower():
            normalized_inst = "Consejeria de Presidencia, Turismo, Cultura y Deportes"
        elif "igualdad" or "mujer" or "lgtb" or "transparencia" in inst.lower():
            normalized_inst = "Consejeria de Mujer, Igualdad, LGTBI, Familias, Política Social y Transparencia. Vicepresidencia"
        else:
            normalized_inst = f"Consejeria Desconocida: ({inst})"
    # Check if the institution is a Instituto
    elif "instituto" in inst.lower():
        if "credito" in inst.lower():
            normalized_inst = "Instituto De Credito Y Finanzas De La Region De Murcia"
        elif "fomento" in inst.lower():
            normalized_inst = "Instituto De Fomento De La Region De Murcia"
        else:
            normalized_inst = inst
    elif "i.m.a.s" in inst.lower():
        normalized_inst = "Instituto Murciano de Accion Social"
    elif "i.m.i.d.a" in inst.lower():
        normalized_inst = "Instituto Murciano de Investigacion y Desarrollo Agrario y Medioambiental"
    # Check other cases
    elif "sms" in inst.lower():
        normalized_inst = "Servicios Centrales (SMS)"
    elif "informatica" in inst.lower():
        normalized_inst = "Direccion General de Patrimonio"
    elif "esamur" in inst.lower():
        normalized_inst = "Entidad de Saneamiento y Depuracion de Aguas Residuales de la Region de Murcia"
    # If no case found, then return the original institution name
    else:
        normalized_inst = inst
    return normalized_inst

In [6]:
# Normalize the institutions names
df["ORGANO DE CONTRATACION"] = df["ORGANO DE CONTRATACION"].apply(lambda x: normalize_institutions(x))

## 3.3 Normalize companies names

In [7]:
# Get a unique company name for each company code
unique_company_names = df[["ADJUDICATARIO CODIGO", "ADJUDICATARIO DESCRIPCION"]] \
    .drop_duplicates(["ADJUDICATARIO CODIGO"], keep="first") \
    .sort_values(["ADJUDICATARIO CODIGO", "ADJUDICATARIO DESCRIPCION"], ascending=True) \
    .rename({"ADJUDICATARIO DESCRIPCION":"ADJUDICATARIO NOMBRE"}, axis=1) \
    .reset_index(drop=True)

# Normalize the companies names
df = df \
    .merge(unique_company_names, how="left", on="ADJUDICATARIO CODIGO") \
    .drop("ADJUDICATARIO DESCRIPCION", axis=1)

print("Number of unique company codes: {} | Number of unique company names: {}".format(df["ADJUDICATARIO CODIGO"].nunique(), df["ADJUDICATARIO NOMBRE"].nunique()))

Number of unique company codes: 2526 | Number of unique company names: 2514


## 3.4. Convert date column into datetime format

In [8]:
# Convert date column into datetime format
df["FECHA FORMALIZACION"] = pd.to_datetime(df["FECHA FORMALIZACION"], infer_datetime_format=True)

# WORKBENCH