El propósito de este cuaderno es limpiar los datos de las compras realizadas por el Ministerio de Obras Públicas y Transporte (MOPT) durante el periodo 2006 al 2019 y que están registrados en el SIAC.

Se muestran los pasos para proceder al análisis de los datos:

- Eliminar datos extraños
- Eliminar columnas con 100% de valores faltantes.
- Eliminar columnas que contienen información redundante.


### Importar la data

In [4]:
# Import libraries
import pandas as pd
import numpy as np
#import matplotlib.pyplot as plt
#import seaborn as sns

# creating plots using seaborn setting 
#sns.set()

# using jupyter magic to display plots in line
#%matplotlib inline

In [5]:
# importing the dataset
df = pd.read_excel("mopt1.xlsx")

In [7]:
# viewing the size of the dataset
print('The size of the dataset: ' + str(df.shape))

The size of the dataset: (52728, 19)


In [6]:
#viewing the first 5 rows
df.head()

Unnamed: 0,Nombre de la institución,Nombre de la entidad hija,Año de adjudicación,Clave de la línea del procedimiento,Tipo de procedimiento,Número de procedimiento,Medio de registro,Objeto contractual,Número de línea,Descripción del bien o servicio,Cédula del adjudicatario,Cantidad adjudicada,Unidad de medida,Nombre del adjudicatario,Fecha de adjudicación,Estado de la línea,Cuenta de la subpartida (COG)(AC),Subpartida (COG)(AC),Monto adjudicados
0,MINISTERIO DE OBRAS PUBLICAS Y TRANSPORTES,CONSEJO DE SEGURIDAD VIAL,2006,21000420083007061394012006LN-000001-001001,Licitación Pública Nacional,2006LN-000001-00100,TRANSFERIDO COMPRARED,COMPRA DE MOTOCICLETAS NUEVAS TIPO POLICIAL,1,"TOTALMENTE NUEVAS, MODELO 2006 O 2007 PREFERIB...",3101214254,46,,MOTOS SUKI S.A. L,38987,Refrendada,1.08.05,1.08.05--Mantenimiento y reparación de equipo ...,211236800.0
1,MINISTERIO DE OBRAS PUBLICAS Y TRANSPORTES,CONSEJO DE SEGURIDAD VIAL,2006,21000420083007061394012006LN-000002-001001,Licitación Pública Nacional,2006LN-000002-00100,TRANSFERIDO COMPRARED,COMPRA DE GRUAS TELESCOPICAS Y VEHICULOS TIPO ...,1,"GRUA DE BRAZOS TELESCOPICOS, HIDRAULICA. . (02...",3101299821,2,,GRUPO DE MAQUINARIA HYUNDAI DE COSTA RICA GRUM...,39029,Adjudicada en firme,5.01.02,5.01.02--Equipo de transporte,58161600.0
2,MINISTERIO DE OBRAS PUBLICAS Y TRANSPORTES,CONSEJO DE SEGURIDAD VIAL,2006,21000420083007061394012006LN-000002-001002,Licitación Pública Nacional,2006LN-000002-00100,TRANSFERIDO COMPRARED,COMPRA DE GRUAS TELESCOPICAS Y VEHICULOS TIPO ...,2,DOS VEHICULOS TIPO PICK UP DOBLE CABINA . DOS ...,3101005744,4,,PURDY MOTOR SOCIEDAD ANONIMA,39029,Adjudicada en firme,5.01.02,5.01.02--Equipo de transporte,45490680.0
3,MINISTERIO DE OBRAS PUBLICAS Y TRANSPORTES,CONSEJO DE SEGURIDAD VIAL,2006,21000420083007061394012006LN-000003-001001,Licitación Pública Nacional,2006LN-000003-00100,TRANSFERIDO COMPRARED,DEMARCACION HORIZONTAL CON PINTURA Y COLOCACIO...,1,DEMARCACION VIAL. RUTA NACIONAL Nº 2: DEMARCA...,3101126423,1,,"CONSORCIO J L SEÑALIZACIÓN Y ARQUITECTURA, S.A...",39029,Adjudicada en firme,1.08.02,1.08.02--Mantenimiento de vías de comunicación,25600690.0
4,MINISTERIO DE OBRAS PUBLICAS Y TRANSPORTES,CONSEJO DE SEGURIDAD VIAL,2006,21000420083007061394012006LN-000003-001002,Licitación Pública Nacional,2006LN-000003-00100,TRANSFERIDO COMPRARED,DEMARCACION HORIZONTAL CON PINTURA Y COLOCACIO...,2,DEMARCACION VIAL. RUTA NACIONAL Nº 209: DEMAR...,3101126423,1,,"CONSORCIO J L SEÑALIZACIÓN Y ARQUITECTURA, S.A...",39029,Adjudicada en firme,1.08.02,1.08.02--Mantenimiento de vías de comunicación,10933840.0


El dataset mide 52728 filas y 19 columnas

Hay unas columnas que en realidad no me brindan información o es información repetida.  Tales como: 

- Descripción del bien o servicio (no añade valor)
- Subpartida (COG)(AC) (se puede usar solo Cuenta de la subpartida (COG)(AC))
- Clave de la línea del procedimiento
- Número de procedimiento ¿? me pude indicar compras en un mismo paquete
- Nombre del adjudicatario (ya tengo el número)


Adicionalmente hay una columna vacía llamada "Unidad de medida"

In [10]:
df.isnull().sum()

Nombre de la institución                   0
Nombre de la entidad hija                  0
Año de adjudicación                        0
Clave de la línea del procedimiento        0
Tipo de procedimiento                      0
Número de procedimiento                    0
Medio de registro                          0
Objeto contractual                         0
Número de línea                            0
Descripción del bien o servicio            0
Cédula del adjudicatario                   0
Cantidad adjudicada                        0
Unidad de medida                       52718
Nombre del adjudicatario                   0
Fecha de adjudicación                      0
Estado de la línea                         0
Cuenta de la subpartida (COG)(AC)          0
Subpartida (COG)(AC)                       0
Monto adjudicados                          0
dtype: int64

In [None]:
df2 = df.drop(["Unidad de medida", "Descripción del bien o servicio", "Subpartida (COG)(AC)",],axis=1)

In [None]:
df2.head()

In [22]:
#created a value counts object for the contractual objects
vcs = df['Objeto contractual'].value_counts()

#filter objects that have > 50 counts
items_50_more = vcs[vcs.values > 50].index

In [24]:
print(items_50_more)

Index(['COMPRA DE ARTICULOS DE OFICINA', 'COMPRA DE ARTICULOS DE LIBRERIA',
       'COMPRA DE ARTICULOS DE LIMPIEZA',
       'ADQUISICION DE ARTICULOS DE FERRETERIA', 'COMPRA DE MEDICAMENTOS',
       'COMPRA DE ARTICULOS DE FERRETERIA',
       'COMPRA DE TINTAS, CINTAS, TONNER Y REVELADORES',
       'SUMINISTROS DE OFICINA', 'CONFECCION DE UNIFORMES',
       'COMPRA DE REPUESTOS PARA VEHICULOS',
       ...
       'ADQUISICION DE LUBRICANTES',
       'COMPRA DE ARTICULOS PARA VEHICULOS INSTITUCIONALES',
       'COMPRA DE ARTICULOS ELECTRICOS DE FERRETERIA',
       'SUMINISTROS DE LIMPIEZA Y PRODUCTOS QUIMICOS',
       'COMPRA DE MATERIALES Y PRODUCTOS PLASTICOS',
       'ALQUILER DE PALAS HIDRAULICAS, TRACTORES Y VAGONETAS',
       'MANTENIMIENTO Y REPARACION DE VEHICULOS',
       'COMPRA DE FILTROS DE AIRE Y ACEITE PARA LA FLOTILLA VEHICULAR',
       'COMPRA DE MATERIALES Y PRODUCTOS PLASTICOS',
       'ADQUISICION DE ARTICULOS DE FERRETERIA Y ACCESORIOS'],
      dtype='object', length

In [26]:
#go back to original data and filter for the items that have > 50 occurances
df['Objeto contractual']  items_50_more

ValueError: Lengths must match to compare

In [29]:
office_stuff = df[df['Objeto contractual'] == 'COMPRA DE ARTICULOS DE OFICINA']

In [34]:
#for office supplies how many times, total quantity, average unit cost, total unit cost

cols_analysis = ['Cantidad adjudicada', 'Monto adjudicados']
office_analysis = office_stuff[cols_analysis] #.astype('float')
office_analysis.head()

ValueError: could not convert string to float: '-'

In [31]:
#the number of occurances of this item
len(office_analysis)

985

In [37]:
#total cost
office_analysis.iloc[:,1].sum() 

26814675.29

In [38]:
#average cost per order
office_analysis.iloc[:,1].mean()

27223.02059898477

In [None]:
#average unit cost and unit cost

In [36]:
office_analysis.iloc[:,0].value_counts()

10      129
-        86
5        62
2        49
1        48
3        48
20       47
4        43
100      40
50       36
6        35
8        24
30       24
15       23
12       21
60       16
150      14
40       13
25       11
300      11
500      10
24        9
7         9
75        7
200       7
35        7
13        6
28        6
11        5
17        5
       ... 
229       1
230       1
746       1
88        1
373       1
110       1
114       1
365       1
56        1
63        1
2050      1
52        1
258       1
65        1
322       1
48        1
47        1
45        1
325       1
43        1
41        1
295       1
85        1
96        1
34        1
800       1
102       1
104       1
29        1
510       1
Name: Cantidad adjudicada, Length: 107, dtype: int64