# Importar base de datos 
Esta base de datos contiene información sobre las obras paralizadas en el país hasta el presente año 

In [4]:
import pandas as pd 
import os
import numpy as np

In [5]:

obras_df= pd.read_excel(os.path.join('data','Obras_paralizadas_new.xlsx'),header=3)
obras_df.columns=obras_df.columns.str.lower()

# Tratamiento de la base de datos 

Para este trabajo solo necesitaremos trabajar con ciertas variables 

In [6]:
list_variables= ['modalidad de ejecución de la obra', 'ano','causal de paralización','departamento']
obras_df=obras_df[list_variables].copy()

También necesitamos eliminar aquellas observaciones que tienen valores perdidos 

In [7]:
obras_df.isna().sum()

modalidad de ejecución de la obra      0
ano                                   48
causal de paralización               596
departamento                           1
dtype: int64

In [8]:
obras_df.dropna(subset=['ano','causal de paralización'],inplace= True)
obras_df

Unnamed: 0,modalidad de ejecución de la obra,ano,causal de paralización,departamento
0,Contrata,2012.0,Incumplimiento de contrato,CUSCO
1,Contrata,2012.0,Incumplimiento de contrato,CUSCO
3,Contrata,2010.0,Incumplimiento del pago de valorizaciones u otros,JUNIN
4,Contrata,2013.0,Incumplimiento de contrato,ANCASH
5,Contrata,2013.0,Incumplimiento de contrato,PUNO
...,...,...,...,...
2286,Administracion directa,2023.0,Proceso arbitral,PUNO
2288,Contrata,2022.0,Conflictos sociales,ANCASH
2289,Administracion directa,2021.0,Sin asignacion presupuestal,PUNO
2290,Administracion directa,2022.0,Desabastecimiento sostenido de materiales,HUANUCO


In [9]:
obras_df= obras_df.assign(case=1)
obras_df.reset_index(inplace=True)

# Primera pregunta: ¿cómo ha variado el número de obras paralizadas a lo largo de los años según modalidad?

In [10]:
obras_df['modalidad']=obras_df.loc[:,"modalidad de ejecución de la obra"]
obras_df.drop(columns=["modalidad de ejecución de la obra"],inplace=True)

In [11]:
obraspormodalidad=obras_df.groupby(['ano','modalidad']).agg({'case':['sum']})
obraspormodalidad.reset_index(inplace=True)
obraspormodalidad.columns=["". join (names) for names in obraspormodalidad.columns]
obraspormodalidad

Unnamed: 0,ano,modalidad,casesum
0,2002.0,Contrata,1
1,2008.0,Contrata,4
2,2010.0,Administracion directa,2
3,2010.0,Contrata,6
4,2011.0,Administracion directa,7
5,2011.0,Contrata,9
6,2012.0,Administracion directa,15
7,2012.0,Contrata,15
8,2013.0,Administracion directa,25
9,2013.0,Contrata,21


In [16]:
obraspormodalidad

Unnamed: 0,ano,modalidad,casesum
0,2002.0,Contrata,1
1,2008.0,Contrata,4
2,2010.0,Administracion directa,2
3,2010.0,Contrata,6
4,2011.0,Administracion directa,7
5,2011.0,Contrata,9
6,2012.0,Administracion directa,15
7,2012.0,Contrata,15
8,2013.0,Administracion directa,25
9,2013.0,Contrata,21


In [19]:
obraspormodalidad=obraspormodalidad[obraspormodalidad['ano']<2024]

In [20]:
obraspormodalidad

Unnamed: 0,ano,modalidad,casesum
0,2002.0,Contrata,1
1,2008.0,Contrata,4
2,2010.0,Administracion directa,2
3,2010.0,Contrata,6
4,2011.0,Administracion directa,7
5,2011.0,Contrata,9
6,2012.0,Administracion directa,15
7,2012.0,Contrata,15
8,2013.0,Administracion directa,25
9,2013.0,Contrata,21


Transformamos en formato *long* para su visualización 

In [21]:
obras_long=obraspormodalidad.melt(id_vars=['ano','modalidad'], value_vars=['casesum'])

Guardamos la data para su visualización en r 

In [22]:
obras_long.to_pickle('data/obras_long.pkl')