# Análisis de gastos de diputados


### Primero abrimos los datos

In [16]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

consultorias_externas = pd.read_csv('../collected_data/ConsultoriasExternas.csv', index_col=False)
costos_operacionales = pd.read_csv('../collected_data/CostosOperacionales.csv', index_col=False)
equipo_de_apoyo = pd.read_csv('../collected_data/SupportStaff.csv', index_col=False)

costos_operacionales.head()

Unnamed: 0.1,Unnamed: 0,diputado,Anio,Mes,Gastos,Montos
0,0,Florcita Alarcón Rojas,2021,8,TRASPASO DESDE GASTOS OPERACIONALES A ASIGNACI...,2678960
1,1,Florcita Alarcón Rojas,2021,8,TELEFONÍA,144248
2,2,Florcita Alarcón Rojas,2021,8,TRASLACIÓN,306147
3,3,Florcita Alarcón Rojas,2021,8,DIFUSIÓN,0
4,4,Florcita Alarcón Rojas,2021,8,ACTIVIDADES DESTINADAS A LA INTERACCIÓN CON LA...,0


### Hay que limpiar un poco más los datos antes de poder trabajar:

In [3]:
import re

elimina_espacios_finales = lambda str: re.sub(r'\s+$', '', str)
monto_to_int = lambda x: int(re.sub(r',', '', x))

costos_operacionales['Montos'] = [monto_to_int(str) for str in costos_operacionales['Montos']]
costos_operacionales['Gastos'] = [elimina_espacios_finales(str) for str in costos_operacionales['Gastos']]
tipos_de_gasto = set(costos_operacionales['Gastos'])
tipos_de_gasto

{'ACTIVIDADES DESTINADAS A LA INTERACCIÓN CON LA COMUNIDAD',
 'ARRIENDO DE INMUEBLE',
 'ARRIENDO DE OFICINA MÓVIL',
 'ARRIENDO DE OFICINAS VIRTUALES',
 'CONSUMOS BÁSICOS',
 'CONTRATACIÓN SERVICIO DE ALMACENAMIENTO',
 'CORRESPONDENCIA',
 'COVID-19 PERSONAL DE APOYO',
 'DIFUSIÓN',
 'EQUIPAMIENTO OFICINA PARLAMENTARIA',
 'GASTOS DE MANTENCIÓN OFICINA PARLAMENTARIA (INMUEBLE)',
 'HABILITACIÓN DE SEDES PARLAMENTARIAS (CON AUTORIZACIÓN DE CRAP)',
 'MANTENCION Y REPARACIÓN DE OFICINA MÓVIL',
 'MATERIALES DE OFICINA',
 'REPARACIONES LOCATIVAS DEL INMUEBLE',
 'SEGUROS DE BIENES',
 'SERVICIOS MENORES',
 'SERVICIOS WEB',
 'TELEFONÍA',
 'TRASLACIÓN',
 'TRASPASO DESDE GASTOS OPERACIONALES A ASIGNACIÓN PERSONAL DE APOYO'}

## Veamos cuánto se gasta en cada área

In [4]:
agrupacion_por_tipo_de_gasto = costos_operacionales.groupby(by=['Gastos'])

print('La suma de gastos operacionales totales entre el 2019 y el 2021 (sin contar diciembre 2021) '
      f'es {costos_operacionales["Montos"].sum()}')

print('El costo promedio de gasto en cada apartado es el siguiente:')
agrupacion_por_tipo_de_gasto.mean()['Montos']

La suma de gastos operacionales totales entre el 2019 y el 2021 (sin contar diciembre 2021) es 22530355248
El costo promedio de gasto en cada apartado es el siguiente:


Gastos
ACTIVIDADES DESTINADAS A LA INTERACCIÓN CON LA COMUNIDAD              2.419541e+04
ARRIENDO DE INMUEBLE                                                  6.756028e+05
ARRIENDO DE OFICINA MÓVIL                                             3.199333e+04
ARRIENDO DE OFICINAS VIRTUALES                                        1.311040e+02
CONSUMOS BÁSICOS                                                      5.708243e+04
CONTRATACIÓN SERVICIO DE ALMACENAMIENTO                               1.117569e+02
CORRESPONDENCIA                                                       1.886440e+04
COVID-19 PERSONAL DE APOYO                                            5.829783e+03
DIFUSIÓN                                                              7.933815e+05
EQUIPAMIENTO OFICINA PARLAMENTARIA                                    3.658052e+04
GASTOS DE MANTENCIÓN OFICINA PARLAMENTARIA (INMUEBLE)                 2.972624e+04
HABILITACIÓN DE SEDES PARLAMENTARIAS (CON AUTORIZACIÓN DE CRAP)       5.182565e+

Vemos que el gasto total en costos operacionales del 2019 al 2021 sin contar diciembre del 2021 es:
22.530.355.248, 22 mil millones y quinientos millones.

## Veamos quiénes gastan más en ciertos aspectos específicos:


In [17]:
import sqlite3

con = sqlite3.connect(":memory:")
try:
        costos_operacionales.to_sql('costosOperacionales', con, index=False)
        consultorias_externas.to_sql('consultoriasExternas', con, index=False)
        equipo_de_apoyo.to_sql('EquipoApoyo', con, index=False)
except ValueError:
        print('Celda ya ejecutada anteriormente')


cur = con.cursor()

query = """PRAGMA table_info(costosOperacionales);""" # muestra las columnas de la tabla

cur.execute(query)
resultado = cur.fetchall()

# # We can also close the connection if we are done with it.
# # Just be sure any changes have been committed or they will be lost.
# con.close()


  sql.to_sql(


In [13]:
resultado

[(0, 'Unnamed: 0', 'INTEGER', 0, None, 0),
 (1, 'diputado', 'TEXT', 0, None, 0),
 (2, 'Anio', 'INTEGER', 0, None, 0),
 (3, 'Mes', 'INTEGER', 0, None, 0),
 (4, 'Gastos', 'TEXT', 0, None, 0),
 (5, 'Montos', 'INTEGER', 0, None, 0)]

In [None]:
agrupacion_por_tipo_de_gasto_y_diputado = costos_operacionales.groupby(by=['Gastos', 'diputado'])
gasto_por_tipo_y_diputado = agrupacion_por_tipo_de_gasto_y_diputado['Montos'].sum()

# formato esperado: Actividad: nom : monto
top_gastos_por_diputado = {}

for activ, deputy, monto in gasto_por_tipo_y_diputado.items():
    

In [None]:
mean_values = np.sort(mean_values)
limite_bajo = mean_values[int(Nboot * 0.16)]
limite_alto = mean_values[int(Nboot * 0.84)]
print("El intervalo de confianza al 68% es: [{}:{}]".format(limite_bajo, limite_alto))