In [1]:

import pandas as pd
from datetime import datetime, timedelta

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import gaussian_kde


import warnings
warnings.filterwarnings('ignore')


In [1]:
## RUTA BASES
# ruta_input = r'C:\Users\User_1\Desktop\PUCP\APOYO\02 Proyectos\Elecciones_2021\inputs' <- EJEMPLO
# ruta_bases = r'C:\Users\User_1\Desktop\PUCP\APOYO\02 Proyectos\Elecciones_2021\inputs\hoja_vida' <- EJEMPLO
# ruta_insumos = r'C:\Users\User_1\Desktop\PUCP\APOYO\02 Proyectos\Elecciones_2021\insumos_bi' <- EJEMPLO

ruta_input = r'<:ingresa una ruta correspondiente a los archivos:>'
ruta_bases = r'<:ingresa una ruta correspondiente a los archivos:>'
ruta_insumos = r'<:ingresa una ruta correspondiente a los archivos:>'


### IMPORTACIÓN DE BASES

In [3]:
## INFO GENERAL DE PARTIDOS Y CANDIDATOS CONGRESALES
df_partidos_cong = pd.read_csv(ruta_input + '/base_partidos_congresal.csv',encoding='latin-1',
                         dtype='str')
df_candidatos_cong = pd.read_csv(ruta_input + '/base_candidatos_congresal.csv',encoding='latin-1',
                            dtype='str')

df_part_cand_cong = df_partidos_cong.merge(df_candidatos_cong,how='left',on='idSolicitudLista',suffixes=[None,'_cand'])

## UBIGEO DEPARTAMENTOS DE POSTULACIÓN
df_departamentos = pd.read_csv(ruta_input + '/base_departamentos.csv',encoding='latin-1',dtype={'ubigeo_region':'str'})

df_part_cand_cong = df_part_cand_cong.merge(df_departamentos,how='left',right_on='ubigeo_region',left_on='strUbigeo')


In [4]:
## FUNCION: IMPORTACIÓN DE BASES HOJAS DE VIDA

def import_base_hdv(ruta_excel,merge_key='idHojaVida'):
    df_base = pd.read_excel(ruta_bases + ruta_excel,encoding='utf-8-sig',dtype='str')
    
    ## Añadimos info extra
    df_base = df_base.merge(df_part_cand_cong[[merge_key,'strOrganizacionPolitica','strCandidato','region']],
                                          on=merge_key,how='left')
    
    ## Filtrado de solo congresistas
    df_base = df_base[df_base[merge_key].isin(df_part_cand_cong[merge_key])]
    
    ## Añadimos una región [GENERAL]
    
    df_base_general = df_base.copy()
    df_base_general['region'] = 'GENERAL'
    
    df_base = pd.concat([df_base,df_base_general])
    
    return df_base


In [5]:
## IMPORTACIÓN HDV

df_info_personal = import_base_hdv('/base_candidatos_DatosPersonales.xlsx',merge_key='idCandidato')
df_ingresos = import_base_hdv('/base_candidatos_Ingresos.xlsx')

df_exp_laboral = import_base_hdv('/base_candidatos_ExperienciaLaboral.xlsx')

df_sentencia_oblig = import_base_hdv('/base_candidatos_SentenciaObliga.xlsx')
df_sentencia_penal = import_base_hdv('/base_candidatos_SentenciaPenal.xlsx')

df_exp_partidaria = import_base_hdv('/base_candidatos_CargoPartidario.xlsx')
df_exp_elecciones = import_base_hdv('/base_candidatos_CargoEleccion.xlsx')

df_edu_postgrado = import_base_hdv('/base_candidatos_EduPosgrago.xlsx')
df_edu_univ = import_base_hdv('/base_candidatos_EduUniversitaria_2.xlsx')

df_bienes_inmuebles = import_base_hdv('/base_candidatos_BienInmueble.xlsx')
df_bienes_muebles = import_base_hdv('/base_candidatos_BienMueble.xlsx')

## GENERACIÓN DE INSUMOS [1-9]

### 1. EDAD PROMEDIO

In [12]:
df_info_personal['edad'] = ((datetime.now() - pd.to_datetime(df_info_personal['strFechaNacimiento'],format='%d/%m/%Y')) / \
                            timedelta(days=365)
                           ).astype('int')

df_info_personal['menor_40'] = df_info_personal['edad'] < 40
df_edades_partido = df_info_personal.groupby(['region','strOrganizacionPolitica']) \
                                    .agg({'edad':'mean','menor_40':'sum'}) \
                                    .sort_values('menor_40',ascending=False).reset_index()

In [17]:
df_edades_partido[df_edades_partido['region'] == 'GENERAL'].head()

Unnamed: 0,region,strOrganizacionPolitica,edad,menor_40
0,GENERAL,FRENTE POPULAR AGRICOLA FIA DEL PERU - FREPAP,42.975,78.0
1,GENERAL,PARTIDO MORADO,43.339623,62.0
2,GENERAL,PODEMOS PERU,44.96129,60.0
3,GENERAL,RENOVACION POPULAR,46.170886,55.0
4,GENERAL,VICTORIA NACIONAL,45.177215,53.0


### 2. INGRESOS PROMEDIO

In [18]:
df_ingresos_declarados = df_ingresos[df_ingresos['strTengoIngresos']=='1']

df_ingresos_declarados['ingreso_publico'] = df_ingresos_declarados[['decRemuBrutaPublico','decRentaIndividualPublico',
                                                       'decOtroIngresoPublico']].astype('float').sum(axis=1)

df_ingresos_declarados['ingreso_privado'] = df_ingresos_declarados[['decRemuBrutaPrivado','decRentaIndividualPrivado',
                                                       'decOtroIngresoPrivado']].astype('float').sum(axis=1)

df_ingresos_declarados['ingreso_total'] = df_ingresos_declarados[['ingreso_publico',
                                                                   'ingreso_privado']].astype('float').sum(axis=1)


In [19]:
## Obtención de media y mediana por tipo de ingresos

df_ingresos_partido = df_ingresos_declarados.groupby(['region','strOrganizacionPolitica']) \
                                            .agg({'ingreso_publico':['mean','median'],
                                                  'ingreso_privado':['mean','median'],
                                                  'ingreso_total':['mean','median'],
                                                 })

df_ingresos_partido = df_ingresos_partido.reset_index()
df_ingresos_partido.columns = df_ingresos_partido.columns.droplevel(level=1)

df_ingresos_partido.columns = ['region', 'strOrganizacionPolitica', 'mean_publico',
       'median_publico', 'mean_privado', 'median_privado',
       'mean_ingresos', 'median_ingresos']


In [20]:
df_ingresos_partido[df_ingresos_partido['region'] == 'GENERAL'].sort_values('median_ingresos',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,mean_publico,median_publico,mean_privado,median_privado,mean_ingresos,median_ingresos
167,GENERAL,VICTORIA NACIONAL,60559.695,17900.0,480091.960821,22751.0,540651.655821,53397.97
147,GENERAL,ALIANZA PARA EL PROGRESO,37419.422059,19674.0,45239.553382,15896.18,82658.975441,50984.0
152,GENERAL,FUERZA POPULAR,27107.231224,0.0,77928.166327,24000.0,105035.397551,48000.0
148,GENERAL,AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,23109.637521,0.0,49629.632231,30000.0,72739.269752,48000.0
163,GENERAL,PODEMOS PERU,21141.684921,0.0,185522.072937,28900.0,206663.757857,44438.5


### 3. EXPERIENCIA LABORAL

In [21]:
def get_año_exp_neto(x,col1,col2):
    str_list_1 = x[col1]
    str_list_2 = x[col2]
    
    list_1 = [int(x) for x in str_list_1.tolist()]
    list_2 = [int(x) for x in str_list_2.tolist()]
    list_2 = [datetime.now().year if x == 0 else x for x in list_2[:]]

    total_years = []
    for year_ini,year_fin in zip(list_1,list_2):
        if year_fin == 0: year_fin = datetime.now().year
        total_years += list(range(year_ini,year_fin+1))

    same_years_acum = 0
    for pair in list(set(zip(list_1,list_2))):
        if pair[0] == pair[1]: same_years_acum += 1
            
    total_years = list(set(total_years))
    total_years.sort()
    
    return get_years_acum(total_years,list_1,list_2) + same_years_acum


In [22]:
def get_years_acum(total_years,list_1,list_2):
    years_acum = 0
    for _index in range(0,len(total_years)):
        if _index == (len(total_years)-1): break
        signal=True
        
        if (total_years[_index+1] - total_years[_index]) == 1 :
            if total_years[_index] in list_2:
                if total_years[_index] in list_1:
                    for index_list in range(0,len(list_1)):
                        if (total_years[_index] == list_1[index_list]) and (list_2[index_list] != list_1[index_list]):
                            years_acum += 1
                            signal= False
                            break
                    if signal:
                        for x,y in zip(list_1,list_2):
                            if (total_years[_index] in range(x,y+1)) and (total_years[_index] != y):
                                years_acum += 1
                                break
                else:
                    for x,y in zip(list_1,list_2):
                        if (total_years[_index] in range(x,y+1)) and (total_years[_index] != y):
                            years_acum += 1
                            break
            else:
                years_acum += 1
                
    return years_acum

In [23]:
## Obtención de número de empleos y años de experiencia laboral

df_exp_laboral_declarados = df_exp_laboral[df_exp_laboral['strTengoExpeLaboral']=='1'].drop_duplicates(subset='idHVExpeLaboral')

df_exp_laboral_cand = df_exp_laboral[['idHojaVida',
       'strOrganizacionPolitica', 'strCandidato', 'region']]

df_n_empleos = df_exp_laboral_declarados.groupby('idHojaVida').size().reset_index(name='n_empleos')

df_años_exp = df_exp_laboral_declarados.groupby('idHojaVida') \
                                        .apply(lambda x: get_año_exp_neto(x,'strAnioTrabajoDesde','strAnioTrabajoHasta')) \
                .reset_index(name='años_exp')

df_exp_laboral_cand = df_exp_laboral_cand.merge(df_n_empleos,on='idHojaVida',how='left')
df_exp_laboral_cand = df_exp_laboral_cand.merge(df_años_exp,on='idHojaVida',how='left')


In [24]:
df_exp_lab_partido = df_exp_laboral_cand.groupby(['region','strOrganizacionPolitica']).agg({'años_exp':'mean'}).reset_index()
df_exp_lab_partido.columns = ['region', 'strOrganizacionPolitica', 'mean_años_exp']


In [25]:
df_exp_lab_partido[df_exp_lab_partido['region']=='GENERAL'].sort_values('mean_años_exp',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,mean_años_exp
163,GENERAL,PARTIDO POPULAR CRISTIANO - PPC,11.886486
151,GENERAL,DEMOCRACIA DIRECTA,10.941176
150,GENERAL,AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,10.87574
149,GENERAL,ALIANZA PARA EL PROGRESO,10.706827
155,GENERAL,JUNTOS POR EL PERU,10.522523


### 4. SENTENCIAS PENALES Y OBLIGATORIAS

In [26]:
## numero candidatos con sentencias penales
df_penal_cand = df_sentencia_penal[df_sentencia_penal['strTengoSentenciaPenal']=='1'] \
                                        .drop_duplicates(subset=['idHojaVida','region'])

df_penal_cand = df_penal_cand.groupby(['region','strOrganizacionPolitica']).size().reset_index(name='n_cand_penales')

## numero de sentencias penales
df_penal_partido = df_sentencia_penal[df_sentencia_penal['strTengoSentenciaPenal']=='1'] \
                                .groupby(['region','strOrganizacionPolitica']).size().reset_index(name='n_sentencias_penales')


In [27]:
## numero candidatos con sentencias obligatorias
df_oblig_cand = df_sentencia_oblig[df_sentencia_oblig['strTengoSentenciaObliga']=='1'] \
                                        .drop_duplicates(subset=['region','idHojaVida'])

df_oblig_cand = df_oblig_cand.groupby(['region','strOrganizacionPolitica']).size().reset_index(name='n_cand_oblig')

## numero de sentencias obligatorias
df_oblig_partido = df_sentencia_oblig[df_sentencia_oblig['strTengoSentenciaObliga']=='1'] \
                                .groupby(['region','strOrganizacionPolitica']).size().reset_index(name='n_sentencias_oblig')


In [28]:
df_sentencias_partido = df_penal_cand.merge(df_penal_partido,on=['region','strOrganizacionPolitica'],how='outer')
df_sentencias_partido = df_sentencias_partido.merge(df_oblig_cand,on=['region','strOrganizacionPolitica'],how='outer')
df_sentencias_partido = df_sentencias_partido.merge(df_oblig_partido,on=['region','strOrganizacionPolitica'],how='outer')

df_sentencias_partido = df_sentencias_partido.fillna(0)

In [29]:
df_sentencias_partido[df_sentencias_partido['region']=='GENERAL'].sort_values('n_cand_penales',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,n_cand_penales,n_sentencias_penales,n_cand_oblig,n_sentencias_oblig
41,GENERAL,UNION POR EL PERU,17.0,19.0,9.0,15.0
34,GENERAL,PARTIDO POLITICO NACIONAL PERU LIBRE,8.0,10.0,11.0,12.0
27,GENERAL,"EL FRENTE AMPLIO POR JUSTICIA, VIDA Y LIBERTAD",7.0,10.0,1.0,2.0
23,GENERAL,ACCION POPULAR,7.0,9.0,10.0,15.0
31,GENERAL,PARTIDO DEMOCRATICO SOMOS PERU,6.0,8.0,8.0,9.0


### 5. EXPERIENCIA PARTIDARIA

In [30]:
df_exp_partidaria_declarada = df_exp_partidaria[df_exp_partidaria['strTengoCargoPartidario']=='1']

df_años_exp_parti = df_exp_partidaria_declarada.groupby('idHojaVida') \
                        .apply(lambda x: get_año_exp_neto(x,'strAnioCargoPartiDesde','strAnioCargoPartiHasta')) \
                        .reset_index(name='años_exp_partidaria')

df_exp_parti_cand = df_exp_partidaria[['idHojaVida',
       'strOrganizacionPolitica', 'strCandidato', 'region']].drop_duplicates(subset=['idHojaVida','region'])


In [31]:
df_exp_partidaria_partido = df_exp_parti_cand.merge(df_años_exp_parti,on='idHojaVida',how='left')

In [32]:
df_exp_partidaria_partido = df_exp_partidaria_partido[~df_exp_partidaria_partido['region'].isnull()] \
                                    .groupby(['region','strOrganizacionPolitica']) \
                                    .agg({'años_exp_partidaria':['count','mean']}) \
                                    .reset_index()

df_exp_partidaria_partido.columns = df_exp_partidaria_partido.columns.droplevel(1)
df_exp_partidaria_partido.columns = ['region', 'strOrganizacionPolitica', 'n_cand_exp_parti','mean_años_exp_parti']

df_exp_partidaria_partido = df_exp_partidaria_partido.fillna(0)

In [33]:
df_exp_partidaria_partido[df_exp_partidaria_partido['region']=='GENERAL'] \
                                    .sort_values('mean_años_exp_parti',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,n_cand_exp_parti,mean_años_exp_parti
164,GENERAL,PERU PATRIA SEGURA,23,7.0
156,GENERAL,PARTIDO APRISTA PERUANO,10,6.4
154,GENERAL,FUERZA POPULAR,31,4.870968
149,GENERAL,ALIANZA PARA EL PROGRESO,38,4.815789
148,GENERAL,ACCION POPULAR,64,4.6875


### 5.5 COHESIÓN PARTIDARIA

In [34]:
df_años_partido = df_exp_partidaria_declarada[~df_exp_partidaria_declarada['strOrgPolCargoPartidario'].isnull()]
df_años_partido = df_años_partido[df_años_partido.apply(
                                lambda x: (x['strOrganizacionPolitica'] in x['strOrgPolCargoPartidario']),axis=1)]

In [35]:
df_años_cohesion = df_años_partido.groupby('idHojaVida') \
                                        .apply(lambda x: get_año_exp_neto(x,'strAnioCargoPartiDesde','strAnioCargoPartiHasta')) \
                .reset_index(name='años_cohe_partido')


df_años_cohesion_2 = df_años_exp_parti.merge(df_años_cohesion,on='idHojaVida',how='left').fillna(0)
df_años_cohesion_2['porc_cohesion'] =  df_años_cohesion_2['años_cohe_partido'] / df_años_cohesion_2['años_exp_partidaria']

df_n_exp_partidaria_declarada = df_exp_partidaria_declarada.groupby(['strOrganizacionPolitica','region']).size().reset_index(name='n_declara_partido')

df_cohe_partidaria_cand = df_exp_partidaria_declarada.merge(df_años_cohesion_2,on='idHojaVida',how='left')
# df_cohe_partidaria_cand = df_cohe_partidaria_cand.merge(df_n_exp_partidaria_declarada,on=['strOrganizacionPolitica','region'],how='left')


In [36]:
df_cohe_partidaria_part = df_cohe_partidaria_cand.groupby(['strOrganizacionPolitica','region']) \
                                                .agg({'porc_cohesion':'mean'}).reset_index().fillna(0)

In [37]:
df_cohe_partidaria_part[df_cohe_partidaria_part['region']=='GENERAL'] \
                                    .sort_values('porc_cohesion',ascending=False).head()

Unnamed: 0,strOrganizacionPolitica,region,porc_cohesion
145,PARTIDO APRISTA PERUANO,GENERAL,1.0
99,FRENTE POPULAR AGRICOLA FIA DEL PERU - FREPAP,GENERAL,1.0
192,PARTIDO NACIONALISTA PERUANO,GENERAL,0.954545
6,ACCION POPULAR,GENERAL,0.938406
239,PARTIDO POPULAR CRISTIANO - PPC,GENERAL,0.928571


### 6. EXPERIENCIA POLITICA

In [38]:
df_exp_politica_declarada = df_exp_elecciones[df_exp_elecciones['strCargoEleccion']=='1']
df_exp_politica_declarada = df_exp_politica_declarada[~df_exp_politica_declarada['strAnioCargoElecDesde'].isnull()]

df_años_exp_politica = df_exp_politica_declarada.groupby('idHojaVida') \
                        .apply(lambda x: get_año_exp_neto(x,'strAnioCargoElecDesde','strAnioCargoElecHasta')) \
                        .reset_index(name='años_exp_politica')

df_exp_polit_cand = df_exp_elecciones[['idHojaVida',
       'strOrganizacionPolitica', 'strCandidato', 'region']].drop_duplicates(subset=['idHojaVida','region'])


In [39]:
df_exp_politica_partido = df_exp_polit_cand.merge(df_años_exp_politica,on='idHojaVida',how='left')

In [40]:
df_exp_politica_partido = df_exp_politica_partido[~df_exp_politica_partido['region'].isnull()] \
                                    .groupby(['region','strOrganizacionPolitica']) \
                                    .agg({'años_exp_politica':['count','mean']}) \
                                    .reset_index()

df_exp_politica_partido.columns = df_exp_politica_partido.columns.droplevel(1)
df_exp_politica_partido.columns = ['region', 'strOrganizacionPolitica', 'n_cand_exp_polit','mean_años_exp_polit']

df_exp_politica_partido = df_exp_politica_partido.fillna(0)

In [41]:
df_exp_politica_partido[df_exp_politica_partido['region']=='GENERAL'] \
                                    .sort_values('n_cand_exp_polit',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,n_cand_exp_polit,mean_años_exp_polit
149,GENERAL,ALIANZA PARA EL PROGRESO,40,4.7
169,GENERAL,VICTORIA NACIONAL,28,3.892857
155,GENERAL,JUNTOS POR EL PERU,26,3.846154
165,GENERAL,PODEMOS PERU,24,4.166667
154,GENERAL,FUERZA POPULAR,23,3.73913


### 7. EDUCACIÓN UNIVERSITARIA

In [42]:
df_edu_univ_declarada = df_edu_univ[df_edu_univ['strTengoEduUniversitaria']=='1']
df_edu_univ_partido = df_edu_univ_declarada.drop_duplicates(subset=['region','idHojaVida']).groupby(['region','strOrganizacionPolitica']).size().reset_index(name='n_cand_univ')


In [43]:
df_edu_univ_partido[df_edu_univ_partido['region']=='GENERAL'].sort_values('n_cand_univ',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,n_cand_univ
157,GENERAL,PARTIDO MORADO,139
147,GENERAL,ALIANZA PARA EL PROGRESO,135
146,GENERAL,ACCION POPULAR,133
152,GENERAL,FUERZA POPULAR,132
167,GENERAL,VICTORIA NACIONAL,126


### 8. EDUCACIÓN POSTGRADO

In [44]:
df_edu_postgrado_declarado = df_edu_postgrado[df_edu_postgrado['strTengoPosgrado']=='1']
df_edu_postgrado_declarado = df_edu_postgrado_declarado.drop_duplicates(['region','idHojaVida'])

In [45]:
df_cant_no_post = df_edu_postgrado_declarado[df_edu_postgrado_declarado['strConcluidoPosgrado']=='2'] \
                                    .groupby(['region','strOrganizacionPolitica']).size().reset_index(name='cant_no_post')

df_cant_maestrias = df_edu_postgrado_declarado[df_edu_postgrado_declarado['strEsMaestro']=='1'] \
                                    .groupby(['region','strOrganizacionPolitica']).size().reset_index(name='cant_maestrias')

df_cant_doctor = df_edu_postgrado_declarado[df_edu_postgrado_declarado['strEsDoctor']=='1'] \
                                    .groupby(['region','strOrganizacionPolitica']).size().reset_index(name='cant_doctores')

df_posgrado_partido = df_cant_no_post.merge(df_cant_maestrias,on=['region','strOrganizacionPolitica'],how='outer')
df_posgrado_partido = df_posgrado_partido.merge(df_cant_doctor,on=['region','strOrganizacionPolitica'],how='outer')

df_posgrado_partido = df_posgrado_partido.fillna(0)

In [46]:
df_posgrado_partido[df_posgrado_partido['region']=='GENERAL'].sort_values('cant_maestrias',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,cant_no_post,cant_maestrias,cant_doctores
57,GENERAL,PARTIDO MORADO,18.0,34.0,4.0
48,GENERAL,ALIANZA PARA EL PROGRESO,10.0,27.0,12.0
67,GENERAL,VICTORIA NACIONAL,15.0,26.0,8.0
65,GENERAL,RENOVACION POPULAR,14.0,26.0,2.0
54,GENERAL,JUNTOS POR EL PERU,14.0,24.0,3.0


### 8.5 AÑOS EDUCACIÓN

In [47]:
df_n_candidatos = df_info_personal.groupby(['region','strOrganizacionPolitica']).size().reset_index(name='n_candidatos')

In [48]:
df_años_edu = df_n_candidatos.merge(df_edu_univ_partido,how='left',on=['region','strOrganizacionPolitica']).fillna(0)
df_años_edu = df_años_edu.merge(df_posgrado_partido,how='left',on=['region','strOrganizacionPolitica']).fillna(0)

In [49]:
df_años_edu['años_univ'] = df_años_edu['n_cand_univ']*5
df_años_edu['años_no_post'] = df_años_edu['cant_no_post']*2
df_años_edu['años_maestria'] = df_años_edu['cant_maestrias']*3
df_años_edu['años_doctorado'] = df_años_edu['cant_doctores']*5


In [50]:
df_años_edu['prom_años_edu_sup'] = df_años_edu[['años_univ','años_no_post','años_maestria','años_doctorado']].sum(axis=1)\
                                                /df_años_edu['n_candidatos']


In [51]:
df_años_edu_sup = df_años_edu[['region','strOrganizacionPolitica','prom_años_edu_sup']]

In [52]:
df_años_edu_sup[df_años_edu_sup['region']=='GENERAL'].sort_values('prom_años_edu_sup',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,prom_años_edu_sup
159,GENERAL,PARTIDO MORADO,5.36478
149,GENERAL,ALIANZA PARA EL PROGRESO,5.225
169,GENERAL,VICTORIA NACIONAL,4.924051
148,GENERAL,ACCION POPULAR,4.886076
154,GENERAL,FUERZA POPULAR,4.811321


### 9. BIENES INMUEBLES

In [53]:
df_bienes_inmuebles = df_bienes_inmuebles.drop_duplicates(subset=['region','idHVBienInmueble'])
df_bienes_inmuebles['decAutovaluo'] = df_bienes_inmuebles['decAutovaluo'].astype('float')

df_bienes_inmuebles_cand = df_bienes_inmuebles[['idHojaVida',
       'strOrganizacionPolitica', 'strCandidato', 'region']].drop_duplicates(subset=['region','idHojaVida'])

df_bienes_inmuebles_total = df_bienes_inmuebles.groupby(['region','idHojaVida']) \
                                                .agg({'decAutovaluo':'sum'}) \
                                                .reset_index()

df_bienes_inmuebles_cand = df_bienes_inmuebles_cand.merge(df_bienes_inmuebles_total,on=['region','idHojaVida'],how='outer')

In [54]:
df_bienes_inmuebles_partido = df_bienes_inmuebles_cand.groupby(['region','strOrganizacionPolitica']) \
                                                        .agg({'decAutovaluo':'median'}).reset_index()

df_bienes_inmuebles_partido.columns = ['region','strOrganizacionPolitica','mediana_inmuebles']

In [55]:
df_bienes_inmuebles_partido[df_bienes_inmuebles_partido['region']=='GENERAL'] \
                                    .sort_values('mediana_inmuebles',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,mediana_inmuebles
149,GENERAL,ALIANZA PARA EL PROGRESO,147802.25
150,GENERAL,AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,80000.0
154,GENERAL,FUERZA POPULAR,64155.38
162,GENERAL,PARTIDO POLÍTICO CONTIGO,52000.0
169,GENERAL,VICTORIA NACIONAL,50000.0


In [56]:
df_inmuebles_declara_cand = df_bienes_inmuebles_cand[df_bienes_inmuebles_cand['decAutovaluo'] > 0]
df_inmuebles_declara_partido = df_inmuebles_declara_cand.groupby(['region','strOrganizacionPolitica']) \
                                                        .agg({'decAutovaluo':['count','median']}).reset_index()

df_inmuebles_declara_partido.columns = df_inmuebles_declara_partido.columns.droplevel(1)
df_inmuebles_declara_partido.columns = ['region','strOrganizacionPolitica','n_declara_inmuebles','mediana_inmuebles']

In [57]:
df_inmuebles_declara_partido[df_inmuebles_declara_partido['region']=='GENERAL'] \
                                    .sort_values('mediana_inmuebles',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,n_declara_inmuebles,mediana_inmuebles
153,GENERAL,PARTIDO FRENTE DE LA ESPERANZA 2021,7,320000.0
162,GENERAL,RENOVACION POPULAR,83,317510.0
144,GENERAL,ALIANZA PARA EL PROGRESO,101,308000.0
145,GENERAL,AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,90,284340.31
160,GENERAL,PODEMOS PERU,75,255670.0


### 10. BIENES MUEBLES

In [58]:
df_bienes_muebles = df_bienes_muebles.drop_duplicates(subset=['region','idHVBienMueble'])
df_bienes_muebles['decValor'] = df_bienes_muebles['decValor'].astype('float')

df_bienes_muebles_cand = df_bienes_muebles[['idHojaVida',
       'strOrganizacionPolitica', 'strCandidato', 'region']].drop_duplicates(subset=['region','idHojaVida'])

df_bienes_muebles_total = df_bienes_muebles.groupby(['region','idHojaVida']) \
                                                .agg({'decValor':'sum'}) \
                                                .reset_index()

df_bienes_muebles_cand = df_bienes_muebles_cand.merge(df_bienes_muebles_total,on=['region','idHojaVida'],how='outer')

In [59]:
df_bienes_muebles_partido = df_bienes_muebles_cand.groupby(['region','strOrganizacionPolitica']) \
                                                        .agg({'decValor':'median'}).reset_index()

df_bienes_muebles_partido.columns = ['region','strOrganizacionPolitica','mediana_muebles']

In [60]:
df_bienes_muebles_partido[df_bienes_muebles_partido['region']=='GENERAL'] \
                                    .sort_values('mediana_muebles',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,mediana_muebles
149,GENERAL,ALIANZA PARA EL PROGRESO,6750.0
150,GENERAL,AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,4500.0
157,GENERAL,PARTIDO DEMOCRATICO SOMOS PERU,3650.0
154,GENERAL,FUERZA POPULAR,3374.5
159,GENERAL,PARTIDO MORADO,2500.0


In [61]:
df_muebles_declara_cand = df_bienes_muebles_cand[df_bienes_muebles_cand['decValor'] > 0]
df_muebles_declara_partido = df_muebles_declara_cand.groupby(['region','strOrganizacionPolitica']) \
                                                        .agg({'decValor':['count','median']}).reset_index()

df_muebles_declara_partido.columns = df_muebles_declara_partido.columns.droplevel(1)
df_muebles_declara_partido.columns = ['region','strOrganizacionPolitica','n_declara_muebles','mediana_muebles']

In [62]:
df_muebles_declara_partido[df_muebles_declara_partido['region']=='GENERAL'] \
                                    .sort_values('mediana_muebles',ascending=False).tail()

Unnamed: 0,region,strOrganizacionPolitica,n_declara_muebles,mediana_muebles
133,GENERAL,FRENTE POPULAR AGRICOLA FIA DEL PERU - FREPAP,58,12900.0
141,GENERAL,PARTIDO POLITICO NACIONAL PERU LIBRE,68,12225.0
135,GENERAL,JUNTOS POR EL PERU,55,10000.0
136,GENERAL,PARTIDO APRISTA PERUANO,6,9000.0
132,GENERAL,"EL FRENTE AMPLIO POR JUSTICIA, VIDA Y LIBERTAD",45,9000.0


In [63]:
df_patrimonio_partido = df_inmuebles_declara_partido.merge(df_muebles_declara_partido,
                                                           on=['region','strOrganizacionPolitica'],how='outer')
df_patrimonio_partido = df_patrimonio_partido.fillna(0)

df_patrimonio_partido['total_bienes'] = df_patrimonio_partido['mediana_inmuebles'] + \
                                            df_patrimonio_partido['mediana_muebles']

In [64]:
df_patrimonio_partido[df_patrimonio_partido['region']=='GENERAL'] \
                                    .sort_values('total_bienes',ascending=False).head()

Unnamed: 0,region,strOrganizacionPolitica,n_declara_inmuebles,mediana_inmuebles,n_declara_muebles,mediana_muebles,total_bienes
162,GENERAL,RENOVACION POPULAR,83.0,317510.0,77.0,39600.0,357110.0
144,GENERAL,ALIANZA PARA EL PROGRESO,101.0,308000.0,89.0,42840.0,350840.0
153,GENERAL,PARTIDO FRENTE DE LA ESPERANZA 2021,7.0,320000.0,10.0,15000.0,335000.0
145,GENERAL,AVANZA PAIS - PARTIDO DE INTEGRACION SOCIAL,90.0,284340.31,74.0,40000.0,324340.31
164,GENERAL,VICTORIA NACIONAL,95.0,254486.0,80.0,42600.0,297086.0


## RANKING POR DIMENSION [1-3]

### 1. CONSOLIDADO DE BASES

In [65]:
df_base_partido = df_info_personal[['region','strOrganizacionPolitica']].drop_duplicates()

In [66]:
## 1. EDAD
df_consolidado_partido = df_base_partido.merge(df_edades_partido,on=['region','strOrganizacionPolitica'],how='outer')

## 2. INGRESOS
df_consolidado_partido = df_consolidado_partido.merge(df_ingresos_partido,on=['region','strOrganizacionPolitica'],how='outer')
df_consolidado_partido = df_consolidado_partido.drop(['mean_publico','mean_privado','mean_ingresos'],axis=1)

## 3. AÑOS EXPERIENCIA LABORAL
df_consolidado_partido = df_consolidado_partido.merge(df_exp_lab_partido,on=['region','strOrganizacionPolitica'],how='outer')

## 4. SENTENCIAS PENALES Y OBLIGATORIAS
df_consolidado_partido = df_consolidado_partido.merge(df_sentencias_partido,on=['region','strOrganizacionPolitica'],how='outer')
df_consolidado_partido = df_consolidado_partido.drop(['n_sentencias_penales','n_sentencias_oblig'],axis=1)


In [67]:
## 5. EXPERIENCIA PARTIDARIA
df_consolidado_partido = df_consolidado_partido.merge(df_exp_partidaria_partido,
                                                      on=['region','strOrganizacionPolitica'],how='outer')

df_consolidado_partido = df_consolidado_partido.merge(df_cohe_partidaria_part,
                                                      on=['region','strOrganizacionPolitica'],how='outer')

## 6. EXPERIENCIA POLITICA
df_consolidado_partido = df_consolidado_partido.merge(df_exp_politica_partido,
                                                      on=['region','strOrganizacionPolitica'],how='outer')
## 7. EDUCACION UNIVERSITARIA
df_consolidado_partido = df_consolidado_partido.merge(df_edu_univ_partido,
                                                      on=['region','strOrganizacionPolitica'],how='outer')
## 8. EDUCACION POSTGRADO
df_consolidado_partido = df_consolidado_partido.merge(df_posgrado_partido,
                                                      on=['region','strOrganizacionPolitica'],how='outer')

df_consolidado_partido = df_consolidado_partido.merge(df_años_edu_sup,
                                                      on=['region','strOrganizacionPolitica'],how='outer')

## 9-10. BIENES MUEBLES E INMUEBLES
df_consolidado_partido = df_consolidado_partido.merge(df_patrimonio_partido,
                                                      on=['region','strOrganizacionPolitica'],how='outer')

df_consolidado_partido = df_consolidado_partido.drop(['n_declara_inmuebles','mediana_inmuebles',
                                                      'n_declara_muebles', 'mediana_muebles'],axis=1)

df_consolidado_partido = df_consolidado_partido.fillna(0)


In [68]:
df_consolidado_partido[df_consolidado_partido['region']=='GENERAL'].head()

Unnamed: 0,region,strOrganizacionPolitica,edad,menor_40,median_publico,median_privado,median_ingresos,mean_años_exp,n_cand_penales,n_cand_oblig,...,mean_años_exp_parti,porc_cohesion,n_cand_exp_polit,mean_años_exp_polit,n_cand_univ,cant_no_post,cant_maestrias,cant_doctores,prom_años_edu_sup,total_bienes
496,GENERAL,RENACIMIENTO UNIDO NACIONAL,46.436709,52.0,0.0,19500.0,24000.0,10.205405,1.0,3.0,...,2.74359,0.302128,7,3.428571,64.0,6.0,8.0,3.0,2.348101,144350.0
497,GENERAL,UNION POR EL PERU,47.214286,41.0,0.0,18414.44,32500.0,9.33945,17.0,9.0,...,3.095238,0.446405,20,4.0,114.0,12.0,22.0,3.0,4.383117,198500.0
498,GENERAL,PARTIDO APRISTA PERUANO,49.0,6.0,0.0,24000.0,29000.0,9.95,1.0,0.0,...,6.4,1.0,0,0.0,11.0,2.0,2.0,1.0,4.375,117142.5
499,GENERAL,ACCION POPULAR,49.398734,38.0,12000.0,12000.0,36200.0,9.031447,7.0,10.0,...,4.6875,0.938406,22,3.636364,133.0,14.0,23.0,2.0,4.886076,205000.0
500,GENERAL,PERU PATRIA SEGURA,50.891089,19.0,0.0,20800.0,30000.0,8.991597,1.0,2.0,...,7.0,0.684659,10,3.8,69.0,5.0,7.0,3.0,3.871287,160694.0


### 2. NORMALIZACION DE VARIABLES

In [69]:
def normalize_variable(x,col_name):
    var_series = x[col_name]
    mean_var = var_series.mean()
    sd_var = var_series.std()
    
    return (var_series - mean_var)/sd_var

def get_normalization(df,col_name):
    df_aux = df.groupby(['region']) \
                .apply(lambda x: normalize_variable(x,col_name)) \
                .reset_index(name='norm'+col_name)
    
    df_aux = df_aux.sort_values('level_1')
    return df_aux['norm' + col_name].tolist()


In [70]:
df_consolidado_partido['index_denuncias'] = df_consolidado_partido['n_cand_penales'] + df_consolidado_partido['n_cand_oblig']
df_consolidado_partido['norm_cand_penales'] = get_normalization(df_consolidado_partido,'index_denuncias')

df_consolidado_partido['norm_edu_sup'] = get_normalization(df_consolidado_partido,'prom_años_edu_sup')

df_consolidado_partido['index_exp_polit'] = df_consolidado_partido['n_cand_exp_polit'] * \
                                                df_consolidado_partido['mean_años_exp_polit']
df_consolidado_partido['norm_exp_pol'] = get_normalization(df_consolidado_partido,'index_exp_polit')

df_consolidado_partido['norm_exp_lab'] = get_normalization(df_consolidado_partido,'mean_años_exp')
df_consolidado_partido['norm_edad'] = get_normalization(df_consolidado_partido,'menor_40')
df_consolidado_partido['norm_patrimonio'] = get_normalization(df_consolidado_partido,'total_bienes')
df_consolidado_partido['norm_cohesion'] = get_normalization(df_consolidado_partido,'porc_cohesion')

In [71]:
df_consolidado_partido.head()

Unnamed: 0,region,strOrganizacionPolitica,edad,menor_40,median_publico,median_privado,median_ingresos,mean_años_exp,n_cand_penales,n_cand_oblig,...,total_bienes,index_denuncias,norm_cand_penales,norm_edu_sup,index_exp_polit,norm_exp_pol,norm_exp_lab,norm_edad,norm_patrimonio,norm_cohesion
0,PERUANOS RESIDENTES EN EL EXTRANJERO,RENACIMIENTO UNIDO NACIONAL,42.5,1.0,0.0,32000.0,32000.0,8.5,0.0,0.0,...,231424.81,0.0,-0.333849,-0.550081,0.0,-0.229416,-0.206325,1.141329,-0.969294,-0.84754
1,PERUANOS RESIDENTES EN EL EXTRANJERO,UNION POR EL PERU,48.75,1.0,0.0,160250.31,160250.31,13.75,0.0,0.0,...,927589.555,0.0,-0.333849,1.334622,0.0,-0.229416,0.71372,1.141329,0.631941,-0.84754
2,PERUANOS RESIDENTES EN EL EXTRANJERO,PARTIDO APRISTA PERUANO,63.5,0.0,0.0,219000.0,255000.0,15.75,0.0,0.0,...,874299.97,0.0,-0.333849,1.334622,0.0,-0.229416,1.064213,-0.830057,0.509371,1.241531
3,PERUANOS RESIDENTES EN EL EXTRANJERO,ACCION POPULAR,52.0,1.0,0.0,118135.0,118135.0,13.142857,0.0,0.0,...,250000.0,0.0,-0.333849,-0.378744,0.0,-0.229416,0.60732,1.141329,-0.92657,1.241531
4,PERUANOS RESIDENTES EN EL EXTRANJERO,PERU PATRIA SEGURA,58.5,0.0,0.0,30000.0,30000.0,12.25,0.0,0.0,...,1370700.0,0.0,-0.333849,-0.036071,0.0,-0.229416,0.45085,-0.830057,1.651131,-0.84754


In [73]:
df_consolidado_partido['id'] = df_consolidado_partido['region'] + '-' + df_consolidado_partido['strOrganizacionPolitica']
df_consolidado_partido.to_excel(ruta_insumos + '/ranking_partidos v4.xlsx',index=False,encoding='utf-8-sig')