# ETL

## 2. Transform


In [404]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

pd.set_option('display.max_columns', None)

## Data
1. Unemployment Data
2. Income Tax
3. Elections results

In [66]:
def read_csv_folder(folder_path):
    """
    Read CSV files from a folder and create a DataFrame for each file.

    Parameters:
        folder_path (str): The path to the folder containing the CSV files.

    Returns:
        dict: A dictionary containing the file name as key and a DataFrame containing the data from the CSV file as value.
    """
    dataframes = {}
    for filename in os.listdir(folder_path):
        if filename.endswith('.csv'):
            filepath = os.path.join(folder_path, filename)
            df = pd.read_csv(filepath, encoding='latin1', sep=';',on_bad_lines='skip')
            nombre = filename[:-4]
            dataframes[nombre] = df
    return dataframes

In [178]:
def get_null_counts(df):
    # create a Boolean mask indicating where there are null values
    mask = df.isnull()
    # count the number of null values in each column
    null_counts = mask.sum()
    # create a dataframe with the null counts for each column
    null_df = pd.DataFrame({'null_count': null_counts})
    # return the null dataframe
    return null_df

In [181]:
def export_to_csv(df, file_path):
    
    df.to_csv(file_path, encoding='latin-1', index=True, sep=';')
    
    print(f"File saved to {file_path}")

In [376]:
dict_df = read_csv_folder('/app/data/')

In [377]:
for key, value in dict_df.items():
    print(key)
    exec("{} = pd.DataFrame(value)".format(key))

df_provincias
df_mesas
df_municipios
Paro_por_municipios_2019


# EDA

## Unemployment

Month with data before elections: ***October 2019***

In [116]:
unemployment= Paro_por_municipios_2019[Paro_por_municipios_2019['mes']=='Octubre de 2019']

In [117]:
unemployment.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8127 entries, 73143 to 81269
Data columns (total 20 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Código mes                8127 non-null   int64 
 1   mes                       8127 non-null   object
 2   Código de CA              8127 non-null   int64 
 3   Comunidad Autónoma        8127 non-null   object
 4   Codigo Provincia          8127 non-null   int64 
 5   Provincia                 8127 non-null   object
 6   Codigo Municipio          8127 non-null   int64 
 7    Municipio                8127 non-null   object
 8   total Paro Registrado     8127 non-null   int64 
 9   Paro hombre edad < 25     8127 non-null   int64 
 10  Paro hombre edad 25 -45   8127 non-null   int64 
 11  Paro hombre edad >=45     8127 non-null   int64 
 12  Paro mujer edad < 25      8127 non-null   int64 
 13  Paro mujer edad 25 -45    8127 non-null   int64 
 14  Paro mujer edad >=4

In [179]:
get_null_counts(unemployment)

Unnamed: 0,null_count
mes,0
cod_ccaa,0
ccaa,0
cod_provincia,0
provincia,0
cod_muni,0
municipio,0
paro_total,0
paro_hombre_<25,0
paro_hombre_25_45,0


#### Drop columns

In [119]:
unemployment= unemployment.drop('Código mes ', axis=1)

#### Rename columns

In [120]:
unemployment.rename(columns={' Municipio':'municipio'},inplace=True)
unemployment.rename(columns={'total Paro Registrado':'paro_total'},inplace=True)
unemployment.rename(columns={'Código de CA':'cod_ccaa'},inplace=True)
unemployment.rename(columns={'Comunidad Autónoma':'ccaa'},inplace=True)
unemployment.rename(columns={'Provincia':'provincia'},inplace=True)
unemployment.rename(columns={'Codigo Provincia':'cod_provincia'},inplace=True)
unemployment.rename(columns={'Codigo Municipio':'cod_muni'},inplace=True)
unemployment.rename(columns={'Paro hombre edad < 25':'paro_hombre_<25'},inplace=True)
unemployment.rename(columns={'Paro hombre edad 25 -45 ':'paro_hombre_25_45'},inplace=True)
unemployment.rename(columns={'Paro hombre edad >=45':'paro_hombre_>=25'},inplace=True)
unemployment.rename(columns={'Paro mujer edad < 25':'paro_mujer_<25'},inplace=True)
unemployment.rename(columns={'Paro mujer edad 25 -45 ':'paro_mujer_25_45'},inplace=True)
unemployment.rename(columns={'Paro mujer edad >=45':'paro_mujer_>=45'},inplace=True)
unemployment.rename(columns={'Paro Agricultura':'paro_agricultura'},inplace=True)
unemployment.rename(columns={'Paro Industria':'paro_industria'},inplace=True)
unemployment.rename(columns={'Paro Construcción':'paro_construccion'},inplace=True)
unemployment.rename(columns={'Paro Servicios':'paro_servicios'},inplace=True)
unemployment.rename(columns={'Paro Sin empleo Anterior':'paro_no_empleo_anterior'},inplace=True)

In [130]:
unemployment[["paro_total","paro_hombre_<25","paro_hombre_25_45",'paro_hombre_>=25','paro_mujer_<25','paro_mujer_25_45','paro_mujer_>=45','paro_agricultura','paro_industria','paro_construccion','paro_servicios','paro_no_empleo_anterior']].describe(include="all")

Unnamed: 0,paro_total,paro_hombre_<25,paro_hombre_25_45,paro_hombre_>=25,paro_mujer_<25,paro_mujer_25_45,paro_mujer_>=45,paro_agricultura,paro_industria,paro_construccion,paro_servicios,paro_no_empleo_anterior
count,8127.0,8127.0,8127.0,8127.0,8127.0,8127.0,8127.0,8127.0,8127.0,8127.0,8127.0,8127.0
mean,391.000246,16.61388,61.309708,82.546081,16.153685,97.013904,117.362988,18.372708,33.134244,31.254091,274.716378,33.522825
std,2771.105322,110.355093,451.094691,615.132714,108.590727,656.210717,837.805125,76.4869,187.442733,209.009748,2117.132445,254.872821
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,5.0,0.0,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,3.0,0.0
50%,25.0,1.0,4.0,6.0,1.0,5.0,7.0,1.0,2.0,2.0,16.0,1.0
75%,142.0,6.0,20.0,32.0,6.0,34.0,39.0,9.0,13.0,11.0,91.0,8.0
max,164342.0,6670.0,26851.0,37758.0,6557.0,37781.0,48725.0,2251.0,7453.0,11749.0,132134.0,11897.0


#### Extract KPI
- CCAA, Province and Municipality with higher unemployed people (total)
- CCAA, Province and Municipality with higher unemployed people (per industry) 

In [144]:
unemployment[unemployment['paro_total'].max()==unemployment['paro_total']][['ccaa','provincia','municipio','paro_total']]

Unnamed: 0,ccaa,provincia,municipio,paro_total
80424,"Madrid, Comunidad de",Madrid,Madrid,164342


In [147]:
unemployment[unemployment['paro_industria'].max()==unemployment['paro_industria']][['ccaa','provincia','municipio','paro_industria']]

Unnamed: 0,ccaa,provincia,municipio,paro_industria
80424,"Madrid, Comunidad de",Madrid,Madrid,7453


In [146]:
unemployment[unemployment['paro_agricultura'].max()==unemployment['paro_agricultura']][['ccaa','provincia','municipio','paro_agricultura']]

Unnamed: 0,ccaa,provincia,municipio,paro_agricultura
73577,Andalucía,Huelva,Huelva,2251


In [148]:
unemployment[unemployment['paro_construccion'].max()==unemployment['paro_construccion']][['ccaa','provincia','municipio','paro_construccion']]

Unnamed: 0,ccaa,provincia,municipio,paro_construccion
80424,"Madrid, Comunidad de",Madrid,Madrid,11749


In [149]:
unemployment[unemployment['paro_servicios'].max()==unemployment['paro_servicios']][['ccaa','provincia','municipio','paro_servicios']]

Unnamed: 0,ccaa,provincia,municipio,paro_servicios
80424,"Madrid, Comunidad de",Madrid,Madrid,132134


In [159]:
unemployment.pivot_table(index=['ccaa','provincia'], 
                         values=['paro_industria','paro_servicios','paro_total','paro_construccion','paro_agricultura'],
                         aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,paro_agricultura,paro_construccion,paro_industria,paro_servicios,paro_total
ccaa,provincia,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Andalucía,Almería,6770,5199,2169,38220,57358
Andalucía,Cádiz,5600,14333,8953,98758,146204
Andalucía,Córdoba,7146,5817,6167,44050,70301
Andalucía,Granada,7649,8299,4254,54407,83118
Andalucía,Huelva,9215,3799,2162,29390,48136
Andalucía,Jaén,8748,2855,3718,30263,50845
Andalucía,Málaga,3659,14038,6724,103887,143896
Andalucía,Sevilla,11587,16839,11647,126715,187256
Aragón,Huesca,788,579,732,5966,8725
Aragón,Teruel,331,432,742,3669,5604


In [161]:
unemployment_ok = unemployment.pivot_table(index=['ccaa','provincia'], 
                         values=['paro_industria','paro_servicios','paro_total','paro_construccion','paro_agricultura'],
                         aggfunc='sum')

In [182]:
export_to_csv(unemployment_ok,'/app/data/csv/paro_ok.csv')

File saved to /app/data/csv/paro_ok.csv


----------------------------------------------------

## Election results from Provincias & CCAA


In [315]:
df_provincias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 31 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   tipo_eleccion              957 non-null    int64 
 1   anno                       957 non-null    int64 
 2   mes                        957 non-null    int64 
 3   vuelta                     957 non-null    int64 
 4   codigo_ccaa                957 non-null    int64 
 5   codigo_provincia           957 non-null    int64 
 6   codigo_distrito_electoral  957 non-null    int64 
 7   ambito_territorial         957 non-null    object
 8   poblacion_derecho          957 non-null    int64 
 9   n_diputados                957 non-null    int64 
 10  numero_mesas               957 non-null    int64 
 11  censo_ine                  957 non-null    int64 
 12  censo_escrutinio           957 non-null    int64 
 13  censo_cere                 957 non-null    int64 
 14  votantes_c

In [316]:
df_provincias.head()

Unnamed: 0,tipo_eleccion,anno,mes,vuelta,codigo_ccaa,codigo_provincia,codigo_distrito_electoral,ambito_territorial,poblacion_derecho,n_diputados,numero_mesas,censo_ine,censo_escrutinio,censo_cere,votantes_cere,participacion_1,participacion_2,votos_blancos,votos_nulos,votos_candidaturas,votos_afirmativos,votos_negativos,codigo_partido_nacional,codigo_partido_autonomia,codigo_partido_provincia,codigo_partido,denominacion,siglas,votos,diputados,datos_oficiales
0,2,2019,11,1,1,4,9,Almería,709340,6,809,502621,502627,0,0,165047,242961,2661,2990,299763,0,0,94,94,94,94,PARTIDO SOCIALISTA OBRERO ESPAÑOL,PSOE,89295,2,S
1,2,2019,11,1,1,4,9,Almería,709340,6,809,502621,502627,0,0,165047,242961,2661,2990,299763,0,0,116,116,116,116,VOX,VOX,80714,2,S
2,2,2019,11,1,1,4,9,Almería,709340,6,809,502621,502627,0,0,165047,242961,2661,2990,299763,0,0,83,83,83,83,PARTIDO POPULAR,PP,78072,2,S
3,2,2019,11,1,1,4,9,Almería,709340,6,809,502621,502627,0,0,165047,242961,2661,2990,299763,0,0,78,81,81,81,UNIDAS PODEMOS,PODEMOS-IU LV CA,24400,0,S
4,2,2019,11,1,1,4,9,Almería,709340,6,809,502621,502627,0,0,165047,242961,2661,2990,299763,0,0,18,18,18,18,CIUDADANOS-PARTIDO DE LA CIUDADANÍA,Cs,22835,0,S


#### Drop columns

In [284]:
df_prov.votos_afirmativos.value_counts()

0    957
Name: votos_afirmativos, dtype: int64

In [285]:
df_prov.votos_negativos.value_counts()

0    957
Name: votos_negativos, dtype: int64

In [286]:
df_prov.votantes_cere.value_counts()

0    957
Name: votantes_cere, dtype: int64

In [287]:
df_prov.censo_cere.value_counts()

0    957
Name: censo_cere, dtype: int64

In [317]:
df_prov = df_provincias.drop(['tipo_eleccion', 'anno','mes','vuelta',
                                   'datos_oficiales','codigo_partido_nacional',
                                  'codigo_partido_autonomia','codigo_partido_provincia',
                              'codigo_distrito_electoral','participacion_1',
                                   'codigo_partido','votos_afirmativos','votos_negativos','votantes_cere','censo_cere'],axis=1)

In [318]:
df_prov.head()

Unnamed: 0,codigo_ccaa,codigo_provincia,ambito_territorial,poblacion_derecho,n_diputados,numero_mesas,censo_ine,censo_escrutinio,participacion_2,votos_blancos,votos_nulos,votos_candidaturas,denominacion,siglas,votos,diputados
0,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,PARTIDO SOCIALISTA OBRERO ESPAÑOL,PSOE,89295,2
1,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,VOX,VOX,80714,2
2,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,PARTIDO POPULAR,PP,78072,2
3,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,UNIDAS PODEMOS,PODEMOS-IU LV CA,24400,0
4,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,CIUDADANOS-PARTIDO DE LA CIUDADANÍA,Cs,22835,0


In [319]:
df_prov.ambito_territorial.unique()

array(['Almería', 'Cádiz', 'Córdoba', 'Granada', 'Huelva', 'Jaén',
       'Málaga', 'Sevilla', 'Andalucía', 'Huesca', 'Teruel', 'Zaragoza',
       'Aragón', 'Asturias', 'Principado de Asturias', 'Illes Balears',
       'Las Palmas', 'Santa Cruz de Tenerife', 'Canarias', 'Cantabria',
       'Albacete', 'Ciudad Real', 'Cuenca', 'Guadalajara', 'Toledo',
       'Castilla - La Mancha', 'Ávila', 'Burgos', 'León', 'Palencia',
       'Salamanca', 'Segovia', 'Soria', 'Valladolid', 'Zamora',
       'Castilla y León', 'Barcelona', 'Girona', 'Lleida', 'Tarragona',
       'Cataluña', 'Badajoz', 'Cáceres', 'Extremadura', 'A Coruña',
       'Lugo', 'Ourense', 'Pontevedra', 'Galicia', 'Madrid',
       'Comunidad de Madrid', 'Navarra', 'Comunidad Foral de Navarra',
       'Araba / Álava', 'Gipuzkoa', 'Bizkaia', 'País Vasco', 'Murcia',
       'Región de Murcia', 'La Rioja', 'Alicante / Alacant',
       'Castellón / Castelló', 'Valencia / València',
       'Comunitat Valenciana', 'Ceuta', 'Ciudad de Ceut

**-----------------------------------------------------------------------------------------------------------------**

As you see, CCAA and provinces in the _same_ Dataset
- create 2 Dataset
   - 1 for CCAA --> votes_ccaa
   - 1 for provinces --> votes_prov

In [445]:
ccaa = ['Andalucía','Aragón','Principado de Asturias','Illes Balears',
        'Canarias','Comunitat Valenciana','Ceuta','Melilla',
        'Castilla - La Mancha','Castilla y León','Cataluña',
        'Extremadura','Galicia','Comunidad Foral de Navarra',
        'Comunidad de Madrid','Región de Murcia', 'La Rioja','País Vasco','Total nacional']
lista_columna = df_prov.ambito_territorial.unique().tolist()
provinces = set(lista_columna) - set(ccaa)

In [446]:
def create_match_dataset(df, column_name, match_list):
    
    # use isin() to create a Boolean mask of matching rows
    mask = df[column_name].isin(match_list)
    
    # use the mask to extract the matching rows
    matching_rows = df[mask]
    
    # return the matching rows
    return matching_rows

In [447]:
votes_ccaa = create_match_dataset(df_prov,'ambito_territorial',ccaa)

In [448]:
votes_province = create_match_dataset(df_prov,'ambito_territorial',provinces)

In [449]:
votes_ccaa.pivot_table(index=['ambito_territorial','codigo_ccaa','denominacion'], 
                         values=['votos','diputados','censo_ine','participacion_2','votos_blancos','votos_nulos',
                                 'votos_candidaturas'],
                         aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,censo_ine,diputados,participacion_2,votos,votos_blancos,votos_candidaturas,votos_nulos
ambito_territorial,codigo_ccaa,denominacion,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Andalucía,1,ANDALUCÍA POR SÍ,6579357,0,3471035,14046,50672,4221012,65040
Andalucía,1,CIUDADANOS-PARTIDO DE LA CIUDADANÍA,6579357,3,3471035,346094,50672,4221012,65040
Andalucía,1,CONVERGENCIA ANDALUZA,6579357,0,3471035,520,50672,4221012,65040
Andalucía,1,ESCAÑOS EN BLANCO,6579357,0,3471035,1273,50672,4221012,65040
Andalucía,1,IZQUIERDA ANTICAPITALISTA REVOLUCIONARIA,6579357,0,3471035,113,50672,4221012,65040
...,...,...,...,...,...,...,...,...,...
Total nacional,99,UNIDOS Actuando por la Democracia,37001235,0,19823843,1067,217227,24041001,249487
Total nacional,99,UNIÓN DE TODOS,37001235,0,19823843,26,217227,24041001,249487
Total nacional,99,UNIÓN DEL PUEBLO LEONÉS,37001235,0,19823843,10243,217227,24041001,249487
Total nacional,99,UNIÓN REGIONALISTA DE CASTILLA Y LEÓN,37001235,0,19823843,530,217227,24041001,249487


***Calculate KPIs for votes***

In [453]:
votes_ccaa['porcentaje_participacion'] = round(((votes_ccaa['participacion_2']/ votes_ccaa['censo_ine'])*100),2)
votes_ccaa['porcentaje_votos_partido'] = round(((votes_ccaa['votos']/ votes_ccaa['participacion_2'])*100),2)
votes_ccaa['porcentaje_votos_nulos'] = round(((votes_ccaa['votos_nulos']/ votes_ccaa['participacion_2'])*100),2)
votes_ccaa['porcentaje_votos_blancos'] = round(((votes_ccaa['votos_blancos']/ votes_ccaa['participacion_2'])*100),2)
votes_ccaa['porcentaje_diputados_obtenidos'] = round(((votes_ccaa['diputados']/ votes_ccaa['n_diputados'])*100),2)

In [454]:
votes_province.head()

Unnamed: 0,codigo_ccaa,codigo_provincia,ambito_territorial,poblacion_derecho,n_diputados,numero_mesas,censo_ine,censo_escrutinio,participacion_2,votos_blancos,votos_nulos,votos_candidaturas,denominacion,siglas,votos,diputados
0,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,PARTIDO SOCIALISTA OBRERO ESPAÑOL,PSOE,89295,2
1,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,VOX,VOX,80714,2
2,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,PARTIDO POPULAR,PP,78072,2
3,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,UNIDAS PODEMOS,PODEMOS-IU LV CA,24400,0
4,1,4,Almería,709340,6,809,502621,502627,242961,2661,2990,299763,CIUDADANOS-PARTIDO DE LA CIUDADANÍA,Cs,22835,0


In [455]:
votes_province['porcentaje_participacion'] = round(((votes_province['participacion_2']/ votes_province['censo_ine'])*100),2)
votes_province['porcentaje_votos_partido'] = round(((votes_province['votos']/ votes_province['participacion_2'])*100),2)
votes_province['porcentaje_votos_nulos'] = round(((votes_province['votos_nulos']/ votes_province['participacion_2'])*100),2)
votes_province['porcentaje_votos_blancos'] = round(((votes_province['votos_blancos']/ votes_province['participacion_2'])*100),2)
votes_province['porcentaje_diputados_obtenidos'] = round(((votes_province['diputados']/ votes_province['n_diputados'])*100),2)

In [456]:
export_to_csv(votes_ccaa,'/app/data/csv/votos_ccaa_ok.csv')

File saved to /app/data/csv/votos_ccaa_ok.csv


In [457]:
export_to_csv(votes_province,'/app/data/csv/votos_province_ok.csv')

File saved to /app/data/csv/votos_province_ok.csv


----------------------------------------------------

## Election results from Municipios

In [347]:
df_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99118 entries, 0 to 99117
Data columns (total 34 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   tipo_eleccion              99118 non-null  int64 
 1   anno                       99118 non-null  int64 
 2   mes                        99118 non-null  int64 
 3   vuelta                     99118 non-null  int64 
 4   codigo_ccaa                99118 non-null  int64 
 5   codigo_provincia           99118 non-null  int64 
 6   codigo_municipio           99118 non-null  int64 
 7   municipio                  99118 non-null  object
 8   codigo_distrito            99118 non-null  int64 
 9   codigo_distrito_electoral  99118 non-null  int64 
 10  codigo_partido_judicial    99118 non-null  int64 
 11  codigo_diputacion          99118 non-null  int64 
 12  codigo_comarca             99118 non-null  int64 
 13  poblacion_derecho          99118 non-null  int64 
 14  numero

In [348]:
votes_municipios = df_municipios.drop(['tipo_eleccion', 'anno','mes','vuelta','codigo_comarca',
                                    'codigo_partido_judicial','datos_oficiales',
                                    'codigo_partido_nacional','codigo_distrito',
                                    'codigo_distrito_electoral','concejales_obtenidos',
                                  'codigo_partido_autonomia','codigo_partido_provincia',
                                    'codigo_distrito_electoral','participacion_1',
                                   'codigo_partido','votantes_cere','censo_cere'],axis=1)

In [349]:
votes_municipios.head()

Unnamed: 0,codigo_ccaa,codigo_provincia,codigo_municipio,municipio,codigo_diputacion,poblacion_derecho,numero_mesas,censo_ine,censo_escrutinio,participacion_2,votos_blancos,votos_nulos,votos_candidaturas,numero_concejales,denominacion,siglas,votos
0,14,1,1,Alegría-Dulantzi,59,2887,4,2020,2020,1099,5,13,1367,0,PARTIDO ANIMALISTA CONTRA EL MALTRATO ANIMAL,PACMA,6
1,14,1,1,Alegría-Dulantzi,59,2887,4,2020,2020,1099,5,13,1367,0,PARTIDO SOCIALISTA DE EUSKADI-EUSKADIKO EZKERR...,PSE-EE (PSOE),284
2,14,1,1,Alegría-Dulantzi,59,2887,4,2020,2020,1099,5,13,1367,0,CIUDADANOS-PARTIDO DE LA CIUDADANÍA,Cs,22
3,14,1,1,Alegría-Dulantzi,59,2887,4,2020,2020,1099,5,13,1367,0,PARTIDO POPULAR,PP,114
4,14,1,1,Alegría-Dulantzi,59,2887,4,2020,2020,1099,5,13,1367,0,VOX,VOX,54


In [351]:
votes_municipios['porcentaje_participacion'] = round(((votes_municipios['participacion_2']/ votes_municipios['censo_ine'])*100),2)
votes_municipios['porcentaje_votos_partido'] = round(((votes_municipios['votos']/ votes_municipios['participacion_2'])*100),2)
votes_municipios['porcentaje_votos_nulos'] = round(((votes_municipios['votos_nulos']/ votes_municipios['participacion_2'])*100),2)
votes_municipios['porcentaje_votos_blancos'] = round(((votes_municipios['votos_blancos']/ votes_municipios['participacion_2'])*100),2)

In [356]:
votes_municipios.pivot_table(index=['municipio','denominacion','siglas'], 
                         values=['votos','participacion_2','votos_blancos','votos_nulos','porcentaje_participacion'],
                         aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,participacion_2,porcentaje_participacion,votos,votos_blancos,votos_nulos
municipio,denominacion,siglas,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Ababuj,AGRUPACIÓN DE ELECTORES TERUEL EXISTE,¡TERUEL EXI,37,56.92,10,1,0
Ababuj,AUNA COMUNITAT VALENCIANA,AUNACV,37,56.92,0,1,0
Ababuj,CIUDADANOS-PARTIDO DE LA CIUDADANÍA,Cs,37,56.92,3,1,0
Ababuj,PARTIDO ANIMALISTA CONTRA EL MALTRATO ANIMAL,PACMA,37,56.92,1,1,0
Ababuj,PARTIDO COMUNISTA DE LOS PUEBLOS DE ESPAÑA,PCPE,37,56.92,0,1,0
...,...,...,...,...,...,...,...
Úrbel del Castillo,PARTIDO SOCIALISTA OBRERO ESPAÑOL,PSOE,46,63.01,18,0,0
Úrbel del Castillo,POR UN MUNDO MÁS JUSTO,PUM+J,46,63.01,1,0,0
Úrbel del Castillo,RECORTES CERO-GRUPO VERDE-PARTIDO CASTELLANO-TIERRA COMUNERA,RECORTES CERO-GV-PCAS-TC,46,63.01,0,0,0
Úrbel del Castillo,UNIDAS PODEMOS,PODEMOS-IU,46,63.01,0,0,0


In [357]:
export_to_csv(votes_municipios,'/app/data/csv/votos_municipios_ok.csv')

File saved to /app/data/csv/votos_municipios_ok.csv


----------------------------------------------------

## Election results from Polling station

In [378]:
df_mesas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 770595 entries, 0 to 770594
Data columns (total 28 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   tipo_eleccion             770595 non-null  int64 
 1   anno                      770595 non-null  int64 
 2   mes                       770595 non-null  int64 
 3   vuelta                    770595 non-null  int64 
 4   codigo_ccaa               770595 non-null  int64 
 5   codigo_provincia          770595 non-null  int64 
 6   codigo_municipio          770595 non-null  int64 
 7   municipio                 770595 non-null  object
 8   codigo_distrito           770595 non-null  int64 
 9   codigo_seccion            770595 non-null  int64 
 10  codigo_mesa               770595 non-null  object
 11  censo_ine                 770595 non-null  int64 
 12  censo_cera                770595 non-null  int64 
 13  censo_cere                770595 non-null  int64 
 14  vota

In [379]:
df_mesas.head()

Unnamed: 0,tipo_eleccion,anno,mes,vuelta,codigo_ccaa,codigo_provincia,codigo_municipio,municipio,codigo_distrito,codigo_seccion,codigo_mesa,censo_ine,censo_cera,censo_cere,votantes_cere,participacion_1,participacion_2,votos_blancos,votos_nulos,votos_candidaturas,codigo_partido_nacional,codigo_partido_autonomia,codigo_partido_provincia,codigo_partido,denominacion,siglas,votos,datos_oficiales
0,2,2019,11,1,14,1,1,Alegría-Dulantzi,1,2,B,513,513,0,0,175,274,0,4,352,83,83,83,83,PARTIDO POPULAR,PP,32,S
1,2,2019,11,1,14,1,1,Alegría-Dulantzi,1,1,B,497,497,0,0,166,281,2,4,337,22,22,22,22,EUZKO ALDERDI JELTZALEA-PARTIDO NACIONALISTA V...,EAJ-PNV,108,S
2,2,2019,11,1,14,1,1,Alegría-Dulantzi,1,2,A,519,519,0,0,163,271,1,2,352,83,83,83,83,PARTIDO POPULAR,PP,33,S
3,2,2019,11,1,14,1,1,Alegría-Dulantzi,1,1,B,497,497,0,0,166,281,2,4,337,94,92,92,92,PARTIDO SOCIALISTA DE EUSKADI-EUSKADIKO EZKERR...,PSE-EE (PSOE),74,S
4,2,2019,11,1,14,1,1,Alegría-Dulantzi,1,2,A,519,519,0,0,163,271,1,2,352,64,66,66,66,PARTIDO COMUNISTA DE LOS TRABAJADORES DE EUSKA...,PCTE/ELAK,3,S


In [380]:
votos_mesa = df_mesas.drop(['tipo_eleccion', 'anno','mes','vuelta','participacion_1',
                            'datos_oficiales','codigo_partido_nacional','codigo_distrito',
                            'codigo_partido_autonomia','codigo_partido_provincia','participacion_1',
                            'codigo_partido','votantes_cere','censo_cere'],axis=1)

In [414]:
votos_mesa['porcentaje_participacion'] = round(((votos_mesa['participacion_2']/ votos_mesa['censo_ine'])*100),2)
votos_mesa['porcentaje_votos_partido'] = round(((votos_mesa['votos']/ votos_mesa['participacion_2'])*100),2)
votos_mesa['porcentaje_votos_nulos'] = round(((votos_mesa['votos_nulos']/ votos_mesa['participacion_2'])*100),2)
votes_municipios['porcentaje_votos_blancos'] = round(((votos_mesa['votos_blancos']/ votos_mesa['participacion_2'])*100),2)

In [384]:
votos_mesa['seccion_mesa']= votos_mesa['codigo_seccion'].astype(str) + '_' + votos_mesa['codigo_mesa']

In [385]:
votos_mesa.head()

Unnamed: 0,codigo_ccaa,codigo_provincia,codigo_municipio,municipio,codigo_seccion,codigo_mesa,censo_ine,censo_cera,participacion_2,votos_blancos,votos_nulos,votos_candidaturas,denominacion,siglas,votos,porcentaje_participacion,porcentaje_votos_partido,porcentaje_votos_nulos,porcentaje_votos_blancos,seccion_mesa
0,14,1,1,Alegría-Dulantzi,2,B,513,513,274,0,4,352,PARTIDO POPULAR,PP,32,53.41,11.68,1.46,0.0,2_B
1,14,1,1,Alegría-Dulantzi,1,B,497,497,281,2,4,337,EUZKO ALDERDI JELTZALEA-PARTIDO NACIONALISTA V...,EAJ-PNV,108,56.54,38.43,1.42,0.71,1_B
2,14,1,1,Alegría-Dulantzi,2,A,519,519,271,1,2,352,PARTIDO POPULAR,PP,33,52.22,12.18,0.74,0.37,2_A
3,14,1,1,Alegría-Dulantzi,1,B,497,497,281,2,4,337,PARTIDO SOCIALISTA DE EUSKADI-EUSKADIKO EZKERR...,PSE-EE (PSOE),74,56.54,26.33,1.42,0.71,1_B
4,14,1,1,Alegría-Dulantzi,2,A,519,519,271,1,2,352,PARTIDO COMUNISTA DE LOS TRABAJADORES DE EUSKA...,PCTE/ELAK,3,52.22,1.11,0.74,0.37,2_A


In [400]:
mesa_pivot= votos_mesa.pivot_table(index=['municipio','denominacion','siglas','seccion_mesa'], 
                         values=['porcentaje_votos_partido','votos','participacion_2','votos_blancos','votos_nulos','porcentaje_participacion'],
                         aggfunc='sum')

In [397]:
municipio_ejemplo = votos_mesa[votos_mesa["municipio"]=='Buenamadre']

In [432]:
def get_data_from_municipality(name):
    municipio_ejemplo = votos_mesa[votos_mesa["municipio"]==str(name)]
    pivoti=municipio_ejemplo.pivot_table(index=['municipio','denominacion','siglas','seccion_mesa'], 
                         values=['porcentaje_votos_partido','porcentaje_participacion',
                                 'porcentaje_votos_nulos','porcentaje_votos_blancos'])

    return pivoti

In [433]:
get_data_from_municipality('Guadalupe')

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,porcentaje_participacion,porcentaje_votos_blancos,porcentaje_votos_nulos,porcentaje_votos_partido
municipio,denominacion,siglas,seccion_mesa,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Guadalupe,CIUDADANOS-PARTIDO DE LA CIUDADANÍA,Cs,1_U,51.025,1.25,1.505,6.18
Guadalupe,EXTREMADURA UNIDA,EXTREMADURA UNIDA,1_U,51.025,1.25,1.505,0.515
Guadalupe,PARTIDO ANIMALISTA CONTRA EL MALTRATO ANIMAL,PACMA,1_U,51.025,1.25,1.505,0.0
Guadalupe,PARTIDO POPULAR,PP,1_U,51.025,1.25,1.505,36.055
Guadalupe,PARTIDO SOCIALISTA OBRERO ESPAÑOL,PSOE,1_U,51.025,1.25,1.505,56.87
Guadalupe,POR UN MUNDO MÁS JUSTO,PUM+J,1_U,51.025,1.25,1.505,0.0
Guadalupe,RECORTES CERO-GRUPO VERDE,RECORTES CERO-GV,1_U,51.025,1.25,1.505,0.0
Guadalupe,UNIDAS PODEMOS,PODEMOS-IU,1_U,51.025,1.25,1.505,8.485
Guadalupe,VOX,VOX,1_U,51.025,1.25,1.505,25.365


In [435]:
export_to_csv(votos_mesa,'/app/data/csv/votos_mesa_ok.csv')

File saved to /app/data/csv/votos_mesa_ok.csv
