# Identificación de municipio, provincia y CCAA de cada sección

En este cuaderno vamos a identificar para cada sección electoral su municipio, provincia y CCAA, lo cual es clave para dar una correcta imterpretabilidad a nuestros datos. Hasta ahora solo podemos indentificar cada sección por un largo código numérico.

Comenzamos cargando las librerías necesarias.

In [13]:
import pandas as pd
import numpy as np

In [14]:
import boto3

BUCKET_NAME = 'electomedia' 

# sustituir por credenciales de acceso. 
s3 = boto3.resource('s3', aws_access_key_id = 'XXXXX', 
                          aws_secret_access_key= 'XXXXX')

In [15]:
import botocore.exceptions

KEY = 'INE/Cod_Provincias.txt' 

try:
    s3.Bucket(BUCKET_NAME).download_file(KEY, 'Cod_Provincias.txt')
      
except botocore.exceptions.ClientError as e:
    if e.response['Error']['Code'] == "404":
        print("The object does not exist.")
    else:
        raise

Ahora cargamos un dataset con los códigos de las provincias junto a su nombre, que hemos conseguido del INE.

In [16]:
provincias = pd.read_csv('Cod_Provincias.txt', delimiter=',', dtype = {'provincia_id' : 'str'})

In [17]:
provincias

Unnamed: 0,provincia_id,nombre
0,2,Albacete
1,3,Alicante
2,4,Almería
3,1,Álava
4,33,Asturias
5,5,Ávila
6,6,Badajoz
7,7,Islas Baleares
8,8,Barcelona
9,48,Vizcaya


Cambiamos nos nombres de las columnas para hacerlos más comprensibles.

In [18]:
provincias.rename(columns={'provincia_id' : 'cod_prov', 'nombre' : 'Provincia', }, inplace = True)

In [19]:
provincias

Unnamed: 0,cod_prov,Provincia
0,2,Albacete
1,3,Alicante
2,4,Almería
3,1,Álava
4,33,Asturias
5,5,Ávila
6,6,Badajoz
7,7,Islas Baleares
8,8,Barcelona
9,48,Vizcaya


In [23]:
import botocore.exceptions

KEY = 'INE/Cod_CCAA.txt' 

try:
    s3.Bucket(BUCKET_NAME).download_file(KEY, 'Cod_CCAA.txt')
      
except botocore.exceptions.ClientError as e:
    if e.response['Error']['Code'] == "404":
        print("The object does not exist.")
    else:
        raise

Ahora hacemos lo mismo con las CCAA. El problema aquí, y del que solo al final de la práctica fuimos conscientes, es que, increiblemente, los códigos de las CCAA que mostramos están sacados del INE, pero el Ministerio del Interior utiliza otros algo distintos. 

Ello produce el que originalmente la identificación de las CCAA no fuese la correcta. Con las provincias y municipios no hubo problema.

In [24]:
ccaa = pd.read_csv('Cod_CCAA.txt', dtype = {'autonomia_id' : 'str'})

In [25]:
ccaa

Unnamed: 0,autonomia_id,nombre
0,1,Andalucía
1,2,Aragón
2,3,Asturias
3,4,'Islas Baleares'
4,5,Canarias
5,6,Cantabria
6,7,Castilla y León
7,8,Castilla - La Mancha
8,9,Cataluña
9,10,C. Valenciana


In [26]:
ccaa.rename(columns={'autonomia_id' : 'cod_ccaa', 'nombre' : 'CCAA', }, inplace = True)

In [27]:
ccaa

Unnamed: 0,cod_ccaa,CCAA
0,1,Andalucía
1,2,Aragón
2,3,Asturias
3,4,'Islas Baleares'
4,5,Canarias
5,6,Cantabria
6,7,Castilla y León
7,8,Castilla - La Mancha
8,9,Cataluña
9,10,C. Valenciana


In [30]:
import botocore.exceptions

KEY = 'INE/05021111.DAT' 

try:
    s3.Bucket(BUCKET_NAME).download_file(KEY, '05021111.DAT')
      
except botocore.exceptions.ClientError as e:
    if e.response['Error']['Code'] == "404":
        print("The object does not exist.")
    else:
        raise

Los datos de los nombres de cada municipios los sacamos de los propios datos de las elecciones proporcionados por Interior, y dependiendo de cada elección, en este caso la de noviembre de 2011.

In [31]:
df_municipios = pd.read_csv('05021111.DAT', encoding = 'latin-1', delimiter='    ', usecols = [0])

  df_municipios = pd.read_csv('05021111.DAT', encoding = 'latin-1', delimiter='    ', usecols = [0])


Vemos que tenemos que tratar el que hayamos cargado el df sin el heading correcto.

In [32]:
df_municipios.head()

Unnamed: 0,022011111010400199Abla
0,022011111010400299Abrucena
1,022011111010400399Adra
2,022011111010400499Albánchez
3,022011111010400599Alboloduy
4,022011111010400699Albox


In [33]:
df_municipios.columns[0]

'022011111010400199Abla'

In [34]:
 df_municipios.loc[-1] = df_municipios.columns[0]  # adding a row
 df_municipios.index = df_municipios.index + 1  # shifting index
 df_municipios = df_municipios.sort_index()  # sorting by index

Ya tenemos el primer registro del primer municipio donde debe estar, y cambiamos ahora el nombre de la columna entera.

In [35]:
df_municipios.head()

Unnamed: 0,022011111010400199Abla
0,022011111010400199Abla
1,022011111010400299Abrucena
2,022011111010400399Adra
3,022011111010400499Albánchez
4,022011111010400599Alboloduy


In [36]:
df_municipios.rename(columns={df_municipios.columns[0]: 'cod_orig' }, inplace = True)

Conociendo donde se encuentra el código del municipio mediante las instrucciones de Interior, lo extraemos y lo asignamos a una nueva columna.

In [37]:
df_municipios['cod_mun'] = df_municipios['cod_orig'].str[11:16].replace(np.nan, 0, regex=True)

In [38]:
df_municipios

Unnamed: 0,cod_orig,cod_mun
0,022011111010400199Abla,04001
1,022011111010400299Abrucena,04002
2,022011111010400399Adra,04003
3,022011111010400499Albánchez,04004
4,022011111010400599Alboloduy,04005
...,...,...
8195,022011111174690299Gátova,46902
8196,022011111174690399San Antonio de Benagéber,46903
8197,022011111174690499Benicull de Xúquer,46904
8198,022011111185100199Ceuta,51001


Aplicamos lo mismo para hallar el nombre del municipio. Nos encontramos con 8.200 registros, un número superior al real. La razón es que entre ellos tenemos los distritos de las ciudades más importantes.

In [39]:
df_municipios['Municipio'] = df_municipios['cod_orig'].str[18:].replace(np.nan, 0, regex=True)

In [40]:
df_municipios

Unnamed: 0,cod_orig,cod_mun,Municipio
0,022011111010400199Abla,04001,Abla
1,022011111010400299Abrucena,04002,Abrucena
2,022011111010400399Adra,04003,Adra
3,022011111010400499Albánchez,04004,Albánchez
4,022011111010400599Alboloduy,04005,Alboloduy
...,...,...,...
8195,022011111174690299Gátova,46902,Gátova
8196,022011111174690399San Antonio de Benagéber,46903,San Antonio de Benagéber
8197,022011111174690499Benicull de Xúquer,46904,Benicull de Xúquer
8198,022011111185100199Ceuta,51001,Ceuta


In [41]:
df_municipios['Distrito'] = df_municipios['cod_orig'].str[16:18].replace(np.nan, 0, regex=True)

In [42]:
df_municipios

Unnamed: 0,cod_orig,cod_mun,Municipio,Distrito
0,022011111010400199Abla,04001,Abla,99
1,022011111010400299Abrucena,04002,Abrucena,99
2,022011111010400399Adra,04003,Adra,99
3,022011111010400499Albánchez,04004,Albánchez,99
4,022011111010400599Alboloduy,04005,Alboloduy,99
...,...,...,...,...
8195,022011111174690299Gátova,46902,Gátova,99
8196,022011111174690399San Antonio de Benagéber,46903,San Antonio de Benagéber,99
8197,022011111174690499Benicull de Xúquer,46904,Benicull de Xúquer,99
8198,022011111185100199Ceuta,51001,Ceuta,99


Lo que ocurre es que los municipios vienen identificados como teniendo distrito igual a 99; nos quedamos con aquellos que lo tienen, por lo tanto.

In [43]:
df_municipios = df_municipios.loc[df_municipios['Distrito'] == '99']

In [44]:
df_municipios

Unnamed: 0,cod_orig,cod_mun,Municipio,Distrito
0,022011111010400199Abla,04001,Abla,99
1,022011111010400299Abrucena,04002,Abrucena,99
2,022011111010400399Adra,04003,Adra,99
3,022011111010400499Albánchez,04004,Albánchez,99
4,022011111010400599Alboloduy,04005,Alboloduy,99
...,...,...,...,...
8195,022011111174690299Gátova,46902,Gátova,99
8196,022011111174690399San Antonio de Benagéber,46903,San Antonio de Benagéber,99
8197,022011111174690499Benicull de Xúquer,46904,Benicull de Xúquer,99
8198,022011111185100199Ceuta,51001,Ceuta,99


Cambiamos los nombres de algunas columnas del df de los municipios.

In [45]:
df_municipios = df_municipios[['cod_mun', 'Municipio']]

In [46]:
df_municipios

Unnamed: 0,cod_mun,Municipio
0,04001,Abla
1,04002,Abrucena
2,04003,Adra
3,04004,Albánchez
4,04005,Alboloduy
...,...,...
8195,46902,Gátova
8196,46903,San Antonio de Benagéber
8197,46904,Benicull de Xúquer
8198,51001,Ceuta


Comprobamos que solo tenemos municipios y no distritos:

In [47]:
df_municipios.loc[df_municipios['Municipio'] == 'Triana']

Unnamed: 0,cod_mun,Municipio


In [48]:
df_municipios.loc[df_municipios['cod_mun'] == '28079']

Unnamed: 0,cod_mun,Municipio
6793,28079,Madrid


Ahora cargamos el dataset de los resultados electorales por secciones. Es clave que pandas lea la columna de Sección como string.

In [49]:
# lst of column names which needs to be string
lst_str_cols = ['CCAA', 'Provincia', 'Municipio', 'Sección_ID']
# use dictionary comprehension to make dict of dtypes
dict_dtypes = {x : 'str'  for x in lst_str_cols}
# use dict on dtypes
# pd.read_csv('sample.csv', dtype=dict_dtypes)

In [57]:
import botocore.exceptions

KEY = 'INE/resultados_comp_N11_ref.txt' 

try:
    s3.Bucket(BUCKET_NAME).download_file(KEY, 'resultados_comp_N11_ref.txt')
      
except botocore.exceptions.ClientError as e:
    if e.response['Error']['Code'] == "404":
        print("The object does not exist.")
    else:
        raise

In [58]:

resultados_comp_ref = pd.read_csv('resultados_comp_N11_ref.txt', encoding = 'utf-8')

In [59]:
resultados_comp_ref.head()

Unnamed: 0,Sección,Censo_Esc,Votos_Total,Nulos,Votos_Válidos,Blanco,V_Cand,PP,PSOE,Cs,...,Amaiur,CC,FA,TE,BNG,PRC,GBai,Compromis,PACMA,Otros
0,022011111010400101001,1139,890,6,884,6,878,434,373,0,...,0,0,0,0,0,0,0,0,0,10
1,022011111010400201001,1146,891,7,884,1,883,361,454,0,...,0,0,0,0,0,0,0,0,0,9
2,022011111010400301001,696,541,7,534,8,526,364,129,0,...,0,0,0,0,0,0,0,0,0,6
3,022011111010400301002,1159,840,7,833,6,827,547,223,0,...,0,0,0,0,0,0,0,0,0,18
4,022011111010400301003,1218,884,12,872,9,863,598,195,0,...,0,0,0,0,0,0,0,0,0,7


In [60]:
resultados_comp_ref['Amaiur'].sum()

333762

Ahora lo que hacemos es definir columnas con los códigos de CCAA, Provincia y Municipio, que extraemos del código de la sección, siguiendo las instrucciones de Interior.

In [61]:
resultados_comp_ref['cod_ccaa'] = resultados_comp_ref['Sección'].str[9:11].replace(np.nan, 0, regex=True)

In [62]:
resultados_comp_ref['cod_prov'] = resultados_comp_ref['Sección'].str[11:13].replace(np.nan, 0, regex=True)

In [63]:
resultados_comp_ref['cod_mun'] = resultados_comp_ref['Sección'].str[11:16].replace(np.nan, 0, regex=True)

In [64]:
resultados_comp_ref.head()

Unnamed: 0,Sección,Censo_Esc,Votos_Total,Nulos,Votos_Válidos,Blanco,V_Cand,PP,PSOE,Cs,...,TE,BNG,PRC,GBai,Compromis,PACMA,Otros,cod_ccaa,cod_prov,cod_mun
0,022011111010400101001,1139,890,6,884,6,878,434,373,0,...,0,0,0,0,0,0,10,1,4,4001
1,022011111010400201001,1146,891,7,884,1,883,361,454,0,...,0,0,0,0,0,0,9,1,4,4002
2,022011111010400301001,696,541,7,534,8,526,364,129,0,...,0,0,0,0,0,0,6,1,4,4003
3,022011111010400301002,1159,840,7,833,6,827,547,223,0,...,0,0,0,0,0,0,18,1,4,4003
4,022011111010400301003,1218,884,12,872,9,863,598,195,0,...,0,0,0,0,0,0,7,1,4,4003


Ahora solo nos queda hacer un merge de este dataset con los que identifican las CCAA, provincias y municipios. 

In [65]:
result = pd.merge(resultados_comp_ref, ccaa, how="outer", on=['cod_ccaa'])

In [66]:
result

Unnamed: 0,Sección,Censo_Esc,Votos_Total,Nulos,Votos_Válidos,Blanco,V_Cand,PP,PSOE,Cs,...,BNG,PRC,GBai,Compromis,PACMA,Otros,cod_ccaa,cod_prov,cod_mun,CCAA
0,022011111010400101001,1139,890,6,884,6,878,434,373,0,...,0,0,0,0,0,10,01,04,04001,Andalucía
1,022011111010400201001,1146,891,7,884,1,883,361,454,0,...,0,0,0,0,0,9,01,04,04002,Andalucía
2,022011111010400301001,696,541,7,534,8,526,364,129,0,...,0,0,0,0,0,6,01,04,04003,Andalucía
3,022011111010400301002,1159,840,7,833,6,827,547,223,0,...,0,0,0,0,0,18,01,04,04003,Andalucía
4,022011111010400301003,1218,884,12,872,9,863,598,195,0,...,0,0,0,0,0,7,01,04,04003,Andalucía
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35952,022011111195200108010,1208,775,8,767,15,752,541,146,0,...,0,0,0,0,3,19,19,52,52001,Melilla
35953,022011111195200108011,1374,811,8,803,15,788,535,187,0,...,0,0,0,0,3,19,19,52,52001,Melilla
35954,022011111195200108012,1874,1183,13,1170,10,1160,843,245,0,...,0,0,0,0,5,30,19,52,52001,Melilla
35955,022011111195200108013,1167,637,7,630,13,617,415,167,0,...,0,0,0,0,2,12,19,52,52001,Melilla


In [67]:
result = pd.merge(result, provincias, how="outer", on=['cod_prov'])

In [68]:
result

Unnamed: 0,Sección,Censo_Esc,Votos_Total,Nulos,Votos_Válidos,Blanco,V_Cand,PP,PSOE,Cs,...,PRC,GBai,Compromis,PACMA,Otros,cod_ccaa,cod_prov,cod_mun,CCAA,Provincia
0,022011111010400101001,1139,890,6,884,6,878,434,373,0,...,0,0,0,0,10,01,04,04001,Andalucía,Almería
1,022011111010400201001,1146,891,7,884,1,883,361,454,0,...,0,0,0,0,9,01,04,04002,Andalucía,Almería
2,022011111010400301001,696,541,7,534,8,526,364,129,0,...,0,0,0,0,6,01,04,04003,Andalucía,Almería
3,022011111010400301002,1159,840,7,833,6,827,547,223,0,...,0,0,0,0,18,01,04,04003,Andalucía,Almería
4,022011111010400301003,1218,884,12,872,9,863,598,195,0,...,0,0,0,0,7,01,04,04003,Andalucía,Almería
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35952,022011111195200108010,1208,775,8,767,15,752,541,146,0,...,0,0,0,3,19,19,52,52001,Melilla,Melilla
35953,022011111195200108011,1374,811,8,803,15,788,535,187,0,...,0,0,0,3,19,19,52,52001,Melilla,Melilla
35954,022011111195200108012,1874,1183,13,1170,10,1160,843,245,0,...,0,0,0,5,30,19,52,52001,Melilla,Melilla
35955,022011111195200108013,1167,637,7,630,13,617,415,167,0,...,0,0,0,2,12,19,52,52001,Melilla,Melilla


In [69]:
result = pd.merge(result, df_municipios, how="outer", on=['cod_mun'])

In [70]:
result

Unnamed: 0,Sección,Censo_Esc,Votos_Total,Nulos,Votos_Válidos,Blanco,V_Cand,PP,PSOE,Cs,...,GBai,Compromis,PACMA,Otros,cod_ccaa,cod_prov,cod_mun,CCAA,Provincia,Municipio
0,022011111010400101001,1139,890,6,884,6,878,434,373,0,...,0,0,0,10,01,04,04001,Andalucía,Almería,Abla
1,022011111010400201001,1146,891,7,884,1,883,361,454,0,...,0,0,0,9,01,04,04002,Andalucía,Almería,Abrucena
2,022011111010400301001,696,541,7,534,8,526,364,129,0,...,0,0,0,6,01,04,04003,Andalucía,Almería,Adra
3,022011111010400301002,1159,840,7,833,6,827,547,223,0,...,0,0,0,18,01,04,04003,Andalucía,Almería,Adra
4,022011111010400301003,1218,884,12,872,9,863,598,195,0,...,0,0,0,7,01,04,04003,Andalucía,Almería,Adra
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35952,022011111195200108010,1208,775,8,767,15,752,541,146,0,...,0,0,3,19,19,52,52001,Melilla,Melilla,Melilla
35953,022011111195200108011,1374,811,8,803,15,788,535,187,0,...,0,0,3,19,19,52,52001,Melilla,Melilla,Melilla
35954,022011111195200108012,1874,1183,13,1170,10,1160,843,245,0,...,0,0,5,30,19,52,52001,Melilla,Melilla,Melilla
35955,022011111195200108013,1167,637,7,630,13,617,415,167,0,...,0,0,2,12,19,52,52001,Melilla,Melilla,Melilla


In [71]:
result.iloc[21102:21120, 37]

21102     Azuaga
21103     Azuaga
21104     Azuaga
21105     Azuaga
21106     Azuaga
21107    Badajoz
21108    Badajoz
21109    Badajoz
21110    Badajoz
21111    Badajoz
21112    Badajoz
21113    Badajoz
21114    Badajoz
21115    Badajoz
21116    Badajoz
21117    Badajoz
21118    Badajoz
21119    Badajoz
Name: Municipio, dtype: object

Pandas ha creado por defecto las columnas a la derecha del dataset, por lo que tenemos que reordenalas para que tenga mejor aspecto.

In [72]:
result.columns

Index(['Sección', 'Censo_Esc', 'Votos_Total', 'Nulos', 'Votos_Válidos',
       'Blanco', 'V_Cand', 'PP', 'PSOE', 'Cs', 'UP', 'IU', 'VOX', 'UPyD', 'MP',
       'CiU', 'ERC', 'JxC', 'CUP', 'DiL', 'PNV', 'Bildu', 'Amaiur', 'CC', 'FA',
       'TE', 'BNG', 'PRC', 'GBai', 'Compromis', 'PACMA', 'Otros', 'cod_ccaa',
       'cod_prov', 'cod_mun', 'CCAA', 'Provincia', 'Municipio'],
      dtype='object')

In [73]:
orden_cols = ['Sección', 'cod_ccaa',
       'cod_prov', 'cod_mun', 'CCAA', 'Provincia', 'Municipio', 'Censo_Esc', 'Votos_Total', 'Nulos', 'Votos_Válidos',
       'Blanco', 'V_Cand', 'PP', 'PSOE', 'Cs', 'UP', 'IU', 'VOX', 'UPyD', 'MP',
       'CiU', 'ERC', 'JxC', 'CUP', 'DiL', 'PNV', 'Bildu', 'Amaiur', 'CC', 'FA',
       'TE', 'BNG', 'PRC', 'GBai', 'Compromis', 'PACMA', 'Otros']

In [74]:
result = result[orden_cols]

In [75]:
result

Unnamed: 0,Sección,cod_ccaa,cod_prov,cod_mun,CCAA,Provincia,Municipio,Censo_Esc,Votos_Total,Nulos,...,Amaiur,CC,FA,TE,BNG,PRC,GBai,Compromis,PACMA,Otros
0,022011111010400101001,01,04,04001,Andalucía,Almería,Abla,1139,890,6,...,0,0,0,0,0,0,0,0,0,10
1,022011111010400201001,01,04,04002,Andalucía,Almería,Abrucena,1146,891,7,...,0,0,0,0,0,0,0,0,0,9
2,022011111010400301001,01,04,04003,Andalucía,Almería,Adra,696,541,7,...,0,0,0,0,0,0,0,0,0,6
3,022011111010400301002,01,04,04003,Andalucía,Almería,Adra,1159,840,7,...,0,0,0,0,0,0,0,0,0,18
4,022011111010400301003,01,04,04003,Andalucía,Almería,Adra,1218,884,12,...,0,0,0,0,0,0,0,0,0,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35952,022011111195200108010,19,52,52001,Melilla,Melilla,Melilla,1208,775,8,...,0,0,0,0,0,0,0,0,3,19
35953,022011111195200108011,19,52,52001,Melilla,Melilla,Melilla,1374,811,8,...,0,0,0,0,0,0,0,0,3,19
35954,022011111195200108012,19,52,52001,Melilla,Melilla,Melilla,1874,1183,13,...,0,0,0,0,0,0,0,0,5,30
35955,022011111195200108013,19,52,52001,Melilla,Melilla,Melilla,1167,637,7,...,0,0,0,0,0,0,0,0,2,12


Ahora ya podemos guardar el dataset de las elecciones de noviembre de 2011, conteniendo la identificación de cada sección de forma mucho más interpretable. 

Por supuesto, habra un dataset de este tipo para cada elección, y será el que tomemos como base para llevar a cabo la unificación de los datos.

In [76]:
result.to_csv('resultados_comp_N11_territ.txt', sep = ',', index = False)

In [77]:
#para guardar el archivo en s3:

from botocore.exceptions import ClientError

s3_client = boto3.client(
    's3',
    aws_access_key_id='XXXXXXX',
    aws_secret_access_key='XXXXXXX',    
)

def upload_file(file_name, bucket, object_name=None):
    """Subir un archivo a un bucket
    :param file_name: archivo que hay que subir
    :param bucket: Bucket al que hay que subirlo
    :param object_name: S3 object name. Incluye la carpeta en la que hay que guardarlo. si no hay no se pone nada
    :return: True si sube el archivo, else False
    """

    # If S3 object_name was not specified, use file_name
    if object_name is None:
        object_name = file_name

    # Upload the file
    #s3_client = boto3.client('s3')
    try:
        response = s3_client.upload_file(file_name, bucket, object_name)
    except ClientError as e:
        logging.error(e)
        return False
    return True

In [78]:
upload_file('resultados_comp_N11_territ.txt',
            'electomedia',
            object_name = "INE/" + 'resultados_comp_N11_territ.txt'
           )

True