# Cómo recolectar los resultados de las elecciones del 10N (2019)

## Método

La página oficial carga los datos a partir de archivos JSON que son accesibles. El primer paso sería planificar el aceso a los datos descodificanco previamente la estructura.

Al final queremos obtener una tabla por circunscripciones como el histórico de resultados definitivos que se encuentra en la página del ministerio: http://www.infoelectoral.mir.es/infoelectoral

## Página de resultados del 10N

https://resultados.10noviembre2019.es

JSON
https://resultados.10noviembre2019.es/assets/nomenclator.json (archivo con los códigos y+ para los resultados de cada ámbito)

In [1]:
#lista de circunscripciones y datos para descargar los archivos
import urllib.request, json
url = "https://resultados.10noviembre2019.es/assets/nomenclator.json"
response = urllib.request.urlopen(url)
nomenclator = json.loads(response.read())

In [2]:
#Circuscripciones con su codigo
provincias = [dic  for dic in nomenclator['ambitos']['co'][:] if dic['l']==8]
print(provincias[0:2])

[{'n': 'A Coruña', 'c': '11159999999', 's': 'A-Coruna', 'l': 8, 'p': 14, 'i': 20, 'r': 23, 'h': [84, 87, 88, 95, 102, 125, 641, 720, 777, 862, 871, 874, 875, 1258, 1293, 1358, 1359, 1376, 1425, 1492, 1494, 1624, 1631, 1782, 1811, 1818, 1822, 2078, 2083, 2106, 2112, 2265, 2324, 2337, 2438, 2445, 2482, 2510, 2863, 2875, 2889, 2950, 3549, 4014, 4223, 4322, 4367, 4463, 4500, 4536, 4570, 4599, 4648, 4826, 4866, 4876, 4887, 4976, 4978, 5009, 5044, 5082, 5153, 5179, 5189, 5216, 5219, 5221, 5227, 5571, 5573, 5596, 5897, 5915, 6000, 6067, 6279, 6434, 6545, 6566, 6726, 6892, 6957, 6969, 7140, 7157, 7274, 7378, 7505, 7652, 7653, 8068, 8182], 'par': [8, 16, 45, 53, 55, 65, 68, 77, 85, 91, 95, 106]}, {'n': 'Albacete', 'c': '07029999999', 's': 'Albacete', 'l': 8, 'p': 5, 'i': 21, 'r': 24, 'h': [129, 247, 252, 273, 299, 310, 321, 339, 542, 614, 926, 973, 984, 1053, 1307, 1355, 1371, 1795, 1873, 1874, 1880, 1884, 2060, 2098, 2173, 2347, 2375, 2531, 2538, 2682, 2864, 3007, 3009, 3032, 3233, 3352, 3398,

In [3]:
#Partidos y sus códigos
partidos = nomenclator['partidos']['co']['act']
print(partidos[5:8])

[{'codpar': '0007', 'siglas': 'AVANT ADELANTE LOS VERDES', 'nombre': 'LOS VERDES ECOPACIFISTAS ADELANTE', 'color': '#006900', 'cir': '', 'i': '5', 's': 'AVANT-ADELANTE-LOS-VERDES'}, {'codpar': '0008', 'siglas': 'AVANT LOS VERDES', 'nombre': 'AVANT ADELANTE LOS VERDES', 'color': '#006900', 'cir': '', 'i': '6', 's': 'AVANT-LOS-VERDES'}, {'codpar': '0009', 'siglas': 'AxSÍ', 'nombre': 'ANDALUCÍA POR SÍ', 'color': '#83C041', 'cir': '99', 'i': '7', 's': 'AxSI'}]


## Recolección

Recorremos cada provincia y obtenemos todos los datos de las votaciones del archivo:
 
 'https://resultados.10noviembre2019.es/json/CO/CODIGOPROVINCIA.json'

In [4]:
#creamos diccionario para las columnas que vamos a tener por provincia
claves_prin = [
    'Nombre de Comunidad',
    'Código de Provincia',
    'Nombre de Provincia',
    'Población',
    'Número de mesas',
    'Censo electoral sin CERA',
    'Censo CERA',
    'Total censo electoral',
    'Solicitudes voto CERA aceptadas',
    'Total votantes CER',
    'Total votantes CERA',
    'Total votantes',
    'Votos válidos',
    'Votos a candidaturas',
    'Votos en blanco',
    'Votos nulos',
]

claves10N = [
    'Nombre de Comunidad',
    'Código de Provincia',
    'n',
    'padron',
    'metota',
    'Censo electoral sin CERA',
    'Censo CERA',
    'centota',
    'Solicitudes voto CERA aceptadas',
    'cenes',
    'Total votantes CERA',
    'votant',
    'votval',
    'votcan',
    'votbla',
    'votnul'
]

cl = [[p['codpar']+'/Votos', p['codpar']+'/Diputados'] for p in partidos]
claves_partidos = [item for elem in cl for item in elem]
claves = claves_prin + claves_partidos

print(claves[13:20])   

['Votos a candidaturas', 'Votos en blanco', 'Votos nulos', '0108/Votos', '0108/Diputados', '0002/Votos', '0002/Diputados']


In [5]:
#como obtenemos el código de provincia
#tenemos una tabla con los códigos
# codigos en https://www.ine.es/daco/daco42/codmun/cod_provincia.htm
import pandas as pd
d = pd.read_excel('codigos_provincias.xlsx',
                          sheet_name='Hoja1',
                          header=0)
d = d[['Código', 'Literal']]
print(d)

    Código                 Literal
0        2                Albacete
1        3        Alicante/Alacant
2        4                 Almería
3        1             Araba/Álava
4       33                Asturias
5        5                   Ávila
6        6                 Badajoz
7        7           Illes Balears
8        8               Barcelona
9       48                 Bizkaia
10       9                  Burgos
11      10                 Cáceres
12      11                   Cádiz
13      39               Cantabria
14      12      Castellón/Castelló
15      13             Ciudad Real
16      14                 Córdoba
17      15                A Coruña
18      16                  Cuenca
19      20                Gipuzkoa
20      17                  Girona
21      18                 Granada
22      19             Guadalajara
23      21                  Huelva
24      22                  Huesca
25      23                    Jaén
26      24                    León
27      25          

In [6]:
#Definimos funcion para pasar los datos a dataframe
def todf(prov):
    fila = {}
    #comunidad (hay que rebuscar en nomenclator)
    #cada ambito contiene un parámetro p que contiene el ambito padre (comunidad)
    cod_comunidad = int(prov['p'])
    comunidad = nomenclator['ambitos']['co'][cod_comunidad]['n']
    fila[claves[0]] = comunidad
    #codigo provincia y el nombre se cogen de prov
    print(prov['n'].replace(" ", ""))
    codigo_provincia = d[d['Literal'].str.replace(" ", "") == prov['n'].replace(" ", "")].iloc[0]['Código']
    fila[claves[1]] = codigo_provincia
    fila[claves[2]] = prov['n']
    #cargamos el archivo de las votaciones
    url_provincia = 'https://resultados.10noviembre2019.es/json/CO/CO' + prov['c'] + '.json'
    response = urllib.request.urlopen(url_provincia)
    jp = json.loads(response.read())
    #los valores totales son cargados mediante las claves. Si no hay el valor es NONE
    for idx in range(3,16):
        k = claves[idx]
        fila[k] = jp['totales']['act'].get(claves10N[idx])
    
    #los resultados de los partidos
    for kk in claves_partidos:
        partido, tipo = kk.split('/')[0], kk.split('/')[1]
        datos_partido= list(filter(lambda x: x['codpar'] == partido,[pp['act'] for pp in jp['partotabla']]))
        if len(datos_partido) > 0:
            if tipo == 'Votos':  
                fila[kk] = datos_partido[0]['vot']
            else:
                fila[kk] = datos_partido[0]['carg']
        else:
            fila[kk] = '0'                      
    return fila

print(todf(provincias[2]))

Alicante/Alacant
{'Nombre de Comunidad': 'Comunitat Valenciana', 'Código de Provincia': 3, 'Nombre de Provincia': 'Alicante / Alacant', 'Población': '1838819', 'Número de mesas': '2221', 'Censo electoral sin CERA': None, 'Censo CERA': None, 'Total censo electoral': '1237464', 'Solicitudes voto CERA aceptadas': None, 'Total votantes CER': '1237464', 'Total votantes CERA': None, 'Total votantes': '857839', 'Votos válidos': '849497', 'Votos a candidaturas': '842772', 'Votos en blanco': '6725', 'Votos nulos': '8342', '0108/Votos': '0', '0108/Diputados': '0', '0002/Votos': '0', '0002/Diputados': '0', '0003/Votos': '0', '0003/Diputados': '0', '0005/Votos': '0', '0005/Diputados': '0', '0006/Votos': '0', '0006/Diputados': '0', '0007/Votos': '2282', '0007/Diputados': '0', '0008/Votos': '0', '0008/Diputados': '0', '0009/Votos': '0', '0009/Diputados': '0', '0010/Votos': '0', '0010/Diputados': '0', '0011/Votos': '0', '0011/Diputados': '0', '0012/Votos': '0', '0012/Diputados': '0', '0013/Votos': '0

In [7]:
tabla_inicial = pd.DataFrame(columns = claves)
for prov in provincias:
    tabla_inicial = tabla_inicial.append(todf(prov),ignore_index=True)

print(tabla_inicial)

ACoruña
Albacete
Alicante/Alacant
Almería
Araba/Álava
Asturias
Ávila
Badajoz
Barcelona
Bizkaia
Burgos
Cáceres
Cádiz
Cantabria
Castellón/Castelló
Ceuta
CiudadReal
Córdoba
Cuenca
Gipuzkoa
Girona
Granada
Guadalajara
Huelva
Huesca
IllesBalears
Jaén
LaRioja
LasPalmas
León
Lleida
Lugo
Madrid
Málaga
Melilla
Murcia
Navarra
Ourense
Palencia
Pontevedra
Salamanca
SantaCruzdeTenerife
Segovia
Sevilla
Soria
Tarragona
Teruel
Toledo
Valencia/València
Valladolid
Zamora
Zaragoza
           Nombre de Comunidad Código de Provincia     Nombre de Provincia  \
0                      Galicia                  15                A Coruña   
1         Castilla - La Mancha                   2                Albacete   
2         Comunitat Valenciana                   3      Alicante / Alacant   
3                    Andalucía                   4                 Almería   
4                   País Vasco                   1           Araba / Álava   
5       Principado de Asturias                  33                

Ahora tenemos un problema derivado del nombre que adquieren los partidos en diferentes circunscripciones por ejemplo, el PSOE tiene u nombre distinto en Galicia por lo que se le identifica como otro partido distinto

Tendriamos que hacer otra lista con los partidillos que pertenecen a un mismo grupo

In [93]:
#reemplazar codigo partidos por nombre
#usaremos clave partidoa
def reemplazo(p):
    codigo = p.split('/')[0]
    datpar = list(filter(lambda x: x['codpar'] == codigo, partidos))
    return (p, datpar[0]['s'] + '/' + p.split('/')[1])

#la salida hay que convertirla en un diccionario para convertir las columnas
reemplazo_cols = {v[0]:v[1] for v in list(map(reemplazo,claves_partidos))}

#tenemos que comprobar que no estén duplicados
lista_partidos = list(reemplazo_cols.values())
if not (len(lista_partidos) == len(set(lista_partidos))):
    #hay duplicados
    seen = set()
    repeated = []
    for i,elem in enumerate(lista_partidos):
        if elem not in seen:
            seen.add(elem)
        else:
            repeated = repeated + [(i,elem)]         
            
#campos repetidos Votos y Diputados
repeatedV = [v  for v in repeated if (v[1].split('/')[1] == 'Votos')]
repeatedD = [v  for v in repeated if (v[1].split('/')[1] == 'Diputados')]
print((len(repeatedV) == len(repeatedD)))
#vamos añadirle un string de 3 variables
import random, string
def id_generator(size=6, chars=string.ascii_uppercase + string.digits):
    return ''.join(random.choice(chars) for _ in range(size))

random_thing = [id_generator(3) for i in range(len(repeatedV))]
print('is random?',(len(random_thing) == len(set(random_thing))))
repeatedV = [(r[0], r[1].split('/')[0] + '_' + random_thing[i]\
              + '/' + r[1].split('/')[1])  for i,r in enumerate(repeatedV)]
repeatedD = [(r[0], r[1].split('/')[0] + '_' + random_thing[i]\
              + '/' + r[1].split('/')[1])  for i,r in enumerate(repeatedD)]

#ahora cambiamos los nuevos nombres en el dict original
reemplazo_cols2 = reemplazo_cols.copy()

for e in repeatedV:
    reemplazo_cols2[list(reemplazo_cols2.keys())[e[0]]] = e[1]

for e in repeatedD:
    reemplazo_cols2[list(reemplazo_cols2.keys())[e[0]]] = e[1]

    
print('set igual len anterior?', (len(reemplazo_cols2) == len(set(reemplazo_cols))))
#y cambiamos el nombre de las columnas con rename
tabla = tabla_inicial.rename(columns= reemplazo_cols2)

True
is random? True
set igual len anterior? True


Comprobación

In [96]:
def search(values, searchFor):
    llaves = []
    for k in values:
        if searchFor == values[k]:
            llaves = llaves +[k]
    return llaves

print(search(reemplazo_cols,'PSOE/Votos'))
print(search(reemplazo_cols2,'PSOE/Votos'))

['0093/Votos', '0094/Votos']
['0093/Votos']


In [97]:
print(search(reemplazo_cols,'PP/Votos'))
print(search(reemplazo_cols2,'PP/Votos'))

['0083/Votos', '0084/Votos', '0085/Votos']
['0083/Votos']


## Limpieza de la tabla

Cast de los votos a entero

In [101]:
list(tabla.columns)
#limpiamostabla
tabla.fillna(0,inplace= True)
colstype = {col:'int32' for col in tabla.columns[3:]}
tabla = tabla.astype(colstype)

Esto es una pequeña comporbación de las sumas

In [106]:
tablaPP = tabla.filter(regex='(?:PP)(?!SO)').filter(regex='(?:/Votos)')
tablaPP['SumaPP'] = tablaPP.sum(axis=1)
tablaPP.sum()

PP/Votos         4634634
PP_XVP/Votos       17315
PP_RTE/Votos      239222
PP-FORO/Votos     128698
SumaPP           5019869
dtype: int64

In [107]:
tablaPSOE = tabla.filter(regex='(?:PSOE)').filter(regex='(?:/Votos)')
tablaPSOE['SumaPSOE'] = tablaPSOE.sum(axis=1)
tablaPSOE.sum()

PSC-PSOE/Votos        790582
PSdeG-PSOE/Votos      403321
PSE-EE-PSOE/Votos     225905
PSOE/Votos             56892
PSOE_8VH/Votos       5276283
SumaPSOE             6752983
dtype: int64

## Agrupamos las columnas por grupos grandes

In [116]:
#en este paso vamos a unir los partidos del mismo grupo
#este diccionario es para buscar las columnas y pasarlas después a una
grupos_claves = {
    '(?:VERDES)':'VERDES',
    '(?:Cs)':'Cs',
    '(?:EB)':'EB',
    '(?:PODEMOS|GUANYEM)':'PODEMOS-GUANYEM',
    '(?:M-PAIS|MAS)':'MAS-PAIS',
    '(?:PACMA)':'PACMA',
    '(?:PSOE)':'PSOE',
    '(?:PUM\+J)':'PUM+J',
    '(?:RECORTES)':'RECORTES',
    '(?:PP)(?!SO)':'PP',
    '^PC':'PCE'
}


In [117]:
import re
def buscarColumnas(nom,tipo,x):
    es = re.search(nom, x)
    vd = re.search(tipo, x)
    if es and vd:
        return True
    else:
        return False

tabla2 = pd.DataFrame(tabla)

for key,val in grupos_claves.items():
    #print(key,val)
    columnasV = list(filter(lambda x: buscarColumnas(key,"(?=/Votos)", x),tabla.columns))
    #print(columnasV)
    columnasD = list(filter(lambda x: buscarColumnas(key,"(?=/Diputados)", x),tabla.columns))
    #print(columnasD)
    
    
    tabla2 = tabla2.drop(columns=columnasV)
    tabla2 = tabla2.drop(columns=columnasD)
    
    # sum over the column axis. 
    name_col = val + "/Votos"
    tabla2[name_col] = tabla[columnasV].sum(axis = 1)
    name_col = val + "/Diputados"
    tabla2[name_col] = tabla[columnasD].sum(axis = 1)


In [118]:
tabla2.filter(regex='(?:PSOE)').filter(regex='(?=/Votos)').sum()

PSOE/Votos    6752983
dtype: int64

## Limpiamos los que no tienen votos

In [125]:
suma_votos = tabla2.filter(regex='(?=/Votos)').sum()
suma_votos.sort_values(ascending=False)[0:8]

PSOE/Votos                6752983
PP/Votos                  5019869
VOX/Votos                 3640063
PODEMOS-GUANYEM/Votos     3097185
Cs/Votos                  1637540
ERC-SOBIRANISTES/Votos     869934
JxCAT-JUNTS/Votos          527375
MAS-PAIS/Votos             403026
dtype: int64

In [124]:
suma_votos[suma_votos == 0]

EMPATE/Votos    0
OTROS/Votos     0
dtype: int64

In [126]:
#son realmente pocos, lo hacemos a mano
tabla2 = tabla2.drop(columns=['EMPATE/Votos','OTROS/Votos','OTROS/Diputados','EMPATE/Diputados'])

In [127]:
tabla2

Unnamed: 0,Nombre de Comunidad,Código de Provincia,Nombre de Provincia,Población,Número de mesas,Censo electoral sin CERA,Censo CERA,Total censo electoral,Solicitudes voto CERA aceptadas,Total votantes CER,...,PSOE/Votos,PSOE/Diputados,PUM+J/Votos,PUM+J/Diputados,RECORTES/Votos,RECORTES/Diputados,PP/Votos,PP/Diputados,PCE/Votos,PCE/Diputados
0,Galicia,15,A Coruña,1119351,1541,0,0,928257,0,928257,...,182355,3,583,0,935,0,185267,3,2126,0
1,Castilla - La Mancha,2,Albacete,388786,519,0,0,302455,0,302455,...,69589,2,369,0,214,0,58616,1,327,0
2,Comunitat Valenciana,3,Alicante / Alacant,1838819,2221,0,0,1237464,0,1237464,...,239605,4,935,0,886,0,207060,3,899,0
3,Andalucía,4,Almería,709340,809,0,0,460642,0,460642,...,88425,2,360,0,334,0,77751,2,411,0
4,País Vasco,1,Araba / Álava,328868,425,0,0,251429,0,251429,...,37325,1,380,0,402,0,25318,0,216,0
5,Principado de Asturias,33,Asturias,1028244,1541,0,0,853834,0,853834,...,184062,3,463,0,776,0,128698,2,1400,0
6,Castilla y León,5,Ávila,158498,357,0,0,128646,0,128646,...,24267,1,99,0,100,0,32385,1,97,0
7,Extremadura,6,Badajoz,676376,898,0,0,543403,0,543403,...,141980,3,915,0,658,0,92588,2,0,0
8,Cataluña,8,Barcelona,5609350,5985,0,0,4011961,0,4011961,...,635265,8,1499,0,4572,0,224639,2,3005,0
9,País Vasco,48,Bizkaia,1149628,1396,0,0,909703,0,909703,...,119917,2,486,0,821,0,55130,0,481,0


## Guaradamos la tabla final en un excel

In [128]:
tabla2.to_csv("elecciones9N_listo.csv",index=False)

In [132]:
tabla2.dtypes

Nombre de Comunidad                object
Código de Provincia                 int64
Nombre de Provincia                object
Población                           int32
Número de mesas                     int32
Censo electoral sin CERA            int32
Censo CERA                          int32
Total censo electoral               int32
Solicitudes voto CERA aceptadas     int32
Total votantes CER                  int32
Total votantes CERA                 int32
Total votantes                      int32
Votos válidos                       int32
Votos a candidaturas                int32
Votos en blanco                     int32
Votos nulos                         int32
¡TERUEL-EXISTE!/Votos               int32
¡TERUEL-EXISTE!/Diputados           int32
AHORA-CANARIAS/Votos                int32
AHORA-CANARIAS/Diputados            int32
ANDECHA/Votos                       int32
ANDECHA/Diputados                   int32
AUNACV/Votos                        int32
AUNACV/Diputados                  