# Resumen de las elecciones a la Comunidad de Madrid 2021

## 0.-Objetivo del presente trabajo ##

El presente trabajo tiene como objetivo analizar los resultados de las pasadas elecciones autonómicas del 4 de mayo en Madrid y sacar conclusiones sobre la distribución del voto mediante representaciones espaciales, así como su comparación con pasadas elecciones para sacar conclusiones de cómo ha ido variando.

### Nota sobre la obtención de los datos: ###
Los datos de las últimas elecciones se obtuvieron del siguiente enlace: https://resultados2021.comunidad.madrid/Mesas/es; los pasos para analizar la información y procesarla están resumidos en el siguiente documento (TODO: poner link a otro archivo de Jupyter). Al no conseguir datos similares con el mismo formato de pasadas elecciones autonómicas se optó por hacer un "web scrapper" de la página del periódico El País donde se resumen los votos obtenidos en las últimas 5 elecciones (2021, 2019, 2015, 2011 y 2007).

## 1.-Obtención y preparación de los datos ##


Obtenemos los datos de las elecciones autonómicas de Madrid 2019 y 2021 haciendo "scrapping" de las siguientes páginas: 

* https://resultados.elpais.com/elecciones/2019/autonomicas/12/, 
* https://resultados.elpais.com/elecciones/2021/autonomicas/12/

Para poder procesar la información de la web hemos tenido que instalar los siguientes paquetes:
* **Instalamos beautifulsoup4:** pip install beautifulsoup4 
* **Intalamos lxml:** pip install lxml 
* **Instalamos requests library:** pip install requests

Analizando la web a la que nos lleva la primera url vemos el resumen de enlaces que te llevan a los datos de cada municipio. Estos enlaces están alojados en elementos 'ul' que a su vez tienen una lista de elementos 'li' con enlaces que llevan a cada página.

Vamos a obtener la lista resumen de esos elementos 'ul', 'li' y los enlaces para después procesar cada página:

In [1]:
from bs4 import BeautifulSoup
import requests

### 1.0.-Preparación de los datos de 2019: 
Obtenemos el texto html de la web y vemos que el elemento ul donde se aloja el resumen de municipios tiene la clase 'estirar':

In [2]:
html_text = requests.get('https://resultados.elpais.com/elecciones/2019/autonomicas/12/').text
soup = BeautifulSoup(html_text, 'lxml')
soup

<!DOCTYPE html>
<html lang="es" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Resultados Electorales en Madrid: Elecciones Comunidad de Madrid 2019 | EL PAÍS</title>
<meta content="Conoce los resultados de las elecciones en Madrid: número de votos y escaños por partidos en las Elecciones de la Comunidad de Madrid 2019 con EL PAÍS." name="description"/>
<meta content="Elecciones Madrid 2019, Elecciones 4M, Elecciones Comunidad de Madrid, Elecciones Autonómicas, Gobierno Comunidad Madrid, resultados electorales, escaños, candidatos, políticos, cabezas de lista, Isabel Díaz Ayuso, PP Madrid, Ángel Gabilondo, PSOE-M, Edmundo Bal, Ciudadanos, Rocío Monasterio, Vox, Pablo Iglesias, Unidad Podemos, Mónica García, Más Madrid, votos, votantes, sondeos, comicios, partidos políticos, coaliciones, grupos políticos, escrutinio, recuento, campaña, noticias" name="keywords"/>
<meta content="Resultados Electorales en Madrid: Elecciones Comunidad de Madrid 2019" property="og:title"/>
<meta conten

In [3]:
ul = soup.select('ul.estirar')[1]
ul

<ul class="estirar"><li><a href="28/02.html">Ajalvir</a></li><li><a href="28/03.html">Alameda del Valle</a></li><li><a href="28/05.html">Alcalá de Henares</a></li><li><a href="28/06.html">Alcobendas</a></li><li><a href="28/07.html">Alcorcón</a></li><li><a href="28/08.html">Aldea del Fresno</a></li><li><a href="28/09.html">Algete</a></li><li><a href="28/10.html">Alpedrete</a></li><li><a href="28/11.html">Ambite</a></li><li><a href="28/12.html">Anchuelo</a></li><li><a href="28/13.html">Aranjuez</a></li><li><a href="28/14.html">Arganda del Rey</a></li><li><a href="28/15.html">Arroyomolinos</a></li><li><a href="28/17.html">Batres</a></li><li><a href="28/18.html">Becerril de la Sierra</a></li><li><a href="28/19.html">Belmonte de Tajo</a></li><li><a href="28/20.html">Berzosa del Lozoya</a></li><li><a href="28/22.html">Boadilla del Monte</a></li><li><a href="28/24.html">Braojos</a></li><li><a href="28/25.html">Brea de Tajo</a></li><li><a href="28/26.html">Brunete</a></li><li><a href="28/27.ht

El resumen de elementos 'li':

In [4]:
lis = ul.find_all('li') 
lis

[<li><a href="28/02.html">Ajalvir</a></li>,
 <li><a href="28/03.html">Alameda del Valle</a></li>,
 <li><a href="28/05.html">Alcalá de Henares</a></li>,
 <li><a href="28/06.html">Alcobendas</a></li>,
 <li><a href="28/07.html">Alcorcón</a></li>,
 <li><a href="28/08.html">Aldea del Fresno</a></li>,
 <li><a href="28/09.html">Algete</a></li>,
 <li><a href="28/10.html">Alpedrete</a></li>,
 <li><a href="28/11.html">Ambite</a></li>,
 <li><a href="28/12.html">Anchuelo</a></li>,
 <li><a href="28/13.html">Aranjuez</a></li>,
 <li><a href="28/14.html">Arganda del Rey</a></li>,
 <li><a href="28/15.html">Arroyomolinos</a></li>,
 <li><a href="28/17.html">Batres</a></li>,
 <li><a href="28/18.html">Becerril de la Sierra</a></li>,
 <li><a href="28/19.html">Belmonte de Tajo</a></li>,
 <li><a href="28/20.html">Berzosa del Lozoya</a></li>,
 <li><a href="28/22.html">Boadilla del Monte</a></li>,
 <li><a href="28/24.html">Braojos</a></li>,
 <li><a href="28/25.html">Brea de Tajo</a></li>,
 <li><a href="28/26.ht

Vamos a crear un array resumen que contenga el nombre de cada municipio y su link asociado:

In [5]:
url = 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/'
results_2019 = []
for li in lis:
    for link in li.find_all('a'):
        local_result = {}
        local_result['municipio'] = link.text
        local_result['link'] = url+link.get('href')
        results_2019.append(local_result)

results_2019

[{'municipio': 'Ajalvir',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/02.html'},
 {'municipio': 'Alameda del Valle',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/03.html'},
 {'municipio': 'Alcalá de Henares',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/05.html'},
 {'municipio': 'Alcobendas',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/06.html'},
 {'municipio': 'Alcorcón',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/07.html'},
 {'municipio': 'Aldea del Fresno',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/08.html'},
 {'municipio': 'Algete',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/09.html'},
 {'municipio': 'Alpedrete',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/10.html'},
 {'municipio': 'Ambite',
  'link': 'https://resultados.elpais.com/elec

### 1.0.0-Extracción de los datos de cada municipio

Vamos a hacer una prueba con una de las páginas donde se resumen los datos de un municipio para ver cómo tenemos que extraer los datos y después aplicarlo al resumen de municipios y links que hemos obtenido en results_2019.

Hacemos la prueba con el municipio de Madarcos:

In [8]:
# link de pruebas (municipio Madarcos):
link_pruebas = 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/78.html'

# obtenemos el código html:
html_text_municipio = requests.get(link_pruebas).text
soup = BeautifulSoup(html_text_municipio, 'lxml')
soup

<!DOCTYPE html>
<html lang="es" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Resultados Electorales en Madarcos: Elecciones Comunidad de Madrid 2019 | EL PAÍS</title>
<meta content="Conoce los resultados de las elecciones en Madarcos: número de votos y escaños por partidos en las Elecciones de la Comunidad de Madrid 2019 con EL PAÍS." name="description"/>
<meta content="Elecciones Madrid 2019, Elecciones 4M, Elecciones Comunidad de Madrid, Elecciones Autonómicas, Gobierno Comunidad Madrid, resultados electorales, escaños, candidatos, políticos, cabezas de lista, Isabel Díaz Ayuso, PP Madrid, Ángel Gabilondo, PSOE-M, Edmundo Bal, Ciudadanos, Rocío Monasterio, Vox, Pablo Iglesias, Unidad Podemos, Mónica García, Más Madrid, votos, votantes, sondeos, comicios, partidos políticos, coaliciones, grupos políticos, escrutinio, recuento, campaña, noticias" name="keywords"/>
<meta content="Resultados Electorales en Madarcos: Elecciones Comunidad de Madrid 2019" property="og:title"/>
<meta 

Después de analizar dónde están los datos que buscamos podemos diferenciar dos tablas resumen con los siguientes identificadores:
* **Tabla de escrutado:** 'id'='tablaResumen'
* **Tabla resumen partidos:** 'id'='tablaVotosPartidos'

### Tabla de escrutado:
Vemos que obtenemos los siguientes campos:

In [9]:
table_escrutado = soup.find('table', {'id': 'tablaResumen'})
table_escrutado_trs = table_escrutado.find_all('tr')
table_escrutado_trs

[<tr>
 <th class="encabezado">Escrutado:</th>
 <td class="tipoPorciento" colspan="2">100 %</td>
 </tr>,
 <tr>
 <th class="encabezado">Votos contabilizados:</th>
 <td class="tipoNumero">37</td>
 <td class="tipoPorciento">92,5 %</td>
 </tr>,
 <tr>
 <th class="encabezado">Abstenciones:</th>
 <td class="tipoNumero">3</td>
 <td class="tipoPorciento">7,5 %</td>
 </tr>,
 <tr>
 <th class="encabezado">Votos nulos:</th>
 <td class="tipoNumero">0</td>
 <td class="tipoPorciento">0 %</td>
 </tr>,
 <tr>
 <th class="encabezado">Votos en blanco:</th>
 <td class="tipoNumero">0</td>
 <td class="tipoPorciento">0 %</td>
 </tr>]

Y que podemos resumir los datos de la siguiente manera:

In [10]:
results_table_escrutado = []
for tr in table_escrutado_trs:
    local_table_escrutado = {}
    local_table_escrutado['encabezado'] = None if tr.select_one('.encabezado') is None else tr.select_one('.encabezado').text
    local_table_escrutado['numero'] = None if tr.select_one('.tipoNumero') is None else tr.select_one('.tipoNumero').text
    local_table_escrutado['porcentaje'] = None if tr.select_one('.tipoPorciento') is None else tr.select_one('.tipoPorciento').text
    
    results_table_escrutado.append(local_table_escrutado)
    
results_table_escrutado

[{'encabezado': 'Escrutado:', 'numero': None, 'porcentaje': '100 %'},
 {'encabezado': 'Votos contabilizados:',
  'numero': '37',
  'porcentaje': '92,5 %'},
 {'encabezado': 'Abstenciones:', 'numero': '3', 'porcentaje': '7,5 %'},
 {'encabezado': 'Votos nulos:', 'numero': '0', 'porcentaje': '0 %'},
 {'encabezado': 'Votos en blanco:', 'numero': '0', 'porcentaje': '0 %'}]

De aquí podemos aplicar unas funciones para extraer los datos de los campos comunes en cada diccionario (encabezado, número y porcentaje) y pasar los valores de string a numéricos:

In [11]:
def clean_strings_and_turn_float(value):
    return value.replace(' %', '').replace(',', '.')
    
def result_resume(results_table_escrutado):
    results_resume = []
    for result in results_table_escrutado:
        local_resume = {}
        if result.get('encabezado') == 'Escrutado:':
            local_resume['escrutado'] = clean_strings_and_turn_float(result.get('porcentaje'))
        if result.get('encabezado') == 'Votos contabilizados:':
            local_resume['votos_totales'] = clean_strings_and_turn_float(result.get('numero'))
            local_resume['votos_totales_porcentaje'] = clean_strings_and_turn_float(result.get('porcentaje'))
        if result.get('encabezado') == 'Abstenciones:':
            local_resume['abstencion'] = clean_strings_and_turn_float(result.get('numero'))
            local_resume['abstencion_porcentaje'] = clean_strings_and_turn_float(result.get('porcentaje'))
        if result.get('encabezado') == 'Votos nulos:':
            local_resume['votos_nulos'] = clean_strings_and_turn_float(result.get('numero'))
            local_resume['votos_nulos_porcentaje'] = clean_strings_and_turn_float(result.get('porcentaje'))
        if result.get('encabezado') == 'Votos en blanco:':
            local_resume['votos_blancos'] = clean_strings_and_turn_float(result.get('numero'))
            local_resume['votos_blancos_porcentaje'] = clean_strings_and_turn_float(result.get('porcentaje'))
        
        results_resume.append(local_resume)

    return results_resume

result_resume(results_table_escrutado)

[{'escrutado': '100'},
 {'votos_totales': '37', 'votos_totales_porcentaje': '92.5'},
 {'abstencion': '3', 'abstencion_porcentaje': '7.5'},
 {'votos_nulos': '0', 'votos_nulos_porcentaje': '0'},
 {'votos_blancos': '0', 'votos_blancos_porcentaje': '0'}]

### Tabla resumen partidos:
Vemos que obtenemos los siguientes campos:

In [12]:
table_partidos = soup.find('table', {'id': 'tablaVotosPartidos'})
table_partido_trs = table_partidos.find_all('tr')
table_partido_trs

[<tr>
 <th class="encabezado">Partido</th>
 <th class="encabezado">Votos</th>
 <th class="encabezado">%</th>
 </tr>,
 <tr><th class="nombrePartido"><acronym title="PARTIDO POPULAR">PP</acronym></th><td class="tipoNumeroVotos">15</td><td class="tipoPorcientoVotos">40,54 %</td></tr>,
 <tr><th class="nombrePartido"><acronym title="UNIDAS PODEMOS">PODEMOS-IU</acronym></th><td class="tipoNumeroVotos">7</td><td class="tipoPorcientoVotos">18,92 %</td></tr>,
 <tr><th class="nombrePartido"><acronym title="PARTIDO SOCIALISTA OBRERO ESPAÑOL">PSOE</acronym></th><td class="tipoNumeroVotos">6</td><td class="tipoPorcientoVotos">16,22 %</td></tr>,
 <tr><th class="nombrePartido"><acronym title="CIUDADANOS-PARTIDO DE LA CIUDADANIA">Cs</acronym></th><td class="tipoNumeroVotos">3</td><td class="tipoPorcientoVotos">8,11 %</td></tr>,
 <tr><th class="nombrePartido"><acronym title="MÁS MADRID">MÁS MADRID</acronym></th><td class="tipoNumeroVotos">3</td><td class="tipoPorcientoVotos">8,11 %</td></tr>,
 <tr><th 

In [13]:
results_table_partido = []
for tr in table_partido_trs:
    local_table_partido = {}
    local_table_partido['partido'] = None if tr.select_one('.nombrePartido') is None else tr.select_one('.nombrePartido').text
    local_table_partido['numero_votos'] = None if tr.select_one('.tipoNumeroVotos') is None else tr.select_one('.tipoNumeroVotos').text
    local_table_partido['porcentaje'] = None if tr.select_one('.tipoPorcientoVotos') is None else tr.select_one('.tipoPorcientoVotos').text
    
    results_table_partido.append(local_table_partido)
    
results_table_partido

[{'partido': None, 'numero_votos': None, 'porcentaje': None},
 {'partido': 'PP', 'numero_votos': '15', 'porcentaje': '40,54 %'},
 {'partido': 'PODEMOS-IU', 'numero_votos': '7', 'porcentaje': '18,92 %'},
 {'partido': 'PSOE', 'numero_votos': '6', 'porcentaje': '16,22 %'},
 {'partido': 'Cs', 'numero_votos': '3', 'porcentaje': '8,11 %'},
 {'partido': 'MÁS MADRID', 'numero_votos': '3', 'porcentaje': '8,11 %'},
 {'partido': 'VOX', 'numero_votos': '2', 'porcentaje': '5,41 %'},
 {'partido': 'PACMA', 'numero_votos': '1', 'porcentaje': '2,7 %'}]

Vamos a hacer un tratamiento parecido al caso de la tabla de escrutado: vamos a reducir los nombres de cada partido a minúsculas, si tienen más de una palabra las unimos por guiones y eliminamos acentos; los valores los pasamos de strings a valores numéricos y eliminamos los signos de porcentajes.

In [14]:
import unicodedata

def strip_accents(text):
    try:
        text = unicode(text, 'utf-8')
    except NameError: # unicode is a default on python 3 
        pass

    text = unicodedata.normalize('NFD', text)\
           .encode('ascii', 'ignore')\
           .decode("utf-8")

    return str(text)
    
def result_partido_resume(results_table_partido):
    results_resume_partido = []
    for result in results_table_partido:
        local_resume = {}
        if result.get('partido') == None:
            continue
        else:
            partido = strip_accents(result.get('partido').lower().replace('-', '_').replace(' ', '_'))
            local_resume[partido] = clean_strings_and_turn_float(result.get('numero_votos'))
            local_resume[partido+'_porcentaje'] = clean_strings_and_turn_float(result.get('porcentaje'))
    
        results_resume_partido.append(local_resume)

    return results_resume_partido

result_partido_resume(results_table_partido)

[{'pp': '15', 'pp_porcentaje': '40.54'},
 {'podemos_iu': '7', 'podemos_iu_porcentaje': '18.92'},
 {'psoe': '6', 'psoe_porcentaje': '16.22'},
 {'cs': '3', 'cs_porcentaje': '8.11'},
 {'mas_madrid': '3', 'mas_madrid_porcentaje': '8.11'},
 {'vox': '2', 'vox_porcentaje': '5.41'},
 {'pacma': '1', 'pacma_porcentaje': '2.7'}]

Ya podemos aplicar sobre todos los municipios. Para ellos definimos dos funciones que resumen lo que hemos hecho en ambas tablas:

In [15]:
def table_escrutado(link):
    html_text_municipio = requests.get(link).text
    soup = BeautifulSoup(html_text_municipio, 'lxml')

    table_escrutado = soup.find('table', {'id': 'tablaResumen'})
    table_escrutado_trs = table_escrutado.find_all('tr')
    
    results_table_escrutado = []
    for tr in table_escrutado_trs:
        local_table_escrutado = {}
        local_table_escrutado['encabezado'] = None if tr.select_one('.encabezado') is None else tr.select_one('.encabezado').text
        local_table_escrutado['numero'] = None if tr.select_one('.tipoNumero') is None else tr.select_one('.tipoNumero').text
        local_table_escrutado['porcentaje'] = None if tr.select_one('.tipoPorciento') is None else tr.select_one('.tipoPorciento').text
    
        results_table_escrutado.append(local_table_escrutado)
    
    return results_table_escrutado

In [16]:
def table_partido(link):
    html_text_municipio = requests.get(link).text
    soup = BeautifulSoup(html_text_municipio, 'lxml')
    
    table_partido = soup.find('table', {'id': 'tablaVotosPartidos'})
    table_partido_trs = table_partido.find_all('tr')
    
    results_table_partido = []
    for tr in table_partido_trs:
        local_table_partido = {}
        local_table_partido['partido'] = None if tr.select_one('.nombrePartido') is None else tr.select_one('.nombrePartido').text
        local_table_partido['numero_votos'] = None if tr.select_one('.tipoNumeroVotos') is None else tr.select_one('.tipoNumeroVotos').text
        local_table_partido['porcentaje'] = None if tr.select_one('.tipoPorcientoVotos') is None else tr.select_one('.tipoPorcientoVotos').text
    
        results_table_partido.append(local_table_partido)
        
    return results_table_partido

Aplicamos sobre la url inicial desde la que accederemos a todos los municipios:

In [17]:
url = 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/'
results_pruebas = []
for li in lis:
    for link in li.find_all('a'):
        local_result = {}
        local_result['municipio'] = link.text
        local_result['link'] = url+link.get('href')
        local_result['escrutinio'] = table_escrutado(local_result['link'])
        local_result['partidos'] = table_partido(local_result['link'])
        results_pruebas.append(local_result)
        
results_pruebas

[{'municipio': 'Ajalvir',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/02.html',
  'escrutinio': [{'encabezado': 'Escrutado:',
    'numero': None,
    'porcentaje': '100 %'},
   {'encabezado': 'Votos contabilizados:',
    'numero': '2.178',
    'porcentaje': '66,34 %'},
   {'encabezado': 'Abstenciones:', 'numero': '1.105', 'porcentaje': '33,66 %'},
   {'encabezado': 'Votos nulos:', 'numero': '12', 'porcentaje': '0,55 %'},
   {'encabezado': 'Votos en blanco:', 'numero': '27', 'porcentaje': '1,25 %'}],
  'partidos': [{'partido': None, 'numero_votos': None, 'porcentaje': None},
   {'partido': 'PSOE', 'numero_votos': '532', 'porcentaje': '24,56 %'},
   {'partido': 'PP', 'numero_votos': '521', 'porcentaje': '24,05 %'},
   {'partido': 'Cs', 'numero_votos': '456', 'porcentaje': '21,05 %'},
   {'partido': 'VOX', 'numero_votos': '274', 'porcentaje': '12,65 %'},
   {'partido': 'MÁS MADRID', 'numero_votos': '224', 'porcentaje': '10,34 %'},
   {'partido': 'PODEMOS-IU'

Vamos a chequear qué longitud tiene nuestra lista:

In [19]:
len(results_pruebas)

178

Vemos que tiene una longitud de 178 cuando se sabe que la Comunidad de Madrid tiene 179 municipios. Por lo tanto la página de inicio tiene un fallo y no presenta la información de un municipio.

Sabemos que el municipio que falta es La Acebeda. Después cuando pasemos los resultados a un dataframe y le añadamos la información geográfica explicaremos cómo hemos sabido que era ese municipio.

Buscando de forma manual llegamos que la información electoral de La Acebeda para el año 2019 está resumida en este enlace: https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/01.html

In [21]:
# insertamos la info. asociada a La Acebeda:
la_acebeda = {}
la_acebeda['municipio'] = 'La Acebeda'
la_acebeda['link'] = 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/01.html'
la_acebeda['escrutinio'] = table_escrutado(la_acebeda['link'])
la_acebeda['partidos'] = table_partido(la_acebeda['link'])
results_pruebas.insert(0, la_acebeda)

results_pruebas

[{'municipio': 'La Acebeda',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/01.html',
  'escrutinio': [{'encabezado': 'Escrutado:',
    'numero': None,
    'porcentaje': '100 %'},
   {'encabezado': 'Votos contabilizados:',
    'numero': '70',
    'porcentaje': '90,91 %'},
   {'encabezado': 'Abstenciones:', 'numero': '7', 'porcentaje': '9,09 %'},
   {'encabezado': 'Votos nulos:', 'numero': '3', 'porcentaje': '4,29 %'},
   {'encabezado': 'Votos en blanco:', 'numero': '0', 'porcentaje': '0 %'}],
  'partidos': [{'partido': None, 'numero_votos': None, 'porcentaje': None},
   {'partido': 'PP', 'numero_votos': '25', 'porcentaje': '37,31 %'},
   {'partido': 'Cs', 'numero_votos': '14', 'porcentaje': '20,9 %'},
   {'partido': 'PSOE', 'numero_votos': '11', 'porcentaje': '16,42 %'},
   {'partido': 'MÁS MADRID', 'numero_votos': '10', 'porcentaje': '14,93 %'},
   {'partido': 'PODEMOS-IU', 'numero_votos': '5', 'porcentaje': '7,46 %'},
   {'partido': 'VOX', 'numero_votos': 

Pasamos a presentar la información de una forma que nos sea más fácil de tratar como dataframe:

In [22]:
results_pruebas_formatted = []

for result_prueba in results_pruebas:
    local_result = {}
    local_result['municipio'] = result_prueba['municipio']
    local_result['link'] = result_prueba['link']
    local_result['escrutinio'] = result_resume(result_prueba['escrutinio'])
    local_result['partidos'] = result_partido_resume(result_prueba['partidos'])
    
    results_pruebas_formatted.append(local_result)
    
results_pruebas_formatted

[{'municipio': 'La Acebeda',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/01.html',
  'escrutinio': [{'escrutado': '100'},
   {'votos_totales': '70', 'votos_totales_porcentaje': '90.91'},
   {'abstencion': '7', 'abstencion_porcentaje': '9.09'},
   {'votos_nulos': '3', 'votos_nulos_porcentaje': '4.29'},
   {'votos_blancos': '0', 'votos_blancos_porcentaje': '0'}],
  'partidos': [{'pp': '25', 'pp_porcentaje': '37.31'},
   {'cs': '14', 'cs_porcentaje': '20.9'},
   {'psoe': '11', 'psoe_porcentaje': '16.42'},
   {'mas_madrid': '10', 'mas_madrid_porcentaje': '14.93'},
   {'podemos_iu': '5', 'podemos_iu_porcentaje': '7.46'},
   {'vox': '2', 'vox_porcentaje': '2.99'}]},
 {'municipio': 'Ajalvir',
  'link': 'https://resultados.elpais.com/elecciones/2019/autonomicas/12/28/02.html',
  'escrutinio': [{'escrutado': '100'},
   {'votos_totales': '2.178', 'votos_totales_porcentaje': '66.34'},
   {'abstencion': '1.105', 'abstencion_porcentaje': '33.66'},
   {'votos_nulos': '

### 1.0.1-Convertir la información en dataframe

Vamos a crear un dataframe donde se muestre la información de cada municipio y el resumen de partidos a los que se ha votado en cada uno.

In [23]:
import pandas as pd

df = pd.json_normalize(results_pruebas_formatted, record_path='partidos', meta=['municipio', 'link'])
df = df.groupby('municipio').apply(lambda x: x.bfill().head(1)).reset_index(drop=True)
df

Unnamed: 0,pp,pp_porcentaje,cs,cs_porcentaje,psoe,psoe_porcentaje,mas_madrid,mas_madrid_porcentaje,podemos_iu,podemos_iu_porcentaje,...,ph,ph_porcentaje,pcas_tc,pcas_tc_porcentaje,p_lib,p_lib_porcentaje,uleg,uleg_porcentaje,municipio,link
0,521,24.05,456,21.05,532,24.56,224,10.34,81,3.74,...,1,0.05,1,0.05,,,,,Ajalvir,https://resultados.elpais.com/elecciones/2019/...
1,41,29.29,19,13.57,54,38.57,12,8.57,3,2.14,...,,,,,,,,,Alameda del Valle,https://resultados.elpais.com/elecciones/2019/...
2,15.953,17.91,18.120,20.34,28.759,32.28,10.975,12.32,5.306,5.96,...,61,0.07,39,0.04,28,0.03,8,0.01,Alcalá de Henares,https://resultados.elpais.com/elecciones/2019/...
3,13.844,25.38,11.032,20.22,15.338,28.12,6.047,11.08,2.527,4.63,...,33,0.06,23,0.04,16,0.03,15,0.03,Alcobendas,https://resultados.elpais.com/elecciones/2019/...
4,16.844,19.29,16.214,18.57,27.492,31.48,12.227,14,6.537,7.49,...,40,0.05,50,0.06,23,0.03,18,0.02,Alcorcón,https://resultados.elpais.com/elecciones/2019/...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
174,249,26.38,175,18.54,229,24.26,105,11.12,53,5.61,...,,,,,,,,,Villar del Olmo,https://resultados.elpais.com/elecciones/2019/...
175,778,20.24,839,21.83,1.488,38.71,261,6.79,147,3.82,...,2,0.05,2,0.05,,,,,Villarejo de Salvanés,https://resultados.elpais.com/elecciones/2019/...
176,4.628,30.76,3.416,22.7,2.762,18.36,1.508,10.02,523,3.48,...,5,0.03,2,0.01,11,0.07,3,0.02,Villaviciosa de Odón,https://resultados.elpais.com/elecciones/2019/...
177,40,24.54,23,14.11,47,28.83,18,11.04,16,9.82,...,,,,,,,,,Villavieja del Lozoya,https://resultados.elpais.com/elecciones/2019/...


In [24]:
# cambiamos la posición de las columnas para una mejor presentación:
first_column = df.pop('municipio')
second_column = df.pop('link')
df.insert(0, 'municipio', first_column)
df.insert(1, 'link', second_column)
df

Unnamed: 0,municipio,link,pp,pp_porcentaje,cs,cs_porcentaje,psoe,psoe_porcentaje,mas_madrid,mas_madrid_porcentaje,...,upyd,upyd_porcentaje,ph,ph_porcentaje,pcas_tc,pcas_tc_porcentaje,p_lib,p_lib_porcentaje,uleg,uleg_porcentaje
0,Ajalvir,https://resultados.elpais.com/elecciones/2019/...,521,24.05,456,21.05,532,24.56,224,10.34,...,3,0.14,1,0.05,1,0.05,,,,
1,Alameda del Valle,https://resultados.elpais.com/elecciones/2019/...,41,29.29,19,13.57,54,38.57,12,8.57,...,,,,,,,,,,
2,Alcalá de Henares,https://resultados.elpais.com/elecciones/2019/...,15.953,17.91,18.120,20.34,28.759,32.28,10.975,12.32,...,138,0.15,61,0.07,39,0.04,28,0.03,8,0.01
3,Alcobendas,https://resultados.elpais.com/elecciones/2019/...,13.844,25.38,11.032,20.22,15.338,28.12,6.047,11.08,...,74,0.14,33,0.06,23,0.04,16,0.03,15,0.03
4,Alcorcón,https://resultados.elpais.com/elecciones/2019/...,16.844,19.29,16.214,18.57,27.492,31.48,12.227,14,...,92,0.11,40,0.05,50,0.06,23,0.03,18,0.02
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
174,Villar del Olmo,https://resultados.elpais.com/elecciones/2019/...,249,26.38,175,18.54,229,24.26,105,11.12,...,3,0.32,,,,,,,,
175,Villarejo de Salvanés,https://resultados.elpais.com/elecciones/2019/...,778,20.24,839,21.83,1.488,38.71,261,6.79,...,4,0.1,2,0.05,2,0.05,,,,
176,Villaviciosa de Odón,https://resultados.elpais.com/elecciones/2019/...,4.628,30.76,3.416,22.7,2.762,18.36,1.508,10.02,...,18,0.12,5,0.03,2,0.01,11,0.07,3,0.02
177,Villavieja del Lozoya,https://resultados.elpais.com/elecciones/2019/...,40,24.54,23,14.11,47,28.83,18,11.04,...,1,0.61,,,,,,,,


### 1.0.1-Añadir información geoespacial al dataframe:

La información geoespacial la hemos obtenido del siguiente enlace: https://raw.githubusercontent.com/FMullor/TopoJson/master/MadridMunicipios.geojson.

Nos va a servir para poder realizar mapas de la distribución del voto en cada municipio.

In [26]:
import geopandas as gpd
import matplotlib.pyplot as plt

# sacamos la info del link y ordenamos por orden alfabético los municipios:
municipios = 'https://raw.githubusercontent.com/FMullor/TopoJson/master/MadridMunicipios.geojson'
map_municipios = gpd.read_file(municipios)
map_municipios = map_municipios.sort_values('municipio')
map_municipios.head()

Unnamed: 0,id_0,iso,pais,id_1,communidad_,id_2,provincia,id_3,name_3,id_4,...,varname_4,ccn_4,cca_4,type_4,engtype_4,cpro,cmun,dc,codigo_post,geometry
156,215.0,ESP,Spain,8.0,Comunidad de Madrid,33.0,Madrid,234.0,n.a. (176),5876.0,...,,0.0,,Municipality,Municipality,28,2,9,28002,"MULTIPOLYGON (((-3.51150 40.53889, -3.50521 40..."
58,215.0,ESP,Spain,8.0,Comunidad de Madrid,33.0,Madrid,233.0,n.a. (175),5828.0,...,,0.0,,Municipality,Municipality,28,3,5,28003,"MULTIPOLYGON (((-3.80596 40.89047, -3.80951 40..."
86,215.0,ESP,Spain,8.0,Comunidad de Madrid,33.0,Madrid,234.0,n.a. (176),5877.0,...,,0.0,,Municipality,Municipality,28,5,3,28005,"MULTIPOLYGON (((-3.32142 40.47207, -3.32898 40..."
168,215.0,ESP,Spain,8.0,Comunidad de Madrid,33.0,Madrid,235.0,n.a. (177),5907.0,...,,0.0,,Municipality,Municipality,28,6,6,28006,"MULTIPOLYGON (((-3.67417 40.58897, -3.65981 40..."
154,215.0,ESP,Spain,8.0,Comunidad de Madrid,33.0,Madrid,235.0,n.a. (177),5908.0,...,,0.0,,Municipality,Municipality,28,7,2,28007,"MULTIPOLYGON (((-3.78781 40.35875, -3.79893 40..."


In [27]:
map_municipios.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Int64Index: 182 entries, 156 to 70
Data columns (total 21 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   id_0         182 non-null    float64 
 1   iso          182 non-null    object  
 2   pais         182 non-null    object  
 3   id_1         182 non-null    float64 
 4   communidad_  182 non-null    object  
 5   id_2         182 non-null    float64 
 6   provincia    182 non-null    object  
 7   id_3         182 non-null    float64 
 8   name_3       182 non-null    object  
 9   id_4         182 non-null    float64 
 10  municipio    182 non-null    object  
 11  varname_4    2 non-null      object  
 12  ccn_4        182 non-null    float64 
 13  cca_4        0 non-null      object  
 14  type_4       182 non-null    object  
 15  engtype_4    182 non-null    object  
 16  cpro         164 non-null    object  
 17  cmun         164 non-null    object  
 18  dc           164 non-

Como podemos ver, el geodataframe map_municipios tiene como máximo 182 registros. A la hora de poder cruzar la información con nuestros dataframes, vemos que la columna 'municipio' tiene 182 registros, por lo tanto la usaremos para ese fin. De hecho solo nos interesan las columnas 'municipio' y 'geometry':

In [28]:
map_municipios = map_municipios[['municipio', 'geometry']]
map_municipios

Unnamed: 0,municipio,geometry
156,Ajalvir,"MULTIPOLYGON (((-3.51150 40.53889, -3.50521 40..."
58,Alameda del Valle,"MULTIPOLYGON (((-3.80596 40.89047, -3.80951 40..."
86,AlcalÃ¡ de Henares,"MULTIPOLYGON (((-3.32142 40.47207, -3.32898 40..."
168,Alcobendas,"MULTIPOLYGON (((-3.67417 40.58897, -3.65981 40..."
154,AlcorcÃ³n,"MULTIPOLYGON (((-3.78781 40.35875, -3.79893 40..."
...,...,...
166,Villar del Olmo,"MULTIPOLYGON (((-3.21619 40.31261, -3.22639 40..."
175,Villarejo de SalvanÃ©s,"MULTIPOLYGON (((-3.20168 40.08538, -3.20231 40..."
173,Villaviciosa de OdÃ³n,"MULTIPOLYGON (((-4.00598 40.33916, -3.99856 40..."
178,Villavieja del Lozoya,"MULTIPOLYGON (((-3.65536 41.00760, -3.65717 41..."


Vemos que hay municipios cuyo nombre al tener acentos o caracteres especiales no aparece correctamente y no va a coincidir con la información de nuestro dataframe. Por lo tanto, procedemos a corregir los nombres:

In [29]:
map_municipios['municipio'] = map_municipios['municipio'].replace([
 'AlcalÃ¡ de Henares',
 'AlcorcÃ³n',
 'CarabaÃ±a',
 'ChapinerÃ\xada',
 'ChinchÃ³n',
 'CobeÃ±a',
 'El VellÃ³n',
 'El Ã\x81lamo',
 'FuentidueÃ±a de Tajo',
 'GriÃ±Ã³n',
 'Horcajo de la Sierra',
 'JurisdicciÃ³n Macomunada de El Boalo y Manzanares el Real (El Chaparral)',
 'JurisdicciÃ³n Mancomunada de Cerdedilla y Navacerrada',
 'LeganÃ©s',
 'Morata de TajuÃ±a',
 'MÃ³stoles',
 'Navarredonda y San MamÃ©s',
 'Nuevo BaztÃ¡n',
 'Orusco de TajuÃ±a',
 'Perales de TajuÃ±a',
 'PinuÃ©car-Gandullas',
 'Pozuelo de AlarcÃ³n',
 'PrÃ¡dena del RincÃ³n',
 'RascafrÃ\xada',
 'RedueÃ±a',
 'San AgustÃ\xadn del Guadalix',
 'San MartÃ\xadn de Valdeiglesias',
 'San MartÃ\xadn de la Vega',
 'San SebastiÃ¡n de los Reyes',
 'Santa MarÃ\xada de la Alameda',
 'TorrejÃ³n de Ardoz',
 'TorrejÃ³n de Velasco',
 'TorrejÃ³n de la Calzada',
 'ValdepiÃ©lagos',
 'Valverde de AlcalÃ¡',
 'Villanueva de la CaÃ±ada',
 'Villarejo de SalvanÃ©s',
 'Villaviciosa de OdÃ³n'
], [
 'Alcalá de Henares',
 'Alcorcón',
 'Carabaña',
 'Chapinería',
 'Chinchón',
 'Cobeña',
 'El Vellón',
 'El Álamo',
 'Fuentidueña de Tajo',
 'Griñón',
 'Horcajo de la Sierra',
 'Jurisdicción Macomunada de El Boalo y Manzanares el Real (El Chaparral)',
 'Jurisdicción Mancomunada de Cerdedilla y Navacerrada',
 'Leganés',
 'Morata de Tajuña',
 'Móstoles',
 'Navarredonda y San Mamés',
 'Nuevo Baztán',
 'Orusco de Tajuña',
 'Perales de Tajuña',
 'Piñuécar-Gandullas',
 'Pozuelo de Alarcón',
 'Prádena del Rincón',
 'Rascafría',
 'Redueña',
 'San Agustín del Guadalix',
 'San Martín de Valdeiglesias',
 'San Martín de la Vega',
 'San Sebastián de los Reyes',
 'Santa María de la Alameda',
 'Torrejón de Ardoz',
 'Torrejón de Velasco',
 'Torrejón de la Calzada',
 'Valdepiélagos',
 'Valverde de Alcalá',
 'Villanueva de la Cañada',
 'Villarejo de Salvanés',
 'Villaviciosa de Odón'])

map_municipios.head()

Unnamed: 0,municipio,geometry
156,Ajalvir,"MULTIPOLYGON (((-3.51150 40.53889, -3.50521 40..."
58,Alameda del Valle,"MULTIPOLYGON (((-3.80596 40.89047, -3.80951 40..."
86,Alcalá de Henares,"MULTIPOLYGON (((-3.32142 40.47207, -3.32898 40..."
168,Alcobendas,"MULTIPOLYGON (((-3.67417 40.58897, -3.65981 40..."
154,Alcorcón,"MULTIPOLYGON (((-3.78781 40.35875, -3.79893 40..."


Vemos si pueden haber diferencias entre los nombres de los municipios:

In [30]:
no_intersection_map = set(map_municipios['municipio']).difference(set(df['municipio']))
len(no_intersection_map)
no_intersection_map

{'Horcajo de la Sierra',
 'Jurisdicción Macomunada de El Boalo y Manzanares el Real (El Chaparral)',
 'Jurisdicción Mancomunada de Cerdedilla y Navacerrada'}

Corregimos los nombres y probamos si hay diferencias:

In [32]:
map_municipios['municipio'] = map_municipios['municipio'].replace({
    'Horcajo de la Sierra': 'Horcajo de la Sierra-Aoslos',
    'Jurisdicción Macomunada de El Boalo y Manzanares el Real (El Chaparral)': 'Manzanares el Real',
    'Jurisdicción Mancomunada de Cerdedilla y Navacerrada': 'Navacerrada'
})

no_intersection_map = set(map_municipios['municipio']).difference(set(df['municipio']))
len(no_intersection_map)
no_intersection_map

set()

Si hubiese habido alguna diferencia, podría ser que nos faltase un municipio, como nos pasó con La Acebeda como explicamos antes. Si hubiese faltado, habría que haber repetido una serie de pasos.

Seguimos con más pasos para añadir la información geoespacial:

In [33]:
df_2019 = pd.merge(df, map_municipios, how='left', on='municipio')
df_2019.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 182 entries, 0 to 181
Data columns (total 33 columns):
 #   Column                     Non-Null Count  Dtype   
---  ------                     --------------  -----   
 0   municipio                  182 non-null    object  
 1   link                       182 non-null    object  
 2   pp                         182 non-null    object  
 3   pp_porcentaje              182 non-null    object  
 4   cs                         182 non-null    object  
 5   cs_porcentaje              182 non-null    object  
 6   psoe                       182 non-null    object  
 7   psoe_porcentaje            182 non-null    object  
 8   mas_madrid                 181 non-null    object  
 9   mas_madrid_porcentaje      181 non-null    object  
 10  podemos_iu                 182 non-null    object  
 11  podemos_iu_porcentaje      182 non-null    object  
 12  vox                        182 non-null    object  
 13  vox_porcentaje             182 non-

Pasamos las columnas a valores numéricos:

In [34]:
df_2019[
    ['pp', 'pp_porcentaje', 
     'cs', 'cs_porcentaje', 
     'psoe', 'psoe_porcentaje', 
     'mas_madrid', 'mas_madrid_porcentaje', 
     'podemos_iu', 'podemos_iu_porcentaje', 
     'vox', 'vox_porcentaje', 
     'pacma', 'pacma_porcentaje', 
     'fe_de_las_jons', 'fe_de_las_jons_porcentaje', 
     'pum+j', 'pum+j_porcentaje', 
     'pcte', 'pcte_porcentaje', 
     'upyd', 'upyd_porcentaje', 
     'ph', 'ph_porcentaje', 
     'pcas_tc', 'pcas_tc_porcentaje', 
     'p_lib', 'p_lib_porcentaje', 
     'uleg', 
     'uleg_porcentaje'
    ]
] = df_2019[
    ['pp', 'pp_porcentaje', 
     'cs', 'cs_porcentaje', 
     'psoe', 'psoe_porcentaje', 
     'mas_madrid', 'mas_madrid_porcentaje', 
     'podemos_iu', 'podemos_iu_porcentaje', 
     'vox', 'vox_porcentaje', 
     'pacma', 'pacma_porcentaje', 
     'fe_de_las_jons', 'fe_de_las_jons_porcentaje', 
     'pum+j', 'pum+j_porcentaje', 
     'pcte', 'pcte_porcentaje', 
     'upyd', 'upyd_porcentaje', 
     'ph', 'ph_porcentaje', 
     'pcas_tc', 'pcas_tc_porcentaje', 
     'p_lib', 'p_lib_porcentaje', 
     'uleg', 
     'uleg_porcentaje'
    ]
].apply(pd.to_numeric)

ValueError: Unable to parse string "-" at position 77

Como podemos apreciar, tenemos un fallo en una de las columnas. Después de probar una por una vemos que ocurre algo en la columna 'uleg_porcentaje':

In [35]:
df_2019[df_2019['uleg_porcentaje'] =='-']

Unnamed: 0,municipio,link,pp,pp_porcentaje,cs,cs_porcentaje,psoe,psoe_porcentaje,mas_madrid,mas_madrid_porcentaje,...,upyd_porcentaje,ph,ph_porcentaje,pcas_tc,pcas_tc_porcentaje,p_lib,p_lib_porcentaje,uleg,uleg_porcentaje,geometry
77,Las Rozas de Madrid,https://resultados.elpais.com/elecciones/2019/...,14.473,29.8,12.895,26.55,8.857,18.24,4.376,9.01,...,0.18,14,0.03,15,0.03,21,0.04,2,-,"MULTIPOLYGON (((-3.83665 40.47503, -3.89204 40..."


In [37]:
# seteamos a None el valor '-' y volvemos a comprobar:
df_2019.loc[77, 'uleg_porcentaje'] = None
df_2019[df_2019['uleg_porcentaje'] =='-']

Unnamed: 0,municipio,link,pp,pp_porcentaje,cs,cs_porcentaje,psoe,psoe_porcentaje,mas_madrid,mas_madrid_porcentaje,...,upyd_porcentaje,ph,ph_porcentaje,pcas_tc,pcas_tc_porcentaje,p_lib,p_lib_porcentaje,uleg,uleg_porcentaje,geometry


In [38]:
df_2019[
    ['pp', 'pp_porcentaje', 
     'cs', 'cs_porcentaje', 
     'psoe', 'psoe_porcentaje', 
     'mas_madrid', 'mas_madrid_porcentaje', 
     'podemos_iu', 'podemos_iu_porcentaje', 
     'vox', 'vox_porcentaje', 
     'pacma', 'pacma_porcentaje', 
     'fe_de_las_jons', 'fe_de_las_jons_porcentaje', 
     'pum+j', 'pum+j_porcentaje', 
     'pcte', 'pcte_porcentaje', 
     'upyd', 'upyd_porcentaje', 
     'ph', 'ph_porcentaje', 
     'pcas_tc', 'pcas_tc_porcentaje', 
     'p_lib', 'p_lib_porcentaje', 
     'uleg', 
     'uleg_porcentaje'
    ]
] = df_2019[
    ['pp', 'pp_porcentaje', 
     'cs', 'cs_porcentaje', 
     'psoe', 'psoe_porcentaje', 
     'mas_madrid', 'mas_madrid_porcentaje', 
     'podemos_iu', 'podemos_iu_porcentaje', 
     'vox', 'vox_porcentaje', 
     'pacma', 'pacma_porcentaje', 
     'fe_de_las_jons', 'fe_de_las_jons_porcentaje', 
     'pum+j', 'pum+j_porcentaje', 
     'pcte', 'pcte_porcentaje', 
     'upyd', 'upyd_porcentaje', 
     'ph', 'ph_porcentaje', 
     'pcas_tc', 'pcas_tc_porcentaje', 
     'p_lib', 'p_lib_porcentaje', 
     'uleg', 
     'uleg_porcentaje'
    ]
].apply(pd.to_numeric)

In [39]:
df_2019.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 182 entries, 0 to 181
Data columns (total 33 columns):
 #   Column                     Non-Null Count  Dtype   
---  ------                     --------------  -----   
 0   municipio                  182 non-null    object  
 1   link                       182 non-null    object  
 2   pp                         182 non-null    float64 
 3   pp_porcentaje              182 non-null    float64 
 4   cs                         182 non-null    float64 
 5   cs_porcentaje              182 non-null    float64 
 6   psoe                       182 non-null    float64 
 7   psoe_porcentaje            182 non-null    float64 
 8   mas_madrid                 181 non-null    float64 
 9   mas_madrid_porcentaje      181 non-null    float64 
 10  podemos_iu                 182 non-null    float64 
 11  podemos_iu_porcentaje      182 non-null    float64 
 12  vox                        182 non-null    float64 
 13  vox_porcentaje             182 non-

Por último, vamos a ordenar el dataframe y crear una columna llamada 'votos_totales':

In [40]:
#ordenamos el dataframe
third_column = df_2019.pop('geometry')
df_2019.insert(2, 'geometry', third_column)

# vamos a crear una columna llamada votos_totales
df_2019['votos_totales'] = df_2019[[
    'pp', 'psoe', 'cs', 'mas_madrid', 
    'podemos_iu', 'vox', 'pacma', 
    'fe_de_las_jons', 'pum+j', 
    'pcte', 'upyd', 'ph', 'pcas_tc', 
    'p_lib', 'uleg'
]].sum(axis=1)
    
df_2019.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 182 entries, 0 to 181
Data columns (total 34 columns):
 #   Column                     Non-Null Count  Dtype   
---  ------                     --------------  -----   
 0   municipio                  182 non-null    object  
 1   link                       182 non-null    object  
 2   geometry                   182 non-null    geometry
 3   pp                         182 non-null    float64 
 4   pp_porcentaje              182 non-null    float64 
 5   cs                         182 non-null    float64 
 6   cs_porcentaje              182 non-null    float64 
 7   psoe                       182 non-null    float64 
 8   psoe_porcentaje            182 non-null    float64 
 9   mas_madrid                 181 non-null    float64 
 10  mas_madrid_porcentaje      181 non-null    float64 
 11  podemos_iu                 182 non-null    float64 
 12  podemos_iu_porcentaje      182 non-null    float64 
 13  vox                        182 non-

### 1.1.-Preparación de los datos de 2021: 

Repetimos los pasos que hemos visto para obtener los datos de 2019:

In [56]:
url = 'https://resultados.elpais.com/elecciones/2021/autonomicas/12/'
html_text = requests.get(url).text
soup = BeautifulSoup(html_text, 'lxml')
lis = ul.find_all('li') 

results_pruebas_2021 = []
for li in lis:
    for link in li.find_all('a'):
        local_result = {}
        local_result['municipio'] = link.text
        local_result['link'] = url+link.get('href')
        local_result['escrutinio'] = table_escrutado(local_result['link'])
        local_result['partidos'] = table_partido(local_result['link'])
        results_pruebas_2021.append(local_result)
        
results_pruebas_2021

[{'municipio': 'Ajalvir',
  'link': 'https://resultados.elpais.com/elecciones/2021/autonomicas/12/28/02.html',
  'escrutinio': [{'encabezado': 'Escrutado:',
    'numero': None,
    'porcentaje': '100 %'},
   {'encabezado': 'Votos contabilizados:',
    'numero': '2.339',
    'porcentaje': '71,95 %'},
   {'encabezado': 'Abstenciones:', 'numero': '912', 'porcentaje': '28,05 %'},
   {'encabezado': 'Votos nulos:', 'numero': '15', 'porcentaje': '0,64 %'},
   {'encabezado': 'Votos en blanco:', 'numero': '10', 'porcentaje': '0,43 %'}],
  'partidos': [{'partido': None, 'numero_votos': None, 'porcentaje': None},
   {'partido': 'PP', 'numero_votos': '1.148', 'porcentaje': '49,4 %'},
   {'partido': 'VOX', 'numero_votos': '340', 'porcentaje': '14,63 %'},
   {'partido': 'MÁS MADRID', 'numero_votos': '330', 'porcentaje': '14,2 %'},
   {'partido': 'PSOE', 'numero_votos': '325', 'porcentaje': '13,98 %'},
   {'partido': 'PODEMOS-IU', 'numero_votos': '101', 'porcentaje': '4,35 %'},
   {'partido': 'Cs', '

In [57]:
len(results_pruebas_2021)

178

Vemos que vuelve a faltar un municipio.

In [51]:
results_pruebas_formatted_2021 = []

for result_prueba in results_pruebas_2021:
    local_result = {}
    local_result['municipio'] = result_prueba['municipio']
    local_result['link'] = result_prueba['link']
    local_result['escrutinio'] = result_resume(result_prueba['escrutinio'])
    local_result['partidos'] = result_partido_resume(result_prueba['partidos'])
    
    results_pruebas_formatted_2021.append(local_result)
    
results_pruebas_formatted_2021

[{'municipio': 'Ajalvir',
  'link': 'https://resultados.elpais.com/elecciones/2021/autonomicas/12/28/02.html',
  'escrutinio': [{'escrutado': '100'},
   {'votos_totales': '2.339', 'votos_totales_porcentaje': '71.95'},
   {'abstencion': '912', 'abstencion_porcentaje': '28.05'},
   {'votos_nulos': '15', 'votos_nulos_porcentaje': '0.64'},
   {'votos_blancos': '10', 'votos_blancos_porcentaje': '0.43'}],
  'partidos': [{'pp': '1.148', 'pp_porcentaje': '49.4'},
   {'vox': '340', 'vox_porcentaje': '14.63'},
   {'mas_madrid': '330', 'mas_madrid_porcentaje': '14.2'},
   {'psoe': '325', 'psoe_porcentaje': '13.98'},
   {'podemos_iu': '101', 'podemos_iu_porcentaje': '4.35'},
   {'cs': '56', 'cs_porcentaje': '2.41'},
   {'pacma': '4', 'pacma_porcentaje': '0.17'},
   {'fe_de_las_jons': '3', 'fe_de_las_jons_porcentaje': '0.13'},
   {'pcte': '1', 'pcte_porcentaje': '0.04'},
   {'ph': '1', 'ph_porcentaje': '0.04'},
   {'3e_en_accion': '1', '3e_en_accion_porcentaje': '0.04'},
   {'eb': '1', 'eb_porcenta

### 1.1.0-Convertir la información en dataframe

In [52]:
import pandas as pd

df_2021 = pd.json_normalize(results_pruebas_formatted_2021, record_path='partidos', meta=['municipio', 'link'])
df_2021 = df_2021.groupby('municipio').apply(lambda x: x.bfill().head(1)).reset_index(drop=True)
df_2021

Unnamed: 0,pp,pp_porcentaje,vox,vox_porcentaje,mas_madrid,mas_madrid_porcentaje,psoe,psoe_porcentaje,podemos_iu,podemos_iu_porcentaje,...,volt,volt_porcentaje,recortes_cero_pcas_tc_gv_m,recortes_cero_pcas_tc_gv_m_porcentaje,pcoe_pcpe,pcoe_pcpe_porcentaje,pole,pole_porcentaje,municipio,link
0,1.148,49.4,340,14.63,330,14.2,325,13.98,101,4.35,...,,,,,,,,,Ajalvir,https://resultados.elpais.com/elecciones/2021/...
1,64,38.1,16,9.52,36,21.43,30,17.86,11,6.55,...,,,,,,,,,Alameda del Valle,https://resultados.elpais.com/elecciones/2021/...
2,42.645,42.58,9.735,9.72,15.540,15.52,19.926,19.9,7.017,7.01,...,45,0.04,29,0.03,25,0.02,10,0.01,Alcalá de Henares,https://resultados.elpais.com/elecciones/2021/...
3,30.588,49.6,5.533,8.97,8.212,13.32,10.757,17.44,3.430,5.56,...,36,0.06,26,0.04,12,0.02,8,0.01,Alcobendas,https://resultados.elpais.com/elecciones/2021/...
4,39.588,40.9,7.841,8.1,16.945,17.51,19.798,20.45,7.707,7.96,...,35,0.04,66,0.07,20,0.02,4,0.01,Alcorcón,https://resultados.elpais.com/elecciones/2021/...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,558,48.27,163,14.1,149,12.89,154,13.32,84,7.27,...,2,0.17,,,,,1,0.09,Villar del Olmo,https://resultados.elpais.com/elecciones/2021/...
174,1.714,41.66,420,10.21,515,12.52,1.031,25.06,228,5.54,...,4,0.1,1,0.02,,,2,0.05,Villarejo de Salvanés,https://resultados.elpais.com/elecciones/2021/...
175,9.769,57.3,1.900,11.14,1.790,10.5,2.104,12.34,658,3.86,...,11,0.06,6,0.04,3,0.02,,,Villaviciosa de Odón,https://resultados.elpais.com/elecciones/2021/...
176,73,39.89,16,8.74,42,22.95,28,15.3,16,8.74,...,1,0.55,,,1,0.55,,,Villavieja del Lozoya,https://resultados.elpais.com/elecciones/2021/...


In [53]:
# cambiamos la posición de las columnas para una mejor presentación:
first_column = df_2021.pop('municipio')
second_column = df_2021.pop('link')
df_2021.insert(0, 'municipio', first_column)
df_2021.insert(1, 'link', second_column)
df_2021

Unnamed: 0,municipio,link,pp,pp_porcentaje,vox,vox_porcentaje,mas_madrid,mas_madrid_porcentaje,psoe,psoe_porcentaje,...,pum+j,pum+j_porcentaje,volt,volt_porcentaje,recortes_cero_pcas_tc_gv_m,recortes_cero_pcas_tc_gv_m_porcentaje,pcoe_pcpe,pcoe_pcpe_porcentaje,pole,pole_porcentaje
0,Ajalvir,https://resultados.elpais.com/elecciones/2021/...,1.148,49.4,340,14.63,330,14.2,325,13.98,...,,,,,,,,,,
1,Alameda del Valle,https://resultados.elpais.com/elecciones/2021/...,64,38.1,16,9.52,36,21.43,30,17.86,...,,,,,,,,,,
2,Alcalá de Henares,https://resultados.elpais.com/elecciones/2021/...,42.645,42.58,9.735,9.72,15.540,15.52,19.926,19.9,...,63,0.06,45,0.04,29,0.03,25,0.02,10,0.01
3,Alcobendas,https://resultados.elpais.com/elecciones/2021/...,30.588,49.6,5.533,8.97,8.212,13.32,10.757,17.44,...,39,0.06,36,0.06,26,0.04,12,0.02,8,0.01
4,Alcorcón,https://resultados.elpais.com/elecciones/2021/...,39.588,40.9,7.841,8.1,16.945,17.51,19.798,20.45,...,72,0.07,35,0.04,66,0.07,20,0.02,4,0.01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,Villar del Olmo,https://resultados.elpais.com/elecciones/2021/...,558,48.27,163,14.1,149,12.89,154,13.32,...,,,2,0.17,,,,,1,0.09
174,Villarejo de Salvanés,https://resultados.elpais.com/elecciones/2021/...,1.714,41.66,420,10.21,515,12.52,1.031,25.06,...,1,0.02,4,0.1,1,0.02,,,2,0.05
175,Villaviciosa de Odón,https://resultados.elpais.com/elecciones/2021/...,9.769,57.3,1.900,11.14,1.790,10.5,2.104,12.34,...,5,0.03,11,0.06,6,0.04,3,0.02,,
176,Villavieja del Lozoya,https://resultados.elpais.com/elecciones/2021/...,73,39.89,16,8.74,42,22.95,28,15.3,...,,,1,0.55,,,1,0.55,,


### 1.1.1-Añadir información geoespacial al dataframe:

Vemos si pueden haber diferencias entre los nombres de los municipios:

In [54]:
no_intersection_map = set(map_municipios['municipio']).difference(set(df_2021['municipio']))
len(no_intersection_map)
no_intersection_map

{'La Acebeda'}

In [55]:
df_2021[df_2021['municipio'] == 'La Acebeda']

Unnamed: 0,municipio,link,pp,pp_porcentaje,vox,vox_porcentaje,mas_madrid,mas_madrid_porcentaje,psoe,psoe_porcentaje,...,pum+j,pum+j_porcentaje,volt,volt_porcentaje,recortes_cero_pcas_tc_gv_m,recortes_cero_pcas_tc_gv_m_porcentaje,pcoe_pcpe,pcoe_pcpe_porcentaje,pole,pole_porcentaje


In [48]:
map_municipios[map_municipios['municipio'] == 'La Acebeda']

Unnamed: 0,municipio,geometry
17,La Acebeda,"MULTIPOLYGON (((-3.60853 41.07548, -3.61042 41..."


In [None]:
# insertamos la info. asociada a La Acebeda:
la_acebeda = {}
la_acebeda['municipio'] = 'La Acebeda'
la_acebeda['link'] = 'https://resultados.elpais.com/elecciones/2021/autonomicas/12/28/01.html'
la_acebeda['escrutinio'] = table_escrutado(la_acebeda['link'])
la_acebeda['partidos'] = table_partido(la_acebeda['link'])
results_pruebas_2021.insert(0, la_acebeda)

results_pruebas