# 1. Extracción

Vamos a extraer datos de accidentes de tráfico en el municipio de Madrid para un posterior análisis de los mismos.
Las fuentes de las que disponemos son 3:

1. Ficheros csv del Ayuntamiento de Madrid con los datos de accidentes por distrito para los años 2019-2022: https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=7c2843010d9c3610VgnVCM2000001f4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default

2. Tabla de densidad de población por distritos de Madrid de Wikipedia: https://es.wikipedia.org/wiki/Anexo:Distritos_de_Madrid#cite_note-munimadrid-1

3. Tabla de indicadores demográficos de Edad media, % de población menor de 18 años y % mayor de 65 años por distritos en Madrid del INE: https://www.ine.es/jaxiT3/Datos.htm?t=31105

## 1.1 Comenzamos haciendo web scraping de la tabla de densidad de población de Wikipedia.

Quiero sacar las columnas de número (ID de distrito), Nombre de distrito y Densidad de población.

In [12]:
import requests as req
from bs4 import BeautifulSoup as bs
import pandas as pd


In [13]:
# This is the url I will scrape
url = 'https://es.wikipedia.org/wiki/Anexo:Distritos_de_Madrid#cite_note-munimadrid-1'

In [14]:
# usamos requests para extraer el html en string

html=req.get(url).text

# parsear

soup=bs(html, 'html.parser')

In [18]:
tabla = soup.find_all('tbody')[0]

In [34]:
#ID de distrito
tabla('tr')[1]('td')[0].text.strip()

'1'

In [35]:
#Nombre distrito
tabla('tr')[1]('td')[1].text.strip()

'Centro'

In [101]:
#densidad
tabla('tr')[1]('td')[4].text.strip().replace('&', '')[-6:].replace(',','.')

'252.34'

In [119]:
#voy a convertir los datos en una lista de diccionarios
lst = []
for i in range(1, 22):
    
    id_distrito = (tabla('tr')[i]('td')[0].text.strip())
    nombre_distrito = (tabla('tr')[i]('td')[1].text.strip())
    densidad = (tabla('tr')[i]('td')[4].text.strip().replace('&', '')[-6:].replace(',','.'))
    
    
    lst.append({'id_distrito': id_distrito,
               'nombre_distrito': nombre_distrito,
               'densidad_pob': densidad,})

lst

[{'id_distrito': '1', 'nombre_distrito': 'Centro', 'densidad_pob': '252.34'},
 {'id_distrito': '2',
  'nombre_distrito': 'Arganzuela',
  'densidad_pob': '235.16'},
 {'id_distrito': '3', 'nombre_distrito': 'Retiro', 'densidad_pob': '216.82'},
 {'id_distrito': '4',
  'nombre_distrito': 'Salamanca',
  'densidad_pob': '266.67'},
 {'id_distrito': '5',
  'nombre_distrito': 'Chamartín',
  'densidad_pob': '156.31'},
 {'id_distrito': '6', 'nombre_distrito': 'Tetuán', 'densidad_pob': '286.13'},
 {'id_distrito': '7', 'nombre_distrito': 'Chamberí', 'densidad_pob': '293.64'},
 {'id_distrito': '8',
  'nombre_distrito': 'Fuencarral-El Pardo',
  'densidad_pob': '010.04'},
 {'id_distrito': '9',
  'nombre_distrito': 'Moncloa-Aravaca',
  'densidad_pob': '025.12'},
 {'id_distrito': '10', 'nombre_distrito': 'Latina', 'densidad_pob': '091.95'},
 {'id_distrito': '11',
  'nombre_distrito': 'Carabanchel',
  'densidad_pob': '173.68'},
 {'id_distrito': '12', 'nombre_distrito': 'Usera', 'densidad_pob': '173.30'},

In [120]:
#convierto la lista de diccionarios a un dataframe
df_densidad = pd.DataFrame(lst)
df_densidad

Unnamed: 0,id_distrito,nombre_distrito,densidad_pob
0,1,Centro,252.34
1,2,Arganzuela,235.16
2,3,Retiro,216.82
3,4,Salamanca,266.67
4,5,Chamartín,156.31
5,6,Tetuán,286.13
6,7,Chamberí,293.64
7,8,Fuencarral-El Pardo,10.04
8,9,Moncloa-Aravaca,25.12
9,10,Latina,91.95


In [121]:
df_densidad.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_distrito      21 non-null     object
 1   nombre_distrito  21 non-null     object
 2   densidad_pob     21 non-null     object
dtypes: object(3)
memory usage: 4.1 KB


In [123]:
#el campo densidad lo convierto a float
df_densidad['densidad_pob'] = df_densidad['densidad_pob'].astype('float')

In [124]:
df_densidad

Unnamed: 0,id_distrito,nombre_distrito,densidad_pob
0,1,Centro,252.34
1,2,Arganzuela,235.16
2,3,Retiro,216.82
3,4,Salamanca,266.67
4,5,Chamartín,156.31
5,6,Tetuán,286.13
6,7,Chamberí,293.64
7,8,Fuencarral-El Pardo,10.04
8,9,Moncloa-Aravaca,25.12
9,10,Latina,91.95


## 1.2 Web scraping de la tabla de indicadores demográficos de Edad media, % de población menor de 18 años y % mayor de 65 años por distritos en Madrid del INE

In [142]:
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium import webdriver
from selenium.webdriver.common.by import By   # para buscar segun tag, id, class, etc...

In [143]:
# This is the url I will scrape
url = 'https://www.ine.es/jaxiT3/Datos.htm?t=31105'

In [144]:
opciones=Options()
PATH=ChromeDriverManager().install()
driver=webdriver.Chrome(PATH, options=opciones)

driver.get(url)

[WDM] - Downloading: 100%|████████████████████████████████████████████████████████| 6.46M/6.46M [00:02<00:00, 3.10MB/s]
  driver=webdriver.Chrome(PATH, options=opciones)


In [165]:
tablas = driver.find_elements(By.TAG_NAME, 'tr')

In [166]:
tablas[3].text

'2807901 Madrid distrito 01 43,5 8,5 15,8'

In [168]:
body = driver.find_elements(By.TAG_NAME, 'tbody')

In [178]:
#para la tabla que hay en la web, voy a ir por cada fila para almacenar los datos de las filas en una lista de listas.
tabla=driver.find_elements(By.TAG_NAME, 'tbody')[0]

filas=tabla.find_elements(By.TAG_NAME, 'tr')[1:23]


data=[]


for f in filas:
    
    elemen=f.find_elements(By.TAG_NAME, 'td')
    
    tmp=[]
    
    for e in elemen:
        
        tmp.append(e.text)
        
    data.append(tmp)

    
data

[['43,5', '8,5', '15,8'],
 ['44,4', '13,6', '19,8'],
 ['46,8', '13,7', '26,3'],
 ['45,8', '12,6', '23,8'],
 ['45,0', '15,3', '23,3'],
 ['43,7', '12,8', '19,2'],
 ['45,8', '12,0', '24,1'],
 ['42,7', '19,7', '21,1'],
 ['44,1', '16,4', '21,8'],
 ['46,2', '13,7', '24,5'],
 ['43,1', '16,0', '18,7'],
 ['42,1', '16,9', '16,7'],
 ['43,0', '15,3', '17,7'],
 ['47,5', '13,2', '26,1'],
 ['45,6', '14,0', '22,9'],
 ['42,0', '19,7', '18,5'],
 ['41,8', '18,0', '16,9'],
 ['38,8', '20,6', '12,6'],
 ['40,7', '20,0', '14,2'],
 ['43,0', '16,8', '17,4'],
 ['41,7', '20,0', '17,8']]

In [179]:
len(data)

21

In [192]:
df_demographics = pd.DataFrame(data, columns = ['edad_media', 'pob_men_18_perc', 'pob_may_65_perc'])
df_demographics

Unnamed: 0,edad_media,pob_men_18_perc,pob_may_65_perc
0,435,85,158
1,444,136,198
2,468,137,263
3,458,126,238
4,450,153,233
5,437,128,192
6,458,120,241
7,427,197,211
8,441,164,218
9,462,137,245


In [201]:
#cambio las comas por puntos para convertir posteriormente esos campos a float
df_demographics['edad_media'] = [x.replace(',', '.') for x in df_demographics['edad_media']]
df_demographics['pob_men_18_perc'] = [x.replace(',', '.') for x in df_demographics['pob_men_18_perc']]
df_demographics['pob_may_65_perc'] = [x.replace(',', '.') for x in df_demographics['pob_may_65_perc']]

df_demographics

Unnamed: 0,edad_media,pob_men_18_perc,pob_may_65_perc
0,43.5,8.5,15.8
1,44.4,13.6,19.8
2,46.8,13.7,26.3
3,45.8,12.6,23.8
4,45.0,15.3,23.3
5,43.7,12.8,19.2
6,45.8,12.0,24.1
7,42.7,19.7,21.1
8,44.1,16.4,21.8
9,46.2,13.7,24.5


In [204]:
df_demographics['edad_media'] = df_demographics['edad_media'].astype('float')
df_demographics['pob_men_18_perc'] = df_demographics['pob_men_18_perc'].astype('float')
df_demographics['pob_may_65_perc'] = df_demographics['pob_may_65_perc'].astype('float')
df_demographics

Unnamed: 0,edad_media,pob_men_18_perc,pob_may_65_perc
0,43.5,8.5,15.8
1,44.4,13.6,19.8
2,46.8,13.7,26.3
3,45.8,12.6,23.8
4,45.0,15.3,23.3
5,43.7,12.8,19.2
6,45.8,12.0,24.1
7,42.7,19.7,21.1
8,44.1,16.4,21.8
9,46.2,13.7,24.5


In [205]:
df_demographics.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   edad_media       21 non-null     float64
 1   pob_men_18_perc  21 non-null     float64
 2   pob_may_65_perc  21 non-null     float64
dtypes: float64(3)
memory usage: 632.0 bytes


In [207]:
#creo la columna población adulta restando los valores de menor de 18 y mayor de 65
df_demographics['pob_adulta_perc'] = 100 - (df_demographics['pob_men_18_perc'] + df_demographics['pob_may_65_perc'])
df_demographics

Unnamed: 0,edad_media,pob_men_18_perc,pob_may_65_perc,pob_adulta_perc
0,43.5,8.5,15.8,75.7
1,44.4,13.6,19.8,66.6
2,46.8,13.7,26.3,60.0
3,45.8,12.6,23.8,63.6
4,45.0,15.3,23.3,61.4
5,43.7,12.8,19.2,68.0
6,45.8,12.0,24.1,63.9
7,42.7,19.7,21.1,59.2
8,44.1,16.4,21.8,61.8
9,46.2,13.7,24.5,61.8


In [208]:
#creo la columna id_distrito en base al índice + 1
df_demographics['id_distrito'] = range(1, len(df_demographics) + 1)
df_demographics

Unnamed: 0,edad_media,pob_men_18_perc,pob_may_65_perc,pob_adulta_perc,id_distrito
0,43.5,8.5,15.8,75.7,1
1,44.4,13.6,19.8,66.6,2
2,46.8,13.7,26.3,60.0,3
3,45.8,12.6,23.8,63.6,4
4,45.0,15.3,23.3,61.4,5
5,43.7,12.8,19.2,68.0,6
6,45.8,12.0,24.1,63.9,7
7,42.7,19.7,21.1,59.2,8
8,44.1,16.4,21.8,61.8,9
9,46.2,13.7,24.5,61.8,10
