# Project 03: Web Scraping / APIs

## 1. Objetivo.

En este proyecto quiero contestar dos simples preguntas:

- En qué provincias de la España peninsular hay los mejores puertos de montaña para el ciclismo?
- Qué provincias presentan una meteorología más conductiva para el ciclismo?

Para dar respuesta a la primera pregunta necesitaré conocer cuál es la media de dureza para los puertos en cada provincia, así como su desnivel y cota final. Este proceso será conducido mediante el uso de web scraping con una conocida web que recopila los datos de todos los puertos de España, para posteriormente plasmarlos en un dataframe que nos permitirá sacar conclusiones de manera rápida y visual.

Para contestar a la segunda pregunta usaré la API de una conocida web meteorológica, también plasmando los datos obtenidos en un dataframe para sacar conclusiones.

## 2. Web scraping.

In [1]:
#Altimetrias.net usa un código de tres dígitos del 001 al 766 para identificar los puertos.
#Para automatizar nuestro scraping primero obtenemos la url base:

base_url_puerto = 'https://www.altimetrias.net/aspbk/verPuerto.asp?id='

#La url completa se compone de la url base y el código de puerto (001,002,003...).

In [2]:
#Importando requests y Beautifulsoup para parsear la web.

import requests
from bs4 import BeautifulSoup

In [3]:
#Asignamos una variable a la url del primer puerto sobre la cual ejecutaremos las primeras pruebas de scraping. 
#A continuación extraemos el texto html del link y lo parseamos.

puerto = '001'

url = f'{base_url_puerto}{puerto}'
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')

In [6]:
#Dado que el código se compone de múltiples tablas sin clase, emplearemos los índices para acceder a su contenido.
#En esta primera tabla encontramos la provincia, nombre del puerto y localidad:

tabla_0 = soup.find_all('table')[0]
tabla_0

<table align="center" bgcolor="#000000" cellpadding="5" cellspacing="1" width="100%">
<tr>
<td align="center" id="provincias" nowrap="" width="15%">
<img border="0" height="84" src="imagenes/4Bizkaia.png" width="112"/><font color="#F97771">BIZKAIA</font></td>
<td align="center" width="75%"><font color="#FFCC00" size="6"><b>NABARNIZ</b></font><br/><font color="#FFFFFF" size="5"><b>Aulesti-Narea</b></font><!-- <a class="LinkGorri" href="../asppdf/importare/importare.asp?id=1&nombre=Nabarniz">&nbsp;</a> --></td>
<td align="center" width="15%"><a href="../default.asp"><img border="0" src="../imagenes/verPuerto.jpg"/></a><font color="#FFFF00" size="3"><b>15753</b></font> <font color="#C0C0C0" size="3"><b>visitas</b></font></td>
</tr>
</table>

In [7]:
#En esta segunda tabla veremos altitud, distancia, desnivel, pendiente y coeficiente.

tabla_1 = soup.find_all('table')[1]
tabla_1

<table align="center" bgcolor="#000000" cellpadding="5" cellspacing="1" width="100%">
<tr align="center" bgcolor="#DDDDDD">
<td nowrap="" width="1%"><img alt="" border="0" height="25" src="imagenes/xaltitud.png" width="25"/> <font size="3"><b>Altitud: </b>365 m</font></td>
<td nowrap="" width="1%"><img alt="" border="0" height="25" src="imagenes/xdistancia.png" width="25"/> <font size="3"><b>Distancia:</b> 4,4 km</font></td>
<td nowrap="" width="1%"><img alt="" border="0" height="25" src="imagenes/xdesnivel.png" width="25"/> <font size="3"><b>Desnivel:</b> 273 m</font></td>
<td nowrap="" width="1%"><img alt="" border="0" height="25" src="imagenes/xpendiente.png" width="25"/> <font size="3"><b>Pendiente Media: </b>6,2 %</font></td>
<td nowrap="" width="1%"><font size="3"><b>Coeficiente: </b><font color="red"><b>81</b></font></font></td>
</tr>
</table>

In [39]:
#Veamos qué celdas contienen los valores que buscamos, empezaremos por recogerlas todas.

filas_0 = tabla_0.find_all('td')

In [9]:
#Igual que con las tablas, accedemos a las celdas mediante sus índices. Aquí vemos la información de provincia.

filas_0[0] 

<td align="center" id="provincias" nowrap="" width="15%">
<img border="0" height="84" src="imagenes/4Bizkaia.png" width="112"/><font color="#F97771">BIZKAIA</font></td>

In [10]:
#Población y puerto.

filas_0[1] 

<td align="center" width="75%"><font color="#FFCC00" size="6"><b>NABARNIZ</b></font><br/><font color="#FFFFFF" size="5"><b>Aulesti-Narea</b></font><!-- <a class="LinkGorri" href="../asppdf/importare/importare.asp?id=1&nombre=Nabarniz">&nbsp;</a> --></td>

In [11]:
#Haciendo strip para obtener la provincia:

filas_0[0].text.strip()

'BIZKAIA'

In [12]:
#Ahora el puerto:

filas_0[1].contents[0].text.strip()

'NABARNIZ'

In [13]:
#Y finalmente la población:

filas_0[1].contents[2].text.strip()

'Aulesti-Narea'

In [14]:
#Ahora vamos a seguir el mismo procedimiento para conseguir las cifras del puerto.

filas_1 = tabla_1.find_all('td')

In [15]:
#Altitud:

filas_1[0].contents[2].text.strip()

'Altitud: 365 m'

In [16]:
#Distancia:

filas_1[1].contents[2].text.strip()

'Distancia: 4,4 km'

In [17]:
#Desnivel:

filas_1[2].contents[2].text.strip()

'Desnivel: 273 m'

In [18]:
#Pendiente:

filas_1[3].contents[2].text.strip()

'Pendiente Media: 6,2 %'

In [19]:
#Coeficiente:

filas_1[4].contents[0].text.strip()

'Coeficiente: 81'

In [20]:
#Creando un diccionario del puerto 001:

import re

puerto = [{'puerto': filas_0[1].contents[0].text.strip(),
          'provincia': filas_0[0].text.strip(),
          'pueblo': filas_0[1].contents[2].text.strip(),
          'altitud': re.findall(r"\d+", filas_1[0].contents[2].text.strip())[0],
          'distancia': re.findall(r"\d+,\d", filas_1[1].contents[2].text.strip())[0],
          'desnivel': re.findall(r"\d+",filas_1[2].contents[2].text.strip())[0],
          'pendiente': re.findall(r"\d+,\d",filas_1[3].contents[2].text.strip())[0],
          'coeficiente': re.findall(r"\d+",filas_1[4].contents[0].text.strip())[0]}]

In [21]:
puerto

[{'puerto': 'NABARNIZ',
  'provincia': 'BIZKAIA',
  'pueblo': 'Aulesti-Narea',
  'altitud': '365',
  'distancia': '4,4',
  'desnivel': '273',
  'pendiente': '6,2',
  'coeficiente': '81'}]

In [22]:
#Sabiendo dónde está cada dato que nos interesa podemos definir una función para scrapear la url de cada puerto. 
#La primera parte del código se encarga de añadir ceros a la izquierda de la x hasta que la longitud es de 3 caracteres,
#ya que el input de la función no puede ser un dígito con ceros a la izquierda pero la url sí que lo necesita.

def scraper_puertos(x):
    if len(str(x)) == 1:    
        x = '00' + str(x)    #Si x tiene un dígito le añadimos dos ceros a la izquierda.
    elif len(str(x)) == 2:   #Si tiene dos dígitos sumamos un solo cero.
        x = '0' + str(x)
    else:
        pass                 #Si x tiene tres caracteres no hacemos nada.
    base_url_puerto = 'https://www.altimetrias.net/aspbk/verPuerto.asp?id=' #Cargando url base.
    url = f'{base_url_puerto}{x}'                                           #Creando la url del puerto.
    html = requests.get(url).text
    soup = BeautifulSoup(html, 'html.parser')
    tabla_0 = soup.find_all('table')[0]                                     #Creando las tablas y filas previamente mencionadas.
    tabla_1 = soup.find_all('table')[1]
    filas_0 = tabla_0.find_all('td')
    filas_1 = tabla_1.find_all('td')
    puerto = [{'puerto': filas_0[1].contents[0].text.strip(),              #Definiendo los valores del diccionario.
          'provincia': filas_0[0].text.strip(),
          'pueblo': filas_0[1].contents[2].text.strip(),
          'altitud': int(re.findall(r"\d+", filas_1[0].contents[2].text.strip())[0]),   #Usamos regex para obtener los valores
          'distancia': int(re.findall(r"\d+", filas_1[1].contents[2].text.strip())[0]), #numéricos y casteamos a int.
          'desnivel': int(re.findall(r"\d+",filas_1[2].contents[2].text.strip())[0]),
          'pendiente': int(re.findall(r"\d+",filas_1[3].contents[2].text.strip())[0]),
          'coeficiente': int(re.findall(r"\d+",filas_1[4].contents[0].text.strip())[0])}]
    return puerto               #Devolviendo el diccionario.
    print(puerto)

In [23]:
#Probamos la función con los 5 primeros puertos. Probando todos los rangos (de 001 a 766) detectamos un importante problema,
#y es que faltan algunos puertos. Lo solventamos rápidamente mediante error handling.

for i in range(1,5):
    try:
        puerto_gen = scraper_puertos(i)
        print(puerto_gen)
    except:
        pass  

[{'puerto': 'NABARNIZ', 'provincia': 'BIZKAIA', 'pueblo': 'Aulesti-Narea', 'altitud': 365, 'distancia': 4, 'desnivel': 273, 'pendiente': 6, 'coeficiente': 81}]
[{'puerto': 'ANDRAKA', 'provincia': 'BIZKAIA', 'pueblo': 'Plentzia', 'altitud': 138, 'distancia': 3, 'desnivel': 129, 'pendiente': 3, 'coeficiente': 17}]
[{'puerto': 'ANDRAKA', 'provincia': 'BIZKAIA', 'pueblo': 'Asteintza (Jatabe/Maruri)', 'altitud': 138, 'distancia': 3, 'desnivel': 114, 'pendiente': 3, 'coeficiente': 15}]
[{'puerto': 'ARTEBAKARRA', 'provincia': 'BIZKAIA', 'pueblo': 'Derio', 'altitud': 137, 'distancia': 3, 'desnivel': 113, 'pendiente': 3, 'coeficiente': 15}]


In [24]:
#Importamos pandas y probamos a crear un dataframe a partir del primer puerto. Aquí sumaremos el resto.

import pandas as pd

df_puertos = pd.DataFrame.from_dict(scraper_puertos(1))
df_puertos.head()

Unnamed: 0,puerto,provincia,pueblo,altitud,distancia,desnivel,pendiente,coeficiente
0,NABARNIZ,BIZKAIA,Aulesti-Narea,365,4,273,6,81


In [25]:
#Ejecutamos la función para todo el rango de puertos, añadiendo cada diccionario de puerto a nuestro dataframe.

for i in range(2,766):
    try:
        puerto_gen = scraper_puertos(i)
        df_puertos = df_puertos.append(puerto_gen, ignore_index=True)
    except:
        pass 

In [44]:
#Ya tenemos nuestro dataframe poblado con todos los puertos de la web. Veamos sus características:

df_puertos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 587 entries, 697 to 538
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   puerto       587 non-null    object
 1   provincia    587 non-null    object
 2   pueblo       587 non-null    object
 3   altitud      587 non-null    int64 
 4   distancia    587 non-null    int64 
 5   desnivel     587 non-null    int64 
 6   pendiente    587 non-null    int64 
 7   coeficiente  587 non-null    int64 
dtypes: int64(5), object(3)
memory usage: 41.3+ KB


## 3. Data cleaning.

In [47]:
#Vemos que algunos puertos están aparentemente repetidos. Lo que sucede es que algunos puertos cuentan con una ascensión por dos
#o más caras, con sus correspondientes altimetrías y coeficientes de dureza. Ya que no todas las provincias tienen la misma
#proporción de puertos "múltiples", mantenerlos en el dataframe echaría al traste las conclusiones. Vamos a observar el problema:

df_puertos.sort_values('coeficiente', ascending=False, inplace=True)

df_puertos.head()

Unnamed: 0,puerto,provincia,pueblo,altitud,distancia,desnivel,pendiente,coeficiente
697,SIERRA NEVADA-PICO VELETA,GRANADA,Haza Llanas-Las Sabinas,3296,39,2527,6,616
251,ANGLIRU,ASTURIAS,Santa Eulalia,1570,18,1423,7,528
453,GAMONITEIRO,ASTURIAS,Pola-Cobertoria,1772,15,1465,9,492
403,ROQUE DE LOS MUCHACHOS,SC DE TENERIFE,Garafía,2400,29,2164,7,477
148,TEIDE,SC DE TENERIFE,Santa Cruz,2325,63,2308,3,474


In [30]:
#Y aquí usaremos un simple drop_duplicates para prescindir de estos puertos. Hemos elegido mantener el primer puerto (el más
#duro) ya que va a ser el más relevante estadísticamente.

df_puertos.drop_duplicates(subset ="puerto", inplace = True)
df_puertos.head()

Unnamed: 0,puerto,provincia,pueblo,altitud,distancia,desnivel,pendiente,coeficiente
697,SIERRA NEVADA-PICO VELETA,GRANADA,Haza Llanas-Las Sabinas,3296,39,2527,6,616
251,ANGLIRU,ASTURIAS,Santa Eulalia,1570,18,1423,7,528
453,GAMONITEIRO,ASTURIAS,Pola-Cobertoria,1772,15,1465,9,492
403,ROQUE DE LOS MUCHACHOS,SC DE TENERIFE,Garafía,2400,29,2164,7,477
148,TEIDE,SC DE TENERIFE,Santa Cruz,2325,63,2308,3,474


In [None]:
df__coef_provincia = df_coef_provincia.drop('SC DE TENERIFE', inplace=True)
df_coef_provincia.sort_values('coeficiente', ascending=False).head(10)

In [31]:
df_coef_provincia = df_puertos.groupby('provincia').mean('coeficiente')

In [32]:
df_coef_provincia.head()

Unnamed: 0_level_0,altitud,distancia,desnivel,pendiente,coeficiente
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A CORUÑA,505.8,6.6,436.0,7.0,117.2
ALBACETE,1402.5,12.5,782.5,6.0,174.5
ALICANTE,810.875,7.75,577.625,7.75,171.125
ALMERÍA,1670.875,18.75,1001.375,4.875,216.375
ASTURIAS,1163.37931,11.551724,818.068966,7.034483,226.62069


In [33]:
df_coef_provincia.sort_values('coeficiente', ascending=False).head(10)

Unnamed: 0_level_0,altitud,distancia,desnivel,pendiente,coeficiente
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
LAS PALMAS,1282.333333,16.666667,1154.0,6.0,293.666667
SC DE TENERIFE,1320.142857,21.0,1117.714286,6.428571,246.428571
ASTURIAS,1163.37931,11.551724,818.068966,7.034483,226.62069
ALMERÍA,1670.875,18.75,1001.375,4.875,216.375
OURENSE,1386.666667,22.0,1067.333333,3.666667,212.0
JAÉN,1464.0,12.75,838.0,6.25,210.5
GRANADA,1374.7,14.5,853.4,5.75,204.0
GERONA,1284.0,13.0,807.25,6.0,191.5
MURCIA,823.25,10.5,712.0,6.75,181.5
LUGO,1210.6,19.8,780.6,3.6,177.4


In [34]:
df__coef_provincia = df_coef_provincia.drop('LAS PALMAS', inplace=True)

In [35]:
df_coef_provincia.sort_values('coeficiente', ascending=False).head(10)

Unnamed: 0_level_0,altitud,distancia,desnivel,pendiente,coeficiente
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
SC DE TENERIFE,1320.142857,21.0,1117.714286,6.428571,246.428571
ASTURIAS,1163.37931,11.551724,818.068966,7.034483,226.62069
ALMERÍA,1670.875,18.75,1001.375,4.875,216.375
OURENSE,1386.666667,22.0,1067.333333,3.666667,212.0
JAÉN,1464.0,12.75,838.0,6.25,210.5
GRANADA,1374.7,14.5,853.4,5.75,204.0
GERONA,1284.0,13.0,807.25,6.0,191.5
MURCIA,823.25,10.5,712.0,6.75,181.5
LUGO,1210.6,19.8,780.6,3.6,177.4
ALBACETE,1402.5,12.5,782.5,6.0,174.5


## 4. Conclusiones. 

In [46]:
#Usamos groupby y sort_values para ver el top 10 de provincias por número de puertos.

df_puertos.groupby('provincia').count().sort_values('puerto', ascending=False).head(10)

Unnamed: 0_level_0,puerto,pueblo,altitud,distancia,desnivel,pendiente,coeficiente
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BIZKAIA,116,116,116,116,116,116,116
GIPUZKOA,43,43,43,43,43,43,43
CANTABRIA,43,43,43,43,43,43,43
BURGOS,34,34,34,34,34,34,34
NAVARRA,29,29,29,29,29,29,29
ASTURIAS,29,29,29,29,29,29,29
ÁLAVA,24,24,24,24,24,24,24
GRANADA,20,20,20,20,20,20,20
LEÓN,18,18,18,18,18,18,18
MÁLAGA,16,16,16,16,16,16,16


Unnamed: 0_level_0,altitud,distancia,desnivel,pendiente,coeficiente
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ASTURIAS,1163.37931,11.551724,818.068966,7.034483,226.62069
ALMERÍA,1670.875,18.75,1001.375,4.875,216.375
OURENSE,1386.666667,22.0,1067.333333,3.666667,212.0
JAÉN,1464.0,12.75,838.0,6.25,210.5
GRANADA,1374.7,14.5,853.4,5.75,204.0
GERONA,1284.0,13.0,807.25,6.0,191.5
MURCIA,823.25,10.5,712.0,6.75,181.5
LUGO,1210.6,19.8,780.6,3.6,177.4
ALBACETE,1402.5,12.5,782.5,6.0,174.5
TERUEL,1814.0,14.8,733.2,5.2,172.4


In [37]:
#Buscando las provincias con puertos coronados a mayor altitud para stages de aclimatación a la altura.

df_coef_provincia.sort_values('altitud', ascending=False).head(10)

Unnamed: 0_level_0,altitud,distancia,desnivel,pendiente,coeficiente
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
TERUEL,1814.0,14.8,733.2,5.2,172.4
SEGOVIA,1784.5,9.5,595.0,6.0,148.5
ZAMORA,1770.0,15.666667,751.666667,4.666667,143.0
LLEIDA,1687.818182,13.272727,699.0,4.909091,143.272727
ALMERÍA,1670.875,18.75,1001.375,4.875,216.375
MADRID,1626.1,10.8,590.6,4.7,119.3
PALENCIA,1484.333333,9.0,454.333333,4.666667,87.333333
JAÉN,1464.0,12.75,838.0,6.25,210.5
ÁVILA,1437.272727,10.454545,575.727273,5.090909,103.0
ALBACETE,1402.5,12.5,782.5,6.0,174.5
