## Parte 1: Web Scraping con BeautifulSoup

Extrae información de la siguiente web: https://es.wikipedia.org/wiki/Sendero_de_Gran_Recorrido

Debes extraer la tabla de senderos de España con la siguiente información:
1. Identificador. 
2. Denominación. 
3. Itinerario.

In [111]:
#importamos librerias

import pandas as pd
import requests
from bs4 import BeautifulSoup
import re


In [2]:
#Realizamos la llamada a la web y comprobamos la respuesta a la llamada
call_senderos = requests.get('https://es.wikipedia.org/wiki/Sendero_de_Gran_Recorrido')
call_senderos.status_code

200

In [None]:
# Convertimos a formato Beautiful Soup
soup_senderos = BeautifulSoup(call_senderos.content, 'html.parser')

# Buscanos las tablas 
soup_senderos.find_all('table')

In [6]:
#Comprobamos cuantas tablas tenemos
tablas = soup_senderos.find_all('table')
len(tablas)

2

In [8]:
#seleccionamos la tabla con la información que queremos
tabla_senderos = tablas[0]

In [12]:
# Seleccionamos el encabezado
lista_columnas = [i.text for i in tabla_senderos.find_all('th')]
lista_columnas

['Identificador', 'Denominación', 'Itinerario', 'Variantes\n']

In [13]:
#Nos quedamos sólo con los tres que nos interesan
lista_columnas=lista_columnas[0:3]
lista_columnas

['Identificador', 'Denominación', 'Itinerario']

In [18]:
# Seleccionamos las filas
filas = tabla_senderos.find_all('tr')
len(filas)

181

In [19]:
#Descartamos el primer elemento
filas[0]

<tr>
<th>Identificador</th>
<th>Denominación</th>
<th>Itinerario</th>
<th>Variantes
</th></tr>

In [25]:
filas[1].text.split('\n')[1:4]

['GR-1',
 'Sendero Histórico',
 'Ampurdán - Bañolas - Ripoll - Berga - Graus - Tierrantona - Riglos - Biel - Sos del Rey Católico - Olite - Allo - Santa Cruz de Campezo - Bernedo - Peñacerrada - San Pantaleón de Losa - Reinosa - Cervera de Pisuerga - Maraña -*- Fonteo -*- Sarria -*- Finisterre']

In [26]:
#creamos una lista para guardar los resultados de cada una de las filas
lista_filas = []

#iniciamos for loop para iterar por todas las filas
for elemento in filas[1:]:
    lista_filas.append(elemento.text.split('\n')[1:4])

In [30]:
# convertimos ls información de las listas en DataFrame
df_senderos = pd.DataFrame(lista_filas)
df_senderos

Unnamed: 0,0,1,2
0,GR-1,Sendero Histórico,Ampurdán - Bañolas - Ripoll - Berga - Graus - ...
1,GR-2,Sendero La Junquera-San Adrián del Besós,La Junquera - Rupit - San Adrián del Besós
2,GR-3,Sendero Central de Cataluña,Lérida -*- Balaguer -*- Tremp -*- Puebla de Se...
3,GR-4,Sendero Puigcerdá-Mequinenza,Puigcerdá - Montserrat -*- Mequinenza
4,GR-5,Sendero de los Miradores o de los parques natu...,Sitges - Montserrat - Canet de Mar
...,...,...,...
175,GR-292,Canales romanos de las Médulas (El Bierzo),Área recreativa Campo de Braña (Las Médulas) -...
176,GR-300,Círculo al Embalse de El Atazar,El Berrueco - Patones de Arriba - El Atazar - ...
177,GR-303,Sierra del Rincón,
178,GR-330,Sendero Costa Blanca Interior,Parque natural del Macizo del Montgó - Parque ...


In [31]:
# Añadimos el nombre de las columnas
df_senderos.columns = lista_columnas
df_senderos

Unnamed: 0,Identificador,Denominación,Itinerario
0,GR-1,Sendero Histórico,Ampurdán - Bañolas - Ripoll - Berga - Graus - ...
1,GR-2,Sendero La Junquera-San Adrián del Besós,La Junquera - Rupit - San Adrián del Besós
2,GR-3,Sendero Central de Cataluña,Lérida -*- Balaguer -*- Tremp -*- Puebla de Se...
3,GR-4,Sendero Puigcerdá-Mequinenza,Puigcerdá - Montserrat -*- Mequinenza
4,GR-5,Sendero de los Miradores o de los parques natu...,Sitges - Montserrat - Canet de Mar
...,...,...,...
175,GR-292,Canales romanos de las Médulas (El Bierzo),Área recreativa Campo de Braña (Las Médulas) -...
176,GR-300,Círculo al Embalse de El Atazar,El Berrueco - Patones de Arriba - El Atazar - ...
177,GR-303,Sierra del Rincón,
178,GR-330,Sendero Costa Blanca Interior,Parque natural del Macizo del Montgó - Parque ...



## Parte 2: Obtención de Datos Climatológicos con la API de AEMET

Utiliza la API de AEMET para obtener información climatológica de la Sierra de Gredos. En concreto deberás usar el endpoint de "predicciones-especificas" la predicción de montaña para la sierra de gredos. Debe realizar las siguientes tareas:
1. Incluir la temperatura máxima en la Sierra de Gredos. 
2. Incluir la temperatura mínima en la Sierra de Gredos. 
3. Incluir la fecha en la que se recopilaron los datos.
4. Incluir la sierra de donde vienen los datos.

In [154]:
#definimos el endpoint
API_key = 'eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJudXJpYV9uY2cyN0Bob3RtYWlsLmNvbSIsImp0aSI6ImFkODJkN2Y2LTQzNjEtNDI4OS1hN2MwLTkwMjc3ZTc1OWZhNiIsImlzcyI6IkFFTUVUIiwiaWF0IjoxNzE0NDYxNTM0LCJ1c2VySWQiOiJhZDgyZDdmNi00MzYxLTQyODktYTdjMC05MDI3N2U3NTlmYTYiLCJyb2xlIjoiIn0.v0NpPTZrCuSbYtl4zFcMYnTq5Kj76OQvPb5RMISg_Qg'
url = f'https://opendata.aemet.es/opendata/api/prediccion/especifica/montaña/pasada/area/gre1?api_key={API_key}' 

#realizamos la llamada
call_predi = requests.get(url)
call_predi.status_code

200

In [155]:
call_predi.content

b'{\n  "descripcion" : "exito",\n  "estado" : 200,\n  "datos" : "https://opendata.aemet.es/opendata/sh/45392371",\n  "metadatos" : "https://opendata.aemet.es/opendata/sh/19be9dac"\n}'

In [156]:
#convertimos a formato Json y empezamos a explorar los datos que tenemos
js_predi = call_predi.json()
js_predi

{'descripcion': 'exito',
 'estado': 200,
 'datos': 'https://opendata.aemet.es/opendata/sh/45392371',
 'metadatos': 'https://opendata.aemet.es/opendata/sh/19be9dac'}

In [157]:
#Alamcenamos la url donde esta la información y reralizamos la llamada
url_datos = js_predi['datos']
call_datos = requests.get(url_datos)
call_datos.status_code

200

In [158]:
#convertimos a Json y empezamos a explorar
js_datos = call_datos.json()
len(js_datos)

1

In [159]:
predi_datos = js_datos[0]
predi_datos.keys()

dict_keys(['origen', 'seccion', 'id', 'nombre'])

In [160]:
info_predi = predi_datos['seccion'][0]
info_predi.keys()

dict_keys(['apartado', 'lugar', 'parrafo', 'nombre'])

In [161]:
fecha = info_predi['parrafo'][0]
fecha

{'texto': '(En las 24 horas previas a las 10:00 hora oficial del 29 de abril de 2024)',
 'numero': '1'}

In [162]:
temp_minima = info_predi['parrafo'][4]
temp_minima

{'texto': 'TEMPERATURAS MÍNIMAS:', 'numero': '5'}

In [163]:
temp_maxima = info_predi['parrafo'][6]
temp_maxima

{'texto': 'TEMPERATURAS MÁXIMAS:', 'numero': '7'}

In [164]:
#creamos un diccionario para guardar los datos
dic_predi = {'temp_max':[],
                'temp_min': [],
                'sierra':[],
                'fecha':[]}

In [165]:
# limpiamos la info 
texto_temp_maxima = temp_maxima['numero']
texto_temp_maxima

'7'

In [166]:
texto_temp_minima = temp_minima['numero']
texto_temp_minima

'5'

In [167]:

fecha_string = fecha['texto']
fecha_string


'(En las 24 horas previas a las 10:00 hora oficial del 29 de abril de 2024)'

In [168]:
año = re.findall('\d{4}',fecha_string)
año


['2024']

In [169]:
mes = re.findall('de (\w+) de',fecha_string)
mes

['abril']

In [170]:
dia = re.findall('del (\d{1,})',fecha_string)
dia

['29']

In [171]:
fecha_completa = año + mes + dia
fecha_completa

['2024', 'abril', '29']

In [172]:
texto_fecha = '-'.join(fecha_completa)
texto_fecha

'2024-abril-29'

In [173]:
#guardamos la info en el diccionario
dic_predi['temp_max'].append(texto_temp_maxima)
dic_predi['temp_min'].append(texto_temp_minima)
dic_predi['sierra'].append('sierra de gredos')
dic_predi['fecha'].append(texto_fecha)


In [174]:
dic_predi

{'temp_max': ['7'],
 'temp_min': ['5'],
 'sierra': ['sierra de gredos'],
 'fecha': ['2024-abril-29']}

In [175]:
pd_predi = pd.DataFrame(dic_predi)
pd_predi

Unnamed: 0,temp_max,temp_min,sierra,fecha
0,7,5,sierra de gredos,2024-abril-29
