#### Parte 1: Web Scraping con BeautifulSoup
Utilizando la biblioteca BeautifulSoup en Python, extrae información de la siguiente web. Debes
extraer la tabla de senderos de España con la siguiente información:
1. Identificador.
2. Denominación.
3. Itinerario.

In [5]:
import pandas as pd
import requests
import re
from bs4 import BeautifulSoup
pd.set_option('display.max_columns', None)

In [6]:
#0. Defino la url
url_senderos='https://es.wikipedia.org/wiki/Sendero_de_Gran_Recorrido'

In [7]:
#0. Hago la llamada
llamada=requests.get(url_senderos)
print(f'El estado de la llamada fue: {llamada.status_code}')

El estado de la llamada fue: 200


In [8]:
#0. Creo la sopa y busco la tabla que me interesa
sopa=BeautifulSoup(llamada.content, 'html.parser')
tablas_sopa=sopa.find_all('table')
mi_tabla=tablas_sopa[0] #la tabla que me interesa es la primera

In [9]:
#1. Busco los encabezados
todos_encabezados=mi_tabla.find_all('th')

#1. Saco el texto
texto_encabezados=[i.text for i in todos_encabezados]
texto_encabezados

#1. Me quedo sólo con las columnas que me interesan
mis_encabezdos=texto_encabezados[0:3]
mis_encabezdos

['Identificador', 'Denominación', 'Itinerario']

In [12]:
#2. Saco las filas y me quedo sólo con las que me interesan (las mismas que los encabezados)
todas_filas=mi_tabla.find_all('tr')

#2. Saco el texto
todas_filas[1].text

#2. Saco los \n
mis_filas=[]
for i in todas_filas[1:]: #desde la fila 1 porque la fila 0 son los encabezados
    limpieza=i.text.split('\n')
    mis_filas.append(limpieza[1:4])
mis_filas[:3] #visualizo los primeros para comprobar que lo hice bien

[['GR-1',
  'Sendero Histórico',
  'Ampurdán - Bañolas - Ripoll - Berga - Graus - Tierrantona - Riglos - Biel - Sos del Rey Católico - Olite - Allo - Santa Cruz de Campezo - Bernedo - Peñacerrada - San Pantaleón de Losa - Reinosa - Cervera de Pisuerga - Maraña -*- Fonteo -*- Sarria -*- Finisterre'],
 ['GR-2',
  'Sendero La Junquera-San Adrián del Besós',
  'La Junquera - Rupit - San Adrián del Besós'],
 ['GR-3',
  'Sendero Central de Cataluña',
  'Lérida -*- Balaguer -*- Tremp -*- Puebla de Segur -*- El Pont de Suert -*- Seo de Urgel -*- San Juan de las Abadesas - Manresa - Solsona - Tárrega - Vallbona de las Monjas -*- Borjas Blancas -*- Lérida']]

In [13]:
def extraccion_datos(url):
    #0. Hago la llamada, creo la sopa y elijo mi tabla
    llamada=requests.get(url_senderos)
    print(f'El estado de la llamada fue: {llamada.status_code}')

    sopa=BeautifulSoup(llamada.content, 'html.parser')
    tablas_sopa=sopa.find_all('table')
    mi_tabla=tablas_sopa[0]

    #1. Busco los encabezados y guardo los que me interesan en una lista
    #1. Busco los encabezados
    todos_encabezados=mi_tabla.find_all('th')
    #1. Saco el texto
    texto_encabezados=[i.text for i in todos_encabezados]
    #1. Me quedo sólo con las columnas que me interesan
    mis_encabezdos=texto_encabezados[0:3]

    #2. Saco las filas
    todas_filas=mi_tabla.find_all('tr')
    #2. Saco el texto
    todas_filas[1].text
    #2. Saco los \n y me quedo sólo con las que me interesan (las mismas que los encabezados)
    mis_filas=[]
    for i in todas_filas[1:]: #desde la fila 1 porque la fila 0 son los encabezados
        limpieza=i.text.split('\n')
        mis_filas.append(limpieza[1:4])
    
    return mis_encabezdos, mis_filas

In [14]:
#3. Llamo a la función
mis_encabezdos, mis_filas=extraccion_datos(url_senderos)

El estado de la llamada fue: 200


In [15]:
#4. Hago el DataFrame
df_senderos=pd.DataFrame(mis_filas)
df_senderos.columns=mis_encabezdos
df_senderos

Unnamed: 0,Identificador,Denominación,Itinerario
0,GR-1,Sendero Histórico,Ampurdán - Bañolas - Ripoll - Berga - Graus - ...
1,GR-2,Sendero La Junquera-San Adrián del Besós,La Junquera - Rupit - San Adrián del Besós
2,GR-3,Sendero Central de Cataluña,Lérida -*- Balaguer -*- Tremp -*- Puebla de Se...
3,GR-4,Sendero Puigcerdá-Mequinenza,Puigcerdá - Montserrat -*- Mequinenza
4,GR-5,Sendero de los Miradores o de los parques natu...,Sitges - Montserrat - Canet de Mar
...,...,...,...
175,GR-292,Canales romanos de las Médulas (El Bierzo),Área recreativa Campo de Braña (Las Médulas) -...
176,GR-300,Círculo al Embalse de El Atazar,El Berrueco - Patones de Arriba - El Atazar - ...
177,GR-303,Sierra del Rincón,
178,GR-330,Sendero Costa Blanca Interior,Parque natural del Macizo del Montgó - Parque ...


---
#### Parte 2: Obtención de Datos Climatológicos con la API de AEMET
Utiliza la API de AEMET para obtener información climatológica de la Sierra de Gredos. En
concreto deberás usar el endpoint de "predicciones-especificas" la predicción de montaña para
la sierra de gredos. Debe realizar las siguientes tareas:
1. Incluir la temperatura máxima en la Sierra de Gredos.
2. Incluir la temperatura mínima en la Sierra de Gredos.
3. Incluir la fecha en la que se recopilaron los datos.
4. Incluir la sierra de donde vienen los datos.
Tendrás que obtener un DataFrame similar al que observas a continuación
![image.png](attachment:image.png)

In [29]:
#0. Defino endpoint AEMET y API KEY
api_key='eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJtYXJ0aW5lenRvcnJlZ29pc2FiZWxAZ21haWwuY29tIiwianRpIjoiMGYzZjYxOTEtODhjYi00MWNjLWI4OGItMzQ4OWZhY2RhMTIwIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE3MTM0NTc5ODMsInVzZXJJZCI6IjBmM2Y2MTkxLTg4Y2ItNDFjYy1iODhiLTM0ODlmYWNkYTEyMCIsInJvbGUiOiIifQ.x-Hvcmb8DW-NFQpQh77ZKUPq6NfxCZxxpf8cGj8UKeQ'
url_aemet= f'https://opendata.aemet.es/opendata/api/prediccion/especifica/montaña/pasada/area/gre1?api_key={api_key}'

In [30]:
#1. Hago la llamada
llamada_aemet=requests.get(url_aemet)
print(f'El estado de la llamada fue: {llamada_aemet.status_code}')

El estado de la llamada fue: 200


In [31]:
#2. Saco el json y veo su contenido
json_aemet=llamada_aemet.json()
json_aemet

{'descripcion': 'exito',
 'estado': 200,
 'datos': 'https://opendata.aemet.es/opendata/sh/2d25f876',
 'metadatos': 'https://opendata.aemet.es/opendata/sh/19be9dac'}

In [32]:
#La información que necesito está en la key 'datos', y que es una url, por lo que hago otra llamada
url_datos=json_aemet['datos']
llamada_datos=requests.get(url_datos)
print(f'El estado de la llamada a datos fue: {llamada_datos.status_code}')

El estado de la llamada a datos fue: 200


In [33]:
#Saco el json de esta nueva llamada y veo su contenido
json_datos=llamada_datos.json()
json_datos

[{'origen': {'productor': 'Agencia Estatal de Meteorología - AEMET - Gobierno de España',
   'web': 'http://www.aemet.es',
   'tipo': 'Predicción de montaña',
   'language': 'es',
   'copyright': '© AEMET. Autorizado el uso de la información y su reproducción citando a AEMET como autora de la misma.',
   'notaLegal': 'http://www.aemet.es/es/nota_legal'},
  'seccion': [{'apartado': [],
    'lugar': [],
    'parrafo': [{'texto': '(En las 24 horas previas a las 10:00 hora oficial del 30 de abril de 2024)',
      'numero': '1'},
     {'texto': '', 'numero': '2'},
     {'texto': 'PRECIPITACIÓN:', 'numero': '3'},
     {'texto': 'Chubascos por la tarde: 4 l/m2 en el puerto de El Pico, 3 l/m2 en Tornavacas.',
      'numero': '4'},
     {'texto': 'TEMPERATURAS MÍNIMAS:', 'numero': '5'},
     {'texto': '-2ºC en el puerto de El Pico, 1ºC en El Barco de Ávila, 3ºC en Muñotello, 5ºC en El Piornal y Hervás, 6ºC en Tornavacas, 8ºC en Garganta La Olla.',
      'numero': '6'},
     {'texto': 'TEMPERATU

In [37]:
#Este segundo json es una lista que dentro tiene un diccionario. Quiero entrar en el diccionario (índice 0) y en la key 'sección'. Guardo esa info en una nueva variable
info=json_datos[0]['seccion'][0]
info


{'apartado': [],
 'lugar': [],
 'parrafo': [{'texto': '(En las 24 horas previas a las 10:00 hora oficial del 30 de abril de 2024)',
   'numero': '1'},
  {'texto': '', 'numero': '2'},
  {'texto': 'PRECIPITACIÓN:', 'numero': '3'},
  {'texto': 'Chubascos por la tarde: 4 l/m2 en el puerto de El Pico, 3 l/m2 en Tornavacas.',
   'numero': '4'},
  {'texto': 'TEMPERATURAS MÍNIMAS:', 'numero': '5'},
  {'texto': '-2ºC en el puerto de El Pico, 1ºC en El Barco de Ávila, 3ºC en Muñotello, 5ºC en El Piornal y Hervás, 6ºC en Tornavacas, 8ºC en Garganta La Olla.',
   'numero': '6'},
  {'texto': 'TEMPERATURAS MÁXIMAS:', 'numero': '7'},
  {'texto': '19ºC en Garganta La Olla, 17ºC en Hervás, 16ºC en El Barco de Ávila, 15ºC en Tornavacas y El Piornal, 13ºC en Muñotello y el puerto de El Pico.',
   'numero': '8'},
  {'texto': 'VIENTO: flojo con algunos intervalos de intensidad moderada.',
   'numero': '9'}],
 'nombre': 'tiempo_pasado'}

In [38]:
#La variable info es ahora un diccionario del que sacaré los datos que necesito
info.keys()
#En la key 'parrafo' está la información que necesito

dict_keys(['apartado', 'lugar', 'parrafo', 'nombre'])

In [48]:
#3. Extraigo la información que necesito
#3.1 Fecha
fecha_frase=info['parrafo'][0]['texto']
fecha_frase

'(En las 24 horas previas a las 10:00 hora oficial del 30 de abril de 2024)'

In [49]:
#Extraigo de la frase las palabras que forman la fecha
año=re.findall('\d{4}', fecha_frase) #busca un número de 4 dígitos
print(año)
mes=re.findall('de (\w+) de', fecha_frase) #busca lo que haya entre 'de' y 'de', que será el mes
print(mes)
dia=re.findall('del (\d{1,})', fecha_frase) #busca un número de 1 dígito o más que siga a la palabra 'del'
print(dia)

['2024']
['abril']
['30']


In [50]:
#Uno la fecha
fecha_unida=año+mes+dia
fecha='-'.join(fecha_unida)
fecha

'2024-abril-30'

In [55]:
#3.2 Temperaturas mínimas
#Está en 'parrafo0, índice 0, y el value de la key 'numero'
minima=info['parrafo'][4]['numero']
minima

'5'

In [57]:
#3.3 Temperaturas máximas
maxima=info['parrafo'][6]['numero']
maxima

'7'

In [59]:
#4. Creo un diccionario y lo appendeo con las variables que acabo de crear
diccionario_aemet={'temp_maxima':[],
                   'temp_minima':[],
                   'sierra':[],
                   'fecha':[]}

diccionario_aemet['temp_maxima'].append(maxima)
diccionario_aemet['temp_minima'].append(minima)
diccionario_aemet['sierra'].append('Sierra de Gredos')
diccionario_aemet['fecha'].append(fecha)
diccionario_aemet

{'temp_maxima': ['7'],
 'temp_minima': ['5'],
 'sierra': ['Sierra de Gredos'],
 'fecha': ['2024-abril-30']}

In [60]:
#5. Creo el DataFrame
df_aemet=pd.DataFrame(diccionario_aemet)
df_aemet

Unnamed: 0,temp_maxima,temp_minima,sierra,fecha
0,7,5,Sierra de Gredos,2024-abril-30
