## Ejercicios

Parte 1: Web Scraping con BeautifulSoup

Utilizando la biblioteca BeautifulSoup en Python, extrae información de la siguiente. Debes extraer la siguiente información:

- El nombre de las rutas que aparecen en la página web
- Dónde está ubicada la ruta
- El tipo de ruta. Si no está añadir "desconocido"
- Duración de la ruta
- Los kilómetros de la ruta
- La dificultad de la ruta
- El esfuerzo de la ruta
- La descripción de la ruta

In [200]:
# Librerías necesarias para resolver los ejercicios:

from bs4 import BeautifulSoup
import requests

import pandas as pd

import re

pd.set_option('display.max_columns', None) # Visualizar todas las columnas de los DataFrames

In [215]:

def datos_rutas_montania(url):
    """
    Extrae información sobre rutas de montaña desde una URL dada.

    Args:
    url (str): La URL de la página web que contiene la información de las rutas de montaña.

    Returns:
    dict: Un diccionario que contiene la información de las rutas de montaña extraída de la página web.
    Cada clave del diccionario corresponde a un tipo de información, como 'nombre', 'donde', 'tipo', etc.
    """

    # Realizar una solicitud HTTP GET a la URL proporcionada
    respuesta = requests.get(url)
    
    # Verificar si la solicitud fue exitosa
    if respuesta.status_code != 200:
        print(f"Parece que ha habido un problema con la extracción. El código de error es: {respuesta.status_code}")
    
    # Crear un objeto BeautifulSoup para analizar el contenido HTML de la respuesta
    sopa_rutas = BeautifulSoup(respuesta.content, 'html.parser')
    
    # Inicializar un diccionario para almacenar los datos extraídos de las rutas de montaña
    resultado = {'nombre': [], 'donde': [], 'tipo': [], 'duracion': [], 'km': [], 'dificultad': [], 'esfuerzo': [], 'descripcion': []}
    
    # Extraer los nombres de las rutas de montaña de la página web
    lista_nombre_rutas = [dato.getText().replace("\n", " - ").strip() for dato in sopa_rutas.find_all("h3", {"class": "elementor-heading-title elementor-size-default"})]
    lista_nombre_rutas = lista_nombre_rutas[2:]  # Ignorar los dos primeros elementos que no son nombres de rutas
    
    # Encontrar los contenedores principales que contienen la información de las rutas de montaña
    contenedores_principales = sopa_rutas.find_all('div', {"class": "elementor-tab-content"})
    
    # Inicializar listas para almacenar los datos técnicos y las descripciones de las rutas de montaña
    lista_datos = []
    lista_descripciones = []

    # Iterar sobre los contenedores principales para extraer la información de cada ruta de montaña
    for indice, contenedor in enumerate(contenedores_principales):
        
        if indice <= (len(contenedores_principales) - 4):
            # Encontrar el título asociado al contenedor actual
            titulo = contenedor.find_previous_sibling('div', {"class": 'elementor-tab-title'})
            
            # Verificar si el título corresponde a "Datos Técnicos"
            if titulo.find('a', {"class": 'elementor-toggle-title'}).text.strip() == 'Datos Tecnicos':
                
                # Dividir el texto del contenedor por saltos de línea y almacenar en una lista
                datos = contenedor.text.split('\n')
                
                # Verificar si falta alguna información y agregar un valor predeterminado
                if len(datos) < 11:
                    if list(resultado.keys())[1:-1][0] not in datos:
                        datos.insert(1, 'donde: desconocido')
                    elif list(resultado.keys())[1:-1][1] not in datos:
                        datos.insert(2, 'tipo: desconocido')
                    elif list(resultado.keys())[1:-1][2] not in datos:
                        datos.insert(3, 'duracion: desconocida')
                    elif list(resultado.keys())[1:-1][3] not in datos:
                        datos.insert(4, 'km: desconocidos')
                    elif list(resultado.keys())[1:-1][4] not in datos:
                        datos.insert(5, 'dificultad: desconocida')
                    elif list(resultado.keys())[1:-1][5] not in datos:
                        datos.insert(6, 'esfuerzo: desconocido')
                
                # Agregar los datos a la lista general
                lista_datos.append(datos)
            
            # Verificar si el título corresponde a "Descripción"
            elif titulo.find('a', {"class": 'elementor-toggle-title'}).text.strip() == 'Descripción':
                # Extraer y almacenar la descripción de la ruta de montaña
                lista_descripciones.append(contenedor.text)
    
    # Iterar sobre las listas de nombres y datos para agregar la información al diccionario resultado
    for indice, ruta in enumerate(lista_nombre_rutas):
        patron = re.compile(':\s+(.*)')  # Compilar el patrón de expresión regular
        
        # Agregar los datos extraídos al diccionario resultado
        resultado['nombre'].append(ruta)
        resultado['donde'].append(patron.search(lista_datos[indice-1][1]).group(1).strip().capitalize())
        resultado['tipo'].append(patron.search(lista_datos[indice-1][2]).group(1).capitalize())
        resultado['duracion'].append(patron.search(lista_datos[indice-1][3]).group(1).capitalize())
        resultado['km'].append(patron.search(lista_datos[indice-1][4]).group(1).capitalize())
        resultado['dificultad'].append(patron.search(lista_datos[indice-1][5]).group(1).capitalize())
        resultado['esfuerzo'].append(patron.search(lista_datos[indice-1][6]).group(1).capitalize())
        resultado['descripcion'].append(lista_descripciones[indice-1])
    
    return resultado

In [216]:
url_rutas = 'https://turismoactiva.com/rutas-de-montana-sierra-de-gredos/'

diccionario = datos_rutas_montania(url_rutas)

pd.DataFrame(diccionario)

Unnamed: 0,nombre,donde,tipo,duracion,km,dificultad,esfuerzo,descripcion
0,"Pico Morenzon, Circo de Gredos","Sierra de gredos, aparcamiento carretera nava ...",Circular,"2 días, una noche.",26,Alta. (dependerá de la estación del año).,Muy alto,Realizaremos una ruta de dos días y una noche ...
1,"Pico de la Mira, desde la Plataforma de Gredos","Sierra de gredos, salida desde la plataforma d...",Circular.,4 horas.,10,Baja. (dependerá de la estación del año).,Bajo – medio,“Descubre la montaña con nuestra ruta ideal pa...
2,"Pico Almanzor, Circo de Gredos","Sierra de gredos, salida desde la plataforma d...",Ida y vuelta.,7 horas.,16,Media. (dependerá de la estación del año).,Medio,Descubre la ruta perfecta para iniciarte en Gr...
3,"Laguna Grande de Gredos, Circo de Gredos","Sierra de gredos, salida desde la plataforma d...",Ida y vuelta.,14 horas.,22,Alta. (dependerá de la estación del año).,Alto,La fascinante travesía hacia el imponente Pico...
4,"Cinco Lagunas, Sierra de Gredos","Sierra de gredos, plataforma de gredos, sector...",Ida y vuelta.,5 horas.,12,Baja. (dependerá de la estación del año).,Bajo – medio.,La ruta icónica de la Laguna Grande de Gredos ...
5,"Circo de Hoya Moros, Sierra de Béjar","Sierra de gredos, salida desde navalperal del ...",Ida y vuelta.,9 horas.,25,Media. (dependerá de la estación del año).,Alto,"“Desde Navalperal del Tormes, exploramos la tr..."
6,Laguna de BarcoSierra de Gredos sector occidental,"Sierra de bejar, salida desde la plataforma de...",Ida y vuelta. (posibilidad de circular por la ...,7 horas.,12,Media. (dependerá de la estación del año).,Medio.,Explora una de las rutas más destacadas de la ...
7,Laguna de los Caballeros - Sierra de Gredos se...,"Sierra de gredos, aparcamiento carretera nava ...",Ida y vuelta.,7 horas.,21,Baja. (dependerá de la estación del año).,Medio.,"La tranquila Laguna de Galín Gómez, alias Lagu..."
8,"Laguna de la Nava, - Sierra de Gredos sector o...","Sierra de gredos, salida desde navalguijo sect...",Ida y vuelta.,8 horas.,25,Baja. (dependerá de la estación del año).,Alto,"Una ruta impresionante y muy desconocidas, con..."
9,"Tres Lagunas - La Nava, Barco y Caballeros - S...","Sierra de gredos, salida desde la carretera de...",Ida y vuelta.,8 horas.,19,Medio. (dependerá de la estación del año).,Alto,"Saliendo de Nava de barco, nos vamos metiendo ..."


Parte 2: Obtención de Datos Climatológicos con la API de AEMET

Utiliza la API de AEMET para obtener información climatológica de la Sierra de Gredos. En concreto deberás usar el endpoint de 'predicciones-específicas' la prediccón de montaña para la sierra de gredos. Debe realizar las siguientes tareas:

- Incluir la temperatura máxima en la Sierra de Gredos
- Incluir la temperatura mínima en la Sierra de Gredos
- Incluir la fecha en la que se recopilaron los datos
- Incluir la sierra de donde vienen los datos

In [263]:
def extraccion_datos():
    resultado = {}
    resultado_final = {}
    prediccion = {'temp_minima' : [] , 'temp_maxima' : [] , 'lugar' : [] , 'sierra' : [] , 'fecha' : []}
    
    url = f'https://opendata.aemet.es/opendata/api/prediccion/especifica/monta%C3%B1a/pasada/area/gre1/dia/0/?api_key=eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJtYXJpbmEuZXNjb2Jhci5wZXJlekBnbWFpbC5jb20iLCJqdGkiOiJiM2U0YWRjYS0wNjllLTQzYmQtYWIwOS00ZmFmYzMwOTk3YjAiLCJpc3MiOiJBRU1FVCIsImlhdCI6MTcwOTAyNzQxMSwidXNlcklkIjoiYjNlNGFkY2EtMDY5ZS00M2JkLWFiMDktNGZhZmMzMDk5N2IwIiwicm9sZSI6IiJ9.PNW_OAsasQhZZcPwTif2bmdCn7Ur5hgcrYJDx8G-dbg'
    llamada = requests.get(url) 
    resultado = llamada.json()

    if llamada.status_code != 200:
        print(f"Parece que ha habido un problema con la extracción. El código de error es: {llamada.status_code}")
        
    llamada_datos = requests.get(resultado['datos'])
    
    if llamada_datos.status_code != 200:
        print(f"Parece que ha habido un problema con la extracción. El código de error es: {llamada_datos.status_code}")
        
    resultado_final = llamada_datos.json()
    
    datos_lugar = resultado_final[0]['seccion'][2]['lugar']
    
    for dato in datos_lugar:
        
        prediccion['temp_minima'].append(dato['minima'])
        prediccion['temp_maxima'].append(dato['maxima'])
        prediccion['lugar'].append(dato['nombre'])
        prediccion['sierra'].append('Sierra de Gredos')
        prediccion['fecha'].append('2024-02-27')    
    
    return prediccion

In [266]:
prediccion = extraccion_datos()

pd.DataFrame(prediccion)

Unnamed: 0,temp_minima,temp_maxima,lugar,sierra,fecha
0,-6,-1,Plataforma de Gredos,Sierra de Gredos,2024-02-27
1,-1,6,El Barco de Ávila,Sierra de Gredos,2024-02-27
2,-1,5,Piedrahíta,Sierra de Gredos,2024-02-27
3,-9,-4,La Serrota,Sierra de Gredos,2024-02-27
4,-9,-2,Pico Almanzor,Sierra de Gredos,2024-02-27
5,-7,-3,La Hoya (La Covatilla),Sierra de Gredos,2024-02-27
