In [24]:
#Importando paquetes
import requests
from bs4 import BeautifulSoup
from requests.adapters import HTTPAdapter
import urllib.request, urllib.parse, urllib.error
from requests.packages.urllib3.util.retry import Retry
import pandas as pd

# **1. WEB SCRAPING SENAHMI**

El SENAHMI (Servicio Nacional de Meteorología e Hidrología del Perú) es la entidad encargada de proporcionar información meteorológica y climatológica en el Perú. El web scraping, una técnica que implica la extracción automatizada de datos de páginas web, se utilizará para recopilar y organizar esta valiosa información de manera eficiente. El enfoque se centrará en respetar los términos de servicio del sitio, analizar la estructura HTML para identificar los elementos relevantes y utilizar herramientas de web scraping. Este proceso permitirá obtener datos actualizados de la SENAHMI, facilitando su posterior análisis y aplicación en diversas áreas.

### **Analizando HTML con BeautifulSoup**

In [25]:
# Ingresar URL
url = 'https://www.senamhi.gob.pe/?p=pronostico-meteorologico'

# Leer el contenido HTML de la URL
html = urllib.request.urlopen(url).read()

# Crear un objeto BeautifulSoup para analizar el HTML
soup = BeautifulSoup(html, 'html.parser')

# Imprimir la sección <head> del HTML
# print(soup.head)


### Extracción y Creación de DataFrame desde la Página de Pronóstico Meteorológico

In [26]:
# Encuentra todas las divisiones que contienen la información de la ciudad
city_divs = soup.find_all('div', class_='col-lg-12 p-2 m-0', style='background-color:lightblue;')

# Listas para almacenar los datos antes de crear el DataFrame
cities = []
days = []
temperature_highs = []
temperature_lows = []
descriptions = []

for city_div in city_divs:
    # Extrae el nombre de la ciudad
    city_name_elem = city_div.find('span', class_='nameCity')
    if city_name_elem:
        city_name = city_name_elem.text.strip()

        # Encuentra el contenedor de información del clima para la ciudad actual
        td_element = city_div.find_next('td')

        try:
            # Extrae la información del clima para cada día
            for day_info in td_element.find_all('div', class_='row m-3', recursive=False):
                day = day_info.find('div', class_='col-sm-3').text.strip()
                temperature_high = day_info.find('div', class_='col-sm-1 text-danger').strong.text.strip()
                temperature_low = day_info.find('div', class_='col-sm-1 text-primary').strong.text.strip()
                description = day_info.find('div', class_='col-sm-6').text.strip()

                # Almacena la información en las listas
                cities.append(city_name)
                days.append(day)
                temperature_highs.append(temperature_high)
                temperature_lows.append(temperature_low)
                descriptions.append(description)

        except AttributeError as e:
            # Almacena información de error en listas
            cities.append(city_name)
            days.append("Error")
            temperature_highs.append("Error")
            temperature_lows.append("Error")
            descriptions.append("Error")

# Imprime las listas después de la iteración
#print("Cities:", cities)
#print("Days:", days)
#print("Temperature Highs:", temperature_highs)
#print("Temperature Lows:", temperature_lows)
#print("Descriptions:", descriptions)

# Crea un DataFrame de pandas con los datos recopilados
df = pd.DataFrame({
    'City': cities,
    'Day': days,
    'Temperature High': temperature_highs,
    'Temperature Low': temperature_lows,
    'Description': descriptions
})

# Muestra el DataFrame
df

Unnamed: 0,City,Day,Temperature High,Temperature Low,Description
0,BAGUA GRANDE - AMAZONAS,"domingo, 14 de enero",19ºC,11ºC,Cielo nublado parcial a cielo nublado durante ...
1,BAGUA GRANDE - AMAZONAS,"lunes, 15 de enero",19ºC,11ºC,Cielo nublado parcial por la mañana a cielo nu...
2,BAGUA GRANDE - AMAZONAS,"martes, 16 de enero",19ºC,11ºC,Cielo nublado con viento moderado por la mañan...
3,BAGUA GRANDE - AMAZONAS,"miércoles, 17 de enero",19ºC,11ºC,Cielo nublado parcial entre cielo nublado dura...
4,CHACHAPOYAS - AMAZONAS,"domingo, 14 de enero",32ºC,22ºC,Cielo nublado parcial entre cielo nublado dura...
...,...,...,...,...,...
1028,PUERTO ESPERANZA - UCAYALI,"domingo, 14 de enero",31ºC,23ºC,Cielo nublado variando a cielo nublado parcial...
1029,PUERTO ESPERANZA - UCAYALI,"lunes, 15 de enero",30ºC,23ºC,Cielo cubierto a cielo nublado durante el día ...
1030,PUERTO ESPERANZA - UCAYALI,"martes, 16 de enero",30ºC,23ºC,Cielo cubierto a cielo nublado durante el día ...
1031,PUERTO ESPERANZA - UCAYALI,"miércoles, 17 de enero",32ºC,23ºC,Cielo nublado variando a cielo nublado parcial...


## **Mejora en la Estructura del DataFrame para Evitar Repetición de Ciudades por Días Meteorológicos**

En el DataFrame previo, las ciudades se repiten debido a múltiples registros de días meteorológicos por ciudad. Para solucionarlo, se propone reorganizar el DataFrame colocando cada día meteorológico como una columna individual. 

In [27]:
# Continúa con el análisis y la extracción de datos si se obtiene el HTML correctamente
soup = BeautifulSoup(html, 'html.parser')

# Encuentra todas las divisiones que contienen la información de la ciudad
city_divs = soup.find_all('div', class_='col-lg-12 p-2 m-0', style='background-color:lightblue;')

# Lista para almacenar los datos antes de crear el DataFrame
combined_info = []

### Procesamiento de Datos Meteorológicos Diarios por Ciudad

In [28]:
for city_div in city_divs:
    # Extrae el nombre de la ciudad
    city_name_elem = city_div.find('span', class_='nameCity')
    if city_name_elem:
        city_name = city_name_elem.text.strip()

        # Encuentra el contenedor de información del clima para la ciudad actual
        td_element = city_div.find_next('td')

        try:
            # Intenta extraer la información de cada día
            day_info_list = td_element.find_all('div', class_='row m-3', recursive=False)
        except AttributeError as e:
            # Maneja errores al extraer información de días
            print(f"Error extracting data for {city_name}: {e}")
            day_info_list = []

        # Verificación adicional antes de procesar la información del día
        if day_info_list:
            combined_info_dict = {'City': city_name}

            for i, day_info in enumerate(day_info_list):
                # Extrae información del día, como temperatura máxima, mínima y descripción
                day = day_info.find('div', class_='col-sm-3').text.strip()
                temperature_high = day_info.find('div', class_='col-sm-1 text-danger').strong.text.strip()
                temperature_low = day_info.find('div', class_='col-sm-1 text-primary').strong.text.strip()
                description = day_info.find('div', class_='col-sm-6').text.strip()

                # Almacena la información en el diccionario
                combined_info_dict[f'Day {i+1}'] = f"{day}: Máx {temperature_high}, Mín {temperature_low}, {description}"

            # Agrega el diccionario a la lista
            combined_info.append(combined_info_dict)

# Crea un DataFrame de pandas con los datos recopilados
df_por_dia = pd.DataFrame(combined_info)

# Muestra el DataFrame
df_por_dia

Error extracting data for SAN ALEJANDRO - UCAYALI: 'NoneType' object has no attribute 'find_all'


Unnamed: 0,City,Day 1,Day 2,Day 3,Day 4
0,BAGUA GRANDE - AMAZONAS,"domingo, 14 de enero: Máx 19ºC, Mín 11ºC, Ciel...","lunes, 15 de enero: Máx 19ºC, Mín 11ºC, Cielo ...","martes, 16 de enero: Máx 19ºC, Mín 11ºC, Cielo...","miércoles, 17 de enero: Máx 19ºC, Mín 11ºC, Ci..."
1,CHACHAPOYAS - AMAZONAS,"domingo, 14 de enero: Máx 32ºC, Mín 22ºC, Ciel...","lunes, 15 de enero: Máx 32ºC, Mín 22ºC, Cielo ...","martes, 16 de enero: Máx 33ºC, Mín 22ºC, Cielo...","miércoles, 17 de enero: Máx 33ºC, Mín 22ºC, Ci..."
2,CHIRIACO - AMAZONAS,"domingo, 14 de enero: Máx 24ºC, Mín 17ºC, Ciel...","lunes, 15 de enero: Máx 25ºC, Mín 16ºC, Cielo ...","martes, 16 de enero: Máx 26ºC, Mín 16ºC, Cielo...","miércoles, 17 de enero: Máx 26ºC, Mín 16ºC, Ci..."
3,PEDRO RUIZ - AMAZONAS,"domingo, 14 de enero: Máx 31ºC, Mín 22ºC, Ciel...","lunes, 15 de enero: Máx 32ºC, Mín 22ºC, Cielo ...","martes, 16 de enero: Máx 32ºC, Mín 22ºC, Cielo...","miércoles, 17 de enero: Máx 32ºC, Mín 22ºC, Ci..."
4,SANTA MARIA DE NIEVA - AMAZONAS,"domingo, 14 de enero: Máx 14ºC, Mín 8ºC, Cielo...","lunes, 15 de enero: Máx 15ºC, Mín 7ºC, Cielo n...","martes, 16 de enero: Máx 16ºC, Mín 7ºC, Cielo ...","miércoles, 17 de enero: Máx 15ºC, Mín 8ºC, Cie..."
...,...,...,...,...,...
268,AGUAYTIA - UCAYALI,"domingo, 14 de enero: Máx 30ºC, Mín 22ºC, Ciel...","lunes, 15 de enero: Máx 32ºC, Mín 22ºC, Cielo ...","martes, 16 de enero: Máx 32ºC, Mín 22ºC, Cielo...","miércoles, 17 de enero: Máx 32ºC, Mín 22ºC, Ci..."
269,ATALAYA - UCAYALI,"domingo, 14 de enero: Máx 31ºC, Mín 22ºC, Ciel...","lunes, 15 de enero: Máx 30ºC, Mín 22ºC, Cielo ...","martes, 16 de enero: Máx 32ºC, Mín 22ºC, Cielo...","miércoles, 17 de enero: Máx 31ºC, Mín 22ºC, Ci..."
270,CURIMANÁ - UCAYALI,"domingo, 14 de enero: Máx 32ºC, Mín 23ºC, Ciel...","lunes, 15 de enero: Máx 30ºC, Mín 23ºC, Cielo ...","martes, 16 de enero: Máx 31ºC, Mín 23ºC, Cielo...","miércoles, 17 de enero: Máx 31ºC, Mín 23ºC, Ci..."
271,PUCALLPA - UCAYALI,"domingo, 14 de enero: Máx 32ºC, Mín 22ºC, Ciel...","lunes, 15 de enero: Máx 31ºC, Mín 22ºC, Cielo ...","martes, 16 de enero: Máx 31ºC, Mín 22ºC, Cielo...","miércoles, 17 de enero: Máx 31ºC, Mín 22ºC, Ci..."


## Función SENAHMI - Organización Detallada de Datos Meteorológicos por Día, Ciudad y Región

Después de dividir la información por día, notamos que está concentrada en una celda, dificultando la visualización. Proponemos crear columnas separadas para cada observación, con fecha, temperaturas y descripción del día. Además, sugerimos añadir dos columnas para la ciudad y la región, simplificando así la organización y el análisis por ubicación.

In [29]:
def parse_weather_html_from_url(url):

    # Leer el contenido HTML de la URL
    html = urllib.request.urlopen(url).read()

    # Crear un objeto BeautifulSoup para analizar el HTML
    soup = BeautifulSoup(html, 'html.parser')

    # Encuentra todas las divisiones que contienen la información de la ciudad
    city_divs = soup.find_all('div', class_='col-lg-12 p-2 m-0', style='background-color:lightblue;')

    # Lista para almacenar los datos antes de crear el DataFrame
    combined_info = []

    # Itera sobre cada división que contiene información de la ciudad
    for city_div in city_divs:
        # Extrae el nombre de la ciudad
        city_name_elem = city_div.find('span', class_='nameCity')
        if city_name_elem:
            # Limpia y almacena el nombre de la ciudad
            city_name = city_name_elem.text.strip()

            # Encuentra el contenedor de información del clima para la ciudad actual
            td_element = city_div.find_next('td')

            try:
                # Intenta extraer la información de cada día
                day_info_list = td_element.find_all('div', class_='row m-3', recursive=False)
            except AttributeError as e:
                # Maneja errores al extraer información de días
                print(f"Error extracting data for {city_name}: {e}")
                day_info_list = []

            # Verificación adicional antes de procesar la información del día
            if day_info_list:
                # Crea un diccionario para almacenar la información de la ciudad y sus días
                combined_info_dict = {'Ciudad': city_name}

                # Itera sobre la información de cada día
                for i, day_info in enumerate(day_info_list):
                    # Extrae información específica del día
                    day = day_info.find('div', class_='col-sm-3').text.strip()
                    temperature_high = day_info.find('div', class_='col-sm-1 text-danger').strong.text.strip()
                    temperature_low = day_info.find('div', class_='col-sm-1 text-primary').strong.text.strip()
                    description = day_info.find('div', class_='col-sm-6').text.strip()

                    # Almacena la información en el diccionario
                    combined_info_dict[f'Day {i+1}'] = f"{day}: Máx {temperature_high}, Mín {temperature_low}"
                    combined_info_dict[f'Description {i+1}'] = description

                # Agrega el diccionario a la lista de información combinada
                combined_info.append(combined_info_dict)

    # Crea un DataFrame de pandas con la información recopilada
    df_senahmi = pd.DataFrame(combined_info)

    # Divide la columna 'Ciudad' en 'Ciudad' y 'Región'
    df_senahmi[['Ciudad', 'Región']] = df_senahmi['Ciudad'].str.split('-', n=1, expand=True)

    # Reordena las columnas del DataFrame
    df_senahmi = df_senahmi[['Ciudad', 'Región'] + [col for col in df_senahmi.columns if col not in ['Ciudad', 'Región']]]

    # Guarda el DataFrame en un archivo CSV con la codificación UTF-8
    df_senahmi.to_csv('pronostico_meteorologico.csv', index=False, encoding='utf-8')

    # Muestra el DataFrame resultante
    return df_senahmi

# Llamada a la función para obtener datos meteorológicos desde la URL proporcionada
df_senahmi = parse_weather_html_from_url('https://www.senamhi.gob.pe/?p=pronostico-meteorologico')

# Muestra el DataFrame resultante
df_senahmi


Error extracting data for SAN ALEJANDRO - UCAYALI: 'NoneType' object has no attribute 'find_all'


Unnamed: 0,Ciudad,Región,Day 1,Description 1,Day 2,Description 2,Day 3,Description 3,Day 4,Description 4
0,BAGUA GRANDE,AMAZONAS,"domingo, 14 de enero: Máx 19ºC, Mín 11ºC",Cielo nublado parcial a cielo nublado durante ...,"lunes, 15 de enero: Máx 19ºC, Mín 11ºC",Cielo nublado parcial por la mañana a cielo nu...,"martes, 16 de enero: Máx 19ºC, Mín 11ºC",Cielo nublado con viento moderado por la mañan...,"miércoles, 17 de enero: Máx 19ºC, Mín 11ºC",Cielo nublado parcial entre cielo nublado dura...
1,CHACHAPOYAS,AMAZONAS,"domingo, 14 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado parcial entre cielo nublado dura...,"lunes, 15 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado entre cielo nublado parcial dura...,"martes, 16 de enero: Máx 33ºC, Mín 22ºC",Cielo nublado a cielo nublado parcial durante ...,"miércoles, 17 de enero: Máx 33ºC, Mín 22ºC",Cielo nublado a cielo nublado parcial durante ...
2,CHIRIACO,AMAZONAS,"domingo, 14 de enero: Máx 24ºC, Mín 17ºC",Cielo nublado parcial a cielo nublado durante ...,"lunes, 15 de enero: Máx 25ºC, Mín 16ºC",Cielo nublado parcial con viento moderado por ...,"martes, 16 de enero: Máx 26ºC, Mín 16ºC",Cielo nublado parcial entre cielo nublado dura...,"miércoles, 17 de enero: Máx 26ºC, Mín 16ºC",Cielo nublado parcial entre cielo nublado dura...
3,PEDRO RUIZ,AMAZONAS,"domingo, 14 de enero: Máx 31ºC, Mín 22ºC",Cielo nublado entre cielo nublado parcial dura...,"lunes, 15 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado parcial a cielo nublado durante ...,"martes, 16 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...,"miércoles, 17 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado entre cielo nublado parcial dura...
4,SANTA MARIA DE NIEVA,AMAZONAS,"domingo, 14 de enero: Máx 14ºC, Mín 8ºC",Cielo nublado parcial entre cielo con nubes di...,"lunes, 15 de enero: Máx 15ºC, Mín 7ºC",Cielo nublado parcial entre cielo con nubes di...,"martes, 16 de enero: Máx 16ºC, Mín 7ºC",Cielo con nubes dispersas por la mañana varian...,"miércoles, 17 de enero: Máx 15ºC, Mín 8ºC",Cielo con nubes dispersas variando a cielo nub...
...,...,...,...,...,...,...,...,...,...,...
268,AGUAYTIA,UCAYALI,"domingo, 14 de enero: Máx 30ºC, Mín 22ºC",Cielo nublado parcial variando a cielo nublado...,"lunes, 15 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...,"martes, 16 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...,"miércoles, 17 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...
269,ATALAYA,UCAYALI,"domingo, 14 de enero: Máx 31ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...,"lunes, 15 de enero: Máx 30ºC, Mín 22ºC",Cielo nublado a cielo cubierto durante el día ...,"martes, 16 de enero: Máx 32ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...,"miércoles, 17 de enero: Máx 31ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...
270,CURIMANÁ,UCAYALI,"domingo, 14 de enero: Máx 32ºC, Mín 23ºC",Cielo con nubes dispersas variando a cielo nub...,"lunes, 15 de enero: Máx 30ºC, Mín 23ºC",Cielo nublado variando a cielo nublado parcial...,"martes, 16 de enero: Máx 31ºC, Mín 23ºC",Cielo cubierto variando a cielo nublado parcia...,"miércoles, 17 de enero: Máx 31ºC, Mín 23ºC",Cielo nublado variando a cielo nublado parcial...
271,PUCALLPA,UCAYALI,"domingo, 14 de enero: Máx 32ºC, Mín 22ºC",Cielo con nubes dispersas variando a cielo nub...,"lunes, 15 de enero: Máx 31ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...,"martes, 16 de enero: Máx 31ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...,"miércoles, 17 de enero: Máx 31ºC, Mín 22ºC",Cielo nublado variando a cielo nublado parcial...


# **2. API TRIPADVISOR**

La API de TripAdvisor brinda acceso estructurado a datos valiosos, como calificaciones, ubicaciones y detalles sobre hoteles. En lugar de utilizar técnicas de web scraping, este enfoque se basará en solicitudes a la API, aprovechando las interfaces proporcionadas por TripAdvisor para obtener información actualizada y precisa. Se prestará especial atención al manejo adecuado de claves de API, la interpretación de respuestas JSON y la eficiente organización de los datos extraídos. Estos aspectos son cruciales para obtener insights valiosos sobre la reputación de hoteles, facilitando análisis detallados y respaldando decisiones informadas en el ámbito turístico y sectores relacionados.

### **Carga información sobre ciudades desde un archivo CSV y extrae la columna 'Ciudad'**

    Parameters:
    - nombre_archivo (str): Ruta o nombre del archivo CSV que contiene la información.

    Returns:
    - ciudades (list): Lista de ciudades extraídas de la columna 'Ciudad'.

In [30]:
def cargar_ciudades_desde_csv(nombre_archivo):
    # Cargar el DataFrame desde el archivo CSV
    df = pd.read_csv(nombre_archivo)

    # Extraer la columna 'Ciudad'
    ciudades = df['Ciudad'].tolist()

    return ciudades

### **Realiza una solicitud a la API de TripAdvisor para obtener los IDs de ubicación de hoteles en una ciudad específica**

    Parameters:
    - ciudad_deseada (str): El nombre de la ciudad para la cual se desean obtener datos.

    Returns:
    - df_ciudades (pd.DataFrame): DataFrame que contiene información sobre las ciudades obtenida de la API de TripAdvisor.

In [31]:
def obtener_ciudades_df(ciudad_deseada):
    url = "https://api.content.tripadvisor.com/api/v1/location/search"
    headers = {"accept": "application/json"}
    params = {
        "key": "542B23316FCD461097A60222B16FE3FF",
        "category": "hotels",
        "language": "en"
    }

    ciudades_data = []
    params["searchQuery"] = ciudad_deseada
    response = requests.get(url, headers=headers, params=params)

    if response.status_code == 200:
        data = response.json().get("data", [])
        for location in data:
            location_id = location.get("location_id")
            name = location.get("name")
            street1 = location.get("address_obj", {}).get("street1")
            ciudades_data.append({"Location ID": location_id, "Nombre": name, "Dirección": street1})
    else:
        print(f"Failed to retrieve data for {ciudad_deseada}")
        return pd.DataFrame()  # Devolver un DataFrame vacío en caso de error

    df_ciudades = pd.DataFrame(ciudades_data)
    return df_ciudades

**Identificación de IDs por Ciudad en Perú**

En este bloque de código, se solicita al usuario ingresar una ciudad de interés en Perú. Luego, se utiliza una función para obtener los IDs de ubicación correspondientes a la ciudad ingresada, y se presenta la información en un DataFrame para su fácil visualización.

In [32]:
# Cargar la columna 'Ciudad' desde el archivo CSV
archivo_ciudades = 'pronostico_meteorologico.csv'
ciudades = cargar_ciudades_desde_csv(archivo_ciudades)

# Obtener la ciudad deseada del usuario
ciudad_usuario = input("Ingrese la ciudad de interés en Perú: ")

# Llamar a la función para obtener los IDs de ubicación de la ciudad ingresada por el usuario
df_ids_por_ciudad = obtener_ciudades_df(ciudad_usuario)

#Muestra el df_ids_por_ciudad
df_ids_por_ciudad

Ingrese la ciudad de interés en Perú: PUCALLPA


Unnamed: 0,Location ID,Nombre,Dirección
0,7258621,Casa Andina Select Pucallpa,Jiron Sucre 198
1,1891802,Costa del Sol Wyndham Pucallpa,Av. San Martin 200
2,12673515,Qallwa Pucallpa,Jiron Luis Scavino No113 Jiron inmaculada Cdra 1
3,6882632,Sol de Pucallpa,Pasaje Mariano Cardenas 181
4,20262692,"Suisui Lodge , Pucallpa - Ayahuasca Insights",Jr. La Selva 568
5,1631037,Manish Hotel Ecologico,Jr. Arturo Vargas Guerra No.471
6,26350724,HOTEL CHINO ALANYA PUCALLPA,Jr Iquitos-Mz 41-Lt 9A
7,26656117,Elixir Home Pucallpa,"Purus MZ 87, LT 01"
8,736350,Los Gavilanes Hotel,Jr. Ipuatia #370
9,2043890,Grand Hotel Mercedes,Jr. Raimondi 610


### Función para obtener los IDs de ubicación de hoteles en TripAdvisor para una ciudad específica.

In [33]:
def obtener_location_ids(ciudad_deseada):

    # URL y encabezados de la API de TripAdvisor
    url = "https://api.content.tripadvisor.com/api/v1/location/search"
    headers = {"accept": "application/json"}

    # Parámetros de la solicitud
    params = {
        "key": "542B23316FCD461097A60222B16FE3FF",
        "category": "hotels",
        "language": "en"
    }

    # Establecer la ciudad para la búsqueda
    params["searchQuery"] = ciudad_deseada

    # Realizar la solicitud GET a la API de TripAdvisor
    response = requests.get(url, headers=headers, params=params)

    # Lista para almacenar los IDs de ubicación
    location_ids = []

    # Verificar si la solicitud fue exitosa
    if response.status_code == 200:
        # Extraer la información de la respuesta JSON
        data = response.json().get("data", [])

        # Iterar sobre los resultados y extraer los IDs de ubicación
        for location in data:
            location_id = location.get("location_id")
            if location_id:
                location_ids.append(location_id)
    else:
        # Manejar el caso de una solicitud fallida
        print(f"Failed to retrieve data for {ciudad_deseada}")

    # Devolver la lista de IDs de ubicación
    return location_ids

### **Solicitud Iterativa de Detalles Hoteleros mediante la API de TripAdvisor**

Una vez obtenidos los identificadores (ID) individuales para cada hotel, se procede a realizar una solicitud adicional a la API de TripAdvisor con el objetivo de extraer los detalles específicos de cada hotel basándose en su ID de ubicación. Este proceso se realiza de manera iterativa, mediante un bucle, de manera que cada solicitud se ejecute para un ID único, correspondiente a un hotel en particular. El propósito de estas solicitudes adicionales es recuperar información como la clasificación y el sitio web de cada hotel.

**URL y Encabezados**

In [34]:
# URL y encabezados de la API de TripAdvisor
base_url = "https://api.content.tripadvisor.com/api/v1/location/{}/details?key=542B23316FCD461097A60222B16FE3FF&language=es&currency=USD"
headers = {"accept": "application/json"}

**Almacenamiento de datos**

In [35]:
# Crear listas para almacenar los datos
all_location_ids = []  # Lista para almacenar los IDs de ubicación
all_ratings = []  # Lista para almacenar las calificaciones de los hoteles
all_web_links = []  # Lista para almacenar los enlaces web de los hoteles

**Obtención de detalles de hoteles**

En esta parte, estamos obteniendo información detallada de hoteles haciendo consultas a la API de TripAdvisor. Recorremos los "Location ID" en un DataFrame llamado df_ids_por_ciudad. Para cada hotel, obtenemos la clasificación y el enlace web.

In [36]:
# Iterar a través de los "Location ID" en el DataFrame df_ids_por_ciudad
for location_id in df_ids_por_ciudad["Location ID"]:
    # Realizar la solicitud a la API de TripAdvisor para obtener detalles del hotel
    response = requests.get(base_url.format(location_id), headers=headers)

    # Verificar si la solicitud fue exitosa (código de estado 200)
    if response.status_code == 200:
        # Extraer la información del hotel de la respuesta JSON
        hotel_info = response.json()

        # Extraer información específica del hotel
        hotel_rating = hotel_info.get("rating", "N/A")
        hotel_web_link = hotel_info.get("web_url", "")

        # Agregar los datos a las listas
        all_location_ids.append(location_id)  # Almacenar el Location ID
        all_ratings.append(hotel_rating)      # Almacenar la clasificación del hotel
        all_web_links.append(hotel_web_link)   # Almacenar el enlace web del hotel

**Mostrando DataFrame con la Calificación Hotelera y Enlaces Web**

In [37]:
# Crear un DataFrame con los datos recopilados
data = {
    "Location ID": all_location_ids,
    "Calificación": all_ratings,
    "Sitio Web": all_web_links
}

df_website = pd.DataFrame(data)

# Mostrar el DataFrame resultante
df_website

Unnamed: 0,Location ID,Calificación,Sitio Web
0,7258621,4.5,https://www.tripadvisor.es/Hotel_Review-g77947...
1,1891802,4.5,https://www.tripadvisor.es/Hotel_Review-g77947...
2,12673515,3.0,https://www.tripadvisor.es/Hotel_Review-g77947...
3,6882632,4.0,https://www.tripadvisor.es/Hotel_Review-g77947...
4,20262692,,https://www.tripadvisor.es/Hotel_Review-g77947...
5,1631037,5.0,https://www.tripadvisor.es/Hotel_Review-g77947...
6,26350724,,https://www.tripadvisor.es/Hotel_Review-g77947...
7,26656117,,https://www.tripadvisor.es/Hotel_Review-g77947...
8,736350,4.0,https://www.tripadvisor.es/Hotel_Review-g77947...
9,2043890,4.0,https://www.tripadvisor.es/Hotel_Review-g77947...


### Función para obtener los detalles de los hoteles 

In [38]:
def obtener_datos_hotel(ciudad_deseada):
    # Obtener los IDs de ubicación de la ciudad ingresada por el usuario
    location_ids = obtener_location_ids(ciudad_deseada)

    # URL y encabezados de la API de TripAdvisor
    base_url = "https://api.content.tripadvisor.com/api/v1/location/{}/details?key=542B23316FCD461097A60222B16FE3FF&language=es&currency=USD"
    headers = {"accept": "application/json"}

    all_data = []  # Lista para almacenar los datos de los hoteles

    for location_id in location_ids:
        # Realizar la solicitud a la API de TripAdvisor para obtener detalles del hotel
        response = requests.get(base_url.format(location_id), headers=headers)

        # Verificar si la solicitud fue exitosa (código de estado 200)
        if response.status_code == 200:
            # Extraer la información del hotel de la respuesta JSON
            hotel_info = response.json()

            # Extraer información específica del hotel
            location_name = hotel_info.get("name", "N/A")
            street1 = hotel_info.get("address_obj", {}).get("street1", "N/A")
            rating = hotel_info.get("rating", "N/A")
            web_url = hotel_info.get("web_url", "N/A")

            # Guardar los datos en un diccionario
            hotel_data = {
                "Location ID": location_id,
                "Nombre": location_name,
                "Dirección": street1,
                "Calificación": rating,
                "Sitio Web": web_url
            }

            # Agregar el diccionario a la lista de datos de hoteles
            all_data.append(hotel_data)

    # Crear un DataFrame con los datos recopilados
    df_hotel = pd.DataFrame(all_data)

    # Mostrar el DataFrame resultante
    print(df_hotel)

    return df_hotel

# **Extracción Detallada de Reseñas Hoteleras: Implementación de Solicitudes Iterativas a la API de TripAdvisor**

Nuevamente se harán uso de los identificadores (ID) de cada hotel, de modo que, se utiliza un nuevo bucle para realizar solicitudes a la API de TripAdvisor con el fin de obtener las reseñas de cada hotel. Cada iteración del bucle se centra en un ID específico, representando así cada hotel de manera individual. El objetivo de estas solicitudes es extraer información detallada de hasta tres reseñas para cada hotel. Cada reseña incluye su descripción, clasificación en una escala del 1 al 5, y la categorización del tipo de viaje asociado (ya sea con amigos, en familia, en solitario o en pareja).

**URL y Encabezados de la API de TripAdvisor**

In [39]:
# URL y encabezados de la API de TripAdvisor
url = "https://api.content.tripadvisor.com/api/v1/location/{}/reviews?key=542B23316FCD461097A60222B16FE3FF&language=es"
headers = {"accept": "application/json"}

# Listas para almacenar los datos
all_data = []

**Explorando Reseñas Hotel por Hotel**

Realiza solicitudes a la API de TripAdvisor para obtener datos de reseñas y estructura la información relevante en un formato fácilmente manejable. El código se asegura de recopilar hasta tres reseñas por hotel, llenando con valores nulos si no se alcanza este límite.

In [40]:
for location_id in df_ids_por_ciudad["Location ID"]:
    # Realizar la solicitud a la API de TripAdvisor para obtener reseñas
    response = requests.get(url.format(location_id), headers=headers)

    # Verificar si la solicitud fue exitosa
    if response.status_code == 200:
        # Extraer datos de reseñas de la respuesta JSON
        reviews_data = response.json().get("data", [])

        # Datos para cada hotel
        hotel_data = {"Location ID": location_id}

        # Contador para limitar a 3 reseñas por cada Location ID
        for count, review in enumerate(reviews_data[:3], start=1):
            # Extraer datos de cada reseña
            rating = review.get("rating", 0)
            title = review.get("title", "")
            trip_type = review.get("trip_type", "")

            # Guardar los datos en el diccionario del hotel
            key_prefix = f"{count}"

            hotel_data[f"Title {key_prefix}"] = title
            hotel_data[f"Rating {key_prefix}"] = rating
            hotel_data[f"Trip Type {key_prefix}"] = trip_type
            
        # Completar con valores nulos si no se llega a 3 reseñas
        for i in range(len(reviews_data) + 1, 4):
            key_prefix = f"{i}"
            hotel_data[f"Title {key_prefix}"] = None
            hotel_data[f"Rating {key_prefix}"] = None
            hotel_data[f"Trip Type {key_prefix}"] = None

        # Guardar los datos del hotel en la lista
        all_data.append(hotel_data)
        
# Crear un DataFrame con los datos recopilados
df = pd.DataFrame(all_data)

# Mostrar el DataFrame
df

Unnamed: 0,Location ID,Title 1,Rating 1,Trip Type 1,Title 2,Rating 2,Trip Type 2,Title 3,Rating 3,Trip Type 3
0,7258621,Excelente,5.0,De negocios,Hotel de Lujo en Pucallpa,5.0,De negocios,Recomendado,5.0,En familia
1,1891802,Excelente lugar,5.0,En pareja,Fue una excelente experiencia,5.0,En familia,Calidad de servicio,5.0,De negocios
2,12673515,Buen hotel,5.0,Con amigos,Excelente servicio y bonitas instalaciones,5.0,Con amigos,Excelente servicio,5.0,De negocios
3,6882632,Hotel Bonito,4.0,En pareja,Servicio y restaurant excelente,5.0,En familia,Muy Bueno,4.0,En pareja
4,20262692,,,,,,,,,
5,1631037,"Excelente lugar , desde que ingrese hasta que ...",5.0,En familia,Hermosas instalaciones y personal muy amable,5.0,En familia,Muy buen trato de todo el personal sin excepción,5.0,En familia
6,26350724,,,,,,,,,
7,26656117,,,,,,,,,
8,736350,Excelente experiencia en la selva.,5.0,De negocios,"Agradable, pero mejorar su personal de recepción.",4.0,NONE,En las fotos parece mejor de lo que es,2.0,En pareja
9,2043890,"Hermosa piscina, muy buen restaurante y trato ...",5.0,En familia,Excelente,4.0,En pareja,Buena opción en el centro de Pucallpa,4.0,En familia


Tras una observación del DataFrame, se evidencia la presencia de valores nulos, los cuales se generaron al completar con valores nulos en caso de que no se alcancen las tres reseñas esperadas. En consecuencia, se lleva a cabo la sustitución de los valores vacíos por la etiqueta 'No disponible' en las celdas correspondientes. Es importante destacar que, en el caso de la columna de clasificación (rating), los valores nulos se han ajustado a 0, dado que estos datos son de naturaleza numérica.

In [41]:
# Listas para almacenar los datos
all_data = []

for location_id in df_ids_por_ciudad["Location ID"]:
    # Realizar la solicitud a la API de TripAdvisor para obtener reseñas
    response = requests.get(url.format(location_id), headers=headers)

    # Verificar si la solicitud fue exitosa
    if response.status_code == 200:
        # Extraer datos de reseñas de la respuesta JSON
        reviews_data = response.json().get("data", [])

        # Datos para cada hotel
        hotel_data = {"Location ID": location_id}

        # Contador para limitar a 3 reseñas por cada Location ID
        for count, review in enumerate(reviews_data[:3], start=1):
            # Extraer datos de cada reseña
            rating = review.get("rating", 0)
            title = review.get("title", "")
            trip_type = review.get("trip_type", "")

            # Guardar los datos en el diccionario del hotel
            key_prefix = f"{count}"

            hotel_data[f"Title {key_prefix}"] = title
            hotel_data[f"Rating {key_prefix}"] = rating
            hotel_data[f"Trip Type {key_prefix}"] = trip_type

        # Completar con valores no disponibles si no se llega a 3 reseñas
        for i in range(len(reviews_data) + 1, 4):
            key_prefix = f"{i}"
            hotel_data[f"Title {key_prefix}"] = "No disponible"
            hotel_data[f"Rating {key_prefix}"] = 0
            hotel_data[f"Trip Type {key_prefix}"] = "No disponible"

        # Guardar los datos del hotel en la lista
        all_data.append(hotel_data)

# Crear un DataFrame con los datos recopilados
df_reseñas = pd.DataFrame(all_data)

# Mostrar el DataFrame
df_reseñas

Unnamed: 0,Location ID,Title 1,Rating 1,Trip Type 1,Title 2,Rating 2,Trip Type 2,Title 3,Rating 3,Trip Type 3
0,7258621,Excelente,5,De negocios,Hotel de Lujo en Pucallpa,5,De negocios,Recomendado,5,En familia
1,1891802,Excelente lugar,5,En pareja,Fue una excelente experiencia,5,En familia,Calidad de servicio,5,De negocios
2,12673515,Buen hotel,5,Con amigos,Excelente servicio y bonitas instalaciones,5,Con amigos,Excelente servicio,5,De negocios
3,6882632,Hotel Bonito,4,En pareja,Servicio y restaurant excelente,5,En familia,Muy Bueno,4,En pareja
4,20262692,No disponible,0,No disponible,No disponible,0,No disponible,No disponible,0,No disponible
5,1631037,"Excelente lugar , desde que ingrese hasta que ...",5,En familia,Hermosas instalaciones y personal muy amable,5,En familia,Muy buen trato de todo el personal sin excepción,5,En familia
6,26350724,No disponible,0,No disponible,No disponible,0,No disponible,No disponible,0,No disponible
7,26656117,No disponible,0,No disponible,No disponible,0,No disponible,No disponible,0,No disponible
8,736350,Excelente experiencia en la selva.,5,De negocios,"Agradable, pero mejorar su personal de recepción.",4,NONE,En las fotos parece mejor de lo que es,2,En pareja
9,2043890,"Hermosa piscina, muy buen restaurante y trato ...",5,En familia,Excelente,4,En pareja,Buena opción en el centro de Pucallpa,4,En familia


**Categorización**

Tras la modificación de valores nulos o vacíos, se procede a la recategorización de los datos en la columna 'clasificación' (rating):

- Valores entre 4 y 5: Categorizados como positivos.
- Valor 3: Considerado como neutral.
- Valores 1 y 2: Etiquetados como negativos.
- Valor 0: Indica la ausencia de calificación.

In [42]:
# Listas para almacenar los datos
all_data = []

for location_id in df_ids_por_ciudad["Location ID"]:
    # Realizar la solicitud a la API de TripAdvisor para obtener reseñas
    response = requests.get(url.format(location_id), headers=headers)

    # Verificar si la solicitud fue exitosa
    if response.status_code == 200:
        # Extraer datos de reseñas de la respuesta JSON
        reviews_data = response.json().get("data", [])

        # Datos para cada hotel
        hotel_data = {"Location ID": location_id}

        # Contador para limitar a 3 reseñas por cada Location ID
        for count, review in enumerate(reviews_data[:3], start=1):
            # Extraer datos de cada reseña
            rating = review.get("rating", 0)
            title = review.get("title", "")
            trip_type = review.get("trip_type", "")

            # Mapear los valores del rating a categorías
            if rating in [4, 5]:
                rating_category = "Positivo"
            elif rating == 3:
                rating_category = "Neutral"
            elif rating in [1, 2]:
                rating_category = "Negativo"
            else:
                rating_category = "Sin calificación"

            # Guardar los datos en el diccionario del hotel
            key_prefix = f"{count}"

            hotel_data[f"Title {key_prefix}"] = title
            hotel_data[f"Rating {key_prefix}"] = rating_category
            hotel_data[f"Trip Type {key_prefix}"] = trip_type

        # Completar con valores no disponibles si no se llega a 3 reseñas
        for i in range(len(reviews_data) + 1, 4):
            key_prefix = f"{i}"
            hotel_data[f"Title {key_prefix}"] = "No disponible"
            hotel_data[f"Rating {key_prefix}"] = "sin calificar"
            hotel_data[f"Trip Type {key_prefix}"] = "No disponible"

        # Guardar los datos del hotel en la lista
        all_data.append(hotel_data)

# Crear un DataFrame con los datos recopilados
df_reseña = pd.DataFrame(all_data)

# Mostrar el DataFrame
df_reseña

Unnamed: 0,Location ID,Title 1,Rating 1,Trip Type 1,Title 2,Rating 2,Trip Type 2,Title 3,Rating 3,Trip Type 3
0,7258621,Excelente,Positivo,De negocios,Hotel de Lujo en Pucallpa,Positivo,De negocios,Recomendado,Positivo,En familia
1,1891802,Excelente lugar,Positivo,En pareja,Fue una excelente experiencia,Positivo,En familia,Calidad de servicio,Positivo,De negocios
2,12673515,Buen hotel,Positivo,Con amigos,Excelente servicio y bonitas instalaciones,Positivo,Con amigos,Excelente servicio,Positivo,De negocios
3,6882632,Hotel Bonito,Positivo,En pareja,Servicio y restaurant excelente,Positivo,En familia,Muy Bueno,Positivo,En pareja
4,20262692,No disponible,sin calificar,No disponible,No disponible,sin calificar,No disponible,No disponible,sin calificar,No disponible
5,1631037,"Excelente lugar , desde que ingrese hasta que ...",Positivo,En familia,Hermosas instalaciones y personal muy amable,Positivo,En familia,Muy buen trato de todo el personal sin excepción,Positivo,En familia
6,26350724,No disponible,sin calificar,No disponible,No disponible,sin calificar,No disponible,No disponible,sin calificar,No disponible
7,26656117,No disponible,sin calificar,No disponible,No disponible,sin calificar,No disponible,No disponible,sin calificar,No disponible
8,736350,Excelente experiencia en la selva.,Positivo,De negocios,"Agradable, pero mejorar su personal de recepción.",Positivo,NONE,En las fotos parece mejor de lo que es,Negativo,En pareja
9,2043890,"Hermosa piscina, muy buen restaurante y trato ...",Positivo,En familia,Excelente,Positivo,En pareja,Buena opción en el centro de Pucallpa,Positivo,En familia


### Función de reseñas hoteleras

In [43]:
def obtener_resenas(ciudad_deseada):
    # Obtener los IDs de ubicación de la ciudad ingresada por el usuario
    location_ids = obtener_location_ids(ciudad_deseada)

    # URL y encabezados de la API de TripAdvisor para obtener reseñas
    url = "https://api.content.tripadvisor.com/api/v1/location/{}/reviews?key=542B23316FCD461097A60222B16FE3FF&language=es"
    headers = {"accept": "application/json"}

    all_reviews = []  # Lista para almacenar los datos de reseñas

    for location_id in location_ids:
        # Realizar la solicitud a la API de TripAdvisor para obtener reseñas
        response = requests.get(url.format(location_id), headers=headers)

        # Verificar si la solicitud fue exitosa
        if response.status_code == 200:
            # Extraer datos de reseñas de la respuesta JSON
            reviews_data = response.json().get("data", [])

            # Datos para cada hotel
            hotel_data = {"Location ID": location_id}

            # Contador para limitar a 3 reseñas por cada Location ID
            for count, review in enumerate(reviews_data[:3], start=1):
                # Extraer datos de cada reseña
                rating = review.get("rating", 0)
                title = review.get("title", "")
                trip_type = review.get("trip_type", "")

                # Mapear los valores del rating a categorías
                if rating in [4, 5]:
                    rating_category = "Positivo"
                elif rating == 3:
                    rating_category = "Neutral"
                elif rating in [1, 2]:
                    rating_category = "Negativo"
                else:
                    rating_category = "Sin calificación"

                # Guardar los datos en el diccionario del hotel
                key_prefix = f"{count}"

                hotel_data[f"Title {key_prefix}"] = title
                hotel_data[f"Rating {key_prefix}"] = rating_category
                hotel_data[f"Trip Type {key_prefix}"] = trip_type

            # Completar con valores no disponibles si no se llega a 3 reseñas
            for i in range(len(reviews_data) + 1, 4):
                key_prefix = f"{i}"
                hotel_data[f"Title {key_prefix}"] = "No disponible"
                hotel_data[f"Rating {key_prefix}"] = "sin calificar"
                hotel_data[f"Trip Type {key_prefix}"] = "No disponible"

            # Guardar los datos del hotel en la lista
            all_reviews.append(hotel_data)

    # Crear un DataFrame con los datos recopilados
    df_reviews = pd.DataFrame(all_reviews)

    # Mostrar el DataFrame resultante
    print(df_reviews)

    return df_reviews

#Muestra DataFrame reseñas


## Función principal

In [44]:
# Función principal para obtener todos los datos
def obtener_todos_los_datos(ciudad_deseada):
    # Obtener datos del hotel
    df_hotel = obtener_datos_hotel(ciudad_deseada)

    # Obtener reseñas
    df_reviews = obtener_resenas(ciudad_deseada)

    # Combinar los DataFrames en uno solo
    df_final = pd.merge(df_hotel, df_reviews, on="Location ID", how="outer")

    return df_final

## Interfaz de Usuario

**Input del Usuario:** El usuario proporciona la ciudad de interés en Perú mediante la función input.

**Procesamiento de Datos:** Se utiliza la función mostrar_info_ciudad para filtrar y mostrar información meteorológica sobre la ciudad ingresada, utilizando un DataFrame llamado df_senahmi.

**Pregunta al Usuario sobre Alojamiento:** Después de mostrar la información meteorológica, se le pregunta al usuario si desea buscar alojamiento mediante la variable respuesta1.

**Búsqueda y Mostrado de Datos de Alojamiento:** Si la respuesta es "SI", se llama a la función obtener_todos_los_datos para obtener información sobre alojamiento, y luego se muestra este resultado mediante print.

**Pregunta al Usuario sobre Otra Consulta:** Se le pregunta al usuario si desea hacer otra consulta, y el bucle principal continuará si la respuesta es "SI".

**Finalización del Programa:** Si en algún momento el usuario elige no realizar otra consulta, el programa agradece al usuario y sale del bucle principal.

In [45]:
# Función para mostrar información de una ciudad específica
def mostrar_info_ciudad(df_senahmi, ciudad_deseada):
    filtro = df_senahmi['Ciudad'].str.contains(ciudad_deseada, case=False)
    ciudad_info = df_senahmi[filtro]
    if not ciudad_info.empty:
        print(ciudad_info)
    else:
        print(f"No hay información meteorológica para la ciudad {ciudad_deseada}.")

# Bucle principal
while True:
    ciudad_deseada = input("Ingrese la ciudad de interés en Perú: ")

    # Mostrar información de la ciudad desde df_senahmi
    mostrar_info_ciudad(df_senahmi, ciudad_deseada)

    # Preguntar si desea buscar alojamiento
    respuesta1 = input("¿El clima es propicio? ¿Desea buscar un alojamiento? (SI/NO): ")

    if respuesta1.upper() == "SI":
        # Llamada a la función principal
        df_resultado = obtener_todos_los_datos(ciudad_deseada)

        # Mostrar el DataFrame resultante
        print(df_resultado)

        # Preguntar si desea hacer otra consulta
        respuesta2 = input("¿Desea hacer otra consulta? (SI/NO): ")
        if respuesta2.upper() == "NO":
            print("Gracias por usar nuestra aplicación de alojamiento.")
            break  # Salir del bucle principal si la respuesta es NO

    else:
        respuesta2 = input("¿Desea cambiar su destino de viaje? (SI/NO): ")
        if respuesta2.upper() == "NO":
            print("Gracias por usar nuestra aplicación de alojamiento.")
            break  # Salir del bucle principal si la respuesta inicial es NO

Ingrese la ciudad de interés en Perú: PUCALLPA
        Ciudad    Región                                     Day 1  \
271  PUCALLPA    UCAYALI  domingo, 14 de enero: Máx 32ºC, Mín 22ºC   

                                         Description 1  \
271  Cielo con nubes dispersas variando a cielo nub...   

                                      Day 2  \
271  lunes, 15 de enero: Máx 31ºC, Mín 22ºC   

                                         Description 2  \
271  Cielo nublado variando a cielo nublado parcial...   

                                       Day 3  \
271  martes, 16 de enero: Máx 31ºC, Mín 22ºC   

                                         Description 3  \
271  Cielo nublado variando a cielo nublado parcial...   

                                          Day 4  \
271  miércoles, 17 de enero: Máx 31ºC, Mín 22ºC   

                                         Description 4  
271  Cielo nublado variando a cielo nublado parcial...  
¿El clima es propicio? ¿Desea buscar un alojamiento?

¿Desea hacer otra consulta? (SI/NO): NO
Gracias por usar nuestra aplicación de alojamiento.
