##游늷 SCRAPING BOOKING ATRACCIONES
Este notebook combina datos de m칰ltiples archivos CSV de Booking para obtener URLs de atracciones tur칤sticas. Luego, utiliza Selenium para visitar cada URL, extraer las rese침as de los usuarios (incluyendo score, texto, pa칤s, categor칤a y fecha) y guarda todos los comentarios recopilados en un nuevo archivo CSV.

# 游닌 Imports y librer칤as

In [None]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException, TimeoutException, ElementClickInterceptedException
import time
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import glob

# 丘뙖잺 Configuraci칩n

In [None]:
chrome_options = Options()
#chrome_options.add_argument("--headless")  # Quita esto si quieres ver el navegador
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
driver = webdriver.Chrome(service=Service(), options=chrome_options)
actions = ActionChains(driver)

# 游닇 Bloque de c칩digo

In [None]:

# Lista de archivos CSV a procesar
csv_files = ["booking_barcelona_actualizado.csv", "booking_grancanaria_actualizado.csv", "booking_madrid_actualizado.csv",
             "booking_malaga_actualizado.csv", "booking_mallorca_actualizado.csv", "booking_sevilla_actualizado.csv",
             "booking_tenerife_actualizado.csv", "booking_valencia_actualizado.csv"] # Agrega aqu칤 los nombres de tus archivos

# DataFrame vac칤o para almacenar todos los datos
all_df = pd.DataFrame()

# Leer y concatenar cada archivo CSV
for file in csv_files:
    try:
        df = pd.read_csv(file)
        all_df = pd.concat([all_df, df], ignore_index=True)
    except FileNotFoundError:
        print(f"Error: El archivo {file} no fue encontrado.")
    except Exception as e:
        print(f"Error al leer el archivo {file}: {e}")

df = all_df # Usamos 'df' como el DataFrame principal para mantener la compatibilidad con el resto del c칩digo

In [None]:
comentarios_df = pd.DataFrame(columns=["titulo", "review_score", "comentario", "pais", "categoria", "fecha"])

# 游닇 Funciones usadas

Este notebook utiliza las siguientes funciones definidas localmente:

*   **`scroll_lentamente(pixeles, pausas, repeticiones)`**: Realiza un scroll suave en la p치gina web una cantidad espec칤fica de veces para asegurar que el contenido din치mico se cargue correctamente. Permite configurar la cantidad de p칤xeles a desplazar, la pausa entre scrolls y el n칰mero de repeticiones.
*   **`scrapear_experiencia(url)`**: Funci칩n principal para extraer rese침as de una URL de Booking. Navega a la p치gina, maneja pop-ups de cookies, extrae el t칤tulo, busca y hace click para ver comentarios, itera a trav칠s de las rese침as extrayendo score, texto, pa칤s, categor칤a y fecha, y maneja la paginaci칩n dentro del modal de rese침as. Retorna una lista de diccionarios con los datos de las rese침as.

# 游깷 Configuraci칩n de Selenium / WebDriver

In [None]:
def scroll_lentamente(pixeles=300, pausas=0.5, repeticiones=5):
    for _ in range(repeticiones):
        driver.execute_script(f"window.scrollBy(0, {pixeles});")
        time.sleep(pausas)

# 游깷 Configuraci칩n de Selenium / WebDriver

In [None]:
def scrapear_experiencia(url):
    comentarios = []

    try:
        driver.get(url)
        time.sleep(1)

        # Cerrar cookies si aparece
        try:
            aceptar_cookies = driver.find_element(By.ID, "onetrust-accept-btn-handler")
            aceptar_cookies.click()
            time.sleep(1)
        except:
            pass

        # Scroll para que cargue el bot칩n
        scroll_lentamente(pixeles=300, pausas=0.2, repeticiones=2)

        # Extraer t칤tulo
        try:
            titulo = driver.find_element(By.CLASS_NAME, "a4ac75716e.css-1mpsda3").text
        except:
            titulo = "Sin t칤tulo"

        # Ver y hacer click en bot칩n de comentarios
        try:
            ver_comentarios_btn = driver.find_element(By.CSS_SELECTOR, '[data-testid="reviews-link"]')
            driver.execute_script("arguments[0].scrollIntoView(true);", ver_comentarios_btn)
            time.sleep(1)
            ver_comentarios_btn.click()
            time.sleep(1)
        except:
            print(f"Bot칩n 'ver todos los comentarios' no disponible en: {url}")
            return []

        # Esperar que cargue el modal
        try:
            review_modal = driver.find_element(By.CLASS_NAME, "a9f1d9ba2c")
        except:
            print("No se encontr칩 el modal de rese침as.")
            return []

        # Loop para recorrer p치ginas
        while True:
            review_items = review_modal.find_elements(By.CSS_SELECTOR, '[data-testid="review-item"]')
            for item in review_items:
                try:
                    score_raw = item.find_element(By.CSS_SELECTOR, '[data-testid="review-star-rating"]')
                    score_text = score_raw.get_attribute("aria-label")
                    score = int(score_text.strip()[0])
                except:
                    score = None

                try:
                    texto = item.find_element(By.CLASS_NAME, "b99b6ef58f").text.strip()
                except:
                    texto = ""

                pais = ""
                categoria = ""
                fecha = ""

                try:
                    contenedor = item.find_element(By.CSS_SELECTOR, 'div.css-7jm4mj')
                    campos = contenedor.find_elements(By.CSS_SELECTOR, 'div.fff1944c52.fb14de7f14')

                    if len(campos) > 0:
                        pais = campos[0].text.strip()
                    if len(campos) > 1:
                        categoria = campos[1].text.strip()
                    if len(campos) > 2:
                        fecha = campos[2].text.strip()
                        # Limpieza si incluye el texto completo
                        fecha = fecha.replace("Publicado el ", "").replace(" en Booking.com", "").strip()

                except Exception as e:
                    print("Error extrayendo pa칤s/categor칤a/fecha:", e)

                # Agregar al diccionario final
                comentarios.append({
                    "titulo":     titulo,
                    "review_score": score,
                    "comentario": texto,
                    "pais":       pais,
                    "categoria":  categoria,
                    "fecha":      fecha
                })

            # Bot칩n "Siguiente"
            try:
                pagination_container = review_modal.find_element(By.CSS_SELECTOR, '[data-testid="reviews-pagination"]')
                next_btn = pagination_container.find_element(By.CSS_SELECTOR, 'button[aria-label="Siguiente"]')

                if next_btn.get_attribute("disabled") is not None:
                    print("Fin del paginado.")
                    break

                # Scroll dentro del modal
                driver.execute_script("arguments[0].scrollIntoView({behavior: 'smooth', block: 'center'});", next_btn)
                time.sleep(1)
                driver.execute_script("arguments[0].scrollIntoView(true);", next_btn)
                time.sleep(1)

                try:
                    next_btn.click()
                    time.sleep(1)
                except ElementClickInterceptedException:
                    break

            except NoSuchElementException:
                print("No se encontr칩 el bot칩n 'Siguiente' dentro de la paginaci칩n.")
                break

    except Exception as e:
        print(f"Error general en {url}: {e}")

    return comentarios

# 游닇 Extracci칩n de rese침as

Este c칩digo itera sobre cada fila de un DataFrame, extrayendo la URL de cada una para raspar (scrapear) los comentarios de cada URL usando la funci칩n scrapear_experiencia. Los comentarios obtenidos se van agregando a otro DataFrame. Finalmente, guarda todos los comentarios recopilados en un archivo CSV y cierra el navegador de Selenium.

In [None]:
for idx, row in df.iterrows():
    print(f"Procesando {idx + 1}/{len(df)}: {row['url']}")
    resultados = scrapear_experiencia(row["url"])
    if resultados:
        comentarios_df = pd.concat([comentarios_df, pd.DataFrame(resultados)], ignore_index=True)
    time.sleep(1)

# Guardar resultados
comentarios_df.to_csv("booking_barcelona_comentarios_completos.csv", index=False)
print("Archivo final guardado con 칠xito.")

# Cerrar navegador
driver.quit()