# Scraper de Trustpilot (Categoría: Viajes y Vacaciones)

Este notebook extrae información de empresas y reseñas de https://es.trustpilot.com/categories/travel_vacation usando Selenium.

## Variables que extrae:
- ID de la reseña, Dominio, Nombre de la empresa, Categorías, Calificación de la empresa
- Fecha de la reseña, Nombre del cliente, Puntuación del cliente, Texto de la reseña
- Columnas vacías para LLM: Idioma, Sentimiento, Emoción, Género del cliente, Tema principal, Palabras clave, Tipo de cliente, Tipo de turista, Tipo de grupo, ¿Analizado?


In [1]:
# Importar librerías necesarias
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time
import re
from datetime import datetime
from tqdm import tqdm
import json
import hashlib


In [2]:
# Configuración del driver de Chrome
def setup_driver(headless=False):
    """Configura y retorna el driver de Chrome con las opciones necesarias"""
    chrome_options = Options()
    
    # Modo headless opcional
    if headless:
        chrome_options.add_argument('--headless')
    
    # Opciones para evitar detección
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--disable-blink-features=AutomationControlled')
    chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    
    # Desactivar imágenes para cargar más rápido (opcional)
    # prefs = {"profile.managed_default_content_settings.images": 2}
    # chrome_options.add_experimental_option("prefs", prefs)
    
    # User agent realista
    chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36')
    
    # Tamaño de ventana
    chrome_options.add_argument('--window-size=1920,1080')
    
    # Otras opciones para parecer más humano
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--disable-extensions')
    chrome_options.add_argument('--proxy-server="direct://"')
    chrome_options.add_argument('--proxy-bypass-list=*')
    chrome_options.add_argument('--start-maximized')
    
    try:
        # Inicializar driver
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=chrome_options)
        
        # Ejecutar JavaScript para ocultar webdriver
        driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
        
        driver.implicitly_wait(10)
        print("✅ Driver Chrome iniciado correctamente")
        return driver
        
    except Exception as e:
        print(f"❌ Error al iniciar Chrome: {e}")
        raise e


In [3]:
# Función para delays aleatorios más humanos
import random

def random_delay(min_seconds=1, max_seconds=3):
    """Pausa aleatoria para parecer más humano"""
    delay = random.uniform(min_seconds, max_seconds)
    time.sleep(delay)


In [4]:
# Funciones auxiliares
def generate_review_id(company_name, review_date, customer_name, review_text):
    """Genera un ID único para cada reseña"""
    content = f"{company_name}{review_date}{customer_name}{review_text[:50]}"
    return hashlib.md5(content.encode()).hexdigest()[:12]

def parse_date(date_str):
    """Convierte la fecha del formato de Trustpilot a formato estándar"""
    try:
        # Mapeo de meses en español
        meses = {
            'enero': 'January', 'febrero': 'February', 'marzo': 'March',
            'abril': 'April', 'mayo': 'May', 'junio': 'June',
            'julio': 'July', 'agosto': 'August', 'septiembre': 'September',
            'octubre': 'October', 'noviembre': 'November', 'diciembre': 'December'
        }
        
        # Reemplazar mes español por inglés
        for mes_esp, mes_eng in meses.items():
            date_str = date_str.replace(mes_esp, mes_eng)
        
        # Parsear fecha
        return pd.to_datetime(date_str, format='%d de %B de %Y')
    except:
        return None

def scroll_to_load_reviews(driver, max_scrolls=10):
    """Hace scroll para cargar más reseñas"""
    last_height = driver.execute_script("return document.body.scrollHeight")
    scrolls = 0
    
    while scrolls < max_scrolls:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)
        
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
            
        last_height = new_height
        scrolls += 1


In [5]:
# Función de debugging para analizar la estructura de la página
def debug_page_structure(driver, url):
    """Analiza la estructura de la página para encontrar selectores correctos"""
    print(f"\n🔍 DEBUGGING: Analizando estructura de {url}")
    driver.get(url)
    time.sleep(5)
    
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    
    # Buscar todos los enlaces que podrían ser de empresas
    review_links = soup.find_all('a', href=re.compile('/review/'))
    print(f"📌 Enlaces con /review/: {len(review_links)}")
    if review_links:
        print("   Primeros 3 ejemplos:")
        for i, link in enumerate(review_links[:3]):
            print(f"   - {link.get('href')} | Texto: {link.text.strip()[:50]}")
    
    # Buscar elementos article
    articles = soup.find_all('article')
    print(f"📌 Elementos <article>: {len(articles)}")
    
    # Buscar elementos con clases que contengan 'business' o 'company'
    business_elements = soup.find_all(class_=re.compile('business|company', re.I))
    print(f"📌 Elementos con clases 'business/company': {len(business_elements)}")
    
    # Buscar elementos con data attributes
    data_attrs = soup.find_all(attrs={'data-business-unit-card': True})
    print(f"📌 Elementos con data-business-unit-card: {len(data_attrs)}")
    
    # Guardar HTML para análisis manual
    with open('trustpilot_debug.html', 'w', encoding='utf-8') as f:
        f.write(str(soup.prettify()))
    print("💾 HTML guardado en trustpilot_debug.html")
    
    # Tomar screenshot
    driver.save_screenshot('trustpilot_debug.png')
    print("📸 Screenshot guardado en trustpilot_debug.png")
    
    return soup


In [6]:
# Función para extraer información de las empresas
def get_companies_from_category(driver, category_url, max_pages=75):
    """Extrae información de empresas de una categoría"""
    companies = []
    
    for page in range(1, max_pages + 1):
        url = f"{category_url}?page={page}"
        print(f"🔍 Accediendo a: {url}")
        driver.get(url)
        time.sleep(5)  # Aumentar tiempo de espera
        
        # Guardar HTML para debugging
        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')
        
        # Diferentes selectores posibles para las tarjetas de empresas
        # ORDEN MODIFICADO: El selector 'paper_paper__' causaba duplicados (encontraba los mismos 10 elementos en cada página)
        selectors = [
            {'tag': 'div', 'attrs': {'data-business-unit-card': True}},
            {'tag': 'article', 'attrs': {'class': re.compile('styles_businessUnitCard')}},
            {'tag': 'div', 'attrs': {'class': re.compile('styles_businessUnitCard')}},
            # Usar directamente los enlaces que SÍ funcionan (debug muestra ~30 por página)
            {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}},  # Solo enlaces que terminan con dominio
            # ELIMINADO: {'tag': 'div', 'attrs': {'class': re.compile('paper_paper__')}}, # ¡Este causaba los duplicados!
        ]
        
        company_cards = []
        for selector in selectors:
            company_cards = soup.find_all(selector['tag'], attrs=selector['attrs'])
            if company_cards:
                print(f"✅ Encontradas {len(company_cards)} tarjetas usando selector: {selector}")
                break
        
        if not company_cards:
            print(f"⚠️ No se encontraron tarjetas de empresas en la página {page}")
            print("🔍 Guardando screenshot para debugging...")
            driver.save_screenshot(f"trustpilot_page_{page}_debug.png")
            
            # Buscar enlaces alternativos
            all_links = soup.find_all('a', href=re.compile('/review/'))
            if all_links:
                print(f"📌 Encontrados {len(all_links)} enlaces de review")
            
            # Si es la primera página, intentar con wait más específico
            if page == 1:
                try:
                    print("⏳ Esperando carga completa de la página...")
                    WebDriverWait(driver, 15).until(
                        EC.presence_of_element_located((By.TAG_NAME, "article"))
                    )
                    soup = BeautifulSoup(driver.page_source, 'html.parser')
                    company_cards = soup.find_all('article')
                    if company_cards:
                        print(f"✅ Encontrados {len(company_cards)} articles después de esperar")
                except:
                    pass
            
            if not company_cards:
                continue
        
        # Si son enlaces directos, procesarlos de manera diferente
        if company_cards and company_cards[0].name == 'a':
            for link in company_cards:
                try:
                    company_url = link.get('href', '')
                    if '/review/' not in company_url:
                        continue
                        
                    if not company_url.startswith('http'):
                        company_url = f"https://es.trustpilot.com{company_url}"
                    
                    # Obtener dominio primero para limpiar el nombre
                    domain = company_url.split('/')[-1].split('?')[0]  # Remover parámetros
                    
                    # Obtener el nombre de la empresa con mejores estrategias
                    company_name = ""
                    
                    # Estrategia 1: Buscar en el texto del enlace y limpiar
                    link_text = link.get_text(separator=' ', strip=True)
                    if link_text:
                        # Limpiar texto común no deseado
                        company_name = link_text.replace('Más relevantes', '').replace('Más relevante', '').strip()
                        
                        # Si el dominio está en el texto, usar lo que está antes
                        if domain in company_name:
                            parts = company_name.split(domain)
                            if parts and parts[0]:
                                company_name = parts[0].strip()
                        
                        # Si hay números (rating), cortar antes del primer número
                        match = re.search(r'^([^0-9]+?)(?:\d|$)', company_name)
                        if match:
                            company_name = match.group(1).strip()
                    
                    # Estrategia 2: Buscar en elementos hijos si no encontramos nombre
                    if not company_name or len(company_name) < 2:
                        name_elem = link.find(['span', 'p', 'h2', 'h3'])
                        if name_elem:
                            company_name = name_elem.text.strip()
                    
                    # Fallback: usar el dominio limpio
                    if not company_name or len(company_name) < 2:
                        company_name = domain.replace('.com', '').replace('.es', '').replace('-', ' ').title()
                    
                    # Buscar información adicional en el contenedor padre
                    parent = link.parent
                    rating = "N/A"
                    num_reviews = "0"
                    
                    if parent:
                        # Buscar calificación
                        rating_elem = parent.find(text=re.compile(r'\d+[,\.]\d+'))
                        if rating_elem:
                            rating = re.search(r'\d+[,\.]\d+', rating_elem).group()
                        
                        # Buscar número de reseñas
                        reviews_elem = parent.find(text=re.compile(r'\d+\s*(reseñas?|reviews?|opiniones?)'))
                        if reviews_elem:
                            num_match = re.search(r'(\d+)', reviews_elem)
                            if num_match:
                                num_reviews = num_match.group(1)
                    
                    companies.append({
                        'company_name': company_name,
                        'domain': domain,
                        'company_url': company_url,
                        'rating': rating,
                        'num_reviews': num_reviews,
                        'categories': 'travel_vacation'
                    })
                    
                except Exception as e:
                    print(f"Error procesando enlace: {e}")
                    continue
        else:
            # Procesar tarjetas normales
            for card in company_cards:
                try:
                    # Buscar enlace principal
                    link_elem = card.find('a', href=re.compile('/review/'))
                    if not link_elem:
                        continue
                    
                    company_url = link_elem.get('href', '')
                    if not company_url.startswith('http'):
                        company_url = f"https://es.trustpilot.com{company_url}"
                    
                    # Nombre de la empresa - múltiples estrategias
                    company_name = None
                    name_selectors = [
                        ('p', {'class': re.compile('typography_heading')}),
                        ('span', {'class': re.compile('typography_heading')}),
                        ('h2', {}),
                        ('h3', {}),
                        ('p', {'class': re.compile('displayName')}),
                        ('a', {}),  # El mismo enlace
                    ]
                    
                    for tag, attrs in name_selectors:
                        name_elem = card.find(tag, attrs)
                        if name_elem and name_elem.text.strip():
                            company_name = name_elem.text.strip()
                            break
                    
                    if not company_name:
                        company_name = link_elem.text.strip() or company_url.split('/')[-1]
                    
                    # Dominio
                    domain = company_url.split('/')[-1] if company_url else "N/A"
                    
                    # Calificación
                    rating = "N/A"
                    rating_patterns = [r'\d+[,\.]\d+', r'\d+\.\d+', r'\d+,\d+']
                    for pattern in rating_patterns:
                        rating_elem = card.find(text=re.compile(pattern))
                        if rating_elem:
                            match = re.search(pattern, rating_elem)
                            if match:
                                rating = match.group()
                                break
                    
                    # Número de reseñas
                    num_reviews = "0"
                    review_patterns = [
                        r'(\d+)\s*(reseñas?|opiniones?|reviews?)',
                        r'(\d+)\s*total',
                        r'\((\d+)\)'
                    ]
                    
                    for pattern in review_patterns:
                        reviews_elem = card.find(text=re.compile(pattern, re.IGNORECASE))
                        if reviews_elem:
                            match = re.search(r'\d+', reviews_elem)
                            if match:
                                num_reviews = match.group()
                                break
                    
                    if company_name and company_name != "N/A":
                        companies.append({
                            'company_name': company_name,
                            'domain': domain,
                            'company_url': company_url,
                            'rating': rating,
                            'num_reviews': num_reviews,
                            'categories': 'travel_vacation'
                        })
                        
                except Exception as e:
                    print(f"Error al procesar tarjeta: {e}")
                    continue
        
        print(f"📊 Página {page}: {len(companies)} empresas acumuladas")
    
    # Eliminar duplicados
    seen = set()
    unique_companies = []
    for company in companies:
        if company['company_url'] not in seen:
            seen.add(company['company_url'])
            unique_companies.append(company)
    
    print(f"\n✅ Total de empresas únicas encontradas: {len(unique_companies)}")
    if unique_companies:
        print("📋 Primeras 3 empresas:")
        for i, company in enumerate(unique_companies[:3]):
            print(f"   {i+1}. {company['company_name']} - {company['rating']} ({company['num_reviews']} reseñas)")
    
    return unique_companies


In [7]:
# TEST: Ejecutar debugging para ver qué está pasando
driver = setup_driver(headless=False)  # Usar headless=True si no quieres ver el navegador
try:
    # Analizar la página de categoría
    category_url = "https://es.trustpilot.com/categories/travel_vacation"
    debug_page_structure(driver, category_url)
    
    print("\n" + "="*50)
    print("🔍 Intentando acceso directo a una empresa conocida...")
    
    # Intentar acceder directamente a una empresa conocida
    test_company_url = "https://es.trustpilot.com/review/www.booking.com"
    driver.get(test_company_url)
    time.sleep(3)
    
    if "booking" in driver.current_url.lower():
        print("✅ Acceso exitoso a página de empresa")
    else:
        print("❌ Redirigido o bloqueado")
        print(f"URL actual: {driver.current_url}")
        
finally:
    driver.quit()
    print("\n🔚 Test completado")


✅ Driver Chrome iniciado correctamente

🔍 DEBUGGING: Analizando estructura de https://es.trustpilot.com/categories/travel_vacation
📌 Enlaces con /review/: 30
   Primeros 3 ejemplos:
   - /review/guruwalk.com | Texto: Más relevantesGuruwalk - Free toursguruwalk.com4,9
   - /review/dayuse.es | Texto: Más relevantesDayuse.esdayuse.es4,9862 opiniones5 
   - /review/bookaris.com | Texto: Más relevantesBookaris.combookaris.com4,9514 opini
📌 Elementos <article>: 0
📌 Elementos con clases 'business/company': 190
📌 Elementos con data-business-unit-card: 0
💾 HTML guardado en trustpilot_debug.html
📸 Screenshot guardado en trustpilot_debug.png

🔍 Intentando acceso directo a una empresa conocida...
✅ Acceso exitoso a página de empresa

🔚 Test completado


In [8]:
# Función para extraer reseñas de una empresa con paginación
def get_reviews_from_company(driver, company_info, max_review_pages=3):
    """Extrae reseñas de una empresa específica con paginación"""
    reviews = []
    
    for page in range(1, max_review_pages + 1):
        # Construir URL con paginación
        if page == 1:
            review_url = company_info['company_url']
        else:
            review_url = f"{company_info['company_url']}?page={page}"
        
        print(f"   📄 Página {page} de reseñas: {review_url}")
        driver.get(review_url)
        random_delay(2, 4)  # Delay aleatorio más humano
        
        # Hacer scroll para cargar más reseñas en la página actual
        scroll_to_load_reviews(driver, max_scrolls=3)
        
        # Obtener HTML actualizado
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        
        # Buscar reseñas
        review_cards = soup.find_all('article', class_=re.compile('paper_paper__'))
        
        if not review_cards:
            print(f"   ⚠️ No se encontraron reseñas en la página {page}")
            break
        
        page_reviews = 0
        for card in review_cards:
            try:
                # Nombre del cliente
                customer_elem = card.find('span', attrs={'data-consumer-name-typography': 'true'})
                customer_name = customer_elem.text.strip() if customer_elem else "Anónimo"
                
                # Fecha de la reseña
                date_elem = card.find('time')
                review_date = date_elem.get('datetime', '') if date_elem else ""
                if not review_date:
                    date_text = date_elem.text.strip() if date_elem else ""
                    review_date = parse_date(date_text)
                
                # Puntuación (estrellas)
                rating_elem = card.find('div', attrs={'data-service-review-rating': True})
                if rating_elem:
                    rating_attr = rating_elem.get('data-service-review-rating', '0')
                    customer_score = int(rating_attr) if rating_attr.isdigit() else 0
                else:
                    # Buscar alternativa
                    star_elem = card.find('img', alt=re.compile('Valorado con'))
                    if star_elem:
                        alt_text = star_elem.get('alt', '')
                        score_match = re.search(r'(\d+)', alt_text)
                        customer_score = int(score_match.group(1)) if score_match else 0
                    else:
                        customer_score = 0
                
                # Texto de la reseña
                review_elem = card.find('p', attrs={'data-service-review-text-typography': 'true'})
                review_text = review_elem.text.strip() if review_elem else ""
                
                # Generar ID único
                review_id = generate_review_id(
                    company_info['company_name'], 
                    str(review_date), 
                    customer_name, 
                    review_text
                )
                
                reviews.append({
                    'review_id': review_id,
                    'domain': company_info['domain'],
                    'company_name': company_info['company_name'],
                    'categories': company_info['categories'],
                    'company_rating': company_info['rating'],
                    'review_date': review_date,
                    'customer_name': customer_name,
                    'customer_score': customer_score,
                    'review_text': review_text,
                    # Columnas vacías para análisis LLM
                    'language': '',
                    'sentiment': '',
                    'emotion': '',
                    'customer_gender': '',
                    'main_topic': '',
                    'keywords': '',
                    'customer_type': '',
                    'tourist_type': '',
                    'group_type': '',
                    'analyzed': False
                })
                page_reviews += 1
                
            except Exception as e:
                print(f"   ❌ Error al procesar reseña: {e}")
                continue
        
        print(f"   ✅ Página {page}: {page_reviews} reseñas extraídas")
        
        # Si no hay más páginas, salir del loop
        if page_reviews == 0:
            break
            
        # Verificar si hay botón "Siguiente" para continuar
        try:
            next_button = soup.find('a', {'aria-label': re.compile('Next|Siguiente', re.I)})
            if not next_button or 'disabled' in str(next_button.get('class', [])):
                print(f"   🏁 No hay más páginas de reseñas")
                break
        except:
            pass
    
    print(f"📊 Total: {len(reviews)} reseñas extraídas de {company_info['company_name']}")
    return reviews


In [9]:
# Función principal del scraper
def scrape_trustpilot_travel(max_companies=10, max_review_pages_per_company=3, max_company_pages=3):
    """
    Función principal que ejecuta todo el proceso de scraping
    
    Parámetros:
    - max_companies: Número máximo de empresas a procesar
    - max_review_pages_per_company: Número máximo de páginas de reseñas por empresa
    - max_company_pages: Número máximo de páginas de la categoría a recorrer
    """
    # URL de la categoría de viajes y vacaciones
    category_url = "https://es.trustpilot.com/categories/travel_vacation"
    
    # Inicializar driver
    print("🚀 Iniciando navegador...")
    driver = setup_driver()
    
    try:
        # Obtener lista de empresas
        print(f"\n🔍 Buscando empresas en la categoría de viajes...")
        print(f"   • Páginas de categoría a recorrer: {max_company_pages}")
        companies = get_companies_from_category(driver, category_url, max_pages=max_company_pages)
        
        # Limitar número de empresas
        companies = companies[:max_companies]
        print(f"\n📋 Total de empresas a procesar: {len(companies)}")
        print(f"   • Páginas de reseñas por empresa: {max_review_pages_per_company}")
        
        # Extraer reseñas de cada empresa
        all_reviews = []
        
        for i, company in enumerate(tqdm(companies, desc="Procesando empresas")):
            print(f"\n[{i+1}/{len(companies)}] 🏢 Procesando: {company['company_name']}")
            
            try:
                reviews = get_reviews_from_company(driver, company, max_review_pages=max_review_pages_per_company)
                all_reviews.extend(reviews)
                
                # Pausa entre empresas para evitar bloqueos
                random_delay(2, 4)
                
            except Exception as e:
                print(f"❌ Error al procesar {company['company_name']}: {e}")
                continue
        
        # Crear DataFrame
        df_reviews = pd.DataFrame(all_reviews)
        
        # Guardar resultados
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"trustpilot_travel_reviews_{timestamp}.csv"
        df_reviews.to_csv(filename, index=False, encoding='utf-8-sig')
        
        print(f"\n✅ Scraping completado!")
        print(f"📊 Total de reseñas extraídas: {len(all_reviews)}")
        print(f"💾 Archivo guardado: {filename}")
        
        # Mostrar estadísticas
        if len(df_reviews) > 0:
            print(f"\n📈 Estadísticas:")
            print(f"   • Empresas únicas: {df_reviews['company_name'].nunique()}")
            print(f"   • Promedio de reseñas por empresa: {len(df_reviews) / df_reviews['company_name'].nunique():.1f}")
            print(f"   • Distribución de puntuaciones:")
            score_dist = df_reviews['customer_score'].value_counts().sort_index()
            for score, count in score_dist.items():
                print(f"     ⭐ {score}: {count} reseñas ({count/len(df_reviews)*100:.1f}%)")
        
        return df_reviews
        
    finally:
        # Cerrar navegador
        driver.quit()
        print("\n🔚 Navegador cerrado.")


In [10]:
# Ejecutar el scraper con configuración básica
# NOTA: Ajusta los parámetros según tus necesidades
df_results = scrape_trustpilot_travel(
    max_companies=70,                    # Número de empresas a procesar
    max_review_pages_per_company=1,     # Páginas de reseñas por empresa (cada página tiene ~20 reseñas)
    max_company_pages=5                 # Páginas de la categoría a recorrer (cada página tiene ~10 empresas)
)


🚀 Iniciando navegador...
✅ Driver Chrome iniciado correctamente

🔍 Buscando empresas en la categoría de viajes...
   • Páginas de categoría a recorrer: 5
🔍 Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=1
✅ Encontradas 29 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
📊 Página 1: 29 empresas acumuladas
🔍 Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=2


  rating_elem = parent.find(text=re.compile(r'\d+[,\.]\d+'))
  reviews_elem = parent.find(text=re.compile(r'\d+\s*(reseñas?|reviews?|opiniones?)'))


✅ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
📊 Página 2: 59 empresas acumuladas
🔍 Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=3
✅ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
📊 Página 3: 89 empresas acumuladas
🔍 Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=4
✅ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
📊 Página 4: 119 empresas acumuladas
🔍 Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=5
✅ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
📊 Página 5: 149 empresas acumuladas

✅ Total de empresas únicas encontradas: 102
📋 Primeras 3 empresas:
   1. Guruwalk - Free tours - 4,9 (0 reseñas)
   2. Dayuse.es - 4,9 (0 reseñas)
   3. Bookaris.com - 4,9 (0 reseñas)

📋 Total de empresas 

Procesando empresas:   0%|          | 0/70 [00:00<?, ?it/s]


[1/70] 🏢 Procesando: Guruwalk - Free tours
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/guruwalk.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Guruwalk - Free tours


Procesando empresas:   1%|▏         | 1/70 [00:08<09:51,  8.57s/it]


[2/70] 🏢 Procesando: Dayuse.es
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/dayuse.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Dayuse.es


Procesando empresas:   3%|▎         | 2/70 [00:20<12:09, 10.72s/it]


[3/70] 🏢 Procesando: Bookaris.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/bookaris.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Bookaris.com


Procesando empresas:   4%|▍         | 3/70 [00:29<11:06,  9.94s/it]


[4/70] 🏢 Procesando: Descubriendo Japon
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/descubriendojapon.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Descubriendo Japon


Procesando empresas:   6%|▌         | 4/70 [00:39<10:44,  9.77s/it]


[5/70] 🏢 Procesando: DMA Yachting
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/dmayachting.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de DMA Yachting


Procesando empresas:   7%|▋         | 5/70 [00:48<10:23,  9.59s/it]


[6/70] 🏢 Procesando: Guía Low Cost
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/guialowcost.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Guía Low Cost


Procesando empresas:   9%|▊         | 6/70 [00:57<10:03,  9.42s/it]


[7/70] 🏢 Procesando: Sunpool Villas
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/sunpool.co.uk
   ✅ Página 1: 5 reseñas extraídas
   🏁 No hay más páginas de reseñas
📊 Total: 5 reseñas extraídas de Sunpool Villas


Procesando empresas:  10%|█         | 7/70 [01:06<09:48,  9.35s/it]


[8/70] 🏢 Procesando: Online Tours
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/onlinetours.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Online Tours


Procesando empresas:  11%|█▏        | 8/70 [01:33<15:18, 14.82s/it]


[9/70] 🏢 Procesando: Cruceros SoloCruceros.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/solocruceros.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Cruceros SoloCruceros.com


Procesando empresas:  13%|█▎        | 9/70 [01:44<14:02, 13.81s/it]


[10/70] 🏢 Procesando: La Cubana Conecta
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/lacubanaconecta.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de La Cubana Conecta


Procesando empresas:  14%|█▍        | 10/70 [01:54<12:34, 12.57s/it]


[11/70] 🏢 Procesando: Evaneos
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/evaneos.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Evaneos


Procesando empresas:  16%|█▌        | 11/70 [02:07<12:23, 12.60s/it]


[12/70] 🏢 Procesando: Santiago Ways
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/santiagoways.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Santiago Ways


Procesando empresas:  17%|█▋        | 12/70 [02:17<11:22, 11.77s/it]


[13/70] 🏢 Procesando: Viajes BIDtravel
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.bidtravel.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Viajes BIDtravel


Procesando empresas:  19%|█▊        | 13/70 [02:43<15:24, 16.22s/it]


[14/70] 🏢 Procesando: Sildavia Viajes
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/sildaviaviajes.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Sildavia Viajes


Procesando empresas:  20%|██        | 14/70 [03:08<17:31, 18.77s/it]


[15/70] 🏢 Procesando: Golfinfo.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/golfinfo.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Golfinfo.com


Procesando empresas:  21%|██▏       | 15/70 [03:17<14:25, 15.73s/it]


[16/70] 🏢 Procesando: GO Voyages
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.govoyages.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de GO Voyages


Procesando empresas:  23%|██▎       | 16/70 [04:00<21:40, 24.07s/it]


[17/70] 🏢 Procesando: Buendía
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/buendiatours.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Buendía


Procesando empresas:  24%|██▍       | 17/70 [04:11<17:41, 20.03s/it]


[18/70] 🏢 Procesando: Buscounchollo.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/buscounchollo.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Buscounchollo.com


Procesando empresas:  26%|██▌       | 18/70 [04:20<14:25, 16.65s/it]


[19/70] 🏢 Procesando: Ruralidays.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/ruralidays.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Ruralidays.com


Procesando empresas:  27%|██▋       | 19/70 [04:30<12:30, 14.72s/it]


[20/70] 🏢 Procesando: Amenitiz
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/amenitiz.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Amenitiz


Procesando empresas:  29%|██▊       | 20/70 [04:41<11:25, 13.71s/it]


[21/70] 🏢 Procesando: eDreams
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.edreams.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de eDreams


Procesando empresas:  30%|███       | 21/70 [04:53<10:43, 13.14s/it]


[22/70] 🏢 Procesando: Wiber Rent a Car
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/wiberrentacar.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Wiber Rent a Car


Procesando empresas:  31%|███▏      | 22/70 [05:06<10:24, 13.02s/it]


[23/70] 🏢 Procesando: Opodo
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.opodo.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Opodo


Procesando empresas:  33%|███▎      | 23/70 [05:16<09:35, 12.24s/it]


[24/70] 🏢 Procesando: Volotea
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/volotea.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Volotea


Procesando empresas:  34%|███▍      | 24/70 [05:27<09:02, 11.80s/it]


[25/70] 🏢 Procesando: Central de Reservas
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.centraldereservas.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Central de Reservas


Procesando empresas:  36%|███▌      | 25/70 [05:36<08:21, 11.13s/it]


[26/70] 🏢 Procesando: Stayforlong
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/stayforlong.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Stayforlong


Procesando empresas:  37%|███▋      | 26/70 [05:47<08:07, 11.07s/it]


[27/70] 🏢 Procesando: WeRoad España - Viajes en grupo
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.weroad.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de WeRoad España - Viajes en grupo


Procesando empresas:  39%|███▊      | 27/70 [06:37<16:18, 22.77s/it]


[28/70] 🏢 Procesando: Viajes Camino de Santiago
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/viajecaminodesantiago.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Viajes Camino de Santiago


Procesando empresas:  40%|████      | 28/70 [07:19<19:50, 28.34s/it]


[29/70] 🏢 Procesando: LOCK & enjoy! Luggage Storage
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/lockandenjoy.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de LOCK & enjoy! Luggage Storage


Procesando empresas:  41%|████▏     | 29/70 [07:26<15:07, 22.14s/it]


[30/70] 🏢 Procesando: Tubuencamino
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/tubuencamino.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Tubuencamino


Procesando empresas:  43%|████▎     | 30/70 [07:35<12:07, 18.19s/it]


[31/70] 🏢 Procesando: Jump
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/jump2spain.com
   ✅ Página 1: 1 reseñas extraídas
   🏁 No hay más páginas de reseñas
📊 Total: 1 reseñas extraídas de Jump


Procesando empresas:  44%|████▍     | 31/70 [07:44<09:59, 15.38s/it]


[32/70] 🏢 Procesando: TRASLADOS AEROPUERTO MADRID
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/trasladosaeropuertomadrid.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de TRASLADOS AEROPUERTO MADRID


Procesando empresas:  46%|████▌     | 32/70 [07:53<08:27, 13.35s/it]


[33/70] 🏢 Procesando: Scuba Finders
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/scubafinders.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Scuba Finders


Procesando empresas:  47%|████▋     | 33/70 [08:04<07:45, 12.57s/it]


[34/70] 🏢 Procesando: Estiber.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/estiber.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Estiber.com


Procesando empresas:  49%|████▊     | 34/70 [08:15<07:22, 12.29s/it]


[35/70] 🏢 Procesando: Holidu
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/holidu.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Holidu


Procesando empresas:  50%|█████     | 35/70 [08:24<06:35, 11.31s/it]


[36/70] 🏢 Procesando: Waynabox - Surprise Trips
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/waynabox.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Waynabox - Surprise Trips


Procesando empresas:  51%|█████▏    | 36/70 [08:35<06:16, 11.08s/it]


[37/70] 🏢 Procesando: Vacation Marbella
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/vacationmarbella.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Vacation Marbella


Procesando empresas:  53%|█████▎    | 37/70 [08:48<06:30, 11.84s/it]


[38/70] 🏢 Procesando: Antia Viajes
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/antiaviajes.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Antia Viajes


Procesando empresas:  54%|█████▍    | 38/70 [09:01<06:24, 12.02s/it]


[39/70] 🏢 Procesando: Orbis Ways
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/orbisways.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Orbis Ways


Procesando empresas:  56%|█████▌    | 39/70 [09:11<05:56, 11.50s/it]


[40/70] 🏢 Procesando: Maestro Casas
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/maestrocasas.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Maestro Casas


Procesando empresas:  57%|█████▋    | 40/70 [09:21<05:33, 11.12s/it]


[41/70] 🏢 Procesando: Civitatis
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/civitatis.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Civitatis


Procesando empresas:  59%|█████▊    | 41/70 [09:31<05:10, 10.72s/it]


[42/70] 🏢 Procesando: Hotel Treats
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/hoteltreats.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Hotel Treats


Procesando empresas:  60%|██████    | 42/70 [09:43<05:06, 10.96s/it]


[43/70] 🏢 Procesando: Arctic Yeti
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/arcticyeti.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Arctic Yeti


Procesando empresas:  61%|██████▏   | 43/70 [09:52<04:41, 10.43s/it]


[44/70] 🏢 Procesando: SOLTEROS VIAJEROS
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/solterosviajeros.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de SOLTEROS VIAJEROS


Procesando empresas:  63%|██████▎   | 44/70 [10:01<04:23, 10.14s/it]


[45/70] 🏢 Procesando: Lanzarote Airport Transfers
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/lanzaroteairporttransfers.co.uk
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Lanzarote Airport Transfers


Procesando empresas:  64%|██████▍   | 45/70 [10:12<04:18, 10.32s/it]


[46/70] 🏢 Procesando: Exoticca
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/exoticca.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Exoticca


Procesando empresas:  66%|██████▌   | 46/70 [10:22<04:08, 10.35s/it]


[47/70] 🏢 Procesando: Homerti
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.homerti.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Homerti


Procesando empresas:  67%|██████▋   | 47/70 [10:32<03:51, 10.08s/it]


[48/70] 🏢 Procesando: Skyscanner
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/skyscanner.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Skyscanner


Procesando empresas:  69%|██████▊   | 48/70 [10:43<03:45, 10.26s/it]


[49/70] 🏢 Procesando: Interhome
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.interhome.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Interhome


Procesando empresas:  70%|███████   | 49/70 [10:53<03:35, 10.27s/it]


[50/70] 🏢 Procesando: Gudog
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/gudog.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Gudog


Procesando empresas:  71%|███████▏  | 50/70 [11:04<03:30, 10.55s/it]


[51/70] 🏢 Procesando: Vacalia
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/vacalia.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Vacalia


Procesando empresas:  73%|███████▎  | 51/70 [11:15<03:21, 10.58s/it]


[52/70] 🏢 Procesando: Howlanders
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/howlanders.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Howlanders


Procesando empresas:  74%|███████▍  | 52/70 [11:31<03:40, 12.27s/it]


[53/70] 🏢 Procesando: Mistertransfer
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/mistertransfer.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Mistertransfer


Procesando empresas:  76%|███████▌  | 53/70 [12:01<05:00, 17.66s/it]


[54/70] 🏢 Procesando: Shuttle Direct
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.shuttledirect.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Shuttle Direct


Procesando empresas:  77%|███████▋  | 54/70 [12:10<03:58, 14.89s/it]


[55/70] 🏢 Procesando: Drimer
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/drimer.io
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Drimer


Procesando empresas:  79%|███████▊  | 55/70 [12:21<03:26, 13.77s/it]


[56/70] 🏢 Procesando: Sea Riders Badalona
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/seariders.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Sea Riders Badalona


Procesando empresas:  80%|████████  | 56/70 [12:32<03:01, 12.97s/it]


[57/70] 🏢 Procesando: Rentalmotorbike
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/rentalmotorbike.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Rentalmotorbike


Procesando empresas:  81%|████████▏ | 57/70 [12:45<02:47, 12.91s/it]


[58/70] 🏢 Procesando: Uniite Travel
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/uniitetravel.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Uniite Travel


Procesando empresas:  83%|████████▎ | 58/70 [12:54<02:23, 11.97s/it]


[59/70] 🏢 Procesando: rumbo.es
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.rumbo.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de rumbo.es


Procesando empresas:  84%|████████▍ | 59/70 [13:03<02:02, 11.10s/it]


[60/70] 🏢 Procesando: BudgetAir.es
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/budgetair.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de BudgetAir.es


Procesando empresas:  86%|████████▌ | 60/70 [13:14<01:49, 10.93s/it]


[61/70] 🏢 Procesando: Outspot
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/outspot.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Outspot


Procesando empresas:  87%|████████▋ | 61/70 [13:24<01:35, 10.59s/it]


[62/70] 🏢 Procesando: cubarentcars.com cubarentcars.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/cubarentcars.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de cubarentcars.com cubarentcars.com


Procesando empresas:  89%|████████▊ | 62/70 [13:34<01:23, 10.48s/it]


[63/70] 🏢 Procesando: Gobycar
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.gobycar.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Gobycar


Procesando empresas:  90%|█████████ | 63/70 [13:44<01:12, 10.39s/it]


[64/70] 🏢 Procesando: My City Home
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/mycityhome.es
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de My City Home


Procesando empresas:  91%|█████████▏| 64/70 [13:55<01:03, 10.63s/it]


[65/70] 🏢 Procesando: hotelbreak
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/hotelbreak.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de hotelbreak


Procesando empresas:  93%|█████████▎| 65/70 [14:07<00:54, 10.94s/it]


[66/70] 🏢 Procesando: Iberojet.com
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/iberojet.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Iberojet.com


Procesando empresas:  94%|█████████▍| 66/70 [14:17<00:42, 10.56s/it]


[67/70] 🏢 Procesando: Chekin
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/chekin.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Chekin


Procesando empresas:  96%|█████████▌| 67/70 [14:28<00:32, 10.67s/it]


[68/70] 🏢 Procesando: Immi-Assist.online
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/www.immi-assist.online
   ✅ Página 1: 13 reseñas extraídas
   🏁 No hay más páginas de reseñas
📊 Total: 13 reseñas extraídas de Immi-Assist.online


Procesando empresas:  97%|█████████▋| 68/70 [14:39<00:21, 10.92s/it]


[69/70] 🏢 Procesando: Pilots Center
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/pilotscenter.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Pilots Center


Procesando empresas:  99%|█████████▊| 69/70 [14:47<00:10, 10.01s/it]


[70/70] 🏢 Procesando: Arenatours
   📄 Página 1 de reseñas: https://es.trustpilot.com/review/arenatours.com
   ✅ Página 1: 20 reseñas extraídas
📊 Total: 20 reseñas extraídas de Arenatours


Procesando empresas: 100%|██████████| 70/70 [14:57<00:00, 12.82s/it]



✅ Scraping completado!
📊 Total de reseñas extraídas: 1359
💾 Archivo guardado: trustpilot_travel_reviews_20250701_181108.csv

📈 Estadísticas:
   • Empresas únicas: 70
   • Promedio de reseñas por empresa: 19.4
   • Distribución de puntuaciones:
     ⭐ 1: 158 reseñas (11.6%)
     ⭐ 2: 33 reseñas (2.4%)
     ⭐ 3: 40 reseñas (2.9%)
     ⭐ 4: 133 reseñas (9.8%)
     ⭐ 5: 995 reseñas (73.2%)

🔚 Navegador cerrado.


In [12]:
# Ver estadísticas del dataset
if 'df_results' in locals():
    print("📊 Resumen del dataset:")
    print(f"Total de reseñas: {len(df_results)}")
    print(f"Empresas únicas: {df_results['company_name'].nunique()}")
    print(f"\nDistribución de puntuaciones:")
    print(df_results['customer_score'].value_counts().sort_index())
    
    # Mostrar primeras filas
    print("\n📋 Primeras 5 reseñas:")
    display(df_results.head())


📊 Resumen del dataset:
Total de reseñas: 1359
Empresas únicas: 70

Distribución de puntuaciones:
customer_score
1    158
2     33
3     40
4    133
5    995
Name: count, dtype: int64

📋 Primeras 5 reseñas:


Unnamed: 0,review_id,domain,company_name,categories,company_rating,review_date,customer_name,customer_score,review_text,language,sentiment,emotion,customer_gender,main_topic,keywords,customer_type,tourist_type,group_type,analyzed
0,1a7e7f41b5d6,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T23:39:24.000Z,Italo Constenla Carrillo,5,"Marcelo un gran guía , una muy grata experienc...",,,,,,,,,,False
1,f17c6e5f270f,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T23:21:03.000Z,Noelia Tannous,5,"Laura Trovato ha sido una magnífica guía, muy ...",,,,,,,,,,False
2,218f31094ed0,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T20:37:20.000Z,Cliente,5,Muy recomendable,,,,,,,,,,False
3,105e9dfd9448,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T19:35:47.000Z,Manuel González,5,Muy buena plataforma para hacer tours por dife...,,,,,,,,,,False
4,a77cd0af2ebc,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T09:36:47.000Z,RS,5,Tour entretenido y ameno por el casco antiguo ...,,,,,,,,,,False


In [13]:
# Función para cargar y combinar múltiples archivos CSV
def combine_csv_files(pattern="trustpilot_travel_reviews_*.csv"):
    """Combina múltiples archivos CSV en un solo DataFrame"""
    import glob
    
    files = glob.glob(pattern)
    if not files:
        print("No se encontraron archivos CSV")
        return None
    
    dfs = []
    for file in files:
        df = pd.read_csv(file, encoding='utf-8-sig')
        dfs.append(df)
    
    combined_df = pd.concat(dfs, ignore_index=True)
    
    # Eliminar duplicados basados en review_id
    combined_df = combined_df.drop_duplicates(subset=['review_id'])
    
    print(f"Archivos combinados: {len(files)}")
    print(f"Total de reseñas únicas: {len(combined_df)}")
    
    return combined_df


In [None]:
'''
# Función para filtrar reseñas por puntuación o fecha
def filter_reviews(df, min_score=None, max_score=None, start_date=None, end_date=None):
    """Filtra reseñas según criterios específicos"""
    filtered_df = df.copy()
    
    if min_score is not None:
        filtered_df = filtered_df[filtered_df['customer_score'] >= min_score]
    
    if max_score is not None:
        filtered_df = filtered_df[filtered_df['customer_score'] <= max_score]
    
    if start_date is not None:
        filtered_df['review_date'] = pd.to_datetime(filtered_df['review_date'])
        filtered_df = filtered_df[filtered_df['review_date'] >= start_date]
    
    if end_date is not None:
        filtered_df['review_date'] = pd.to_datetime(filtered_df['review_date'])
        filtered_df = filtered_df[filtered_df['review_date'] <= end_date]
    
    print(f"Reseñas filtradas: {len(filtered_df)} de {len(df)}")
    return filtered_df

# Ejemplo de uso:
# df_filtered = filter_reviews(df_results, min_score=4, start_date='2024-01-01')
'''