# Scraper de Trustpilot (Categor√≠a: Viajes y Vacaciones)

Este notebook extrae informaci√≥n de empresas y rese√±as de https://es.trustpilot.com/categories/travel_vacation usando Selenium.

## Variables que extrae:
- ID de la rese√±a, Dominio, Nombre de la empresa, Categor√≠as, Calificaci√≥n de la empresa
- Fecha de la rese√±a, Nombre del cliente, Puntuaci√≥n del cliente, Texto de la rese√±a
- Columnas vac√≠as para LLM: Idioma, Sentimiento, Emoci√≥n, G√©nero del cliente, Tema principal, Palabras clave, Tipo de cliente, Tipo de turista, Tipo de grupo, ¬øAnalizado?


In [1]:
# Importar librer√≠as necesarias
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time
import re
from datetime import datetime
from tqdm import tqdm
import json
import hashlib


In [2]:
# Configuraci√≥n del driver de Chrome
def setup_driver(headless=False):
    """Configura y retorna el driver de Chrome con las opciones necesarias"""
    chrome_options = Options()
    
    # Modo headless opcional
    if headless:
        chrome_options.add_argument('--headless')
    
    # Opciones para evitar detecci√≥n
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--disable-blink-features=AutomationControlled')
    chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    
    # Desactivar im√°genes para cargar m√°s r√°pido (opcional)
    # prefs = {"profile.managed_default_content_settings.images": 2}
    # chrome_options.add_experimental_option("prefs", prefs)
    
    # User agent realista
    chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36')
    
    # Tama√±o de ventana
    chrome_options.add_argument('--window-size=1920,1080')
    
    # Otras opciones para parecer m√°s humano
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--disable-extensions')
    chrome_options.add_argument('--proxy-server="direct://"')
    chrome_options.add_argument('--proxy-bypass-list=*')
    chrome_options.add_argument('--start-maximized')
    
    try:
        # Inicializar driver
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=chrome_options)
        
        # Ejecutar JavaScript para ocultar webdriver
        driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
        
        driver.implicitly_wait(10)
        print("‚úÖ Driver Chrome iniciado correctamente")
        return driver
        
    except Exception as e:
        print(f"‚ùå Error al iniciar Chrome: {e}")
        raise e


In [3]:
# Funci√≥n para delays aleatorios m√°s humanos
import random

def random_delay(min_seconds=1, max_seconds=3):
    """Pausa aleatoria para parecer m√°s humano"""
    delay = random.uniform(min_seconds, max_seconds)
    time.sleep(delay)


In [4]:
# Funciones auxiliares
def generate_review_id(company_name, review_date, customer_name, review_text):
    """Genera un ID √∫nico para cada rese√±a"""
    content = f"{company_name}{review_date}{customer_name}{review_text[:50]}"
    return hashlib.md5(content.encode()).hexdigest()[:12]

def parse_date(date_str):
    """Convierte la fecha del formato de Trustpilot a formato est√°ndar"""
    try:
        # Mapeo de meses en espa√±ol
        meses = {
            'enero': 'January', 'febrero': 'February', 'marzo': 'March',
            'abril': 'April', 'mayo': 'May', 'junio': 'June',
            'julio': 'July', 'agosto': 'August', 'septiembre': 'September',
            'octubre': 'October', 'noviembre': 'November', 'diciembre': 'December'
        }
        
        # Reemplazar mes espa√±ol por ingl√©s
        for mes_esp, mes_eng in meses.items():
            date_str = date_str.replace(mes_esp, mes_eng)
        
        # Parsear fecha
        return pd.to_datetime(date_str, format='%d de %B de %Y')
    except:
        return None

def scroll_to_load_reviews(driver, max_scrolls=10):
    """Hace scroll para cargar m√°s rese√±as"""
    last_height = driver.execute_script("return document.body.scrollHeight")
    scrolls = 0
    
    while scrolls < max_scrolls:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)
        
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
            
        last_height = new_height
        scrolls += 1


In [5]:
# Funci√≥n de debugging para analizar la estructura de la p√°gina
def debug_page_structure(driver, url):
    """Analiza la estructura de la p√°gina para encontrar selectores correctos"""
    print(f"\nüîç DEBUGGING: Analizando estructura de {url}")
    driver.get(url)
    time.sleep(5)
    
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    
    # Buscar todos los enlaces que podr√≠an ser de empresas
    review_links = soup.find_all('a', href=re.compile('/review/'))
    print(f"üìå Enlaces con /review/: {len(review_links)}")
    if review_links:
        print("   Primeros 3 ejemplos:")
        for i, link in enumerate(review_links[:3]):
            print(f"   - {link.get('href')} | Texto: {link.text.strip()[:50]}")
    
    # Buscar elementos article
    articles = soup.find_all('article')
    print(f"üìå Elementos <article>: {len(articles)}")
    
    # Buscar elementos con clases que contengan 'business' o 'company'
    business_elements = soup.find_all(class_=re.compile('business|company', re.I))
    print(f"üìå Elementos con clases 'business/company': {len(business_elements)}")
    
    # Buscar elementos con data attributes
    data_attrs = soup.find_all(attrs={'data-business-unit-card': True})
    print(f"üìå Elementos con data-business-unit-card: {len(data_attrs)}")
    
    # Guardar HTML para an√°lisis manual
    with open('trustpilot_debug.html', 'w', encoding='utf-8') as f:
        f.write(str(soup.prettify()))
    print("üíæ HTML guardado en trustpilot_debug.html")
    
    # Tomar screenshot
    driver.save_screenshot('trustpilot_debug.png')
    print("üì∏ Screenshot guardado en trustpilot_debug.png")
    
    return soup


In [6]:
# Funci√≥n para extraer informaci√≥n de las empresas
def get_companies_from_category(driver, category_url, max_pages=75):
    """Extrae informaci√≥n de empresas de una categor√≠a"""
    companies = []
    
    for page in range(1, max_pages + 1):
        url = f"{category_url}?page={page}"
        print(f"üîç Accediendo a: {url}")
        driver.get(url)
        time.sleep(5)  # Aumentar tiempo de espera
        
        # Guardar HTML para debugging
        page_source = driver.page_source
        soup = BeautifulSoup(page_source, 'html.parser')
        
        # Diferentes selectores posibles para las tarjetas de empresas
        # ORDEN MODIFICADO: El selector 'paper_paper__' causaba duplicados (encontraba los mismos 10 elementos en cada p√°gina)
        selectors = [
            {'tag': 'div', 'attrs': {'data-business-unit-card': True}},
            {'tag': 'article', 'attrs': {'class': re.compile('styles_businessUnitCard')}},
            {'tag': 'div', 'attrs': {'class': re.compile('styles_businessUnitCard')}},
            # Usar directamente los enlaces que S√ç funcionan (debug muestra ~30 por p√°gina)
            {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}},  # Solo enlaces que terminan con dominio
            # ELIMINADO: {'tag': 'div', 'attrs': {'class': re.compile('paper_paper__')}}, # ¬°Este causaba los duplicados!
        ]
        
        company_cards = []
        for selector in selectors:
            company_cards = soup.find_all(selector['tag'], attrs=selector['attrs'])
            if company_cards:
                print(f"‚úÖ Encontradas {len(company_cards)} tarjetas usando selector: {selector}")
                break
        
        if not company_cards:
            print(f"‚ö†Ô∏è No se encontraron tarjetas de empresas en la p√°gina {page}")
            print("üîç Guardando screenshot para debugging...")
            driver.save_screenshot(f"trustpilot_page_{page}_debug.png")
            
            # Buscar enlaces alternativos
            all_links = soup.find_all('a', href=re.compile('/review/'))
            if all_links:
                print(f"üìå Encontrados {len(all_links)} enlaces de review")
            
            # Si es la primera p√°gina, intentar con wait m√°s espec√≠fico
            if page == 1:
                try:
                    print("‚è≥ Esperando carga completa de la p√°gina...")
                    WebDriverWait(driver, 15).until(
                        EC.presence_of_element_located((By.TAG_NAME, "article"))
                    )
                    soup = BeautifulSoup(driver.page_source, 'html.parser')
                    company_cards = soup.find_all('article')
                    if company_cards:
                        print(f"‚úÖ Encontrados {len(company_cards)} articles despu√©s de esperar")
                except:
                    pass
            
            if not company_cards:
                continue
        
        # Si son enlaces directos, procesarlos de manera diferente
        if company_cards and company_cards[0].name == 'a':
            for link in company_cards:
                try:
                    company_url = link.get('href', '')
                    if '/review/' not in company_url:
                        continue
                        
                    if not company_url.startswith('http'):
                        company_url = f"https://es.trustpilot.com{company_url}"
                    
                    # Obtener dominio primero para limpiar el nombre
                    domain = company_url.split('/')[-1].split('?')[0]  # Remover par√°metros
                    
                    # Obtener el nombre de la empresa con mejores estrategias
                    company_name = ""
                    
                    # Estrategia 1: Buscar en el texto del enlace y limpiar
                    link_text = link.get_text(separator=' ', strip=True)
                    if link_text:
                        # Limpiar texto com√∫n no deseado
                        company_name = link_text.replace('M√°s relevantes', '').replace('M√°s relevante', '').strip()
                        
                        # Si el dominio est√° en el texto, usar lo que est√° antes
                        if domain in company_name:
                            parts = company_name.split(domain)
                            if parts and parts[0]:
                                company_name = parts[0].strip()
                        
                        # Si hay n√∫meros (rating), cortar antes del primer n√∫mero
                        match = re.search(r'^([^0-9]+?)(?:\d|$)', company_name)
                        if match:
                            company_name = match.group(1).strip()
                    
                    # Estrategia 2: Buscar en elementos hijos si no encontramos nombre
                    if not company_name or len(company_name) < 2:
                        name_elem = link.find(['span', 'p', 'h2', 'h3'])
                        if name_elem:
                            company_name = name_elem.text.strip()
                    
                    # Fallback: usar el dominio limpio
                    if not company_name or len(company_name) < 2:
                        company_name = domain.replace('.com', '').replace('.es', '').replace('-', ' ').title()
                    
                    # Buscar informaci√≥n adicional en el contenedor padre
                    parent = link.parent
                    rating = "N/A"
                    num_reviews = "0"
                    
                    if parent:
                        # Buscar calificaci√≥n
                        rating_elem = parent.find(text=re.compile(r'\d+[,\.]\d+'))
                        if rating_elem:
                            rating = re.search(r'\d+[,\.]\d+', rating_elem).group()
                        
                        # Buscar n√∫mero de rese√±as
                        reviews_elem = parent.find(text=re.compile(r'\d+\s*(rese√±as?|reviews?|opiniones?)'))
                        if reviews_elem:
                            num_match = re.search(r'(\d+)', reviews_elem)
                            if num_match:
                                num_reviews = num_match.group(1)
                    
                    companies.append({
                        'company_name': company_name,
                        'domain': domain,
                        'company_url': company_url,
                        'rating': rating,
                        'num_reviews': num_reviews,
                        'categories': 'travel_vacation'
                    })
                    
                except Exception as e:
                    print(f"Error procesando enlace: {e}")
                    continue
        else:
            # Procesar tarjetas normales
            for card in company_cards:
                try:
                    # Buscar enlace principal
                    link_elem = card.find('a', href=re.compile('/review/'))
                    if not link_elem:
                        continue
                    
                    company_url = link_elem.get('href', '')
                    if not company_url.startswith('http'):
                        company_url = f"https://es.trustpilot.com{company_url}"
                    
                    # Nombre de la empresa - m√∫ltiples estrategias
                    company_name = None
                    name_selectors = [
                        ('p', {'class': re.compile('typography_heading')}),
                        ('span', {'class': re.compile('typography_heading')}),
                        ('h2', {}),
                        ('h3', {}),
                        ('p', {'class': re.compile('displayName')}),
                        ('a', {}),  # El mismo enlace
                    ]
                    
                    for tag, attrs in name_selectors:
                        name_elem = card.find(tag, attrs)
                        if name_elem and name_elem.text.strip():
                            company_name = name_elem.text.strip()
                            break
                    
                    if not company_name:
                        company_name = link_elem.text.strip() or company_url.split('/')[-1]
                    
                    # Dominio
                    domain = company_url.split('/')[-1] if company_url else "N/A"
                    
                    # Calificaci√≥n
                    rating = "N/A"
                    rating_patterns = [r'\d+[,\.]\d+', r'\d+\.\d+', r'\d+,\d+']
                    for pattern in rating_patterns:
                        rating_elem = card.find(text=re.compile(pattern))
                        if rating_elem:
                            match = re.search(pattern, rating_elem)
                            if match:
                                rating = match.group()
                                break
                    
                    # N√∫mero de rese√±as
                    num_reviews = "0"
                    review_patterns = [
                        r'(\d+)\s*(rese√±as?|opiniones?|reviews?)',
                        r'(\d+)\s*total',
                        r'\((\d+)\)'
                    ]
                    
                    for pattern in review_patterns:
                        reviews_elem = card.find(text=re.compile(pattern, re.IGNORECASE))
                        if reviews_elem:
                            match = re.search(r'\d+', reviews_elem)
                            if match:
                                num_reviews = match.group()
                                break
                    
                    if company_name and company_name != "N/A":
                        companies.append({
                            'company_name': company_name,
                            'domain': domain,
                            'company_url': company_url,
                            'rating': rating,
                            'num_reviews': num_reviews,
                            'categories': 'travel_vacation'
                        })
                        
                except Exception as e:
                    print(f"Error al procesar tarjeta: {e}")
                    continue
        
        print(f"üìä P√°gina {page}: {len(companies)} empresas acumuladas")
    
    # Eliminar duplicados
    seen = set()
    unique_companies = []
    for company in companies:
        if company['company_url'] not in seen:
            seen.add(company['company_url'])
            unique_companies.append(company)
    
    print(f"\n‚úÖ Total de empresas √∫nicas encontradas: {len(unique_companies)}")
    if unique_companies:
        print("üìã Primeras 3 empresas:")
        for i, company in enumerate(unique_companies[:3]):
            print(f"   {i+1}. {company['company_name']} - {company['rating']} ({company['num_reviews']} rese√±as)")
    
    return unique_companies


In [7]:
# TEST: Ejecutar debugging para ver qu√© est√° pasando
driver = setup_driver(headless=False)  # Usar headless=True si no quieres ver el navegador
try:
    # Analizar la p√°gina de categor√≠a
    category_url = "https://es.trustpilot.com/categories/travel_vacation"
    debug_page_structure(driver, category_url)
    
    print("\n" + "="*50)
    print("üîç Intentando acceso directo a una empresa conocida...")
    
    # Intentar acceder directamente a una empresa conocida
    test_company_url = "https://es.trustpilot.com/review/www.booking.com"
    driver.get(test_company_url)
    time.sleep(3)
    
    if "booking" in driver.current_url.lower():
        print("‚úÖ Acceso exitoso a p√°gina de empresa")
    else:
        print("‚ùå Redirigido o bloqueado")
        print(f"URL actual: {driver.current_url}")
        
finally:
    driver.quit()
    print("\nüîö Test completado")


‚úÖ Driver Chrome iniciado correctamente

üîç DEBUGGING: Analizando estructura de https://es.trustpilot.com/categories/travel_vacation
üìå Enlaces con /review/: 30
   Primeros 3 ejemplos:
   - /review/guruwalk.com | Texto: M√°s relevantesGuruwalk - Free toursguruwalk.com4,9
   - /review/dayuse.es | Texto: M√°s relevantesDayuse.esdayuse.es4,9862 opiniones5 
   - /review/bookaris.com | Texto: M√°s relevantesBookaris.combookaris.com4,9514 opini
üìå Elementos <article>: 0
üìå Elementos con clases 'business/company': 190
üìå Elementos con data-business-unit-card: 0
üíæ HTML guardado en trustpilot_debug.html
üì∏ Screenshot guardado en trustpilot_debug.png

üîç Intentando acceso directo a una empresa conocida...
‚úÖ Acceso exitoso a p√°gina de empresa

üîö Test completado


In [8]:
# Funci√≥n para extraer rese√±as de una empresa con paginaci√≥n
def get_reviews_from_company(driver, company_info, max_review_pages=3):
    """Extrae rese√±as de una empresa espec√≠fica con paginaci√≥n"""
    reviews = []
    
    for page in range(1, max_review_pages + 1):
        # Construir URL con paginaci√≥n
        if page == 1:
            review_url = company_info['company_url']
        else:
            review_url = f"{company_info['company_url']}?page={page}"
        
        print(f"   üìÑ P√°gina {page} de rese√±as: {review_url}")
        driver.get(review_url)
        random_delay(2, 4)  # Delay aleatorio m√°s humano
        
        # Hacer scroll para cargar m√°s rese√±as en la p√°gina actual
        scroll_to_load_reviews(driver, max_scrolls=3)
        
        # Obtener HTML actualizado
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        
        # Buscar rese√±as
        review_cards = soup.find_all('article', class_=re.compile('paper_paper__'))
        
        if not review_cards:
            print(f"   ‚ö†Ô∏è No se encontraron rese√±as en la p√°gina {page}")
            break
        
        page_reviews = 0
        for card in review_cards:
            try:
                # Nombre del cliente
                customer_elem = card.find('span', attrs={'data-consumer-name-typography': 'true'})
                customer_name = customer_elem.text.strip() if customer_elem else "An√≥nimo"
                
                # Fecha de la rese√±a
                date_elem = card.find('time')
                review_date = date_elem.get('datetime', '') if date_elem else ""
                if not review_date:
                    date_text = date_elem.text.strip() if date_elem else ""
                    review_date = parse_date(date_text)
                
                # Puntuaci√≥n (estrellas)
                rating_elem = card.find('div', attrs={'data-service-review-rating': True})
                if rating_elem:
                    rating_attr = rating_elem.get('data-service-review-rating', '0')
                    customer_score = int(rating_attr) if rating_attr.isdigit() else 0
                else:
                    # Buscar alternativa
                    star_elem = card.find('img', alt=re.compile('Valorado con'))
                    if star_elem:
                        alt_text = star_elem.get('alt', '')
                        score_match = re.search(r'(\d+)', alt_text)
                        customer_score = int(score_match.group(1)) if score_match else 0
                    else:
                        customer_score = 0
                
                # Texto de la rese√±a
                review_elem = card.find('p', attrs={'data-service-review-text-typography': 'true'})
                review_text = review_elem.text.strip() if review_elem else ""
                
                # Generar ID √∫nico
                review_id = generate_review_id(
                    company_info['company_name'], 
                    str(review_date), 
                    customer_name, 
                    review_text
                )
                
                reviews.append({
                    'review_id': review_id,
                    'domain': company_info['domain'],
                    'company_name': company_info['company_name'],
                    'categories': company_info['categories'],
                    'company_rating': company_info['rating'],
                    'review_date': review_date,
                    'customer_name': customer_name,
                    'customer_score': customer_score,
                    'review_text': review_text,
                    # Columnas vac√≠as para an√°lisis LLM
                    'language': '',
                    'sentiment': '',
                    'emotion': '',
                    'customer_gender': '',
                    'main_topic': '',
                    'keywords': '',
                    'customer_type': '',
                    'tourist_type': '',
                    'group_type': '',
                    'analyzed': False
                })
                page_reviews += 1
                
            except Exception as e:
                print(f"   ‚ùå Error al procesar rese√±a: {e}")
                continue
        
        print(f"   ‚úÖ P√°gina {page}: {page_reviews} rese√±as extra√≠das")
        
        # Si no hay m√°s p√°ginas, salir del loop
        if page_reviews == 0:
            break
            
        # Verificar si hay bot√≥n "Siguiente" para continuar
        try:
            next_button = soup.find('a', {'aria-label': re.compile('Next|Siguiente', re.I)})
            if not next_button or 'disabled' in str(next_button.get('class', [])):
                print(f"   üèÅ No hay m√°s p√°ginas de rese√±as")
                break
        except:
            pass
    
    print(f"üìä Total: {len(reviews)} rese√±as extra√≠das de {company_info['company_name']}")
    return reviews


In [9]:
# Funci√≥n principal del scraper
def scrape_trustpilot_travel(max_companies=10, max_review_pages_per_company=3, max_company_pages=3):
    """
    Funci√≥n principal que ejecuta todo el proceso de scraping
    
    Par√°metros:
    - max_companies: N√∫mero m√°ximo de empresas a procesar
    - max_review_pages_per_company: N√∫mero m√°ximo de p√°ginas de rese√±as por empresa
    - max_company_pages: N√∫mero m√°ximo de p√°ginas de la categor√≠a a recorrer
    """
    # URL de la categor√≠a de viajes y vacaciones
    category_url = "https://es.trustpilot.com/categories/travel_vacation"
    
    # Inicializar driver
    print("üöÄ Iniciando navegador...")
    driver = setup_driver()
    
    try:
        # Obtener lista de empresas
        print(f"\nüîç Buscando empresas en la categor√≠a de viajes...")
        print(f"   ‚Ä¢ P√°ginas de categor√≠a a recorrer: {max_company_pages}")
        companies = get_companies_from_category(driver, category_url, max_pages=max_company_pages)
        
        # Limitar n√∫mero de empresas
        companies = companies[:max_companies]
        print(f"\nüìã Total de empresas a procesar: {len(companies)}")
        print(f"   ‚Ä¢ P√°ginas de rese√±as por empresa: {max_review_pages_per_company}")
        
        # Extraer rese√±as de cada empresa
        all_reviews = []
        
        for i, company in enumerate(tqdm(companies, desc="Procesando empresas")):
            print(f"\n[{i+1}/{len(companies)}] üè¢ Procesando: {company['company_name']}")
            
            try:
                reviews = get_reviews_from_company(driver, company, max_review_pages=max_review_pages_per_company)
                all_reviews.extend(reviews)
                
                # Pausa entre empresas para evitar bloqueos
                random_delay(2, 4)
                
            except Exception as e:
                print(f"‚ùå Error al procesar {company['company_name']}: {e}")
                continue
        
        # Crear DataFrame
        df_reviews = pd.DataFrame(all_reviews)
        
        # Guardar resultados
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"trustpilot_travel_reviews_{timestamp}.csv"
        df_reviews.to_csv(filename, index=False, encoding='utf-8-sig')
        
        print(f"\n‚úÖ Scraping completado!")
        print(f"üìä Total de rese√±as extra√≠das: {len(all_reviews)}")
        print(f"üíæ Archivo guardado: {filename}")
        
        # Mostrar estad√≠sticas
        if len(df_reviews) > 0:
            print(f"\nüìà Estad√≠sticas:")
            print(f"   ‚Ä¢ Empresas √∫nicas: {df_reviews['company_name'].nunique()}")
            print(f"   ‚Ä¢ Promedio de rese√±as por empresa: {len(df_reviews) / df_reviews['company_name'].nunique():.1f}")
            print(f"   ‚Ä¢ Distribuci√≥n de puntuaciones:")
            score_dist = df_reviews['customer_score'].value_counts().sort_index()
            for score, count in score_dist.items():
                print(f"     ‚≠ê {score}: {count} rese√±as ({count/len(df_reviews)*100:.1f}%)")
        
        return df_reviews
        
    finally:
        # Cerrar navegador
        driver.quit()
        print("\nüîö Navegador cerrado.")


In [10]:
# Ejecutar el scraper con configuraci√≥n b√°sica
# NOTA: Ajusta los par√°metros seg√∫n tus necesidades
df_results = scrape_trustpilot_travel(
    max_companies=70,                    # N√∫mero de empresas a procesar
    max_review_pages_per_company=1,     # P√°ginas de rese√±as por empresa (cada p√°gina tiene ~20 rese√±as)
    max_company_pages=5                 # P√°ginas de la categor√≠a a recorrer (cada p√°gina tiene ~10 empresas)
)


üöÄ Iniciando navegador...
‚úÖ Driver Chrome iniciado correctamente

üîç Buscando empresas en la categor√≠a de viajes...
   ‚Ä¢ P√°ginas de categor√≠a a recorrer: 5
üîç Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=1
‚úÖ Encontradas 29 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
üìä P√°gina 1: 29 empresas acumuladas
üîç Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=2


  rating_elem = parent.find(text=re.compile(r'\d+[,\.]\d+'))
  reviews_elem = parent.find(text=re.compile(r'\d+\s*(rese√±as?|reviews?|opiniones?)'))


‚úÖ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
üìä P√°gina 2: 59 empresas acumuladas
üîç Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=3
‚úÖ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
üìä P√°gina 3: 89 empresas acumuladas
üîç Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=4
‚úÖ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
üìä P√°gina 4: 119 empresas acumuladas
üîç Accediendo a: https://es.trustpilot.com/categories/travel_vacation?page=5
‚úÖ Encontradas 30 tarjetas usando selector: {'tag': 'a', 'attrs': {'href': re.compile('/review/[^/?]+$')}}
üìä P√°gina 5: 149 empresas acumuladas

‚úÖ Total de empresas √∫nicas encontradas: 102
üìã Primeras 3 empresas:
   1. Guruwalk - Free tours - 4,9 (0 rese√±as)
   2. Dayuse.es - 4,9 (0 rese√±as)
   3. Bookaris.co

Procesando empresas:   0%|          | 0/70 [00:00<?, ?it/s]


[1/70] üè¢ Procesando: Guruwalk - Free tours
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/guruwalk.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Guruwalk - Free tours


Procesando empresas:   1%|‚ñè         | 1/70 [00:08<09:51,  8.57s/it]


[2/70] üè¢ Procesando: Dayuse.es
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/dayuse.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Dayuse.es


Procesando empresas:   3%|‚ñé         | 2/70 [00:20<12:09, 10.72s/it]


[3/70] üè¢ Procesando: Bookaris.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/bookaris.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Bookaris.com


Procesando empresas:   4%|‚ñç         | 3/70 [00:29<11:06,  9.94s/it]


[4/70] üè¢ Procesando: Descubriendo Japon
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/descubriendojapon.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Descubriendo Japon


Procesando empresas:   6%|‚ñå         | 4/70 [00:39<10:44,  9.77s/it]


[5/70] üè¢ Procesando: DMA Yachting
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/dmayachting.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de DMA Yachting


Procesando empresas:   7%|‚ñã         | 5/70 [00:48<10:23,  9.59s/it]


[6/70] üè¢ Procesando: Gu√≠a Low Cost
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/guialowcost.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Gu√≠a Low Cost


Procesando empresas:   9%|‚ñä         | 6/70 [00:57<10:03,  9.42s/it]


[7/70] üè¢ Procesando: Sunpool Villas
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/sunpool.co.uk
   ‚úÖ P√°gina 1: 5 rese√±as extra√≠das
   üèÅ No hay m√°s p√°ginas de rese√±as
üìä Total: 5 rese√±as extra√≠das de Sunpool Villas


Procesando empresas:  10%|‚ñà         | 7/70 [01:06<09:48,  9.35s/it]


[8/70] üè¢ Procesando: Online Tours
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/onlinetours.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Online Tours


Procesando empresas:  11%|‚ñà‚ñè        | 8/70 [01:33<15:18, 14.82s/it]


[9/70] üè¢ Procesando: Cruceros SoloCruceros.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/solocruceros.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Cruceros SoloCruceros.com


Procesando empresas:  13%|‚ñà‚ñé        | 9/70 [01:44<14:02, 13.81s/it]


[10/70] üè¢ Procesando: La Cubana Conecta
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/lacubanaconecta.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de La Cubana Conecta


Procesando empresas:  14%|‚ñà‚ñç        | 10/70 [01:54<12:34, 12.57s/it]


[11/70] üè¢ Procesando: Evaneos
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/evaneos.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Evaneos


Procesando empresas:  16%|‚ñà‚ñå        | 11/70 [02:07<12:23, 12.60s/it]


[12/70] üè¢ Procesando: Santiago Ways
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/santiagoways.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Santiago Ways


Procesando empresas:  17%|‚ñà‚ñã        | 12/70 [02:17<11:22, 11.77s/it]


[13/70] üè¢ Procesando: Viajes BIDtravel
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.bidtravel.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Viajes BIDtravel


Procesando empresas:  19%|‚ñà‚ñä        | 13/70 [02:43<15:24, 16.22s/it]


[14/70] üè¢ Procesando: Sildavia Viajes
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/sildaviaviajes.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Sildavia Viajes


Procesando empresas:  20%|‚ñà‚ñà        | 14/70 [03:08<17:31, 18.77s/it]


[15/70] üè¢ Procesando: Golfinfo.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/golfinfo.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Golfinfo.com


Procesando empresas:  21%|‚ñà‚ñà‚ñè       | 15/70 [03:17<14:25, 15.73s/it]


[16/70] üè¢ Procesando: GO Voyages
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.govoyages.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de GO Voyages


Procesando empresas:  23%|‚ñà‚ñà‚ñé       | 16/70 [04:00<21:40, 24.07s/it]


[17/70] üè¢ Procesando: Buend√≠a
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/buendiatours.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Buend√≠a


Procesando empresas:  24%|‚ñà‚ñà‚ñç       | 17/70 [04:11<17:41, 20.03s/it]


[18/70] üè¢ Procesando: Buscounchollo.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/buscounchollo.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Buscounchollo.com


Procesando empresas:  26%|‚ñà‚ñà‚ñå       | 18/70 [04:20<14:25, 16.65s/it]


[19/70] üè¢ Procesando: Ruralidays.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/ruralidays.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Ruralidays.com


Procesando empresas:  27%|‚ñà‚ñà‚ñã       | 19/70 [04:30<12:30, 14.72s/it]


[20/70] üè¢ Procesando: Amenitiz
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/amenitiz.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Amenitiz


Procesando empresas:  29%|‚ñà‚ñà‚ñä       | 20/70 [04:41<11:25, 13.71s/it]


[21/70] üè¢ Procesando: eDreams
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.edreams.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de eDreams


Procesando empresas:  30%|‚ñà‚ñà‚ñà       | 21/70 [04:53<10:43, 13.14s/it]


[22/70] üè¢ Procesando: Wiber Rent a Car
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/wiberrentacar.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Wiber Rent a Car


Procesando empresas:  31%|‚ñà‚ñà‚ñà‚ñè      | 22/70 [05:06<10:24, 13.02s/it]


[23/70] üè¢ Procesando: Opodo
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.opodo.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Opodo


Procesando empresas:  33%|‚ñà‚ñà‚ñà‚ñé      | 23/70 [05:16<09:35, 12.24s/it]


[24/70] üè¢ Procesando: Volotea
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/volotea.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Volotea


Procesando empresas:  34%|‚ñà‚ñà‚ñà‚ñç      | 24/70 [05:27<09:02, 11.80s/it]


[25/70] üè¢ Procesando: Central de Reservas
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.centraldereservas.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Central de Reservas


Procesando empresas:  36%|‚ñà‚ñà‚ñà‚ñå      | 25/70 [05:36<08:21, 11.13s/it]


[26/70] üè¢ Procesando: Stayforlong
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/stayforlong.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Stayforlong


Procesando empresas:  37%|‚ñà‚ñà‚ñà‚ñã      | 26/70 [05:47<08:07, 11.07s/it]


[27/70] üè¢ Procesando: WeRoad Espa√±a - Viajes en grupo
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.weroad.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de WeRoad Espa√±a - Viajes en grupo


Procesando empresas:  39%|‚ñà‚ñà‚ñà‚ñä      | 27/70 [06:37<16:18, 22.77s/it]


[28/70] üè¢ Procesando: Viajes Camino de Santiago
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/viajecaminodesantiago.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Viajes Camino de Santiago


Procesando empresas:  40%|‚ñà‚ñà‚ñà‚ñà      | 28/70 [07:19<19:50, 28.34s/it]


[29/70] üè¢ Procesando: LOCK & enjoy! Luggage Storage
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/lockandenjoy.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de LOCK & enjoy! Luggage Storage


Procesando empresas:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 29/70 [07:26<15:07, 22.14s/it]


[30/70] üè¢ Procesando: Tubuencamino
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/tubuencamino.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Tubuencamino


Procesando empresas:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 30/70 [07:35<12:07, 18.19s/it]


[31/70] üè¢ Procesando: Jump
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/jump2spain.com
   ‚úÖ P√°gina 1: 1 rese√±as extra√≠das
   üèÅ No hay m√°s p√°ginas de rese√±as
üìä Total: 1 rese√±as extra√≠das de Jump


Procesando empresas:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 31/70 [07:44<09:59, 15.38s/it]


[32/70] üè¢ Procesando: TRASLADOS AEROPUERTO MADRID
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/trasladosaeropuertomadrid.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de TRASLADOS AEROPUERTO MADRID


Procesando empresas:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 32/70 [07:53<08:27, 13.35s/it]


[33/70] üè¢ Procesando: Scuba Finders
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/scubafinders.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Scuba Finders


Procesando empresas:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 33/70 [08:04<07:45, 12.57s/it]


[34/70] üè¢ Procesando: Estiber.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/estiber.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Estiber.com


Procesando empresas:  49%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 34/70 [08:15<07:22, 12.29s/it]


[35/70] üè¢ Procesando: Holidu
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/holidu.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Holidu


Procesando empresas:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 35/70 [08:24<06:35, 11.31s/it]


[36/70] üè¢ Procesando: Waynabox - Surprise Trips
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/waynabox.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Waynabox - Surprise Trips


Procesando empresas:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 36/70 [08:35<06:16, 11.08s/it]


[37/70] üè¢ Procesando: Vacation Marbella
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/vacationmarbella.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Vacation Marbella


Procesando empresas:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 37/70 [08:48<06:30, 11.84s/it]


[38/70] üè¢ Procesando: Antia Viajes
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/antiaviajes.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Antia Viajes


Procesando empresas:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 38/70 [09:01<06:24, 12.02s/it]


[39/70] üè¢ Procesando: Orbis Ways
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/orbisways.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Orbis Ways


Procesando empresas:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 39/70 [09:11<05:56, 11.50s/it]


[40/70] üè¢ Procesando: Maestro Casas
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/maestrocasas.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Maestro Casas


Procesando empresas:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 40/70 [09:21<05:33, 11.12s/it]


[41/70] üè¢ Procesando: Civitatis
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/civitatis.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Civitatis


Procesando empresas:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 41/70 [09:31<05:10, 10.72s/it]


[42/70] üè¢ Procesando: Hotel Treats
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/hoteltreats.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Hotel Treats


Procesando empresas:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 42/70 [09:43<05:06, 10.96s/it]


[43/70] üè¢ Procesando: Arctic Yeti
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/arcticyeti.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Arctic Yeti


Procesando empresas:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 43/70 [09:52<04:41, 10.43s/it]


[44/70] üè¢ Procesando: SOLTEROS VIAJEROS
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/solterosviajeros.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de SOLTEROS VIAJEROS


Procesando empresas:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 44/70 [10:01<04:23, 10.14s/it]


[45/70] üè¢ Procesando: Lanzarote Airport Transfers
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/lanzaroteairporttransfers.co.uk
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Lanzarote Airport Transfers


Procesando empresas:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 45/70 [10:12<04:18, 10.32s/it]


[46/70] üè¢ Procesando: Exoticca
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/exoticca.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Exoticca


Procesando empresas:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 46/70 [10:22<04:08, 10.35s/it]


[47/70] üè¢ Procesando: Homerti
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.homerti.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Homerti


Procesando empresas:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 47/70 [10:32<03:51, 10.08s/it]


[48/70] üè¢ Procesando: Skyscanner
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/skyscanner.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Skyscanner


Procesando empresas:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 48/70 [10:43<03:45, 10.26s/it]


[49/70] üè¢ Procesando: Interhome
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.interhome.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Interhome


Procesando empresas:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 49/70 [10:53<03:35, 10.27s/it]


[50/70] üè¢ Procesando: Gudog
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/gudog.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Gudog


Procesando empresas:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 50/70 [11:04<03:30, 10.55s/it]


[51/70] üè¢ Procesando: Vacalia
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/vacalia.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Vacalia


Procesando empresas:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 51/70 [11:15<03:21, 10.58s/it]


[52/70] üè¢ Procesando: Howlanders
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/howlanders.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Howlanders


Procesando empresas:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 52/70 [11:31<03:40, 12.27s/it]


[53/70] üè¢ Procesando: Mistertransfer
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/mistertransfer.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Mistertransfer


Procesando empresas:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 53/70 [12:01<05:00, 17.66s/it]


[54/70] üè¢ Procesando: Shuttle Direct
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.shuttledirect.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Shuttle Direct


Procesando empresas:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 54/70 [12:10<03:58, 14.89s/it]


[55/70] üè¢ Procesando: Drimer
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/drimer.io
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Drimer


Procesando empresas:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 55/70 [12:21<03:26, 13.77s/it]


[56/70] üè¢ Procesando: Sea Riders Badalona
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/seariders.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Sea Riders Badalona


Procesando empresas:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 56/70 [12:32<03:01, 12.97s/it]


[57/70] üè¢ Procesando: Rentalmotorbike
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/rentalmotorbike.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Rentalmotorbike


Procesando empresas:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 57/70 [12:45<02:47, 12.91s/it]


[58/70] üè¢ Procesando: Uniite Travel
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/uniitetravel.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Uniite Travel


Procesando empresas:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 58/70 [12:54<02:23, 11.97s/it]


[59/70] üè¢ Procesando: rumbo.es
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.rumbo.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de rumbo.es


Procesando empresas:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 59/70 [13:03<02:02, 11.10s/it]


[60/70] üè¢ Procesando: BudgetAir.es
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/budgetair.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de BudgetAir.es


Procesando empresas:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 60/70 [13:14<01:49, 10.93s/it]


[61/70] üè¢ Procesando: Outspot
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/outspot.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Outspot


Procesando empresas:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 61/70 [13:24<01:35, 10.59s/it]


[62/70] üè¢ Procesando: cubarentcars.com cubarentcars.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/cubarentcars.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de cubarentcars.com cubarentcars.com


Procesando empresas:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 62/70 [13:34<01:23, 10.48s/it]


[63/70] üè¢ Procesando: Gobycar
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.gobycar.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Gobycar


Procesando empresas:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 63/70 [13:44<01:12, 10.39s/it]


[64/70] üè¢ Procesando: My City Home
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/mycityhome.es
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de My City Home


Procesando empresas:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 64/70 [13:55<01:03, 10.63s/it]


[65/70] üè¢ Procesando: hotelbreak
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/hotelbreak.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de hotelbreak


Procesando empresas:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 65/70 [14:07<00:54, 10.94s/it]


[66/70] üè¢ Procesando: Iberojet.com
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/iberojet.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Iberojet.com


Procesando empresas:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 66/70 [14:17<00:42, 10.56s/it]


[67/70] üè¢ Procesando: Chekin
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/chekin.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Chekin


Procesando empresas:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 67/70 [14:28<00:32, 10.67s/it]


[68/70] üè¢ Procesando: Immi-Assist.online
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/www.immi-assist.online
   ‚úÖ P√°gina 1: 13 rese√±as extra√≠das
   üèÅ No hay m√°s p√°ginas de rese√±as
üìä Total: 13 rese√±as extra√≠das de Immi-Assist.online


Procesando empresas:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 68/70 [14:39<00:21, 10.92s/it]


[69/70] üè¢ Procesando: Pilots Center
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/pilotscenter.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Pilots Center


Procesando empresas:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 69/70 [14:47<00:10, 10.01s/it]


[70/70] üè¢ Procesando: Arenatours
   üìÑ P√°gina 1 de rese√±as: https://es.trustpilot.com/review/arenatours.com
   ‚úÖ P√°gina 1: 20 rese√±as extra√≠das
üìä Total: 20 rese√±as extra√≠das de Arenatours


Procesando empresas: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 70/70 [14:57<00:00, 12.82s/it]



‚úÖ Scraping completado!
üìä Total de rese√±as extra√≠das: 1359
üíæ Archivo guardado: trustpilot_travel_reviews_20250701_181108.csv

üìà Estad√≠sticas:
   ‚Ä¢ Empresas √∫nicas: 70
   ‚Ä¢ Promedio de rese√±as por empresa: 19.4
   ‚Ä¢ Distribuci√≥n de puntuaciones:
     ‚≠ê 1: 158 rese√±as (11.6%)
     ‚≠ê 2: 33 rese√±as (2.4%)
     ‚≠ê 3: 40 rese√±as (2.9%)
     ‚≠ê 4: 133 rese√±as (9.8%)
     ‚≠ê 5: 995 rese√±as (73.2%)

üîö Navegador cerrado.


In [12]:
# Ver estad√≠sticas del dataset
if 'df_results' in locals():
    print("üìä Resumen del dataset:")
    print(f"Total de rese√±as: {len(df_results)}")
    print(f"Empresas √∫nicas: {df_results['company_name'].nunique()}")
    print(f"\nDistribuci√≥n de puntuaciones:")
    print(df_results['customer_score'].value_counts().sort_index())
    
    # Mostrar primeras filas
    print("\nüìã Primeras 5 rese√±as:")
    display(df_results.head())


üìä Resumen del dataset:
Total de rese√±as: 1359
Empresas √∫nicas: 70

Distribuci√≥n de puntuaciones:
customer_score
1    158
2     33
3     40
4    133
5    995
Name: count, dtype: int64

üìã Primeras 5 rese√±as:


Unnamed: 0,review_id,domain,company_name,categories,company_rating,review_date,customer_name,customer_score,review_text,language,sentiment,emotion,customer_gender,main_topic,keywords,customer_type,tourist_type,group_type,analyzed
0,1a7e7f41b5d6,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T23:39:24.000Z,Italo Constenla Carrillo,5,"Marcelo un gran gu√≠a , una muy grata experienc...",,,,,,,,,,False
1,f17c6e5f270f,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T23:21:03.000Z,Noelia Tannous,5,"Laura Trovato ha sido una magn√≠fica gu√≠a, muy ...",,,,,,,,,,False
2,218f31094ed0,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T20:37:20.000Z,Cliente,5,Muy recomendable,,,,,,,,,,False
3,105e9dfd9448,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T19:35:47.000Z,Manuel Gonz√°lez,5,Muy buena plataforma para hacer tours por dife...,,,,,,,,,,False
4,a77cd0af2ebc,guruwalk.com,Guruwalk - Free tours,travel_vacation,49,2025-07-01T09:36:47.000Z,RS,5,Tour entretenido y ameno por el casco antiguo ...,,,,,,,,,,False


In [13]:
# Funci√≥n para cargar y combinar m√∫ltiples archivos CSV
def combine_csv_files(pattern="trustpilot_travel_reviews_*.csv"):
    """Combina m√∫ltiples archivos CSV en un solo DataFrame"""
    import glob
    
    files = glob.glob(pattern)
    if not files:
        print("No se encontraron archivos CSV")
        return None
    
    dfs = []
    for file in files:
        df = pd.read_csv(file, encoding='utf-8-sig')
        dfs.append(df)
    
    combined_df = pd.concat(dfs, ignore_index=True)
    
    # Eliminar duplicados basados en review_id
    combined_df = combined_df.drop_duplicates(subset=['review_id'])
    
    print(f"Archivos combinados: {len(files)}")
    print(f"Total de rese√±as √∫nicas: {len(combined_df)}")
    
    return combined_df


In [None]:
'''
# Funci√≥n para filtrar rese√±as por puntuaci√≥n o fecha
def filter_reviews(df, min_score=None, max_score=None, start_date=None, end_date=None):
    """Filtra rese√±as seg√∫n criterios espec√≠ficos"""
    filtered_df = df.copy()
    
    if min_score is not None:
        filtered_df = filtered_df[filtered_df['customer_score'] >= min_score]
    
    if max_score is not None:
        filtered_df = filtered_df[filtered_df['customer_score'] <= max_score]
    
    if start_date is not None:
        filtered_df['review_date'] = pd.to_datetime(filtered_df['review_date'])
        filtered_df = filtered_df[filtered_df['review_date'] >= start_date]
    
    if end_date is not None:
        filtered_df['review_date'] = pd.to_datetime(filtered_df['review_date'])
        filtered_df = filtered_df[filtered_df['review_date'] <= end_date]
    
    print(f"Rese√±as filtradas: {len(filtered_df)} de {len(df)}")
    return filtered_df

# Ejemplo de uso:
# df_filtered = filter_reviews(df_results, min_score=4, start_date='2024-01-01')
'''