In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import requests
import json
from tqdm import tqdm
import time
from datetime import datetime
import os
import glob
import pickle
from typing import Dict, List, Optional, Tuple


In [2]:
# Configuraci√≥n de API
OPENROUTER_API_KEY = "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"  # Obtener de https://openrouter.ai/keys
OPENROUTER_API_URL = "https://openrouter.ai/api/v1/chat/completions"

# Modelo recomendado (puedes cambiar seg√∫n necesidades y presupuesto)
MODEL = "google/gemini-2.5-flash"  # R√°pido y econ√≥mico
# Alternativas: "openai/gpt-3.5-turbo", "meta-llama/llama-3-8b-instruct"

# Headers para las peticiones
headers = {
    "Authorization": f"Bearer {OPENROUTER_API_KEY}",
    "Content-Type": "application/json",
    "HTTP-Referer": "http://localhost:8888",  # Requerido por OpenRouter
    "X-Title": "TrustPilot Analysis"
}

# Definir los campos esperados en la respuesta del modelo (en orden)
CAMPOS_ANALISIS = [
    "language", "sentiment", "sentiment_score", "emotion", "emotion_intensity", "customer_gender",
    "main_topic", "keywords", "customer_type", "tourist_type", "group_type"
]

# Variables globales para los nombres de las columnas (se asignar√°n din√°micamente)
REVIEW_TEXT_COL = None
CUSTOMER_NAME_COL = None

In [3]:
# Cargar el CSV con las rese√±as
df = pd.read_csv('./test.csv', encoding='utf-8-sig')

# Limpiar nombres de columnas (quitar espacios extra)
df.columns = df.columns.str.strip()

# Mostrar todas las columnas para identificar correctamente
print(f"Total de rese√±as: {len(df)}")
print(f"Columnas en el CSV:")
for i, col in enumerate(df.columns):
    print(f"  {i}: '{col}' (longitud: {len(col)})")

# Buscar la columna de review_text (puede tener nombre ligeramente diferente)
texto_columnas = [col for col in df.columns if 'review' in col.lower() and 'text' in col.lower()]
nombre_columnas = [col for col in df.columns if 'customer' in col.lower() and 'name' in col.lower()]

print(f"\nColumnas que contienen 'review' y 'text': {texto_columnas}")
print(f"Columnas que contienen 'customer' y 'name': {nombre_columnas}")

# Si encontramos las columnas, proceder con la limpieza
if texto_columnas and nombre_columnas:
    # Asignar variables globales
    REVIEW_TEXT_COL = texto_columnas[0]
    CUSTOMER_NAME_COL = nombre_columnas[0]
    
    print(f"\nUsando columnas:")
    print(f"- Texto de rese√±a: '{REVIEW_TEXT_COL}'")
    print(f"- Nombre del cliente: '{CUSTOMER_NAME_COL}'")
    
    # Limpiar datos: eliminar filas con review_text vac√≠o o nulo
    df_original_len = len(df)
    df = df.dropna(subset=[REVIEW_TEXT_COL])  # Eliminar filas con texto nulo
    df = df[df[REVIEW_TEXT_COL].astype(str).str.strip() != '']  # Eliminar filas con texto vac√≠o
    
    print(f"\nLimpieza de datos:")
    print(f"- Rese√±as originales: {df_original_len}")
    print(f"- Rese√±as despu√©s de limpieza: {len(df)}")
    print(f"- Rese√±as eliminadas: {df_original_len - len(df)}")
    
    # Inicializar la columna 'analyzed' si no existe
    if 'analyzed' not in df.columns:
        df['analyzed'] = False
        
    print(f"- Rese√±as ya analizadas: {df['analyzed'].sum()}")
    print(f"- Rese√±as pendientes de analizar: {(df['analyzed'] == False).sum()}")
    
else:
    print("\n‚ùå No se encontraron las columnas de texto de rese√±a o nombre del cliente")
    print("Por favor revisa el archivo CSV")

Total de rese√±as: 80
Columnas en el CSV:
  0: 'review_id' (longitud: 9)
  1: 'domain' (longitud: 6)
  2: 'company_name' (longitud: 12)
  3: 'categories' (longitud: 10)
  4: 'subcategories' (longitud: 13)
  5: 'company_rating' (longitud: 14)
  6: 'review_date' (longitud: 11)
  7: 'customer_name' (longitud: 13)
  8: 'customer_score' (longitud: 14)
  9: 'review_text' (longitud: 11)
  10: 'language' (longitud: 8)
  11: 'sentiment' (longitud: 9)
  12: 'emotion' (longitud: 7)
  13: 'customer_gender' (longitud: 15)
  14: 'main_topic' (longitud: 10)
  15: 'keywords' (longitud: 8)
  16: 'customer_type' (longitud: 13)
  17: 'tourist_type' (longitud: 12)
  18: 'group_type' (longitud: 10)
  19: 'analyzed' (longitud: 8)

Columnas que contienen 'review' y 'text': ['review_text']
Columnas que contienen 'customer' y 'name': ['customer_name']

Usando columnas:
- Texto de rese√±a: 'review_text'
- Nombre del cliente: 'customer_name'

Limpieza de datos:
- Rese√±as originales: 80
- Rese√±as despu√©s de li

In [4]:
def crear_prompt_analisis(review_text, customer_name):
    """Crea el prompt para analizar una rese√±a"""
    
    prompt = f"""
Eres un analizador especializado en evaluaci√≥n de rese√±as tur√≠sticas y an√°lisis de sentimientos. Para cada texto que recibas, deber√°s analizar y proporcionar la siguiente informaci√≥n separada por el delimitador "|":

RESE√ëA A ANALIZAR:
Texto: {review_text}
Cliente: {customer_name}

AN√ÅLISIS REQUERIDO (responde cada campo separado por "|"):

0. Language: Clasifica como "es", "en", "fr", "de", "it", "pt", "nl", "ru", "tr", "ar", "zh", "ja", "ko", "other"
1. Sentiment: Clasifica como "Positivo", "Negativo" o "Neutro"
2. Sentiment_score: Eval√∫a en escala de -1 a +1 (-1=extremadamente negativo, 0=neutro, +1=extremadamente positivo)
3. Emotion: Identifica una emoci√≥n (joy, surprise, neutral, sadness, disgust, anger, fear)
4. Emotion_intensity: Intensidad de 1-5 (1=muy leve, 5=muy intensa)
5. Customer_gender: Basado en el nombre (masculino, femenino, unknown)
6. Topic: Tema principal (Atenci√≥n al cliente, Limpieza, Instalaciones, Relaci√≥n calidad-precio, Servicios, Ubicaci√≥n, √âtica y sostenibilidad, Check-in y Check-out, Comodidad y descanso, Oferta gastron√≥mica, Facilidad de reserva y accesibilidad digital, Animaci√≥n y actividades, Seguridad)
7. Keywords: 3-5 t√©rminos relevantes separados por comas SIN espacios
8. Customer_type: Promotor, Leal, Neutral, Cr√≠tico, Oportunista
9. Tourist_type: Turista de ocio, cultural, naturaleza, aventura, compras, espiritual/religioso, gastron√≥mico, deportivo, wellness, solidario/voluntario
10. Group_type: familiar, amigos, pareja, solitario, grupo organizado

FORMATO DE RESPUESTA:
Responde √öNICAMENTE con los valores separados por "|" en el orden exacto listado arriba.
Si no puedes determinar alg√∫n campo, usa "unknown".
NO incluyas espacios antes o despu√©s de los pipes.

Ejemplo: Positivo|0.8|joy|4|femenino|Atenci√≥n al cliente|excelente,servicio,amable|Promotor|Turista de ocio|pareja
"""
    return prompt

In [5]:
def analizar_con_llm(review_text, customer_name, max_retries=3):
    """Llama a OpenRouter para analizar una rese√±a"""
    
    prompt = crear_prompt_analisis(review_text, customer_name)
    
    payload = {
        "model": MODEL,
        "messages": [
            {"role": "system", "content": "Eres un experto en an√°lisis de rese√±as de viajes. Respondes SOLO con los valores separados por |."},
            {"role": "user", "content": prompt}
        ],
        "temperature": 0.1,  # Baja temperatura para respuestas consistentes
        "max_tokens": 500
    }
    
    for intento in range(max_retries):
        try:
            response = requests.post(
                OPENROUTER_API_URL,
                headers=headers,
                json=payload,
                timeout=30
            )
            
            if response.status_code == 200:
                result = response.json()
                content = result['choices'][0]['message']['content']
                
                print(f"Respuesta del modelo: {content}")  # Para depuraci√≥n
                
                if not content.strip():
                    print("Respuesta vac√≠a de la API")
                    return None
                
                # Limpiar posibles markdown o espacios extra
                if "```" in content:
                    # Extraer contenido entre markdown
                    lines = content.split('\n')
                    for line in lines:
                        if '|' in line and not line.strip().startswith('```'):
                            content = line.strip()
                            break
                
                content = content.strip()
                
                # Dividir por el delimitador pipe
                valores = [v.strip() for v in content.split("|")]
                
                # Verificar que tenemos el n√∫mero correcto de campos
                if len(valores) != len(CAMPOS_ANALISIS):
                    print(f"La respuesta no tiene el n√∫mero correcto de campos: {len(valores)} vs {len(CAMPOS_ANALISIS)}")
                    print(f"Valores recibidos: {valores}")
                    return None
                
                # Crear diccionario con los resultados
                resultado = dict(zip(CAMPOS_ANALISIS, valores))
                return resultado
            
            elif response.status_code == 429:  # Rate limit
                time.sleep(2 ** intento)  # Exponential backoff
                continue
            
            else:
                print(f"Error API: {response.status_code} - {response.text}")
                return None
                
        except Exception as e:
            print(f"Error en petici√≥n: {e}")
            if intento < max_retries - 1:
                time.sleep(1)
    
    return None

In [6]:
def procesar_rese√±as_batch(df, batch_size=10, start_index=0):
    """Procesa las rese√±as en lotes para evitar l√≠mites de rate"""
    
    global REVIEW_TEXT_COL, CUSTOMER_NAME_COL
    
    if REVIEW_TEXT_COL is None or CUSTOMER_NAME_COL is None:
        print("‚ùå Error: Las columnas de texto y nombre no han sido identificadas")
        return [], []
    
    # Filtrar solo rese√±as no analizadas (ya limpiamos los datos vac√≠os en la carga)
    df_pendientes = df[df['analyzed'] == False].iloc[start_index:]
    
    print(f"Rese√±as pendientes de analizar: {len(df_pendientes)}")
    
    resultados = []
    errores = []
    
    # Procesar en lotes
    for i in tqdm(range(0, len(df_pendientes), batch_size), desc="Procesando lotes"):
        batch = df_pendientes.iloc[i:i+batch_size]
        
        for idx, row in batch.iterrows():
            # Analizar rese√±a usando nombres de columnas din√°micos
            resultado = analizar_con_llm(
                row[REVIEW_TEXT_COL], 
                row[CUSTOMER_NAME_COL]
            )
            
            if resultado:
                resultado['index'] = idx
                resultados.append(resultado)
            else:
                errores.append({
                    'index': idx,
                    'review_id': row.get('review_id', 'N/A'),
                    'error': 'No se pudo analizar'
                })
            
            # Peque√±a pausa entre peticiones
            time.sleep(0.5)
        
        # Pausa m√°s larga entre lotes
        print(f"Lote completado. Esperando antes del siguiente...")
        time.sleep(2)
    
    return resultados, errores

In [7]:
def actualizar_dataframe(df, resultados):
    """Actualiza el DataFrame con los resultados del an√°lisis"""
    
    # Inicializar las columnas si no existen
    for campo in CAMPOS_ANALISIS:
        if campo not in df.columns:
            df[campo] = None
    
    # Agregar columna 'analyzed' si no existe
    if 'analyzed' not in df.columns:
        df['analyzed'] = False
    
    # Actualizar con los resultados
    for resultado in resultados:
        idx = resultado['index']
        
        # Actualizar cada campo
        for campo in CAMPOS_ANALISIS:
            if campo in resultado:
                df.loc[idx, campo] = resultado[campo]
        
        # Marcar como analizado
        df.loc[idx, 'analyzed'] = True
    
    return df


In [8]:
def guardar_progreso(df, filename_base='trustpilot_analyzed'):
    """Guarda el progreso del an√°lisis"""
    
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    filename = f"{filename_base}_{timestamp}.csv"
    
    df.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"Progreso guardado en: {filename}")
    
    # Tambi√©n guardar un backup del √∫ltimo estado
    df.to_csv(f"{filename_base}_latest.csv", index=False, encoding='utf-8-sig')
    
    return filename

In [9]:
def analizar_trustpilot_reviews(csv_path, batch_size=10, max_reviews=None):
    """Funci√≥n principal para analizar las rese√±as"""
    
    # Cargar datos
    print("üìÇ Cargando datos...")
    df = pd.read_csv(csv_path, encoding='utf-8-sig')
    
    # Limitar n√∫mero de rese√±as si se especifica
    if max_reviews:
        df = df.head(max_reviews)
    
    print(f"üìä Total de rese√±as a procesar: {len(df)}")
    
    # Verificar API key
    if not OPENROUTER_API_KEY or OPENROUTER_API_KEY == "tu-api-key-aqui":
        print("‚ùå Error: Configura tu API key de OpenRouter")
        return None
    
    # Procesar rese√±as
    print("\nü§ñ Iniciando an√°lisis con LLM...")
    resultados, errores = procesar_rese√±as_batch(df, batch_size)
    
    # Actualizar DataFrame
    print(f"\n‚úÖ An√°lisis completado: {len(resultados)} rese√±as")
    print(f"‚ùå Errores: {len(errores)} rese√±as")
    
    df_actualizado = actualizar_dataframe(df, resultados)
    
    # Guardar resultados
    filename = guardar_progreso(df_actualizado)
    
    # Mostrar estad√≠sticas
    print("\nüìà Estad√≠sticas del an√°lisis:")
    if 'sentiment' in df_actualizado.columns:
        print(f"- Sentimientos: {df_actualizado['sentiment'].value_counts().to_dict()}")
    if 'main_topic' in df_actualizado.columns:
        print(f"- Temas principales: {df_actualizado['main_topic'].value_counts().to_dict()}")
    if 'tourist_type' in df_actualizado.columns:
        print(f"- Tipos de turista: {df_actualizado['tourist_type'].value_counts().to_dict()}")
    if 'emotion' in df_actualizado.columns:
        print(f"- Emociones: {df_actualizado['emotion'].value_counts().to_dict()}")
    
    return df_actualizado, errores

In [10]:
# Configurar par√°metros
CSV_PATH = "./test.csv"  # Ajusta el nombre
BATCH_SIZE = 10  # Rese√±as por lote
MAX_REVIEWS = 100  # None para procesar todas

# Ejecutar an√°lisis
df_analizado, errores = analizar_trustpilot_reviews(
    csv_path=CSV_PATH,
    batch_size=BATCH_SIZE,
    max_reviews=MAX_REVIEWS
)

üìÇ Cargando datos...
üìä Total de rese√±as a procesar: 80

ü§ñ Iniciando an√°lisis con LLM...
Rese√±as pendientes de analizar: 80


Procesando lotes:   0%|          | 0/8 [00:00<?, ?it/s]

Respuesta del modelo: es|Positivo|0.95|joy|5|masculino|Servicios|Jap√≥n,sue√±os,guia,Zaida,viaje|Promotor|cultural|grupoorganizado
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Servicios|Jap√≥n,programa,agencia,recomiendo|Promotor|cultural|grupoorganizado
Respuesta del modelo: es|Positivo|0.8|joy|4|masculino|Servicios|guia,lugares,caminar,adelgazar,recomendable|Promotor|Turista cultural|grupo organizado
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Oferta gastron√≥mica|sitiosincre√≠bles,ruta,Zaida|Promotor|cultural,gastron√≥mico|unknown
Respuesta del modelo: es|Positivo|0.9|joy|5|masculino|Servicios|vuelos,traslados,hoteles,excursiones,gu√≠a|Promotor|Turista de ocio|grupo organizado
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Servicios|transporte,guia,ruta,pais,encanto|Promotor|Turista cultural|unknown
Respuesta del modelo: es|Positivo|0.9|joy|5|masculino|Animaci√≥n y actividades|organizaci√≥n,naturaleza,gu√≠a,excepcional,libertad|Promotor|Turista de naturaleza|g

Procesando lotes:  12%|‚ñà‚ñé        | 1/8 [00:31<03:37, 31.00s/it]

Respuesta del modelo: es|Positivo|0.95|joy|5|unknown|Servicios|Jap√≥n,tour,gu√≠a,profesional,recomendad√≠simo|Promotor|cultural|grupo organizado
Respuesta del modelo: es|Positivo|0.7|joy|3|masculino|unknown|viaje,completo|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|5|femenino|Servicios|organizado,desplazamientos,gu√≠as,amables,eficientes|Promotor|Turista de ocio|grupo organizado
Respuesta del modelo: es|Positivo|0.9|joy|4|masculino|Servicios|organizado,DescubriendoJap√≥n,bien|Promotor|cultural|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Atenci√≥n al cliente|fant√°stico,organizado,esfuerzo,dedicaci√≥n,Josep|Promotor|Turista de ocio|grupo organizado
Respuesta del modelo: es|Positivo|0.9|joy|4|unknown|Servicios|viaje,organizado,Jap√≥n,diferente|Promotor|cultural|unknown
Respuesta del modelo: es|Positivo|0.9|joy|5|femenino|Servicios|experiencia,organizaci√≥n,gu√≠as,recomiendo,fenomenal|Promotor|Turista de ocio|unknown
Respuesta del modelo: es

Procesando lotes:  25%|‚ñà‚ñà‚ñå       | 2/8 [00:57<02:50, 28.37s/it]

Respuesta del modelo: unknown|unknown|unknown|unknown|unknown|masculino|unknown|unknown|unknown|unknown|unknown
Respuesta del modelo: es|Positivo|0.7|joy|3|masculino|Facilidad de reserva y accesibilidad digital|facilidad,proceso,reserva|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Neutro|0|neutral|0|masculino|unknown|unknown|unknown|unknown|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|unknown|recomendado,buena|Promotor|unknown|unknown
Respuesta del modelo: es|Positivo|0.7|joy|3|masculino|Atenci√≥n al cliente|servicio,buen|Promotor|unknown|unknown
Respuesta del modelo: es|Positivo|0.7|joy|3|masculino|Facilidad de reserva y accesibilidad digital|f√°cil,intuitiva,opciones|Promotor|unknown|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|masculino|unknown|excelente,llegar|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Facilidad de reserva y accesibilidad digital|facil,usar,reserva,rapido|Promotor|unknown|unknown
Respues

Procesando lotes:  38%|‚ñà‚ñà‚ñà‚ñä      | 3/8 [01:30<02:32, 30.47s/it]

Respuesta del modelo: es|Neutro|0|neutral|1|masculino|Relaci√≥n calidad-precio|precio,servicio|Neutral|unknown|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Atenci√≥n al cliente|atenci√≥n,limpio,sitio|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Neutro|0|neutral|1|femenino|unknown|unknown|unknown|unknown|unknown
Respuesta del modelo: es|Neutro|0|neutral|1|masculino|unknown|unknown|unknown|unknown|unknown
Respuesta del modelo: es|Positivo|0.7|neutral|3|femenino|Facilidad de reserva y accesibilidad digital|reserva,f√°cil|Neutral|Turista de ocio|unknown
Respuesta del modelo: es|unknown|0|neutral|0|masculino|unknown|unknown|unknown|unknown
La respuesta no tiene el n√∫mero correcto de campos: 10 vs 11
Valores recibidos: ['es', 'unknown', '0', 'neutral', '0', 'masculino', 'unknown', 'unknown', 'unknown', 'unknown']
Respuesta del modelo: unknown|Neutro|0|neutral|0|unknown|unknown|unknown|unknown|unknown
La respuesta no tiene el n√∫mero correcto de campos: 10 vs 11


Procesando lotes:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 4/8 [01:57<01:56, 29.25s/it]

Respuesta del modelo: es|Positivo|0.8|joy|4|femenino|Relaci√≥n calidad-precio|ofertas,r√°pido,bien|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|unknown|Relaci√≥n calidad-precio|oferta,atenci√≥n,dudas|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|5|femenino|Atenci√≥n al cliente|precios,amables,Bookaris,publicidad,agencias|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.8|joy|3|femenino|Relaci√≥n calidad-precio|precios,bien|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|unknown|Relaci√≥n calidad-precio|precio,diferencia,mejor|Promotor|unknown|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Atenci√≥n al cliente|anular,r√°pido,amables,reservar,barato|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Relaci√≥n calidad-precio|reserva,precio,perfecta,inmejorable|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|jo

Procesando lotes:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 5/8 [02:18<01:18, 26.18s/it]

Respuesta del modelo: es|Positivo|0.7|joy|3|masculino|Relaci√≥n calidad-precio|precio,recomienda,imposible|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Negativo|-0.7|anger|4|femenino|Oferta gastron√≥mica|apag√≥n,pensi√≥ncompleta,bocadillos,comidap√©sima,dinero|Cr√≠tico|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Facilidad de reserva y accesibilidad digital|preparaci√≥n,viaje,f√°cil,precios|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Neutro|0|neutral|1|masculino|unknown|unknown|unknown|unknown|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Instalaciones|lugar,trato,encanta|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|unknown|unknown|unknown|unknown|masculino|unknown|unknown|unknown|unknown
La respuesta no tiene el n√∫mero correcto de campos: 10 vs 11
Valores recibidos: ['es', 'unknown', 'unknown', 'unknown', 'unknown', 'masculino', 'unknown', 'unknown', 'unknown', 'unknown']
Respuesta del modelo: es|P

Procesando lotes:  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 6/8 [02:44<00:52, 26.21s/it]

Respuesta del modelo: es|Positivo|0.9|joy|5|femenino|Atenci√≥n al cliente|profesional,amable,divertida,Mil√°n,Luc√≠a|Promotor|cultural|solitario
Respuesta del modelo: es|Positivo|0.9|joy|5|masculino|Atenci√≥n al cliente|Marcelo,gu√≠a,experiencia,explicaci√≥n,Mendoza|Promotor|Turista cultural|unknown
Respuesta del modelo: es|Positivo|0.95|joy|5|femenino|Atenci√≥n al cliente|gu√≠a,profesional,apasionada,espa√±ol,Laura|Promotor|Turista cultural|grupo organizado
Respuesta del modelo: es|Positivo|0.8|joy|3|unknown|unknown|recomendable|Promotor|unknown|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|masculino|Facilidad de reserva y accesibilidad digital|plataforma,tours,comunidad,feedback,seguimiento|Promotor|Turista de ocio|solitario
Respuesta del modelo: es|Positivo|0.7|joy|3|unknown|Animaci√≥n y actividades|Tour,entretenido,ameno,cascoantiguo,Santiago|Promotor|cultural|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|masculino|unknown|experiencia,buena|Promotor|unknown|unknown
Resp

Procesando lotes:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 7/8 [03:05<00:24, 24.43s/it]

Respuesta del modelo: es|Positivo|0.9|joy|5|femenino|Atenci√≥n al cliente|recorrido,gu√≠a,profesional,divertida,recomendable|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|masculino|√âtica y sostenibilidad|profesionalidad,transparencia,honradez,gu√≠a|Promotor|Turista cultural|solitario
Respuesta del modelo: es|Positivo|0.9|joy|4|masculino|Servicios|gu√≠a,informada,entretenida,recomendar|Promotor|Turista cultural|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|femenino|Servicios|CascoViejo,Ensanche,Francisco,historia,arquitectura|Promotor|cultural|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|unknown|Animaci√≥n y actividades|ciudad,Mariela,daneses,informaci√≥n,interesante|Promotor|cultural|unknown
Respuesta del modelo: es|Positivo|0.9|joy|5|femenino|Atenci√≥n al cliente|gu√≠a,ameno,conocimiento,Maurizio,vacaciones|Promotor|Turista de ocio|unknown
Respuesta del modelo: es|Positivo|0.9|joy|4|masculino|Servicios|f√°cil,gestionar,comunicaci√≥n,gu√≠as,

Procesando lotes: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [03:25<00:00, 25.69s/it]


‚úÖ An√°lisis completado: 74 rese√±as
‚ùå Errores: 6 rese√±as
Progreso guardado en: trustpilot_analyzed_20250702_124127.csv

üìà Estad√≠sticas del an√°lisis:
- Sentimientos: {'Positivo': 64, 'Neutro': 7, 'unknown': 2, 'Negativo': 1}
- Temas principales: {'Servicios': 18, 'Atenci√≥n al cliente': 14, 'unknown': 13, 'Relaci√≥n calidad-precio': 11, 'Facilidad de reserva y accesibilidad digital': 8, 'Animaci√≥n y actividades': 3, 'Atenci√≥nalcliente': 3, 'Oferta gastron√≥mica': 2, 'Instalaciones': 1, '√âtica y sostenibilidad': 1}
- Tipos de turista: {'Turista de ocio': 33, 'unknown': 16, 'cultural': 13, 'Turista cultural': 8, 'cultural,gastron√≥mico': 1, 'Turista de naturaleza': 1, 'Turistadeocio': 1, 'Turistacultural': 1}
- Emociones: {'joy': 63, 'neutral': 8, 'unknown': 2, 'anger': 1}



  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]
  df.loc[idx, campo] = resultado[campo]


In [11]:
'''
# Crear visualizaciones b√°sicas
import matplotlib.pyplot as plt
import seaborn as sns

# Solo ejecutar si df_analizado existe y tiene datos analizados
if 'df_analizado' in locals() and df_analizado is not None:
    # Configurar estilo
    plt.style.use('seaborn-v0_8')
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))

    # 1. Distribuci√≥n de sentimientos
    if 'sentiment' in df_analizado.columns:
        df_analizado['sentiment'].value_counts().plot(kind='bar', ax=axes[0,0])
        axes[0,0].set_title('Distribuci√≥n de Sentimientos')
    
    # 2. Top 10 temas principales
    if 'main_topic' in df_analizado.columns:
        df_analizado['main_topic'].value_counts().head(10).plot(kind='barh', ax=axes[0,1])
        axes[0,1].set_title('Top 10 Temas Principales')
    
    # 3. Tipos de turista
    if 'tourist_type' in df_analizado.columns:
        df_analizado['tourist_type'].value_counts().plot(kind='pie', ax=axes[1,0])
        axes[1,0].set_title('Tipos de Turista')
    
    # 4. Emociones detectadas
    if 'emotion' in df_analizado.columns:
        df_analizado['emotion'].value_counts().plot(kind='bar', ax=axes[1,1])
        axes[1,1].set_title('Emociones Detectadas')

    plt.tight_layout()
    plt.show()
else:
    print("No hay datos analizados para visualizar. Ejecuta primero el an√°lisis.")

'''

'\n# Crear visualizaciones b√°sicas\nimport matplotlib.pyplot as plt\nimport seaborn as sns\n\n# Solo ejecutar si df_analizado existe y tiene datos analizados\nif \'df_analizado\' in locals() and df_analizado is not None:\n    # Configurar estilo\n    plt.style.use(\'seaborn-v0_8\')\n    fig, axes = plt.subplots(2, 2, figsize=(15, 10))\n\n    # 1. Distribuci√≥n de sentimientos\n    if \'sentiment\' in df_analizado.columns:\n        df_analizado[\'sentiment\'].value_counts().plot(kind=\'bar\', ax=axes[0,0])\n        axes[0,0].set_title(\'Distribuci√≥n de Sentimientos\')\n    \n    # 2. Top 10 temas principales\n    if \'main_topic\' in df_analizado.columns:\n        df_analizado[\'main_topic\'].value_counts().head(10).plot(kind=\'barh\', ax=axes[0,1])\n        axes[0,1].set_title(\'Top 10 Temas Principales\')\n    \n    # 3. Tipos de turista\n    if \'tourist_type\' in df_analizado.columns:\n        df_analizado[\'tourist_type\'].value_counts().plot(kind=\'pie\', ax=axes[1,0])\n        