Note: Some console outputs (print statements) were generated during the initial model runs in Spanish.
Since these steps involve computationally expensive models, the notebook
is not re-executed to avoid unnecessary computation. The code has been fully translated into English
for reproducibility, and the stored outputs do not affect the functioning of the notebook.

In [4]:
import pandas as pd

# Load dataset generated in Notebook 5
input_path = PROCESSED_DIR / INPUT_FILE
df= pd.read_pickle(input_path)
print(f"Dataset loaded: {df.shape} rows")
print(f"Columns: {list(df.columns)}")

Dataset loaded: (74759, 25) rows
Columns: ['review_text', 'review_en', 'rating', 'date', 'user_total_reviews', 'user_id', 'is_local_guide', 'lang', 'park_name', 'text_length', 'year', 'month', 'quarter', 'month_name', 'season', 'gender', 'text_bert', 'text_stats', 'text_en_clean', 'topic_id', 'topic_label', 'sentiment_true', 'dataset_split', 'predicted_rating', 'final_sentiment']


In [None]:
# ==========================================================
# Review sampling for manual inspection of emotional content
# ==========================================================

import pandas as pd
from IPython.display import display

# Display configuration (full text visibility)
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", 200)

# ============================================
# 1. Random sample of raw reviews
# ============================================
sample_raw = df[["review_text", "rating", "park_name", "lang"]].sample(5, random_state=42)
display(sample_raw)

# ============================================
# 2. Random sample of cleaned text (text_bert)
# ============================================
sample_clean = df[["text_bert", "rating", "park_name", "lang"]].sample(5, random_state=42)
display(sample_clean)

# ============================================
# 3. Long reviews (potentially richer emotional signal)
# ============================================
long_reviews = df[df["text_length"] > 150][
    ["review_text", "rating", "park_name", "lang", "text_length"]
].sample(5, random_state=42)
display(long_reviews)

# ============================================
# 4. Random samples per park
# ============================================

parks = ["PortAventura", "Parque Warner", "Parque Atracciones Madrid"]

for park in parks:
    print(f"\n--- {park}: 5 sample reviews ---")
    subset = df[df["park_name"] == park][["review_text", "rating", "lang"]].sample(5, random_state=42)
    display(subset)

# ============================================
# 5. Random samples per language
# ============================================

languages = ["es", "fr", "pt", "ru"]

for lang in languages:
    print(f"\n--- Language: {lang.upper()} ---")
    subset = df[df["lang"] == lang][["review_text", "rating", "park_name"]].sample(5, random_state=42)
    display(subset)

# ============================================
# 6. Scrollable / continuous text view
# ============================================

scroll_sample = df[["review_text", "rating", "park_name", "lang"]].sample(10, random_state=42)

for idx, row in scroll_sample.iterrows():
    print("=" * 100)
    print(f"ID: {idx}")
    print(f"Park: {row['park_name']} | Language: {row['lang']} | Rating: {row['rating']}")
    print("-" * 100)
    print(row["review_text"])
    print("\n")

Unnamed: 0,review_text,rating,park_name,lang
47902,"Los pasamos genial, vale la pena repetir el segundo día.",5,Parque Warner,es
4801,"Muy bonito parque , atracciones increíbles,lo único malo que es caro la entrada 60€ ,la taquilla para guardar cosas 3€ ,agua a 4,50€ ,menús bastante caros , entiendo igual que el mantenimiento del sitio es caro y la despedida con juegos artificiales debe ser bastante caro .",4,PortAventura,es
3559,Ambiance sympas. De bonnes attraction à sensations. Bémols pour la gestion de l'attente et l'absence de restaurants pour manger le soir,4,PortAventura,fr
30726,"Es un buen Parke de atracciones para niños, niñas, mujeres, hombres.... De todo el mundo. I divertirte con tus amigos.",5,PortAventura,es
23966,Los sitios de comida cierran y te quedas sin opciones por muchas horas. No vayas esperando que sea un parque de Orlando. No lo es.,1,PortAventura,es


Unnamed: 0,text_bert,rating,park_name,lang
47902,"Los pasamos genial , vale la pena repetir el segundo día .",5,Parque Warner,es
4801,"Muy bonito parque , atracciones increíbles , lo único malo que es caro la entrada 60€ , la taquilla para guardar cosas 3€ , agua a 4 , 50€ , menús bastante caros , entiendo igual que el mantenimiento del sitio es caro y la despedida con juegos artificiales debe ser bastante caro .",4,PortAventura,es
3559,Ambiance sympas . De bonnes attraction à sensations . Bémols pour la gestion de l'attente et l'absence de restaurants pour manger le soir,4,PortAventura,fr
30726,"Es un buen Parke de atracciones para niños , niñas , mujeres , hombres . . . . De todo el mundo . I divertirte con tus amigos .",5,PortAventura,es
23966,Los sitios de comida cierran y te quedas sin opciones por muchas horas . No vayas esperando que sea un parque de Orlando . No lo es .,1,PortAventura,es


Unnamed: 0,review_text,rating,park_name,lang,text_length
30986,"A faire en 2 jours minimum, petit bémol pour la nourriture un peu excessive sur les prix. Mais vous pouvez cacher vos sandwichs au fond d'un sac,le personnel n'est pas autorisé à fouiller (ouverture du sac et coup d'oeil)",4,PortAventura,fr,221
32869,"Отличный парк аттракционов для семейного отдыха, несмотря на то, что самые экстремальные горки для людей выше 1,4 метра, развлечения можно найти для любого возраста и роста. Довольно людно, отчего очереди на популярные аттракционы могут быть ооочень длинными",5,PortAventura,ru,258
74652,"Me gusta la adrenalina que suelta tu cuerpo cuando te tiras desde lo alto de una de las atracciones tan tan altas como la alnzadera o el avismo. nose que mas decir pero me encanta este sitio. el precio es bueno pero te sale mas barato si compras la entrada por internet, me encantan las atraciones de agua y cada vez que voy me gusta montar en los recreativos y conseguir un peluche a mi novia. nose que mas decir de este sitio solo pido que vengas si aun no lo has conocido por que no sabes lo que te pierdes",5,Parque Atracciones Madrid,es,509
39177,"Muy divertido! Buenas atracciones, tiene simuladores, montañas rusas (algunas con agua) y hay una zona para los niños. Es para hacer tanto en familia como con grupo de amigos",4,Parque Warner,es,174
9756,"el agosto pasado,fui alli con mi coche, antes de pasar por la entrada de telepeaje de port aventura, y me di cuenta de que la conductora del coche delante quitó el aparato VIA-T desde el cristal de su coche, no entendí, y luego cuando pasé, el trabajador me paró y su telepeaje me cobró 3 veces, es decir 3 x12 euros=36 euros. y llevo casi un año pidiendo que me devuelva dinero, y hasta ahora nada. parece que no soy el unico que se encuetra con este juego sucio! hay que tener mucho cuidado con esta trampa!!!!!!!",1,PortAventura,es,515


Unnamed: 0,review_text,rating,lang
4342,Estuve el día que 12/09/24 y fue u robo pero sin arma. Después de estar en la atracción desde las 16:15nos hechas a las 18:00 del paraje por cierre. Yo pienso que es por falta de personal por ese motivo ayer funciono tan mal todo el parque entero. Decían que por meteorología solo funciona un bagon que los otros con el aire no se puede y shambala no funciona en todo el día y el resto de atracciones como he comentado solo un bagon para los que pagan el pase para no hacer cola. Todo el mundo que ayer fue al parque esta en su derecho de reclamar los 62 euros que vale entrar al parque.,1,es
10804,"Maravilloso, todos los trabajadores súper amables y el parque muy muy cuidado",5,es
12032,"Mal fin de semana para ir a Port Aventura. Como siempre, ambientacion y atracciones geniales, pero excesiva cola en todas las atracciones, incluso en la arte del Sesamo aventura teniendo que esperar más de 1h para subir a unos avioncitos.... Experiencia mala este fin de semana. He ido otras veces i todo muy bien.....creo que el problema ha sido la mala eleccion de la fecha",2,es
31780,"Para ir con los niños esta muy bien, estuvimos en el espectáculo de china de pompas y les encantó a los niños y mayores .",5,es
12036,"Cómo parque temático está bien, pero deben mejorar varias cuestiones importantes. Mejorar la señalización, ya que hay zonas en las que faltan indicadores y es difícil encontrar las zonas temáticas, aunque lleves plano en mano. Mejorar la iluminación nocturna ya que hay zonas de paso que están tan oscuras que apenas se ve por dónde vas. La información del tiempo de espera en las atracciones frecuentemente no coincide con la realidad. No me parece nada correcto que anuncien diferentes tipos de pases exprés con diferentes precios y al ir a adquirirlo en una de las máquinas del parque sólo se puede adquirir los más caros, desapareciendo el más económico. Un parque en el que hay atracciones que tienen hasta 5 horas de espera, evidentemente te hace pensar en no volver a visitarlo. Lo que sí tengo que reconocer muy positivo, y doy mis felicitaciones por el buen trato, amabilidad y buen desempeño de su trabajo a todos los trabajadores del parque.",3,es


Unnamed: 0,review_text,rating,lang
44525,"Horrible!!! No hay control de aforo, colas de tres horas para subir a una atracción de dos minutos. Una gran estafa!!! Lo peor que juegan con la ilusión de los niños. Nunca lo recomendaria, es un abuso desde que entras hasta que sales. Pagar y llorar",1,es
41043,Buen parque temático donde pasar un día en familia,4,es
54460,"Las atracciones son variadas, hay para todos los públicos con buenas medidas de seguridad en ellas. Hay varias montañas rusas desde las más desafiantes a las destinadas a niños. Las atracciones de agua son espectaculares aunque solo funcionan en verano. Hay espectáculos a lo largo del día. La temática del parque está bien lograda con distintos ambientes, se cuidan los detalles, sin embargo: Falta información fiable de tiempos de espera medios a la entrada de las atracciones. Comparado con otros como EuroDisney, el parque no está limpio. Algunos comen, beben o fuman en las colas y deja los restos en el suelo.",3,es
36436,"Es espectacular, muy bien organizado y las atracciones una maravilla, llevo como 12 años yendo, lo único que no está tan bien, son los precios de las comidas y bebidas, me parece que para lo que ofrecen es bastante costoso, por lo demás genial.",4,es
54981,Un lugar muy bonito mis hijos se pasaron bien. El primer día estuvimos en las piscinas del parque y el segundo día en las atracciones y el tercer día al zoológico,5,es


Unnamed: 0,review_text,rating,lang
72176,"Muy mal que los minusválidos no puedan subirse acompañados de toda su familia, sólo con un acompañante. En los parques de las malvadas multinacionales les dejan subir acompañados de toda su familia.",3,es
71129,Cuenta con bastantes atracciones. Y zona diferenciada para los mas pequeñosLos festivos está muy lleno. La comida y bebida en el interior me pareció bastante cara,4,es
62776,Muy bonito pero mi hija tiene 3 años y me cobraron 35 euros por la entrada de ella pague más por ella q por nosotros q somos adultos,3,es
64791,"Fuí unos meses antes y me encantó, pero ahora en verano es imposible subirse a cualquier atracción popular. Estuve esperando como 3 horas en colas",3,es
68998,"No sé si la palabra mas adecuada sería DECEPCIONANTE. Fui con mi nieta...11 años..Las entradas carisimas (si nos fijamos en la relación calidad precio). Las atracciones son antiguas, estan mal cuidadas y se demora un siglo para poder montarse en alguna de ellas por el motivo de que hay que hacer colas interminables...1hora 20 para 1 minuto de atracción.... 40 minutos para 30 degundos de otra.... Lo mas divertido fue cuando decidimos tomar algo y comer una piza... 35 euros una piza familiar ( un masacote sin sal, azqueroso , calificado por otro señor que estaba con su familia como (textual) PIZA DE MIE....en un DOMINUS PIZA..Y para colmo te sirven cocacola que no es cocacola , sino que es una especie de pepsi cola en unos endebles vasos de cartón, con 4 piedras de hielo para que el líquido que te sirven desde un dispensador sea menos ...es como beber agua fria pero de sabor raro .Dicen que con 65 años entras gratis....Esperaré unos meses y en diciembre regresaré ... Cómo que en invierno no funciona...??? Uuufff...con lo bien que lo pasamos haciendo cola.",3,es


Unnamed: 0,review_text,rating,park_name
61160,"Lo visité en Agosto y no hubo problema de colas y aglomeraciones de gente, pero el mantenimiento de las atracciones dejaba un poco que desear, las más fuertes pasaron un buen rato paradas y fuera de servicio. El ambiente y la animación del parque genial!",3,Parque Warner
4012,"Acabo de salir ayer sábado del parque y que pasaramos el sábado nada más abrir el parque 14 personas, la mitad niños, dentro de la atracción nueva 2 horas por averia no se puede entender, no se revisan antes de abrir el parque? Y según podíamos comprobar en la aplicación no era la única...así cuesta mucho disfrutar de un parque tan bueno,con atracciones que no abren cuando se abre el parque... Horror la gente fumando en las colas, a pesar de estar prohibido, deberían de verse más los carteles y recordarlo, es un tema inaceptable y en el que el parque debería tomar medidas para que se cumpla.",3,PortAventura
4336,"Fantastico de lujo, la niña se lo paso muy bien y nosotos tambien",5,PortAventura
59985,"Comer o beber en el parque.... Un suplicio, todo cerrado. Solo salchipapas pasadas, perritos y pizzas... Mucho mucho que mejorar en este sentido con respecto a otros parques españoles y europeos.",2,Parque Warner
11532,"Espectacular, parque de atracciones divertido des de pequeños a grandes. Siempre nos gusta ir quando lo decoran para navidad y sobretodo para pasar el día viendo los espectáculos. La rua de la tarde y los fuegos precioso.",5,PortAventura


Unnamed: 0,review_text,rating,park_name
10431,Déçu trop t attente mais avec le pack express pas assez de restaurants et hôtel mal isolé pour des 4 étoiles un peu déçu,3,PortAventura
5860,"Les temps d'attente sont plus respectés. Trop de pass, de tricherie.. Demain des pass et plus jamais on ne reviendra",1,PortAventura
3416,"Réservation faite via l'hôtel port aventura pour 2 jours de parc Sur place nous avons acheté les pass pour éviter la queue sur 10 attractions, une fois dans le parc, 5 attractions sur les 10 étaient fermées... Après discussion à l'accueil du parc, impossible d'avoir un geste commercial (6 pass a 35€ pourtant achetés)",2,PortAventura
21608,Superbe Park pour la famille multiples attractions pour tous,5,PortAventura
8203,Tout d'abord dommage qu'on ne puisse pas mettre zéro étoile. Nous sommes venu en famille à 5 et nous somme tous autant les uns que les autres très très déçu... nous avons passé 3h dans la queue du train de la mine c'est à dire de 11h à 14h pour nous dire au milieux de la file que l'attraction est tombé en panne tous mais tous sa s'en avoir fait l'attraction. Ensuite nous avons voulus faire une attraction mais visiblement elle n'ai pas faites pour les personnes de forte corpulence et bien évidemment toute les autres suivent donc une personne forte ne peut rien faire. Ainsi ne parlons même pas de la propreté du parc en dirais une déchèterie. Pas un agent pas une personne du parc ne parle un mot français enfin non pas une personne ne fait L'EFFORT de parler français. Et y'a encore malheureusement beaucoup de chose à revoir extrêmement déçu des heures d'ouverture du parc des heures d'attentes. Enfin bon extrêmement déçu de tout le parc.,1,PortAventura


Unnamed: 0,review_text,rating,park_name
40900,"Maravilhoso, apesar de estar em manutenção em vários locais do parque, minha experiência foi ótima!",5,Parque Warner
55727,"Excelente, recomendável, louco, inesquecível, aventureiro, muito bom local, muito bem pensado, muito bonito, muito grande, muito acolhedor, muito sociável, muito agradável, muito bons espectáculos, muito bons divertimentos, muita variedade de alimentação e com qualidade, muita boa loja com recordações, muita variedade com fotos pelos próprios funcionários nos mais variados divertimentos, muito bons funcionários, muito bons artistas, muito higiénico, muito atenciosos, muita diversidade, um bom relembrar de velhos tempos da Warner, muita segurança, fácil acesso, muito estacionamento junto ao parque, excelente mesmo 👌👍😉😁❤️👏👏🏻👏🏼👏🏽👏🏾👏🏿✔️1️⃣0️⃣0️⃣%🆒⭐⭐⭐⭐⭐",5,Parque Warner
50178,Pena o dia de chuva..acabou por compensar no tempo de espera para as diversões porque não havia muita gente no parque...,5,Parque Warner
27977,Olá estou aqui para dar a minha opinião. #thebestintheworld Gostei muito mas mesmo muito e recomendo a todas as familias que lá vão. Tem divertimentos para todas as idades(miúdos e graudos).,5,PortAventura
34926,"Fui em setembro, já tinham fechado o parque com água, tinha bastantes restaurantes fechados e brinquedos também. Mas foi um dia bem divertido e engraçado, para quem gosta de montanhas russas vai adorar. Estavam com uma exposição dos filmes conjuring, ótima experiência. Abre ao 12h",5,Parque Warner


Unnamed: 0,review_text,rating,park_name
24979,"Классное место, классные горки. НО людей ооочень много, очереди сумасшедшие. Ожидание около 1-1.5 часа для того, что бы прокатится 2-3 мин. Останавливались в отеле при парке. Рекомендую.",4,PortAventura
31792,"Здорово, рекомендую однозначно. Один только минус, это очереди, на самые востребованные аттракционы приходится ждать по часу.",4,PortAventura
28134,Супер. Отличное место. Были 2 дня. Все понравилось.,5,PortAventura
24292,"Великолепный парк развлечений для детей и взрослых! Всё на высшем уровне, дети в восторге. Аттракционы для любых возрастов, отдельно есть чисто детская часть парка. Очень жаль что в России ничего подобного нет🤷🏼‍♂️",5,PortAventura
32509,"Всё хорошо, но при покупке билетов и ВИП-прохода (без очередей), не предупредили что он действует далеко не везде.",4,PortAventura


ID: 47902
Parque: Parque Warner | Idioma: es | Rating: 5
----------------------------------------------------------------------------------------------------
Los pasamos genial, vale la pena repetir el segundo día.


ID: 4801
Parque: PortAventura | Idioma: es | Rating: 4
----------------------------------------------------------------------------------------------------
Muy bonito parque , atracciones increíbles,lo único malo que es caro la entrada 60€ ,la taquilla para guardar cosas 3€ ,agua a 4,50€ ,menús bastante caros , entiendo igual que el mantenimiento del sitio es caro y la despedida con juegos artificiales debe ser bastante caro .


ID: 3559
Parque: PortAventura | Idioma: fr | Rating: 4
----------------------------------------------------------------------------------------------------
Ambiance sympas. De bonnes attraction à sensations. Bémols pour la gestion de l'attente et l'absence de restaurants pour manger le soir


ID: 30726
Parque: PortAventura | Idioma: es | Rating: 5


In [None]:
# =========================================================
# Core imports and device configuration
# =========================================================

import os
import torch
import pandas as pd
from tqdm.auto import tqdm

from transformers import (
    pipeline,
    AutoTokenizer,
    AutoModelForSequenceClassification,
    TrainingArguments,
    Trainer
)

from datasets import Dataset
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score

# Detect computation device
device = 0 if torch.cuda.is_available() else -1
print(f"Device: {'GPU' if device == 0 else 'CPU'}")

Dispositivo: GPU


In [None]:
from transformers import pipeline
from tqdm.auto import tqdm
import pandas as pd

# ============================================================
# 1. Load zero-shot emotion classifier (XLM-R Large)
# ============================================================

print("Loading zero-shot multilingual classifier (vicgalle/xlm-roberta-large-xnli-anli)...")

model_name = "vicgalle/xlm-roberta-large-xnli-anli"

classifier = pipeline(
    task="zero-shot-classification",
    model=model_name,
    device=0  # GPU preferred
)

# Emotion label set (English performs best for hypothesis testing)
candidate_labels = [
    "joy",
    "excitement",
    "anger",
    "frustration",
    "boredom",
    "disgust",
    "mistrust"
]

# ============================================================
# 2. Emotion inference
# ============================================================

print(f"Running emotion detection on {len(df)} reviews...")

texts = df["text_bert"].tolist()
emotion_predictions = []

batch_size = 32  # Suitable for large models

for i in tqdm(range(0, len(texts), batch_size)):
    batch = texts[i : i + batch_size]

    # multi_label=False → returns only the most likely emotion
    outputs = classifier(
        batch,
        candidate_labels,
        multi_label=False
    )

    for out in outputs:
        # Select the top-ranked emotion
        emotion_predictions.append(out["labels"][0])

# Assign output to the dataframe
df["emotion"] = emotion_predictions

print("\nEmotion distribution:")
print(df["emotion"].value_counts(normalize=True).round(3))

Cargando modelo multilingüe avanzado (Vicgalle XLM-R + ANLI)...


Device set to use cuda:0


Detectando emociones en 74759 reseñas...


  0%|          | 0/2337 [00:00<?, ?it/s]

Distribución de emociones detectadas:
emotion
excitement     0.405249
frustration    0.349095
joy            0.159780
disgust        0.042336
mistrust       0.036531
boredom        0.005779
anger          0.001231
Name: proportion, dtype: float64


In [None]:
print(df['emotion'].value_counts(normalize=True))

emotion
excitement     0.405249
frustration    0.349095
joy            0.159780
disgust        0.042336
mistrust       0.036531
boredom        0.005779
anger          0.001231
Name: proportion, dtype: float64
