<a href="https://colab.research.google.com/github/gerpervaz/naturalprocessinglanguage/blob/main/Actividad3_CHIIA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. ADQUISICIÓN DE LOS DATOS

Creamos el dataframe "df" a partir del archivo csv de interés. Hay tres opciones de subir el archivo.

OPCIÓN A) ADQUISICIÓN DE LOS DATOS DESDE GOOGLE DRIVE (más adecuado para archivos grandes, ya que es más rápido  y no usa su tarifa de datos). Léase antes de ejecutar.
 
1. Requiere colocar el csv en su google drive.
2. Cuando se ejecute se le pedirá aceptar permisos para montar su drive en la maquina virtual-instancia a la que está conectado/a.
3. Sus archivos siguen siendo personales, pero desgraciadamente drive.mount no permite montar subcarpetas del drive por lo que se monta el drive completo, por lo que no es recomendable esta opción si dispone de material especialmente sensible en su drive.
4. Al terminar de ejecutar este bloque el google drive se desvinculará de la instancia guardando cualquier cambio hecho en Drive. Este código NO realiza cambios en su google drive, tan solo captura el archivo que contiene el dataset de interés. Sin embargo, cualquier cambio adicional que se realice intencionadamente o no sobre el resto de archivos del drive quedará guardado tras la ejecución de la última celda de este apartado. Si esto sucediera, y quisiera descartar los cambios, debería hacerlo directamente en Google Drive yendo a la ubicación del archivo, haciendo clic con el botón derecho sobre él y seleccionando "Administrar versiones" para revertir a una versión anterior.
5. Debido a lo anterior, es recomendable tras ejecutar este bloque de código, consultar el historial de actividad de su Google Drive siguiendo estos pasos: Inicie sesión en la web de Google Drive, En la esquina superior derecha, haga clic en el ícono de información (una "i" dentro de un círculo). En el panel que se abre a la derecha, seleccione la pestaña "Actividad". Podrá ver una lista de eventos recientes en su Google Drive, como la creación de archivos, modificaciones, eliminaciones y movimientos de archivos.


In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/marketing_sample_for_booking_com-travel__20190501_20190630__30k_data.csv')

In [None]:
# Desmontar el Google Drive (Desmontar ahora o desmontar más tarde si se desean guardar resultados en el drive)
drive.flush_and_unmount()
print("Google Drive desmontado exitosamente.")

Google Drive desmontado exitosamente.


OPCIÓN B) DESDE SU ENTORNO LOCAL DE PC A COLAB

In [None]:
import os
import shutil
from google.colab import files

# Crear la carpeta donde se guardarán los archivos importados
folder_name = "imported_files"
if not os.path.exists(folder_name):
    os.makedirs(folder_name)

uploaded = files.upload()

# Obtener el nombre del archivo subido
file_name = list(uploaded.keys())[0]

# Obtener la ruta completa del archivo en la carpeta especificada
file_path = os.path.join(folder_name, file_name)

# Mover el archivo a la carpeta especificada
shutil.move(file_name, file_path)

# Imprimir la ruta completa del archivo
print(f"El archivo {file_name} se ha guardado en la ruta: {file_path}")



In [None]:
import pandas as pd

df = pd.read_csv('/content/imported_files/marketing_sample_for_booking_com-travel__20190501_20190630__30k_data.csv')

OPCIÓN C) TRABAJAR EN ENTORNO LOCAL

In [None]:
#Sustituir ruta_al_archivo por la ruta donde se encuentre marketing_sample_for_booking_com-travel__20190501_20190630__30k_data.csv

import pandas as pd

df = pd.read_csv('ruta_al_archivo')

In [None]:
import pandas as pd
# Leemos los datos desde el archivo csv
df = pd.read_csv('/content/marketing_sample_for_booking_com-travel__20190501_20190630__30k_data.csv')

In [None]:
num_registros = df.shape[0]
print("El número de registros del DataFrame es:", num_registros)


El número de registros del DataFrame es: 30000


**2. ANÁLISIS EXPLORATORIO DE LOS DATOS**

Este bloque de código muestra distintas opciones de resumir nuestros datos con el fin de facilitar la comprensión de la tipología y formato de los mismos, así como identificar posibles errores susceptibles de ser depurados en el siguiente apartado.

Visualizar los primeros 10 resultados de todas las columnas del dataframe

In [None]:
#"import pandas as pd" si no se ha ejecutado antes.

# Ajustar la opción 'display.max_columns' para mostrar todas las columnas
pd.set_option('display.max_columns', None)

# Ajustar la opción 'display.max_colwidth' para aumentar la anchura de la columna
pd.set_option('display.max_colwidth', 80)  # puedes ajustar este número según tus necesidades

print(df.head(10))


Visualizar el tipo de dato almacenado en cada columna/campo/variable.

In [None]:
#imprime el tipo de dato almacenado en cada campo según formato pandas
df.dtypes

Otra forma de visualizar el tipo de dato que contiene cada. Y además, la longitud máxima de los campos tipo cadena, y si hay valores desconocidos.

In [None]:
# Imprime el tipo de dato que contiene el campo, la longitud máxima de los campos tipo cadena, y si hay valores desconocidos.

info_columnas = []
for columna in df.columns:
    tipo = str(df[columna].dtype)
    if tipo == 'object':
        longitud = df[columna].astype(str).apply(len).max()
        faltantes = df[columna].isnull().sum()
        vacios = (df[columna] == '').sum()
        info_columnas.append((columna, tipo, longitud, faltantes, vacios))
    elif tipo.startswith('datetime'):  # Si la columna es de tipo fecha
        longitud = 'N/A'  # No tiene sentido calcular la longitud para tipos fecha
        faltantes = df[columna].isnull().sum()
        info_columnas.append((columna, tipo, longitud, faltantes, None))
    else:
        if df[columna].isnull().all():  # Si todos los valores son NaN
            tipo = 'numérico o string'
        longitud = 'N/A'  # No tiene sentido calcular la longitud para tipos numéricos
        faltantes = df[columna].isnull().sum()
        info_columnas.append((columna, tipo, longitud, faltantes, None))

for columna, tipo, longitud, faltantes, vacios in info_columnas:
    if tipo == 'object':
        print(f"La columna '{columna}' es de tipo string, longitud máxima: {longitud}")
        print(f"Valores faltantes: {faltantes}")
        print(f"Valores vacíos: {vacios}")
    elif tipo == 'numérico o string':
        print(f"La columna '{columna}' podría ser de tipo numérico o string")
        print(f"Valores faltantes: {faltantes}")
    elif tipo.startswith('datetime'):
        print(f"La columna '{columna}' es de tipo fecha")
        print(f"Valores faltantes: {faltantes}")
    else:
        print(f"La columna '{columna}' es de tipo numérico")
        print(f"Valores faltantes: {faltantes}")


Estadísticia básica de cada campo mediante proceidmiento "describe()"

In [None]:
# Describir el archivo incluyendo estadísticas para todas las columnas (también las no numéricas).
data_described=df.describe(include='all')

# Ajustar la opción 'display.max_columns' para mostrar todas las columnas
pd.set_option('display.max_columns', None)

# Exploramos los datos imprimiendo el DataFrame generado por describe
print(data_described)

**Herramienta de visualización para Análisis Exploratorio de los Datos.** 

Nota: En caso de fallo en la generación del informe, eliminar versiones de informes anteriores que pueda haber en local. Si con esto no funciona, reiniciar el entorno de ejecución.

In [None]:
#Instalar ydata-profiling
!pip install -U ydata-profiling[notebook]==4.1.0 #Esta versión se ha comprobado que funciona en Google Colab. La última versión daba ValueError por conflictos de "TrueType fonts"
!pip show ydata-profiling

In [None]:
#Generar el informe
from ydata_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")

In [None]:
# Genera un archivo html que se guarda en local en el directorio activo
profile.to_file("dataset_EDA_report.html")

# Si se quiere visualizar en la celda del notebook
profile.to_notebook_iframe()

#Si estás en entorno de jupyter notebook puedes ejecutar la siguiente instrucción.
#profile.to_widgets()

Otra herramienta para el Análisis Exploratorio de los Datos.

In [None]:
# Primero, instala la biblioteca con pip
!pip install sweetviz

# Importa la biblioteca
import sweetviz as sv

# Analiza los datos
report = sv.analyze(df)

# Crea un informe en html
report.show_html('Report.html')


Código para explorar distintas estructuras de subcadenas en campos tipo cadena


In [None]:
# Buscar coincidencias de subcadenas insensibles a mayúscula dentro de un campo de texto
pd.set_option('display.max_colwidth', None)  # None significa sin límite

na_values_pattern = "^subcadena_que_buscamos$" # Usa los símbolos ^ si quieres que empiece o $ si quieres que termine
mask = df['Review Text Negative'].str.lower().str.contains(na_values_pattern, na=False)
print(df['Review Text Negative'][mask])

Con display.max_rows vemos las categorías contenidas en las variables string, y si existe alguna categoría errónea. También sirve para ver opciones de agrupación o codificación numérica

In [None]:
pd.set_option('display.max_rows', None)
df['Review Author Location'].value_counts()

In [None]:
pd.set_option('display.max_rows', None)
df['Review Author Age'].value_counts()

**3. LIMPIEZA Y DEPURACIÓN DE ERRORES**

Eliminar aquellas variables identificadas como irrelevantes

In [None]:
columns_to_drop = ["Source", "Review Author Type", "Review Stay Date", "Review Id From Source", "Review Author Gender", 
                   "Review Locale", "Review Text Neutral", "Review Text Hotel Location", 
                   "Entry Added At", "Entry Processed At", "Review Misc"]

df = df.drop(columns=columns_to_drop)

Convertir en cadenas vacías los registros intranscendentes

In [None]:
df['Review Title'] = df['Review Title'].replace('NO REVIEWS IN DATE RANGE', '')

Limpieza y conversión a formato fecha de las variables tipo fecha

In [None]:
df['Review Publication Date'] = pd.to_datetime(df['Review Publication Date'], format='%Y-%m-%d', errors='coerce')


Depuramos el texto de las variables review

In [None]:
# No ejecutar
# print(df.shape)  # Imprime el número de filas antes de eliminar los valores nulos

# Elimina las filas con valores null en 'Review Text Positive' y 'Review Text Negative'
# df = df.dropna(subset=['Review Text Positive', 'Review Text Negative'])

# print(df.shape)  # Imprime el número de filas después de eliminar los valores nulos


(30000, 16)
(6290, 16)


In [None]:
import re
import numpy as np

# Definimos los valores que consideramos como N/A o sin significado para la review negativa
na_values = r'^(N/A|Na|na|NA|無|N\\A|N/a|Ñ/A|da|Nothing|Nothing.|nothing|None|Nada|nada|Rien|rien|Nulla|nulla|Niente|niente|ничего|Nichts|nichts|Niets)$'

# Hacemos una copia solo de las columnas que nos interesan
df_before = df[['Review Text Negative', 'Review Text Positive']].copy()

# Reemplazamos los valores sin significado con una cadena vacía
df['Review Text Negative'] = df['Review Text Negative'].str.strip().replace(na_values, '', regex=True)
df['Review Text Positive'] = df['Review Text Positive'].str.strip().replace(na_values, '', regex=True)

# Rellenamos los valores NaN con una cadena vacía
df["Review Text Positive"] = df["Review Text Positive"].fillna("")
df["Review Text Negative"] = df["Review Text Negative"].fillna("")

# Calculamos cuántos registros se han modificado
positive_changes = np.sum(df_before["Review Text Positive"] != df["Review Text Positive"])
negative_changes = np.sum(df_before["Review Text Negative"] != df["Review Text Negative"])

print(f'Se han modificado {positive_changes} registros en "Review Text Positive"')
print(f'Se han modificado {negative_changes} registros en "Review Text Negative"')

Ejemplo de identificación de outliers en una variable categórica






In [None]:
# Calculamos las frecuencias de los nombres
name_frequencies = df['Review Author Name'].value_counts()

# Definimos el umbral como el percentil 99.9 de las frecuencias
threshold = name_frequencies.quantile(0.999)

# Identificamos los outliers
outliers = name_frequencies[name_frequencies > threshold]

print('Outliers identificados:\n', outliers)


Ejemplo de identificación de outliers en una variable numérica

In [None]:
# Calculamos el IQR de la variable 'Review Rating'
Q1 = df['Review Rating'].quantile(0.25)
Q3 = df['Review Rating'].quantile(0.75)
IQR = Q3 - Q1

# Definimos los umbrales para considerar un valor como un outlier
lower_threshold = Q1 - 1.5 * IQR
upper_threshold = Q3 + 1.5 * IQR

# Identificamos los outliers inferiores
lower_outliers = df[df['Review Rating'] < lower_threshold]
lower_outliers_values = lower_outliers['Review Rating']
lower_outliers_ids = lower_outliers['Uniq Id']

# Identificamos los outliers superiores
upper_outliers = df[df['Review Rating'] > upper_threshold]
upper_outliers_values = upper_outliers['Review Rating']
upper_outliers_ids = upper_outliers['Uniq Id']

# Imprimimos los outliers inferiores
if lower_outliers.empty:
    print('No se encuentran outliers inferiores.')
else:
    print('Outliers inferiores identificados:')
    for value, idx in zip(lower_outliers_values, lower_outliers_ids):
        print(f"Valor: {value}, Identificador: {idx}")

# Imprimimos los outliers superiores
if upper_outliers.empty:
    print('No se encuentran outliers superiores.')
else:
    print('\nOutliers superiores identificados:')
    for value, idx in zip(upper_outliers_values, upper_outliers_ids):
        print(f"Valor: {value}, Identificador: {idx}")



# **4. TRANSFORMACIÓN DE LOS DATOS (Recodificación y creación de nuevas variables)**

4.1. Recodificación de las categorías de edad a numérico, para potenciales análisis de regresión posterior

In [None]:
age_map = {
    '18 – 24': 0,
    '25 – 34': 1,
    '35 – 44': 2,
    '45 – 54': 3,
    '55 – 64': 4,
    '65+': 5
}
df['Review Author Age'] = df['Review Author Age'].map(age_map)


4.2. Extracción de país del hotel a partir de su url, y añadir columna nueva con el dato.

In [None]:
# Extrae los dos dígitos siguientes a '/reviews/' en la columna 'Hotel Url From Source'
df['country'] = df['Review Url'].str.extract('/reviews/([a-zA-Z]{2})', expand=False)

# Genera una máscara booleana con valores faltantes
mask = df.isnull().all()

# Selecciona las columnas con valores faltantes
col_empty = df.columns[mask]

# Elimina las columnas vacías del DataFrame
df = df.drop(col_empty, axis=1)

4.3. Extraer el tipo de alojamiento y recodificar en one-hot econding

In [None]:
# Guardamos el número original de columnas
original_num_columns = df.shape[1]

# Primero, dividimos la columna "Review Stay Details" en múltiples columnas 
# utilizando el símbolo "|" como separador.
df_temp = df['Review Stay Details'].str.split('|', expand=True)

# Aplicamos la función get_dummies a cada una de las columnas recién creadas
# luego las sumamos. Esto resultará en un DataFrame donde cada frase única 
# es una columna, y los valores son 0 o 1 dependiendo de si la frase aparece 
# en la fila original.
df_final = pd.get_dummies(df_temp.apply(pd.Series).stack()).groupby(level=0).sum()

# Ahora, puedes juntar este DataFrame (df_final) con tu DataFrame original (df) si lo necesitas.
df = pd.concat([df, df_final], axis=1)

# Calculamos el número de nuevas columnas generadas
new_columns_generated = df.shape[1] - original_num_columns

# Imprimimos el número de nuevas columnas generadas
print("Número de nuevas columnas generadas: ", new_columns_generated)


Visualizar las nuevas variables creadas

Gráfico (opción 1) de barras ordenadas en función de la frecuencia absoluta de valores "1" en las columnas. Usar N para ajustar el número de columnas que se quieren mostrar.

In [None]:
# Solo las primeras N columnas
N = 200

# Crea un nuevo índice para las primeras N columnas que es solo el número de la columna
sorted_sums.index = range(1, len(sorted_sums) + 1)

# Crea un diagrama de barras para las primeras N columnas
plt.figure(figsize=(10, 6))
sorted_sums[:N].plot(kind='bar')
plt.title('Frecuencia de "1"s en las primeras {} columnas'.format(N))
plt.xlabel('Número de columna')
plt.ylabel('Frecuencia')

# Configura las etiquetas del eje x para mostrar cada 100 columnas
plt.xticks(range(0, N, 100), range(1, N + 1, 100))

plt.show()



Gráfico (opción 2) de barras ordenadas en función de la frecuencia absoluta de valores "1" en las columnas. En el eje secundario se muestra también la proporción de valores "1" en cada variable.  Usar N para ajustar el número de columnas que se quieren mostrar.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Solo las primeras N columnas
N = 200

# Cálculo de la media de cada columna
column_means = df_final.mean()

# Suma cada columna para obtener la cantidad de "1"s en cada una
column_sums = df_final.sum()

# Ordena las sumas
sorted_sums = column_sums.sort_values(ascending=False)

# Ordena las medias de la misma manera que las sumas
sorted_means = column_means[sorted_sums.index]

# Crea un nuevo índice para las primeras N columnas que es solo el número de la columna
sorted_sums.index = range(1, len(sorted_sums) + 1)
sorted_means.index = range(1, len(sorted_means) + 1)

# Crea la figura y un primer eje para las frecuencias
fig, ax1 = plt.subplots(figsize=(10, 6))

# Dibuja las frecuencias en el primer eje
ax1.bar(sorted_sums.index[:N], sorted_sums[:N], color='b')
ax1.set_title('Frecuencia y Proporción de "1"s en las primeras {} columnas'.format(N))
ax1.set_xlabel('Número de columna')
ax1.set_ylabel('Frecuencia', color='b')
ax1.tick_params('y', colors='b')

# Configura las etiquetas del eje x para mostrar cada 50 columnas
ax1.set_xticks(range(0, N + 1, 50))

# Crea un segundo eje para las medias
ax2 = ax1.twinx()

# Dibuja las medias en el segundo eje
ax2.plot(sorted_means.index[:N], sorted_means[:N], color='r')
ax2.set_ylabel('Proporción', color='r')

# Establecer ticks mayores cada 0.2 en el eje Y secundario
ax2.set_yticks(np.arange(0, sorted_means.max() + 0.1, 0.2))

# Establecer ticks menores cada 0.1 en el eje Y secundario
ax2.set_yticks(np.arange(0, sorted_means.max() + 0.1, 0.1), minor=True)

# Cambiar el color de los ticks a rojo
ax2.tick_params('y', colors='r')

plt.show()

Reagrupación de las variables dummy generadas en función de un umbral (5%) de proporción de valores "1". Las variables por debajo del umbral se agrupan en una única variable que representa la categoría "Others"

In [None]:
# Cálculo de la media de cada columna
column_means = df_final.mean()

# Suma cada columna para obtener la cantidad de "1"s en cada una
column_sums = df_final.sum()

# Define el umbral en términos de porcentaje
threshold = 0.05 * len(df_final)

# Identifica las columnas que contienen menos del 5% de "1"
low_freq_cols = column_sums[column_sums < threshold].index

# Crea una nueva columna que es la suma de las columnas de baja frecuencia
df_final['Others'] = df_final[low_freq_cols].max(axis=1)

# Elimina las columnas de baja frecuencia
df_final = df_final.drop(low_freq_cols, axis=1)


Se recomienda volver a graficar tras la conversión.

4.4. Creamos la variable que detecta el idioma de las variables con el texto de las reseñas

In [None]:
!pip install langdetect


In [None]:
#Detección del idioma con calculo paralelizado para acelerar el proceso
from langdetect import detect
from concurrent.futures import ProcessPoolExecutor
import numpy as np

def detect_language(text):
    try:
        return detect(text)
    except:
        return 'unknown'

def parallelize_dataframe(df, func, n_cores=4):
    df_split = np.array_split(df, n_cores)
    pool = ProcessPoolExecutor(n_cores)
    df = pd.concat(pool.map(func, df_split))
    pool.shutdown()
    return df

def apply_detect_language(df):
    df["Language_Review Text Positive"] = df["Review Text Positive"].apply(detect_language)
    df["Language_Review Text Negative"] = df["Review Text Negative"].apply(detect_language)
    return df

df = parallelize_dataframe(df, apply_detect_language)


In [None]:
#imprime los campos de idioma de las 20 primeras filas
print(df[['Review Text Positive', 'Language_Review Text Positive', 'Review Text Negative', 'Language_Review Text Negative',]].head(20))

Añadir comprobación de excluir aquel idioma que no coincida entre comentarios positivos y negativos

Opcionalmente guardar un archivo csv intermedio con el procesamiento hasta el momento.

In [None]:
df.to_csv("/content/comments_with_lang.csv", index=False)

Opcionalmente utilizar el csv intermedio generado hasta el momento, para seguir desde este punto.

In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/comments_with_lang.csv')

4.5. Opcionalmente podemos transformar los comentarios y quedarnos sólo con la primera frase del texto de las reseñas. Si se quisieran llevar a cabo los análisis solo sobre esta primera frase del texto, haría falta modificar el código posterior para utilizar los campos "1st Sentence" como input, en lugar de los originales.

In [None]:
import pandas as pd
import re

# Función para extraer la primera frase
def extraer_primera_frase(texto):
    # Utilizar expresiones regulares para encontrar la primera frase
    primera_frase = re.match(r'^.*?[.!?]', texto)
    if primera_frase:
        return primera_frase.group(0)
    else:
        return texto  # Si no se encuentra ninguna frase, devuelve el texto completo

# Aplicar la función a los campos 'Review Text Positive' y 'Review Text Negative'
df['Review Text Positive 1st Sentence'] = df['Review Text Positive'].apply(extraer_primera_frase)
df['Review Text Negative 1st Sentence'] = df['Review Text Negative'].apply(extraer_primera_frase)

# 4.5. CREACIÓN DE LAS NUEVAS VARIABLES PARA LA CLASIFICACIÓN DE LA TEMÁTICA DE LAS RESEÑAS MEDIANTE ENFOQUE ZERO-SHOT A PARTIR DE UN PIPELINE DE HUGGING FACE

Instalamos la librería transformers de Hugging Face y las dependencias necesarias

In [None]:
!pip install transformers

In [None]:
# importamos pipeline
from transformers import pipeline
# "import pandas as pd" si no se ha importado antes

Comprobamos 

In [None]:
import tensorflow as tf
print("GPU Available: ", len(tf.config.list_physical_devices('GPU')) > 0)
print(tf.test.is_gpu_available())

In [None]:
import torch
print(torch.cuda.is_available())


In [None]:
!pip install sentencepiece


In [None]:
from transformers import pipeline
# Crear el pipeline de clasificación # device=0 para usar la GPU
classifier = pipeline("zero-shot-classification", model='joeddav/xlm-roberta-large-xnli', use_auth_token='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', device=0, multi_label=False)

In [None]:
!pip install tqdm

PARA LOS COMENTARIOS POSITIVOS.

In [None]:
import numpy as np
from tqdm.notebook import tqdm

# Drop rows with np.nan in 'Review Text Positive' and reset index
new_df = df.dropna(subset=['Review Text Positive']).copy()
new_df.reset_index(inplace=True)  # reset index but keep the old index

# Define your language and number of rows (you can set them to '' and None respectively if you don't want any filter)
language = '' #Escribe '' si no quieres filtrar por país.
num_rows = None #escribe None si no quieres filtrar por número de filas.

# Filter by language if one is selected
if language != '':
    new_df_filtered = new_df.loc[new_df['Language_Review Text Positive'] == language].copy()
else:
    new_df_filtered = new_df.copy()

# Select the first num_rows records if num_rows is defined
if num_rows is not None:
    new_df_selected = new_df_filtered[:num_rows].copy()
else:
    new_df_selected = new_df_filtered.copy()

# Define your categories
categories = ['location or nearness', 'cleaning', 'smell', 'good condition of facilities', 'variety of services', 'comfort', 'silence', 'temperature', 'spaciousness of the rooms', 'kindness and friendliness of the staff', 'internet', 'wi-fi', 'language', 'food']

# Initialize columns for each category in the dataframe
for category in categories:
    new_df_selected['Positive ' + category] = 0.0

# Classify each review and save the scores in the corresponding columns
for index in tqdm(new_df_selected.index):
    text = new_df_selected.at[index, 'Review Text Positive']
    result = classifier(text, categories)
    
    for score, label in zip(result['scores'], result['labels']):
        new_df_selected.at[index, 'Positive ' + label] = score

# Now you can merge the results back to the original dataframe using the old index
df = df.merge(new_df_selected[['index'] + ['Positive ' + category for category in categories]], how='left', left_index=True, right_on='index')
df.set_index('index', inplace=True)  # Reset the original index

# Define new fields as sums of existing fields
df['Positive Location'] = df['Positive location or nearness']
df['Positive Cleaning'] = df['Positive cleaning'] + df['Positive smell']
df['Positive Condition of facilities'] = df['Positive good condition of facilities']
df['Positive Variety of services'] = df['Positive variety of services']
df['Positive Comfort'] = df['Positive comfort'] + df['Positive silence'] + df['Positive temperature'] + df['Positive spaciousness of the rooms']
df['Positive Staff'] = df['Positive kindness and friendliness of the staff'] + df['Positive language']
df['Positive Wi-fi'] = df['Positive internet'] + df['Positive wi-fi']
df['Positive Food'] = df['Positive food']


PARA LOS COMENTARIOS NEGATIVOS

In [None]:
from transformers import pipeline
import pandas as pd
import numpy as np
from tqdm.notebook import tqdm

# Drop rows with np.nan in 'Review Text Negative' and reset index
new_df = df.dropna(subset=['Review Text Negative']).copy()
new_df.reset_index(inplace=True)  # reset index but keep the old index

# Define your language and number of rows (you can set them to '' and None respectively if you don't want any filter)
language = '' #Escribe '' si no quieres filtrar por país.
num_rows = None #escribe None si no quieres filtrar por número de filas.

# Filter by language if one is selected
if language != '':
    new_df_filtered = new_df.loc[new_df['Language_Review Text Negative'] == language].copy()
else:
    new_df_filtered = new_df.copy()

# Select the first num_rows records if num_rows is defined
if num_rows is not None:
    new_df_selected = new_df_filtered[:num_rows].copy()
else:
    new_df_selected = new_df_filtered.copy()

# Define your categories
categories = ['location or distance', 'filth', 'insects', 'dust', 'bad smell', 'uncomfortable', 'noise', 'small rooms', 'temperature', 'scarce services', 'poor condition of facilities', 'no internet', 'no wi-fi', 'unhelpful staff', 'rude staff', 'language', 'food']

# Initialize columns for each category in the dataframe
for category in categories:
    new_df_selected['Negative ' + category] = 0.0

# Classify each review and save the scores in the corresponding columns
for index in tqdm(new_df_selected.index):
    text = new_df_selected.at[index, 'Review Text Negative']
    result = classifier(text, categories)
    
    for score, label in zip(result['scores'], result['labels']):
        new_df_selected.at[index, 'Negative ' + label] = score

# Now you can merge the results back to the original dataframe using the old index
df = df.merge(new_df_selected[['index'] + ['Negative ' + category for category in categories]], how='left', left_index=True, right_on='index')
df.set_index('index', inplace=True)  # Reset the original index

# Creating the new variables
df['Negative Location'] = df['Negative location or distance']
df['Negative Food'] = df['Negative food']
df['Negative Cleaning'] = df[['Negative filth', 'Negative insects', 'Negative dust', 'Negative bad smell']].sum(axis=1)
df['Negative Condition of facilities'] = df['Negative poor condition of facilities']
df['Negative Variety of services'] = df['Negative scarce services']
df['Negative Comfort'] = df[['Negative uncomfortable', 'Negative noise', 'Negative small rooms', 'Negative temperature']].sum(axis=1)
df['Negative Staff'] = df[['Negative unhelpful staff', 'Negative rude staff', 'Negative language']].sum(axis=1)
df['Negative Wi-fi'] = df[['Negative no internet', 'Negative no wi-fi']].sum(axis=1)


In [None]:
cols_to_fill = ['Positive Location', 'Negative Location',
                'Positive Food', 'Negative Food',
                'Positive Cleaning', 'Negative Cleaning',
                'Positive Condition of facilities', 'Negative Condition of facilities',
                'Positive Variety of services', 'Negative Variety of services',
                'Positive Comfort', 'Negative Comfort',
                'Positive Staff', 'Negative Staff',
                'Positive Wi-fi', 'Negative Wi-fi']

df[cols_to_fill] = df[cols_to_fill].fillna(0)

df['Net Location'] = df['Positive Location'] - df['Negative Location']
df['Net Food'] = df['Positive Food'] - df['Negative Food']
df['Net Cleaning'] = df['Positive Cleaning'] - df['Negative Cleaning']
df['Net Condition of facilities'] = df['Positive Condition of facilities'] - df['Negative Condition of facilities']
df['Net Variety of services'] = df['Positive Variety of services'] - df['Negative Variety of services']
df['Net Comfort'] = df['Positive Comfort'] - df['Negative Comfort']
df['Net Staff'] = df['Positive Staff'] - df['Negative Staff']
df['Net Wi-fi'] = df['Positive Wi-fi'] - df['Negative Wi-fi']


In [None]:
print(df.head(10))

Comprobamos la calidad del etiquetado en un subdataset filtrado por el idioma (ej. es=español, en=inglés)

In [None]:
# Ajustar las opciones de visualización para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 320)  # puedes ajustar este número según tus necesidades


In [None]:
filtered_df = df[(df['Language_Review Text Negative'] == 'es') | (df['Language_Review Text Positive'] == 'es')]

In [None]:
# Mostrar las primeras 10 filas en formato tabular de todos los campos
filtered_df.head(10)

In [None]:
# Mostrar las primeras 10 filas en formato tabular de todos los campos del dataframe filtrado
filtered_df.head(10)

In [None]:
# Mostrar las primeras 10 filas en formato tabular de los campos negativos
filtered_df[['Review Text Negative', 'Negative Location', 'Negative Food', 'Negative Cleaning', 'Negative Condition of facilities', 'Negative Variety of services', 'Negative Comfort', 'Negative Staff', 'Negative Wi-fi']].head(10)


In [None]:
# Mostrar las primeras 10 filas en formato tabular de los campos negativos
filtered_df[['Review Text Positive', 'Positive Location', 'Positive Food', 'Positive Cleaning', 'Positive Condition of facilities', 'Positive Variety of services', 'Positive Comfort', 'Positive Staff', 'Positive Wi-fi']].head(10)


In [None]:
filtered_df[['Review Text Negative', 'Review Text Positive', 'Net Location', 'Net Food', 'Net Cleaning', 'Net Condition of facilities', 'Net Variety of services', 'Net Comfort', 'Net Staff', 'Net Wi-fi']].head(10)


In [None]:
# imprimir las puntuaciones netas filtradas
print(filtered_df[['Review Text Negative', 'Review Text Positive', 'Net Location', 'Net Food', 'Net Cleaning', 'Net Condition of facilities', 'Net Variety of services', 'Net Comfort', 'Net Staff', 'Net Wi-fi']].head(10))

In [None]:
# imprimir las puntuaciones netas en el dataframe df
print(df[['Net Location', 'Net Food', 'Net Cleaning', 'Net Condition of facilities', 'Net Variety of services', 'Net Comfort', 'Net Staff', 'Net Wi-fi']].head(10))

UNA VEZ HAYA FUNCIONADO. GUARDAR EN UN NUEVO CSV

In [None]:
df.to_csv("/content/drive/MyDrive/comments_with_labels.csv", index=False)

ESTADÍSTICA DESCRIPTIVA

Contar el número de reseñas positivas y negativas

In [None]:
# Filtramos el dataframe para quedarnos solo con las reseñas que no son vacías
df_positivas = df[df['Review Text Positive'] != ""]
df_negativas = df[df['Review Text Negative'] != ""]

# Contamos el número de reseñas positivas y negativas
num_reseñas_positivas = len(df_positivas)
num_reseñas_negativas = len(df_negativas)

# Sumamos el número de reseñas positivas y negativas
suma_reseñas = num_reseñas_positivas + num_reseñas_negativas

print('Número de reseñas positivas:', num_reseñas_positivas)
print('Número de reseñas negativas:', num_reseñas_negativas)
print('Suma de reseñas positivas y negativas:', suma_reseñas)

Contar el número de hoteles en la base de datos

In [None]:
# Obtenemos el número de hoteles distintos
num_hoteles_distintos = df['Hotel Name'].nunique()

print('Número de hoteles distintos:', num_hoteles_distintos)

Número de hoteles distintos: 26212


Contar el número de paises en la base de datos

In [None]:
# Obtenemos el número de paises distintos
num_paises_distintos = df['country'].nunique()

print('Número de paises distintos:', num_paises_distintos)

Contar el número de clientes en la base de datos

In [None]:
# Obtenemos el número de clientes distintos
num_clientes_distintos = df['Review Author Name'].nunique()

print('Número de clientes distintos:', num_clientes_distintos)

Fechas que abarca el dataset

In [None]:
# Aseguramos que 'Review Publication Date' sea interpretada como fecha
df['Review Publication Date'] = pd.to_datetime(df['Review Publication Date'])

# Obtenemos la fecha más antigua y la más reciente
fecha_minima = df['Review Publication Date'].min()
fecha_maxima = df['Review Publication Date'].max()

print('Fecha más antigua:', fecha_minima)
print('Fecha más reciente:', fecha_maxima)


Distribución de edades

In [None]:
# Invertimos el diccionario para mapear de números a etiquetas
inv_age_map = {v: k for k, v in age_map.items()}

# Obtenemos la distribución de frecuencia relativa de las edades, la convertimos a porcentajes y la redondeamos
distribucion_edades = (df['Review Author Age'].value_counts(normalize=True).sort_index() * 100).round(1)

# Mapeamos los números a las etiquetas
distribucion_edades.index = distribucion_edades.index.map(inv_age_map)

# Convertimos los valores a cadenas y agregamos el símbolo de porcentaje
distribucion_edades = distribucion_edades.apply(lambda x: f'{x}%')

print(distribucion_edades)



Resultados de rating

In [None]:
# Calculamos la media y la redondeamos a un decimal
media = round(df['Review Rating'].mean(), 1)

# Calculamos la mediana y la redondeamos a un decimal
mediana = round(df['Review Rating'].median(), 1)

# Calculamos el rango intercuartílico (IQR) y lo redondeamos a un decimal
Q1 = df['Review Rating'].quantile(0.25)
Q3 = df['Review Rating'].quantile(0.75)
IQR = round(Q3 - Q1, 1)

print('Media:', media)
print('Mediana:', mediana)
print('p25:', Q1)
print('p75:', Q3)
print('Rango intercuartílico:', IQR)


Media: 8.0
Mediana: 8.3
p25: 6.7
p75: 9.6
Rango intercuartílico: 2.9


Rating en función de la edad

In [None]:
# Mapeamos los números a las etiquetas de las edades
df['Review Author Age'] = df['Review Author Age'].map(inv_age_map)

# Agrupamos los datos por 'Review Author Age' y calculamos la media, mediana y rango intercuartílico (IQR)
media = df.groupby('Review Author Age')['Review Rating'].mean().round(1)
mediana = df.groupby('Review Author Age')['Review Rating'].median().round(1)
IQR = (df.groupby('Review Author Age')['Review Rating'].quantile(0.75) - df.groupby('Review Author Age')['Review Rating'].quantile(0.25)).round(1)

print('Media:\n', media)
print('\nMediana:\n', mediana)
print('p25:', Q1)
print('p75:', Q3)
print('\nRango intercuartílico:\n', IQR)


Mostramos los paises con más y menos rating.

In [None]:
# Agrupamos los datos por 'country' y calculamos el rating promedio, excluyendo los valores NaN
average_rating_by_country = df.groupby('country')['Review Rating'].mean().dropna()

# Ordenamos los resultados
average_rating_by_country = average_rating_by_country.sort_values()

# Seleccionamos los 5 países con los ratings más bajos
lowest_ratings = average_rating_by_country.head(5).round(1)

# Seleccionamos los 5 países con los ratings más altos
highest_ratings = average_rating_by_country.tail(5).round(1)

print('5 países con los ratings más bajos:\n', lowest_ratings)
print('\n5 países con los ratings más altos:\n', highest_ratings)



Idioma empleado en las review positivas

In [None]:
# Calculamos las frecuencias de las categorías
category_frequencies = df['Language_Review Text Positive'].value_counts()

# Calculamos el porcentaje de frecuencia
category_percentages = (category_frequencies / df['Language_Review Text Positive'].count() * 100).round(1)

# Seleccionamos las 5 categorías más frecuentes
top_5_categories = category_percentages.head(5)

print('Las 5 categorías más frecuentes en "Language_Review Text Positive" son:\n', top_5_categories)


# EXPLOTACIÓN Y VISUALIZACIÓN DE DATOS

In [None]:
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/comments_with_labels.csv')

In [None]:
# Para ver por qué paises podemos seleccionar podemos ejecutar el siguiente código:
pd.set_option('display.max_rows', None)
df['country'].value_counts()


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Solicitar al usuario el país seleccionado
selected_country = input("Ingrese el país seleccionado: ")

# Agrupamos por país y calculamos el tamaño de la burbuja (número de registros por país) y las medias de las columnas
grouped = df.groupby('country').agg({'Review Rating': 'mean','Net Location': 'mean','Net Food': 'mean','Net Cleaning': 'mean','Net Condition of facilities': 'mean','Net Variety of services': 'mean','Net Comfort': 'mean','Net Staff': 'mean','Net Wi-fi': 'mean','country': 'count'})

grouped.columns = ['Review_Mean','Net_Location_Mean','Net_Food_Mean','Net_Cleaning_Mean','Net_Condition_Mean','Net_Variety_Mean','Net_Comfort_Mean','Net_Staff_Mean','Net_Wifi_Mean','Count']

# Crear una lista de las columnas a mostrar en subgráficos
columns = ['Net_Location_Mean','Net_Food_Mean','Net_Cleaning_Mean','Net_Condition_Mean','Net_Variety_Mean','Net_Comfort_Mean','Net_Staff_Mean','Net_Wifi_Mean']

# Configurar la disposición de los subgráficos
num_columns = 4
num_rows = (len(columns) + num_columns - 1) // num_columns
fig, axs = plt.subplots(num_rows, num_columns, figsize=(12, 8))

# Establecer límites en el eje x
for ax in axs.flat:
    ax.set_xlim(-0.5, 0.5)

# Iterar sobre las columnas y crear subgráficos
for i, column in enumerate(columns):
    row = i // num_columns
    col = i % num_columns
    ax = axs[row, col]

    # Dibujar el gráfico de burbujas para la columna actual
    ax.scatter(grouped[column], grouped['Review_Mean'], s=grouped['Count'], alpha=0.5, color='blue')

    # Filtrar el DataFrame para el país seleccionado
    filtered_df = grouped[grouped.index == selected_country]

    # Dibujar el país seleccionado en color rojo
    ax.scatter(filtered_df[column], filtered_df['Review_Mean'], s=filtered_df['Count'], alpha=0.7, color='red')

    # Etiquetar los ejes y el título del subgráfico
    ax.set_xlabel(column)
    ax.set_ylabel('Review Rating Mean')
    ax.set_title(column)

    # Dibujar una línea vertical en x=0
    ax.axvline(0, linestyle='--', color='gray')  # Añade esta línea


# Ajustar los espacios entre los subgráficos y ocultar los subgráficos no utilizados
fig.tight_layout()
for i in range(len(columns), num_rows * num_columns):
    axs.flatten()[i].axis('off')

# Mostrar el gráfico
plt.show()