In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm
!pip install langdetect


Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m77.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m37.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25

##Visualización del dataframe

In [None]:
import pandas as pd
df = pd.read_csv('Balanced_AHR.csv', usecols=['title', 'rating', 'review_text'])
print(df.head(10))

                                      title  rating  \
0                       IMPOSIBLE DESCANSAR       2   
1              No es oro todo lo que reluce       3   
2            Un buen hotel con mucho ruido.       3   
3      SIN CALEFACCIÓN OPERATIVA Y CON FRÍO       2   
4                 Deja bastante que desear.       2   
5                    Desastre de ascensores       2   
6                             Mal mal y mal       2   
7                      Suciedad intolerable       1   
8                                Lamentable       1   
9  Sigo aquí pero quiero cambiarme de hotel       2   

                                         review_text  
0  El fin de semana mi pareja y yo hicimos una re...  
1  El hotel en general está bien, las habtiacione...  
2  El hotel es moderno, amplio y limpio, pero no ...  
3  Calefacción averiada o no operativa. Se coment...  
4  Este hotel ha bajado notoriamente su categoria...  
5  Son pequeños, se bloquean y son insuficientes ...  
6  Mal ma

##Limpieza de texto usando la libreria re


In [None]:
import re

# Función para limpiar el texto
def clean_text(text):
    text = text.lower()
    # Reemplaza los números por un espacio
    text = re.sub(r'\d+', ' ', text)
    # Reemplaza los caracteres especiales y signos de puntuación por un espacio
    cleaned_text = re.sub(r'[^\w\s]', ' ', text)
    return cleaned_text

df['cleaned_review_text'] = df["review_text"].apply(clean_text)

# Mostrando el DataFrame limpio
print(df.head(10))


                                      title  rating  \
0                       IMPOSIBLE DESCANSAR       2   
1              No es oro todo lo que reluce       3   
2            Un buen hotel con mucho ruido.       3   
3      SIN CALEFACCIÓN OPERATIVA Y CON FRÍO       2   
4                 Deja bastante que desear.       2   
5                    Desastre de ascensores       2   
6                             Mal mal y mal       2   
7                      Suciedad intolerable       1   
8                                Lamentable       1   
9  Sigo aquí pero quiero cambiarme de hotel       2   

                                         review_text  \
0  El fin de semana mi pareja y yo hicimos una re...   
1  El hotel en general está bien, las habtiacione...   
2  El hotel es moderno, amplio y limpio, pero no ...   
3  Calefacción averiada o no operativa. Se coment...   
4  Este hotel ha bajado notoriamente su categoria...   
5  Son pequeños, se bloquean y son insuficientes ...   
6 

##Eliminación de palabras en otros idiomas

In [None]:
import nltk
import langdetect
from nltk.tokenize import word_tokenize
from nltk.tokenize.toktok import ToktokTokenizer
from langdetect import detect, DetectorFactory
nltk.download('punkt')


DetectorFactory.seed = 0

# Inicializar el tokenizador
tokenizer = ToktokTokenizer()

# Función para detectar el idioma y tokenizar solo si es español
def detect_and_tokenize(text):
    try:
        lang = detect(text)
        if lang == 'es':
            tokens = tokenizer.tokenize(text)
            return tokens
        else:
            return []  # Devuelve una lista vacía si no es español
    except:
        return []


df['cleaned_review_text'] = df['cleaned_review_text'].apply(detect_and_tokenize)


df['cleaned_review_text'] = df['cleaned_review_text'].apply(lambda x: word_tokenize(' '.join(x)))

df['cleaned_review_text'] = df['cleaned_review_text'].apply(lambda x: ' '.join(x))

print(df.head(20))


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


                                                title  rating  \
0                                 IMPOSIBLE DESCANSAR       2   
1                        No es oro todo lo que reluce       3   
2                      Un buen hotel con mucho ruido.       3   
3                SIN CALEFACCIÓN OPERATIVA Y CON FRÍO       2   
4                           Deja bastante que desear.       2   
5                              Desastre de ascensores       2   
6                                       Mal mal y mal       2   
7                                Suciedad intolerable       1   
8                                          Lamentable       1   
9            Sigo aquí pero quiero cambiarme de hotel       2   
10                            Precio desproporcionado       3   
11  SEVILLA CENTER, UN DISGUSTO EN EL CENTRO DE SE...       1   
12                            No comáis en la piscina       3   
13                                           Estancia       3   
14                       

##Eliminar stopwords

In [None]:
#Quitar las stopwords

nltk.download('stopwords')
from nltk.corpus import stopwords
stopwords_set = set(stopwords.words('spanish'))

# Dejar si y no para el analisis
stopwords_set.discard('no')
stopwords_set.discard('si')


df['cleaned_review_text'] = df['cleaned_review_text'].apply(lambda x: [word for word in x if word not in stopwords_set])
print(df.head(20))

                                                title  rating  \
0                                 IMPOSIBLE DESCANSAR       2   
1                        No es oro todo lo que reluce       3   
2                      Un buen hotel con mucho ruido.       3   
3                SIN CALEFACCIÓN OPERATIVA Y CON FRÍO       2   
4                           Deja bastante que desear.       2   
5                              Desastre de ascensores       2   
6                                       Mal mal y mal       2   
7                                Suciedad intolerable       1   
8                                          Lamentable       1   
9            Sigo aquí pero quiero cambiarme de hotel       2   
10                            Precio desproporcionado       3   
11  SEVILLA CENTER, UN DISGUSTO EN EL CENTRO DE SE...       1   
12                            No comáis en la piscina       3   
13                                           Estancia       3   
14                       

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


##Lematizar

In [None]:
import spacy
nlp = spacy.load('es_core_news_sm')

reviews = df["cleaned_review_text"]


df['cleaned_review_text'] = df['cleaned_review_text'].apply(lambda x: [token.lemma_ for token in nlp(' '.join(x))])
df['cleaned_review_text'] = df['cleaned_review_text'].apply(lambda x: ' '.join(x))


print(df.head(20))

                                                title  rating  \
0                                 IMPOSIBLE DESCANSAR       2   
1                        No es oro todo lo que reluce       3   
2                      Un buen hotel con mucho ruido.       3   
3                SIN CALEFACCIÓN OPERATIVA Y CON FRÍO       2   
4                           Deja bastante que desear.       2   
5                              Desastre de ascensores       2   
6                                       Mal mal y mal       2   
7                                Suciedad intolerable       1   
8                                          Lamentable       1   
9            Sigo aquí pero quiero cambiarme de hotel       2   
10                            Precio desproporcionado       3   
11  SEVILLA CENTER, UN DISGUSTO EN EL CENTRO DE SE...       1   
12                            No comáis en la piscina       3   
13                                           Estancia       3   
14                       

In [None]:

df = df[df['cleaned_review_text'].apply(lambda x: x != '')]

#Combinar las clases 1 y 2 en la clase 1
df['rating'] = df['rating'].apply(lambda x: 1 if x in [1, 2] else x)

df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['rating'] = df['rating'].apply(lambda x: 1 if x in [1, 2] else x)


Unnamed: 0,title,rating,review_text,cleaned_review_text
0,IMPOSIBLE DESCANSAR,1,El fin de semana mi pareja y yo hicimos una re...,fin semana parejo hicimo reserva hotel fin des...
1,No es oro todo lo que reluce,3,"El hotel en general está bien, las habtiacione...",hotel general bien habtiación espaciosa person...
2,Un buen hotel con mucho ruido.,3,"El hotel es moderno, amplio y limpio, pero no ...",hotel moderno amplio limpio no poder disfrutar...
3,SIN CALEFACCIÓN OPERATIVA Y CON FRÍO,1,Calefacción averiada o no operativa. Se coment...,calefacción averiado no operativo comentar rec...
4,Deja bastante que desear.,1,Este hotel ha bajado notoriamente su categoria...,hotel bajado notoriamente categorio habitación...
...,...,...,...,...
7601,Excelente !!!,5,Experiencia increíble súper recomendable. La g...,experiencia increíble súper recomendable gente...
7602,Muy acogedor y excelente trato,5,"Trato muy amable y muy atento en todo momento,...",trato amable atento momento habitación acogedo...
7603,Genial !!!,5,"Hotel fantastico, muy buena ubicacion, muy bon...",hotel fantastico buen ubicacion bonito acogedo...
7606,HOTEL EXCELENTE ASÍ COMO SUS EMPLEADOS,5,Hemos estado alojados mi esposa y yo en el hot...,alojado esposa hotel eurostars cuatro día prim...


In [None]:
# Guardando el DataFrame con las reviews filtradas
df.to_csv('filtered_balanced_AHR.csv', index=False, encoding='utf-8')

print("El DataFrame filtrado se ha guardado en 'filtered_balanced_AHR.csv'")

El DataFrame filtrado se ha guardado en 'filtered_balanced_AHR_conn.csv'
