In [None]:
import pandas as pd
df = pd.read_csv('filtered_balanced_AHR_constopcombined_bigrams.csv', usecols=['title', 'rating', 'cleaned_review_text'])
print(df.head(10))

                                      title  rating  \
0                       IMPOSIBLE DESCANSAR       1   
1              No es oro todo lo que reluce       5   
2            Un buen hotel con mucho ruido.       5   
3      SIN CALEFACCIÓN OPERATIVA Y CON FRÍO       1   
4                 Deja bastante que desear.       1   
5                    Desastre de ascensores       1   
6                             Mal mal y mal       1   
7                      Suciedad intolerable       1   
8                                Lamentable       1   
9  Sigo aquí pero quiero cambiarme de hotel       1   

                                 cleaned_review_text  
0  fin semana parejo hicimo reserva hotel fin des...  
1  hotel general bien habtiación espaciosa person...  
2  hotel moderno amplio limpio no poder disfrutar...  
3  calefacción averiado no operativo comentar rec...  
4  hotel bajado notoriamente categorio habitación...  
5  pequeño bloquear insuficiente tamaño hotel may...  
6  mal ma

In [None]:
# Lista de bigramas positivos y negativos
bigramas_positivos = [("personal", "amable"), ("calidad", "precio"), ("hotel", "no"), ("relación", "calidad"), ("hotel","bien"), ("cama","cómodo"),("bien","ubicado"),("habitación","limpio"), ("personal","atento"), ("buen","ubicación"), ("ubicación", "perfecto"), ("habitación", "bien"), ("personal", "agradable"), ("habitación", "grande"), ("bastante", "bien"), ("mejor", "hotel"), ("excelente", "ubicación"), ("buen", "hotel")]
bigramas_negativos = [("no", "poder"), ("bien", "situado"), ("no", "volver"), ("habitación","amplio"),("no","funcionar"),("no","recomeir"), ("no", "dar"), ("no","saber"), ("no","hacer"),("no", "ir"), ("dejar", "desear"), ("no", "dejar"), ("no", "ninguno"), ("no", "querer"), ("no", "quedar"), ("mal", "hotel")]


In [None]:
from nltk import bigrams
from nltk.tokenize import word_tokenize

# Función para detectar bigramas en un texto
def detectar_bigramas(texto, bigramas_positivos, bigramas_negativos):
    # Tokenizar el texto
    tokens = word_tokenize(texto.lower())

    # Generar bigramas del texto
    bigramas_texto = list(bigrams(tokens))

    # Contar bigramas positivos y negativos
    positivos_detectados = [b for b in bigramas_texto if b in bigramas_positivos]
    negativos_detectados = [b for b in bigramas_texto if b in bigramas_negativos]

    return len(positivos_detectados), len(negativos_detectados)

# Aplicar la función a cada fila del DataFrame
df['positivos_detectados'], df['negativos_detectados'] = zip(*df['cleaned_review_text'].apply(
    lambda texto: detectar_bigramas(texto, bigramas_positivos, bigramas_negativos)))

# Mostrar el DataFrame con los resultados
print(df)

# Guardar el DataFrame con las dos columnas de positivos y negativos en un archivo CSV
df[['positivos_detectados', 'negativos_detectados']].to_csv('bigrama_resultados.csv', index=False)

# Mostrar el DataFrame con los resultados
print(df[['positivos_detectados', 'negativos_detectados']])

                                       title  rating  \
0                        IMPOSIBLE DESCANSAR       1   
1               No es oro todo lo que reluce       5   
2             Un buen hotel con mucho ruido.       5   
3       SIN CALEFACCIÓN OPERATIVA Y CON FRÍO       1   
4                  Deja bastante que desear.       1   
...                                      ...     ...   
7515                          Excelente !!!        5   
7516          Muy acogedor y excelente trato       5   
7517                              Genial !!!       5   
7518  HOTEL EXCELENTE ASÍ COMO SUS EMPLEADOS       5   
7519         Muy buen hotel, recien abierto.       5   

                                    cleaned_review_text  positivos_detectados  \
0     fin semana parejo hicimo reserva hotel fin des...                     0   
1     hotel general bien habtiación espaciosa person...                     1   
2     hotel moderno amplio limpio no poder disfrutar...                     1   
3  

In [None]:
import nltk
import pandas as pd
from collections import Counter
from nltk import bigrams
from nltk.tokenize import word_tokenize
nltk.download('punkt')


# Función mejorada para limpiar y extraer bigramas
def obtener_bigramas_limpios(df, columna_texto):
    bigramas_totales = Counter()

    # Procesar cada fila de la columna de texto
    for texto in df[columna_texto].dropna():
        # Limpiar el texto y tokenizar con split
        tokens = [word for word in texto.lower().split() if word.strip()]

        # Generar los bigramas del texto
        bigramas_texto = list(bigrams(tokens))

        # Actualizar el contador con los bigramas
        bigramas_totales.update(bigramas_texto)

    # Obtener los 100 bigramas más comunes
    bigramas_top_100 = bigramas_totales.most_common(100)

    # Crear un DataFrame con los resultados
    df_bigrams_top_100 = pd.DataFrame(bigramas_top_100, columns=["Bigrama", "Frecuencia"])

    return df_bigrams_top_100

# Cargar el archivo CSV
df = pd.read_csv('filtered_balanced_AHR_constopcombined_bigrams.csv')

# Llamar a la función para obtener los bigramas más comunes
df_bigrams = obtener_bigramas_limpios(df, 'cleaned_review_text')

# Guardar el resultado en un archivo CSV
df_bigrams.to_csv('Top_100_Bigramas_Limpios.csv', index=False)

# Mostrar el DataFrame resultante
print(df_bigrams)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


                  Bigrama  Frecuencia
0             (no, poder)         886
1      (personal, amable)         408
2   (aire, acondicionado)         403
3       (calidad, precio)         392
4        (habitación, no)         331
..                    ...         ...
95       (agua, caliente)          84
96         (poder, hacer)          82
97      (parte, personal)          82
98          (buen, hotel)          82
99     (chico, recepción)          82

[100 rows x 2 columns]
