In [2]:
import pandas as pd
import os

def load_parquet_file(file_path):
    """
    Carga un archivo PARQUET a un DataFrame de pandas.

    :param file_path: Ruta al archivo PARQUET.
    :return: DataFrame con los datos cargados.
    """
    # Verificar si el archivo existe
    if os.path.exists(file_path):
        df = pd.read_parquet(file_path)
        return df
    else:
        raise FileNotFoundError(f"No se encontró el archivo: {file_path}")

# Definir las rutas de los archivos
google_maps_file_path = r'C:\Users\loren\Documents\GitHub\HENRY-PROYECTO-FINAL\0_Dataset\Data_Limpia\Google\G_review_FL_reducido.parquet'
yelp_file_path = r'C:\Users\loren\Documents\GitHub\HENRY-PROYECTO-FINAL\0_Dataset\Data_Limpia\Yelp\review_FL_reducido.parquet'

# Cargar las reseñas de Google Maps
try:
    df_google_maps = load_parquet_file(google_maps_file_path)
    print("Datos de Google Maps cargados exitosamente.")
except FileNotFoundError as e:
    print(e)

# Cargar las reseñas de Yelp
try:
    df_yelp = load_parquet_file(yelp_file_path)
    print("Datos de Yelp cargados exitosamente.")
except FileNotFoundError as e:
    print(e)

# Mostrar las primeras filas de cada DataFrame para verificar
if 'df_google_maps' in locals():
    print("Primeras filas de las reseñas de Google Maps:")
    print(df_google_maps.head())

if 'df_yelp' in locals():
    print("\nPrimeras filas de las reseñas de Yelp:")
    print(df_yelp.head())



Datos de Google Maps cargados exitosamente.
Datos de Yelp cargados exitosamente.
Primeras filas de las reseñas de Google Maps:
              user_id            name           time  rating  \
762395   1.145803e+20   jose martinez  1525385005812       5   
924820   1.077641e+20       Ian Horow  1619985567951       5   
1765663  1.003756e+20   Lauren Palmer  1605046404419       5   
2393358  1.102839e+20  Merrilee Crank  1527010637476       5   
1683593  1.156291e+20   Sincere Dread  1564086971867       5   

                                                      text  pics  resp  \
762395   (Translated by Google) Excellent service ... a...  None  None   
924820                                                None  None  None   
1765663  I was really impressed with the service we rec...  None  None   
2393358  Clean very nice people work here I've been to ...  None  None   
1683593                                               None  None  None   

                                       gmap

In [3]:
# Renombrar columnas para unificar formato
df_google_maps = df_google_maps.rename(columns={'rating': 'stars', 'time': 'date'})
df_yelp = df_yelp.rename(columns={'stars': 'rating'})

# Concatenar ambos DataFrames
df_reviews = pd.concat([df_google_maps, df_yelp], ignore_index=True)

In [4]:
from textblob import TextBlob
# Verificar y manejar valores nulos en la columna 'text'
df_reviews['text'] = df_reviews['text'].fillna('')

# Función para calcular el sentimiento
def obtener_sentimiento(texto):
    analisis = TextBlob(texto)
    if analisis.sentiment.polarity > 0:
        return 'Positivo'
    elif analisis.sentiment.polarity < 0:
        return 'Negativo'
    else:
        return 'Neutral'

# Aplicar la función a las reseñas
df_reviews['sentimiento'] = df_reviews['text'].apply(obtener_sentimiento)

# Calcular los porcentajes de sentimiento
sentimiento_resumen = df_reviews['sentimiento'].value_counts(normalize=True) * 100
print(sentimiento_resumen)

sentimiento
Positivo    60.032769
Neutral     32.728625
Negativo     7.238606
Name: proportion, dtype: float64
