# Review Estados

Lo que haremos aquí es recopilar los datos de las reviews de los estados que utilizaremos en el análisis. Los archivos en crudo se presentaron en formato Json, en archivos individuales para cada uno de los 51 estados de EEUU, por lo que procederemos a ordenar los mismos, en formato parquet, y por la dimension, en dataframes individuales, para luego crear una tabla única para los 5 estados pertinentes.

In [None]:
import pandas as pd
import os

# New York

Se convierten los archivos Json a formato parquet

In [None]:
# Carpeta de entrada que contiene los archivos JSON
input_folder = r'NORESTE\review-New_York'
# Carpeta de salida para guardar los archivos Parquet
output_folder = r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\NORESTE_parquet\Rev-New_York.parquet'

# Crear la carpeta de salida si no existe
os.makedirs(output_folder, exist_ok=True)

# Iterar sobre todos los archivos en la carpeta de entrada
for filename in os.listdir(input_folder):
    if filename.endswith('.json'):
        # Ruta completa del archivo JSON
        json_file_path = os.path.join(input_folder, filename)
        
        # Leer el archivo JSON
        try:
            df = pd.read_json(json_file_path, lines=True)
            
            # Crear nombre de archivo Parquet (sin la extensión .json)
            parquet_file_path = os.path.join(output_folder, filename.replace('.json', '.parquet'))
            
            # Guardar el DataFrame como archivo Parquet
            df.to_parquet(parquet_file_path, index=False, compression='snappy', engine='pyarrow')
            
            print(f"Convertido: {filename} a {parquet_file_path}")
        except Exception as e:
            print(f"Error al convertir {filename}: {e}")

print("Conversión completada.")

In [None]:
# Leer el archivo Parquet
Rev_New_York_1 = pd.read_parquet(r'NORESTE_parquet\Rev-New_York.parquet')

print(Rev_New_York_1.info())

Se concatenan los archivos parquet para formar un dataframe

In [None]:
# Carpeta que contiene los archivos Parquet
input_folder_parquet = r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\NORESTE_parquet\Rev-New_York.parquet'

# Lista para almacenar DataFrames
df_list_New_York = []

# Iterar sobre todos los archivos Parquet en la carpeta de entrada
for filename in os.listdir(input_folder_parquet):
    if filename.endswith('.parquet'):
        # Ruta completa del archivo Parquet
        parquet_file_path_ny = os.path.join(input_folder_parquet, filename)
        
        # Leer el archivo Parquet y añadir el DataFrame a la lista
        df = pd.read_parquet(parquet_file_path_ny)
        df_list_New_York.append(df)

# Concatenar todos los DataFrames en uno solo
df_new_york = pd.concat(df_list_New_York, ignore_index=True)

# Verificar el DataFrame combinado
print(df_new_york.shape)
print

Se elimina columna irrelevante para el análisis

In [None]:
df_new_york = df_new_york.drop(columns=['pics'])

Se convierten las columnas necesarias

In [None]:
# Se convierte la columna 'user_id' a tipo object
df_new_york['user_id'] = df_new_york['user_id'].astype('str')
print(df_new_york['user_id'].head(3))

In [None]:
# Se convierte la columna 'time' a datetime y luego a solo fecha manteniendo tipo datetime
df_new_york['time'] = pd.to_datetime(df_new_york['time'], unit='ms').dt.normalize()
print(df_new_york['time'].head(3))

In [None]:
# Se desempaqueta la columna 'resp' y se agregan dos columnas al df
df_new_york[['resp_text', 'resp_time']] = df_new_york['resp'].apply(pd.Series)

In [None]:
# Se convierte la columna 'resp_time' a datetime y luego a solo fecha manteniendo tipo datetime
df_new_york['resp_time'] = pd.to_datetime(df_new_york['resp_time'], unit='ms').dt.normalize()
print(df_new_york['resp_time'].head(3))

In [None]:
# Se elimina la columna 'resp' original
df_new_york = df_new_york.drop(columns=['resp'])

In [None]:
# Se renombra la columna gmap_id como 'id_negocio', para mayor comprensión en el análisis
df_new_york = df_new_york.rename(columns={'gmap_id': 'id_negocio'})

In [None]:
# Se reordena la columna 'id_negocio'
columnas = list(df_new_york.columns)
columnas.insert(0, columnas.pop(columnas.index('id_negocio')))
df_new_york = df_new_york[columnas]

In [None]:
# Se añade la columna 'review_id' autoincremental
df_new_york.insert(0, 'review_id', range(1, 1 + len(df_new_york)))

In [None]:
# Se añade la columna 'Estado'
df_new_york.insert(2, 'Estado', 'New York')

In [None]:
# Se verifica como queda el dataframe
print(df_new_york.info())

# New Mexico

Se pasan de formato Json a Parquet

In [None]:
# Carpeta de entrada que contiene los archivos JSON
input_folder = r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\OESTE\review-New_Mexico'
# Carpeta de salida para guardar los archivos Parquet
output_folder = r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\OESTE.parquet\Rev-New_Mexico.parquet'

# Crear la carpeta de salida si no existe
os.makedirs(output_folder, exist_ok=True)

# Iterar sobre todos los archivos en la carpeta de entrada
for filename in os.listdir(input_folder):
    if filename.endswith('.json'):
        # Ruta completa del archivo JSON
        json_file_path = os.path.join(input_folder, filename)
        
        # Leer el archivo JSON
        try:
            df = pd.read_json(json_file_path, lines=True)
            
            # Crear nombre de archivo Parquet (sin la extensión .json)
            parquet_file_path = os.path.join(output_folder, filename.replace('.json', '.parquet'))
            
            # Guardar el DataFrame como archivo Parquet
            df.to_parquet(parquet_file_path, index=False, compression='snappy', engine='pyarrow')
            
            print(f"Convertido: {filename} a {parquet_file_path}")
        except Exception as e:
            print(f"Error al convertir {filename}: {e}")

print("Conversión completada.")

In [None]:
# Leer el archivo Parquet
Rev_New_Mexico_1 = pd.read_parquet(r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\OESTE.parquet\Rev-New_Mexico.parquet')

# Mostrar las primeras filas
print(Rev_New_Mexico_1.info())

Se concatenan los archivos .parquet para formar un Dataframe

In [None]:
# Carpeta que contiene los archivos Parquet
input_folder_parquet = r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\OESTE.parquet\Rev-New_Mexico.parquet'

# Lista para almacenar DataFrames
df_list_New_Mexico = []

# Iterar sobre todos los archivos Parquet en la carpeta de entrada
for filename in os.listdir(input_folder_parquet):
    if filename.endswith('.parquet'):
        # Ruta completa del archivo Parquet
        parquet_file_path_nmex = os.path.join(input_folder_parquet, filename)
        
        # Leer el archivo Parquet y añadir el DataFrame a la lista
        df = pd.read_parquet(parquet_file_path_nmex)
        df_list_New_Mexico.append(df)

# Concatenar todos los DataFrames en uno solo
df_new_mexico = pd.concat(df_list_New_Mexico, ignore_index=True)

# Verificar el DataFrame combinado
print(df_new_mexico.shape)
print

Se elimina columna irrelevante para el análisis

In [None]:
df_new_mexico = df_new_mexico.drop(columns=['pics'])

Se convierten las columnas necesarias

In [None]:
# Se convierte la columna 'user_id' a tipo object
df_new_mexico['user_id'] = df_new_mexico['user_id'].astype('str')
print(df_new_mexico['user_id'].head(3))

In [None]:
# Se convierte la columna 'time' a datetime y luego a solo fecha manteniendo tipo datetime
df_new_mexico['time'] = pd.to_datetime(df_new_mexico['time'], unit='ms').dt.normalize()
print(df_new_mexico['time'].head(3))

In [None]:
# Se desempaqueta la columna 'resp' y se agregan dos columnas al df
df_new_mexico[['resp_text', 'resp_time']] = df_new_mexico['resp'].apply(pd.Series)

In [None]:
# Se convierte la columna 'time' a datetime y luego a solo fecha manteniendo tipo datetime
df_new_mexico['resp_time'] = pd.to_datetime(df_new_mexico['resp_time'], unit='ms').dt.normalize()
print(df_new_mexico['resp_time'].head(3))

In [None]:
# Se elimina la columna 'resp' original
df_new_mexico = df_new_mexico.drop(columns=['resp'])

In [None]:
# Se renombra la columna gmap_id como 'id_negocio', para mayor comprensión en el análisis
df_new_mexico = df_new_mexico.rename(columns={'gmap_id': 'id_negocio'})

In [None]:
# Se reordena la columna 'id_negocio'
columnas = list(df_new_mexico.columns)
columnas.insert(0, columnas.pop(columnas.index('id_negocio')))
df_new_mexico = df_new_mexico[columnas]

In [None]:
# Se añade la columna 'review_id' autoincremental desde 2700001 para continuar desde el df_new_york
df_new_mexico.insert(0, 'review_id', range(2700001, 2700001 + len(df_new_mexico)))

In [None]:
# Se añade la columna 'Estado'
df_new_mexico.insert(2, 'Estado', 'New Mexico')

In [None]:
# Se verifica como queda el dataframe
print(df_new_mexico.info())

# Pennsylvania

Se convierten los archivos Json a formato parquet

In [None]:
# Carpeta de entrada que contiene los archivos JSON
input_folder = r'NORESTE\review-Pennsylvania'
# Carpeta de salida para guardar los archivos Parquet
output_folder = r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\NORESTE_parquet\Rev-Pennsylvania.parquet'

# Crear la carpeta de salida si no existe
os.makedirs(output_folder, exist_ok=True)

# Iterar sobre todos los archivos en la carpeta de entrada
for filename in os.listdir(input_folder):
    if filename.endswith('.json'):
        # Ruta completa del archivo JSON
        json_file_path = os.path.join(input_folder, filename)
        
        # Leer el archivo JSON
        try:
            df = pd.read_json(json_file_path, lines=True)
            
            # Crear nombre de archivo Parquet (sin la extensión .json)
            parquet_file_path = os.path.join(output_folder, filename.replace('.json', '.parquet'))
            
            # Guardar el DataFrame como archivo Parquet
            df.to_parquet(parquet_file_path, index=False, compression='snappy', engine='pyarrow')
            
            print(f"Convertido: {filename} a {parquet_file_path}")
        except Exception as e:
            print(f"Error al convertir {filename}: {e}")

print("Conversión completada.")

In [None]:
# Leer el archivo Parquet
Rev_Pennsylvania_1 = pd.read_parquet(r'NORESTE_parquet\Rev-Pennsylvania.parquet')

print(Rev_Pennsylvania_1.info())

Se concatenan los archivos parquet para formar un solo dataframe

In [None]:
# Carpeta que contiene los archivos Parquet
input_folder_parquet = r'C:\Users\debor\OneDrive\Documentos\Henry\PROYECTO FINAL local\NORESTE_parquet\Rev-Pennsylvania.parquet'

# Lista para almacenar DataFrames
df_list_Pennsylvania = []

# Iterar sobre todos los archivos Parquet en la carpeta de entrada
for filename in os.listdir(input_folder_parquet):
    if filename.endswith('.parquet'):
        # Ruta completa del archivo Parquet
        parquet_file_path_psv = os.path.join(input_folder_parquet, filename)
        
        # Leer el archivo Parquet y añadir el DataFrame a la lista
        df = pd.read_parquet(parquet_file_path_psv)
        df_list_Pennsylvania.append(df)

# Concatenar todos los DataFrames en uno solo
df_pennsylvania = pd.concat(df_list_Pennsylvania, ignore_index=True)

# Verificar el DataFrame combinado
print(df_pennsylvania.shape)
print

Se elimina columna irrelevante para el análisis

In [None]:
df_pennsylvania = df_pennsylvania.drop(columns=['pics'])

Se convierten las columnas necesarias

In [None]:
# Se convierte la columna 'user_id' a tipo object
df_pennsylvania['user_id'] = df_pennsylvania['user_id'].astype('str')
print(df_pennsylvania['user_id'].head(3))

In [None]:
# Se convierte la columna 'time' a datetime y luego a solo fecha manteniendo tipo datetime
df_pennsylvania['time'] = pd.to_datetime(df_pennsylvania['time'], unit='ms').dt.normalize()
print(df_pennsylvania['time'].head(3))

In [None]:
# Se desempaqueta la columna 'resp' y se agregan dos columnas al df
df_pennsylvania[['resp_text', 'resp_time']] = df_pennsylvania['resp'].apply(pd.Series)

In [None]:
# Se convierte la columna 'resp_time' a datetime y luego a solo fecha manteniendo tipo datetime
df_pennsylvania['resp_time'] = pd.to_datetime(df_pennsylvania['resp_time'], unit='ms').dt.normalize()
print(df_pennsylvania['resp_time'].head(3))

In [None]:
# Se elimina la columna 'resp' original
df_pennsylvania = df_pennsylvania.drop(columns=['resp'])

In [None]:
# Se renombra la columna gmap_id como 'id_negocio', para mayor comprensión en el análisis
df_pennsylvania = df_pennsylvania.rename(columns={'gmap_id': 'id_negocio'})

In [None]:
# Se reordena la columna 'id_negocio'
columnas = list(df_pennsylvania.columns)
columnas.insert(0, columnas.pop(columnas.index('id_negocio')))
df_pennsylvania = df_pennsylvania[columnas]

In [None]:
# Se añade la columna 'review_id' autoincremental desde 4500001 para continuar desde el df_new_mexico
df_pennsylvania.insert(0, 'review_id', range(4500001, 4500001 + len(df_pennsylvania)))

In [None]:
# Se añade la columna 'Estado'
df_pennsylvania.insert(2, 'Estado', 'Pennsylvania')

In [None]:
# Se verifica como queda el dataframe
print(df_pennsylvania.info())

In [None]:
# Se concatenan los tres DataFrames anteriores para formar uno solo
df_tres_estados = pd.concat([df_new_york, df_new_mexico, df_pennsylvania])

In [None]:
print(df_tres_estados.info())

In [None]:
nulos_por_columna = df_tres_estados.isnull().sum()
print(nulos_por_columna)