## Ejecutamos las funciones creadas para el ETL

In [None]:
import sys
import os
import warnings

# Agregar la carpeta raíz (un nivel arriba de EDA) a sys.path
root_path = os.path.abspath(os.path.join(".."))
if root_path not in sys.path:
    sys.path.append(root_path)
from clean_functions.etl_functs import DataPipeline
warnings.filterwarnings("ignore")

if __name__ == "__main__":
    # Definir rutas a los archivos de entrada
    yelp_path = "Data_cleaned/Yelp/filtered_restaurants.parquet"
    google_path = "Data_cleaned/Google/metadata-sitios/filtered_top_10_states.parquet"
    yelp_reviews_path = "Data_cleaned/Yelp/review_filtered.parquet"
    google_reviews_path = "Data_cleaned/Google/reviews-filtered/merged_reviews_clean.parquet"
    
    # Inicializar el pipeline
    pipeline = DataPipeline(yelp_path, google_path, yelp_reviews_path, google_reviews_path)
    
    # Ejecutar el pipeline y guardar resultados
    print("Realizando merge de datos...")
    result = pipeline.merge_data()
    
    print("Procesando reviews...")
    df_reviews = pipeline.process_reviews(result)
    
    print("Creando tablas de estados y ciudades...")
    states, cities = pipeline.create_states_and_cities(result)
    
    print("Generando tablas de negocio y categorías...")
    business, categories, business_categories = pipeline.create_business_tables(result, cities)
    
    print("Creando tabla de usuarios...")
    users = pipeline.create_users_table(df_reviews)
    
    print("Proceso completado. Archivos guardados en la carpeta 'output'.")
