In [11]:
import logging
from data_loader import load_data
from data_cleaning import clean_data
from data_transformation import transform_data
from feature_engineering import transform_and_split_data
import pandas as pd
import scipy.sparse
from pathlib import Path

logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

OUTPUT_DIR = Path().resolve().parent.parent.joinpath("data", "processed")

def save_data(X_train, X_val, X_test, y_train, y_val, y_test, output_dir=OUTPUT_DIR):
    # Guarda las variables objetivo (y) como CSV
    y_train.to_csv(f"{output_dir}/y_train.csv", index=False)
    y_val.to_csv(f"{output_dir}/y_val.csv", index=False)
    y_test.to_csv(f"{output_dir}/y_test.csv", index=False)

    # Guarda los features (X) como Parquet o CSV
    if isinstance(X_train, scipy.sparse.spmatrix):
        scipy.sparse.save_npz(f"{output_dir}/X_train.npz", X_train)
        scipy.sparse.save_npz(f"{output_dir}/X_val.npz", X_val)
        scipy.sparse.save_npz(f"{output_dir}/X_test.npz", X_test)
    else:
        pd.DataFrame(X_train).to_parquet(f"{output_dir}/X_train.parquet")
        pd.DataFrame(X_val).to_parquet(f"{output_dir}/X_val.parquet")
        pd.DataFrame(X_test).to_parquet(f"{output_dir}/X_test.parquet")

    logging.info(f"✅ Datos guardados en {output_dir}")


# def run_data_preprocessing_pipeline()

logging.info("Iniciando pipeline de preprocesamiento...")

logging.info(f"📊 1. Carga de datos.")
data = load_data("clasificacion_siniestros.csv")
logging.info(f"✅ Datos cargados: {data.shape[0]} filas y {data.shape[1]} columnas.")

logging.info(f"🧹 2. Limpieza de datos.")
data = clean_data(data.copy())
logging.info(f"✅ Proceso de limpieza finalizado.")

logging.info(f"🔄 3. Transformación de datos.")
data = transform_data(data.copy())
logging.info(f"✅ Proceso de transformación finalizado.")

logging.info(f"🔧 4. Ingeniería de características y partición de datos")
x_train, y_train, x_val, y_val, x_test, y_test = transform_and_split_data(data.copy())
logging.info(f"✅ Proceso de ingeniería de características y partición de datos finalizado.")

logging.info(f"📦 5. Guardando datos procesados.")
save_data(x_train, x_val, x_test, y_train, y_val, y_test)



2025-02-28 21:10:01,091 - INFO - Iniciando pipeline de preprocesamiento...
2025-02-28 21:10:01,093 - INFO - 📊 1. Carga de datos.
2025-02-28 21:10:01,095 - INFO - 	Cargando datos desde: D:\OneDrive - Universidad de La Salle\Maestría IA\S4\Desarrollo de soluciones\Proyecto\Repo desarrollo soluciones\data\raw\clasificacion_siniestros.csv
2025-02-28 21:10:01,798 - INFO - ✅ Datos cargados: 63164 filas y 66 columnas.
2025-02-28 21:10:01,805 - INFO - 🧹 2. Limpieza de datos.
2025-02-28 21:10:01,815 - INFO - 	Iniciando limpieza: (63164, 66) registros.
2025-02-28 21:10:02,099 - INFO - 	Columnas eliminadas por irrelevancia: ['id_furat_furep_igdacmlmasolicitudes', 'id_solicitud_igdacmlmasolicitudes', 'fecha_solicitud_igdacmlmasolicitudes', 'fecha_modificacion_aud_igdacmlmasolicitudes', 'dto_igdacmlmasolicitudes', 'pcl_igdacmlmasolicitudes', 'id_furat_igatepmafurat', 'id_siniestro_igatepmafurat', 'minuto_at_igatepmafurat', 'nombre_ocupacion_igatepmafurat', 'horas_previo_at_igatepmafurat', 'minutos_