# **Preprocesamiento Estructurado con Pipelines**

Construiremos Pipelines de Scikit-learn para estandarizar las variables numéricas y codificar las categóricas. Este enfoque garantiza que el tratamiento de los datos sea consistente, reproducible y evita errores comunes como la fuga de datos (data leakage).

# 1.- **Importar librerias**

In [1]:
# Importar librerías estándar
import sys
import os

# 2. Configurar la ruta para que Python encuentre el código en 'src'. Esto añade la carpeta raíz del proyecto al sys.path
ruta_raiz_proyecto = os.path.abspath(os.path.join(os.getcwd(), '../../'))
sys.path.append(ruta_raiz_proyecto)

# 3. Importar las funciones directamente.
from src.cargar_analisis import cargar_dataframe, crear_listas_variables
from src.pipelines import preparar_datos_para_modelado

print("Funciones importadas exitosamente desde src/")

Funciones importadas exitosamente desde src/


# **2.- Importar datos**

In [2]:
# Ruta de la base de datos
path_data = '../../data/obesity_estimation_model.csv'

# Ejecutar función para cargar datos
df = cargar_dataframe(path_data)

# Ejecutar la función para generar listas con las variables numericas, categoricas y objetivo
variables_numericas, variables_categoricas, variable_objetivo = crear_listas_variables(to_lower = 1, exclude_mixed = 1)

Archivo CSV cargado exitosamente desde: ../../data/obesity_estimation_model.csv


# **3. Preprocesamiento con Pipelines**

In [3]:
X_train, X_test, y_train, y_test, preprocesador = preparar_datos_para_modelado(df, variable_objetivo, 0.2, 1)

Iniciando la preparación de datos para el modelado...
Datos divididos: 1556 para entrenamiento, 390 para prueba.

Preprocesador creado y ajustado a los datos de entrenamiento exitosamente.


In [4]:
preprocesador