# 📦 Fase 03: Preparación de los Datos (CRISP-DM)


En esta fase preparamos los datos para el modelado. Esto incluye:
- Selección de columnas relevantes.
- Limpieza de datos (valores nulos, outliers).
- Creación de nuevas variables (feature engineering).
- Integración de múltiples fuentes.
- Transformación de datos (escalado, codificación).

Este notebook ejecuta los nodos definidos en `nodes.py` y visualiza los resultados intermedios.


In [1]:

import pandas as pd
from kedro.framework.context import KedroContext
from kedro.framework.session import KedroSession
import matplotlib.pyplot as plt
import seaborn as sns

# Inicializar sesión Kedro
session = KedroSession.create()
context = session.load_context()
catalog = context.catalog


## 🧹 Limpieza de Datos: `prepare_customers`

In [None]:

from proyecto_ml.pipelines.data_engineering.nodes import prepare_customers

df_customers = catalog.load("customer_validated")
customers_prepared = prepare_customers(df_customers)
catalog.save("customers_prepared", customers_prepared)
customers_prepared.head()


In [None]:

# Visualizar distribución de edad y tenure
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
sns.histplot(customers_prepared["age_years"], kde=True, ax=axes[0])
axes[0].set_title("Distribución de Edad")
sns.histplot(customers_prepared["tenure_days"], kde=True, ax=axes[1])
axes[1].set_title("Distribución de Tenure (días)")
plt.tight_layout()
plt.show()


## 📊 Feature Engineering: `compute_rfm`

In [None]:

from proyecto_ml.pipelines.data_engineering.nodes import compute_rfm

df_purchases = catalog.load("purchase_validated")
rfm_features = compute_rfm(df_purchases)
catalog.save("rfm_features", rfm_features)
rfm_features.head()


## 🛍️ Preferencias de Categoría: `compute_category_preferences`

In [None]:

from proyecto_ml.pipelines.data_engineering.nodes import compute_category_preferences

df_transactions = catalog.load("transactions_enriched")
category_prefs = compute_category_preferences(df_transactions)
catalog.save("category_prefs", category_prefs)
category_prefs.head()


## 🧩 Integración y Transformación: `assemble_features`

In [None]:

from proyecto_ml.pipelines.data_engineering.nodes import assemble_features

customer_features = assemble_features(customers_prepared, rfm_features, category_prefs)
catalog.save("customer_features", customer_features)
customer_features.head()


In [None]:

# Visualizar correlación entre features numéricos
sns.heatmap(customer_features.select_dtypes(include='number').corr(), annot=True, cmap="coolwarm")
plt.title("Correlación entre Features Numéricos")
plt.show()
