# Notebook 03: Feature Engineering

**Objetivo**: Crear features temporales, de rezago y estad√≠sticas para modelado predictivo de urgencias.

## Estrategia:
1. Cargar datos de urgencias redefinidas (Definici√≥n A: Percentil 75)
2. Filtrar productos con predictibilidad Moderada/Alta
3. Crear features:
   - **Temporales**: semana, mes, trimestre, estacionalidad
   - **Lags**: rezagos de ventas (1, 2, 4, 8, 52 semanas)
   - **Rolling stats**: MA, std, min, max en ventanas m√≥viles
   - **Urgency-specific**: d√≠as desde √∫ltima urgencia, frecuencia
4. Preparar train/test split temporal
5. Guardar dataset listo para modelado

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úì Librer√≠as cargadas")

## 1. Carga de Datos

In [None]:
# Cargar urgencias redefinidas
df_urgencias = pd.read_csv('../data/simulated/urgencias_redefinidas.csv')
df_urgencias['week_start'] = pd.to_datetime(df_urgencias['week_start'])

# Cargar clasificaci√≥n de productos
df_productos = pd.read_csv('../data/simulated/productos_predecibles.csv')

print(f"Datos cargados:")
print(f"  ‚Ä¢ Registros totales: {len(df_urgencias):,}")
print(f"  ‚Ä¢ Productos √∫nicos: {df_urgencias['item_id'].nunique():,}")
print(f"  ‚Ä¢ Rango temporal: {df_urgencias['week_start'].min()} a {df_urgencias['week_start'].max()}")
print(f"\nDistribuci√≥n de predictibilidad:")
print(df_productos['clasificacion'].value_counts())

In [None]:
# Filtrar solo productos Predecibles y Moderados
productos_modelar = df_productos[
    df_productos['clasificacion'].isin(['Predecible', 'Moderado'])
]['item_id'].unique()

df = df_urgencias[df_urgencias['item_id'].isin(productos_modelar)].copy()
df = df.sort_values(['item_id', 'week_start']).reset_index(drop=True)

print(f"\n‚úì Dataset filtrado:")
print(f"  ‚Ä¢ Productos a modelar: {len(productos_modelar):,}")
print(f"  ‚Ä¢ Registros: {len(df):,}")
print(f"  ‚Ä¢ Proporci√≥n urgencias: {df['is_urgent_a'].mean():.1%}")

## 2. Features Temporales

In [None]:
# Extraer componentes temporales
df['year'] = df['week_start'].dt.year
df['month'] = df['week_start'].dt.month
df['quarter'] = df['week_start'].dt.quarter
df['week_of_year'] = df['week_start'].dt.isocalendar().week
df['day_of_year'] = df['week_start'].dt.dayofyear

# Features c√≠clicas (sin/cos para capturar periodicidad)
df['month_sin'] = np.sin(2 * np.pi * df['month'] / 12)
df['month_cos'] = np.cos(2 * np.pi * df['month'] / 12)
df['week_sin'] = np.sin(2 * np.pi * df['week_of_year'] / 52)
df['week_cos'] = np.cos(2 * np.pi * df['week_of_year'] / 52)

# Indicadores especiales
df['is_q4'] = (df['quarter'] == 4).astype(int)  # Q4 suele tener alta demanda
df['is_january'] = (df['month'] == 1).astype(int)  # Enero post-navidad

print("‚úì Features temporales creadas")
print(f"  ‚Ä¢ Columnas temporales: {['year', 'month', 'quarter', 'week_of_year', 'month_sin', 'month_cos', 'week_sin', 'week_cos']}")

## 3. Lag Features (Rezagos)

In [None]:
# Crear lags de ventas por producto
lag_periods = [1, 2, 4, 8, 52]  # 1w, 2w, 1m, 2m, 1y

for lag in lag_periods:
    df[f'sales_lag_{lag}'] = df.groupby('item_id')['total_sales'].shift(lag)
    print(f"  ‚Ä¢ Lag {lag} semanas creado")

# Lags de urgencias (binario)
for lag in [1, 2, 4]:
    df[f'urgent_lag_{lag}'] = df.groupby('item_id')['is_urgent_a'].shift(lag)

print("\n‚úì Lag features creadas")

## 4. Rolling Statistics (Ventanas M√≥viles)

In [None]:
# Media m√≥vil y estad√≠sticas en ventanas de 4, 8, 12 semanas
# Nota: ma_4 ya existe del notebook 02, por lo que creamos nuevas columnas con prefijo 'roll_'
windows = [4, 8, 12]

for window in windows:
    # Media m√≥vil
    df[f'roll_ma_{window}'] = df.groupby('item_id')['total_sales'].transform(
        lambda x: x.rolling(window=window, min_periods=1).mean()
    )
    
    # Desviaci√≥n est√°ndar m√≥vil
    df[f'roll_std_{window}'] = df.groupby('item_id')['total_sales'].transform(
        lambda x: x.rolling(window=window, min_periods=1).std()
    )
    
    # M√≠nimo y m√°ximo m√≥vil
    df[f'roll_min_{window}'] = df.groupby('item_id')['total_sales'].transform(
        lambda x: x.rolling(window=window, min_periods=1).min()
    )
    
    df[f'roll_max_{window}'] = df.groupby('item_id')['total_sales'].transform(
        lambda x: x.rolling(window=window, min_periods=1).max()
    )
    
    print(f"  ‚Ä¢ Rolling stats ventana {window} semanas")

# Features derivadas - usar la ma_4 existente del notebook 02
df['sales_vs_ma4'] = df['total_sales'] / (df['ma_4'] + 1)  # Ratio vs tendencia
df['sales_vs_roll_ma12'] = df['total_sales'] / (df['roll_ma_12'] + 1)

print("\n‚úì Rolling statistics creadas")

## 5. Features Espec√≠ficas de Urgencias

In [None]:
def calcular_dias_desde_ultima_urgencia(grupo):
    """Calcula d√≠as desde la √∫ltima urgencia para cada producto
    IMPORTANTE: Usa solo informaci√≥n PASADA (excluye la semana actual)
    """
    dias = []
    ultimo_urgente = None
    
    for idx, row in grupo.iterrows():
        if ultimo_urgente is None:
            dias.append(0)
        else:
            dias.append((row['week_start'] - ultimo_urgente).days)
        
        # CLAVE: Actualizar ultimo_urgente DESPU√âS de calcular d√≠as
        # Esto asegura que no usamos info de la semana actual para predecir
        # Solo vemos si la ANTERIOR fue urgente
        if idx > 0:  # Empezar desde la segunda fila
            prev_urgent = grupo.iloc[grupo.index.get_loc(idx) - 1]['is_urgent_a'] if grupo.index.get_loc(idx) > 0 else 0
            if prev_urgent == 1:
                ultimo_urgente = grupo.iloc[grupo.index.get_loc(idx) - 1]['week_start']
    
    return pd.Series(dias, index=grupo.index)

# D√≠as desde √∫ltima urgencia (usando solo info pasada)
df['days_since_urgent'] = df.groupby('item_id').apply(calcular_dias_desde_ultima_urgencia).values

# CORRECCI√ìN CR√çTICA: Frecuencia de urgencias en ventanas m√≥viles
# Usar shift(1) para excluir la semana actual y evitar data leakage
for window in [4, 8, 12]:
    # Calcular rolling sobre urgencias PASADAS (shift 1 posici√≥n)
    df[f'urgent_freq_{window}w'] = df.groupby('item_id')['is_urgent_a'].shift(1).transform(
        lambda x: x.rolling(window=window, min_periods=1).sum()
    )
    
    # Tasa de urgencias (proporci√≥n)
    df[f'urgent_rate_{window}w'] = df[f'urgent_freq_{window}w'] / window

print("‚úì Features de urgencias creadas (SIN data leakage)")
print(f"  ‚Ä¢ days_since_urgent: promedio {df['days_since_urgent'].mean():.1f} d√≠as")
print(f"  ‚Ä¢ urgent_rate_4w: promedio {df['urgent_rate_4w'].mean():.2%}")
print(f"\\n‚ö†Ô∏è  IMPORTANTE: Features usan solo informaci√≥n PASADA (shift aplicado)")

## 6. Features de Tendencia

In [None]:
# Diferencias (cambio respecto a semana anterior)
df['sales_diff_1'] = df.groupby('item_id')['total_sales'].diff(1)
df['sales_diff_4'] = df.groupby('item_id')['total_sales'].diff(4)

# Tasa de crecimiento
df['sales_pct_change_1'] = df.groupby('item_id')['total_sales'].pct_change(1)
df['sales_pct_change_4'] = df.groupby('item_id')['total_sales'].pct_change(4)

# Momentum (diferencia entre MA corta y larga) - usar roll_ma ya que ma_4 viene del notebook 02
df['momentum'] = df['roll_ma_4'] - df['roll_ma_12']

print("‚úì Features de tendencia creadas")

## 7. Limpieza y Preparaci√≥n Final

In [None]:
# Revisar valores faltantes
print("Missing values por columna:")
missing = df.isnull().sum()
missing = missing[missing > 0].sort_values(ascending=False)
print(missing.head(10))

# Rellenar missing values
# Para lags: forward fill (usamos el valor anterior)
lag_cols = [col for col in df.columns if 'lag_' in col or 'roll_std_' in col]
df[lag_cols] = df.groupby('item_id')[lag_cols].ffill()

# Para diferencias y pct_change: rellenar con 0
diff_cols = [col for col in df.columns if 'diff' in col or 'pct_change' in col]
df[diff_cols] = df[diff_cols].fillna(0)

# Reemplazar infinitos por NaN y luego rellenar
df = df.replace([np.inf, -np.inf], np.nan)
df = df.fillna(0)

print(f"\n‚úì Missing values manejados")
print(f"  ‚Ä¢ Nulls restantes: {df.isnull().sum().sum()}")

## 8. An√°lisis de Correlaciones

In [None]:
# Seleccionar features num√©ricas relevantes
feature_cols = [col for col in df.columns if col not in [
    'item_id', 'week_start', 'week_id', 'week_num', 'total_sales', 
    'is_urgent_a', 'is_urgent_b', 'is_urgent_c',
    'threshold_a', 'threshold_b', 'threshold_c', 'mean_prod', 'std_prod',
    'category', 'dept'
]]

# Calcular correlaci√≥n con variable objetivo
correlations = df[feature_cols + ['is_urgent_a']].corr()['is_urgent_a'].drop('is_urgent_a')
correlations = correlations.sort_values(ascending=False)

print("\nüìä TOP 15 FEATURES M√ÅS CORRELACIONADAS CON URGENCIA:")
print(correlations.head(15))

print("\nüìä BOTTOM 10 FEATURES (menor correlaci√≥n):")
print(correlations.tail(10))

In [None]:
# Visualizar top correlaciones
fig, ax = plt.subplots(figsize=(10, 8))
top_corr = correlations.head(20)
top_corr.plot(kind='barh', ax=ax, color='steelblue')
ax.set_xlabel('Correlaci√≥n con is_urgent_a')
ax.set_title('Top 20 Features por Correlaci√≥n con Urgencias')
ax.axvline(x=0, color='black', linestyle='--', linewidth=0.8)
plt.tight_layout()
plt.savefig('../results/feature_correlations.png', dpi=150, bbox_inches='tight')
plt.show()

print("‚úì Gr√°fico guardado: results/feature_correlations.png")

## 9. Train/Test Split Temporal

In [None]:
# Split temporal: √∫ltimas 26 semanas (6 meses) para test
fechas_unicas = sorted(df['week_start'].unique())
fecha_split = fechas_unicas[-26]  # √öltimas 26 semanas para test

df_train = df[df['week_start'] < fecha_split].copy()
df_test = df[df['week_start'] >= fecha_split].copy()

print(f"\nüìÖ SPLIT TEMPORAL:")
print(f"\nTRAIN:")
print(f"  ‚Ä¢ Fechas: {df_train['week_start'].min()} a {df_train['week_start'].max()}")
print(f"  ‚Ä¢ Semanas: {df_train['week_start'].nunique()}")
print(f"  ‚Ä¢ Registros: {len(df_train):,}")
print(f"  ‚Ä¢ Urgencias: {df_train['is_urgent_a'].sum():,} ({df_train['is_urgent_a'].mean():.1%})")

print(f"\nTEST:")
print(f"  ‚Ä¢ Fechas: {df_test['week_start'].min()} a {df_test['week_start'].max()}")
print(f"  ‚Ä¢ Semanas: {df_test['week_start'].nunique()}")
print(f"  ‚Ä¢ Registros: {len(df_test):,}")
print(f"  ‚Ä¢ Urgencias: {df_test['is_urgent_a'].sum():,} ({df_test['is_urgent_a'].mean():.1%})")

## 10. Guardar Datasets Preparados

In [None]:
# Guardar dataset completo con features
df.to_csv('../data/simulated/dataset_features.csv', index=False)
print(f"‚úì Dataset completo guardado: data/simulated/dataset_features.csv")
print(f"  ‚Ä¢ Shape: {df.shape}")

# Guardar train/test
df_train.to_csv('../data/simulated/train_features.csv', index=False)
df_test.to_csv('../data/simulated/test_features.csv', index=False)
print(f"\n‚úì Train/Test guardados:")
print(f"  ‚Ä¢ train_features.csv: {df_train.shape}")
print(f"  ‚Ä¢ test_features.csv: {df_test.shape}")

# Guardar lista de features para modelado
features_modeling = [col for col in feature_cols if col in df.columns]
pd.DataFrame({'feature': features_modeling}).to_csv('../data/simulated/feature_list.csv', index=False)
print(f"\n‚úì Lista de features guardada: {len(features_modeling)} features")

## 11. Resumen Final

In [None]:
print("\n" + "="*70)
print("üìä RESUMEN FEATURE ENGINEERING")
print("="*70)

print(f"\n‚úì Productos procesados: {df['item_id'].nunique():,}")
print(f"‚úì Registros totales: {len(df):,}")
print(f"‚úì Features creadas: {len(feature_cols)}")

print(f"\nüìÇ ARCHIVOS GENERADOS:")
print(f"  ‚Ä¢ dataset_features.csv - Dataset completo con todas las features")
print(f"  ‚Ä¢ train_features.csv - Training set ({len(df_train):,} registros)")
print(f"  ‚Ä¢ test_features.csv - Test set ({len(df_test):,} registros)")
print(f"  ‚Ä¢ feature_list.csv - Lista de features para modelado")
print(f"  ‚Ä¢ feature_correlations.png - Visualizaci√≥n de correlaciones")

print(f"\nüéØ CARACTER√çSTICAS DEL DATASET:")
print(f"  ‚Ä¢ Target: is_urgent_a (Definici√≥n A: Percentil 75)")
print(f"  ‚Ä¢ Balance: {df['is_urgent_a'].mean():.1%} urgencias")
print(f"  ‚Ä¢ Horizonte temporal: {df['week_start'].nunique()} semanas")
print(f"  ‚Ä¢ Split: {len(df_train)} train / {len(df_test)} test")

print(f"\n‚úÖ DATASET LISTO PARA MODELADO")
print(f"\nPr√≥ximos pasos:")
print(f"  ‚Üí Fase 4: Modelado con Prophet")
print(f"  ‚Üí Fase 5: Modelado con XGBoost")
print(f"  ‚Üí Fase 6: Modelado con Random Forest")
print(f"  ‚Üí Fase 7: Comparaci√≥n de modelos")
print("="*70)