# Feature Engineering Avanzado
# Preparaci√≥n de Variables Predictivas para Series de Tiempo

---

## üìä Objetivo

Este cuaderno implementa **ingenier√≠a de caracter√≠sticas sofisticada** para maximizar la capacidad predictiva de los modelos de series de tiempo, considerando las particularidades del recaudo identificadas en el EDA:

### Features a Crear:
1. üîÑ **Variables de Rezago (Lag Features)**: Capturar din√°mica Diciembre‚ÜíEnero
2. üìÖ **Regresores Ex√≥genos**: Calendario tributario (Renta, ICA)
3. üïê **Features Temporales**: Estacionalidad, tendencias, ciclos
4. üìä **Features Estad√≠sticos**: Rolling means, volatilidad, momentum
5. üéØ **Features de Interacci√≥n**: Combinaciones no lineales

---

**Autor**: Sistema de An√°lisis Predictivo  
**Fecha**: Febrero 2026  
**Versi√≥n**: 1.0

## 1. Configuraci√≥n y Carga de Datos Depurados

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime, timedelta

warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

print("‚úÖ Bibliotecas cargadas")
print(f"üìÖ Fecha: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

In [None]:
# Cargar datos depurados del cuaderno anterior
# TODO: Ajustar seg√∫n output del cuaderno 01
print("üìÅ Cargando datos depurados...")
print("‚è≥ Pendiente: Implementar despu√©s de ejecutar 01_EDA_Depuracion.ipynb")

## 2. Preparaci√≥n de Serie Temporal Base

Crear dataset con frecuencia mensual, asegurando continuidad temporal

In [None]:
# TODO: Implementar agregaci√≥n mensual
print("‚è≥ Implementar:")
print("1. Crear columna de fecha (a√±o-mes)")
print("2. Agregar recaudo por mes")
print("3. Rellenar gaps temporales si existen")
print("4. Ordenar por fecha ascendente")

## 3. Variables de Rezago (Lag Features)

**Hip√≥tesis clave**: El recaudo de enero refleja la actividad econ√≥mica de diciembre

In [None]:
def crear_lags(df, columna_target, lags=[1, 3, 6, 12]):
    """
    Crea variables de rezago para capturar dependencias temporales
    
    Parameters:
    -----------
    df : DataFrame
        DataFrame con serie temporal
    columna_target : str
        Nombre de la columna objetivo
    lags : list
        Lista de rezagos a crear (en n√∫mero de periodos)
    
    Returns:
    --------
    DataFrame con nuevas columnas de rezago
    """
    df_lags = df.copy()
    
    for lag in lags:
        df_lags[f'recaudo_lag{lag}'] = df_lags[columna_target].shift(lag)
        print(f"‚úÖ Creado: recaudo_lag{lag} (rezago de {lag} mes(es))")
    
    return df_lags

# TODO: Aplicar funci√≥n una vez se tenga df mensual
print("‚è≥ Pendiente: Crear lags 1, 3, 6, 12 meses")

## 4. Rolling Statistics (Ventanas M√≥viles)

Capturar tendencias y volatilidad en diferentes horizontes

In [None]:
def crear_rolling_features(df, columna_target, ventanas=[3, 6, 12]):
    """
    Crea estad√≠sticas de ventanas m√≥viles
    """
    df_rolling = df.copy()
    
    for ventana in ventanas:
        # Media m√≥vil
        df_rolling[f'rolling_mean_{ventana}m'] = df_rolling[columna_target].rolling(window=ventana).mean()
        
        # Desviaci√≥n est√°ndar m√≥vil (volatilidad)
        df_rolling[f'rolling_std_{ventana}m'] = df_rolling[columna_target].rolling(window=ventana).std()
        
        # Min y Max m√≥vil
        df_rolling[f'rolling_min_{ventana}m'] = df_rolling[columna_target].rolling(window=ventana).min()
        df_rolling[f'rolling_max_{ventana}m'] = df_rolling[columna_target].rolling(window=ventana).max()
        
        print(f"‚úÖ Creadas rolling features para ventana de {ventana} meses")
    
    return df_rolling

print("‚è≥ Pendiente: Crear rolling features (3, 6, 12 meses)")

## 5. Exponential Weighted Moving Average (EWMA)

Dar mayor peso a observaciones recientes

In [None]:
def crear_ewma_features(df, columna_target, alphas=[0.3, 0.5, 0.7]):
    """
    Crea features con media m√≥vil exponencial
    """
    df_ewma = df.copy()
    
    for alpha in alphas:
        df_ewma[f'ewma_alpha{alpha}'] = df_ewma[columna_target].ewm(alpha=alpha, adjust=False).mean()
        print(f"‚úÖ Creado EWMA con alpha={alpha}")
    
    return df_ewma

print("‚è≥ Pendiente: Crear EWMA features")

## 6. Features Temporales (Calendario)

Capturar estacionalidad y patrones c√≠clicos

In [None]:
def crear_features_temporales(df, columna_fecha):
    """
    Crea features basados en el calendario
    """
    df_temp = df.copy()
    
    # Asegurar que columna_fecha es datetime
    df_temp[columna_fecha] = pd.to_datetime(df_temp[columna_fecha])
    
    # Features b√°sicos
    df_temp['a√±o'] = df_temp[columna_fecha].dt.year
    df_temp['mes'] = df_temp[columna_fecha].dt.month
    df_temp['trimestre'] = df_temp[columna_fecha].dt.quarter
    df_temp['semestre'] = df_temp[columna_fecha].dt.month.apply(lambda x: 1 if x <= 6 else 2)
    
    # Features c√≠clicos (sin y cos) para capturar periodicidad
    df_temp['mes_sin'] = np.sin(2 * np.pi * df_temp['mes'] / 12)
    df_temp['mes_cos'] = np.cos(2 * np.pi * df_temp['mes'] / 12)
    
    # One-hot encoding de mes (para modelos que lo requieran)
    for mes in range(1, 13):
        df_temp[f'es_mes_{mes}'] = (df_temp['mes'] == mes).astype(int)
    
    print("‚úÖ Features temporales creados")
    return df_temp

print("‚è≥ Pendiente: Crear features temporales")

## 7. Regresores Ex√≥genos: Calendario Tributario

**Variables externas clave**:
- Declaraci√≥n de Renta (abril-mayo)
- ICA - Industria y Comercio (marzo, julio)

In [None]:
def crear_regresores_tributarios(df, columna_fecha=None):
    """
    Crea variables binarias para periodos tributarios clave
    """
    df_trib = df.copy()
    
    if columna_fecha:
        df_trib[columna_fecha] = pd.to_datetime(df_trib[columna_fecha])
        mes = df_trib[columna_fecha].dt.month
    elif 'mes' in df_trib.columns:
        mes = df_trib['mes']
    else:
        print("‚ö†Ô∏è  No se encontr√≥ columna de mes")
        return df_trib
    
    # Periodo de Renta (abril-mayo)
    df_trib['es_periodo_renta'] = mes.isin([4, 5]).astype(int)
    
    # Periodo ICA (marzo, julio)
    df_trib['es_periodo_ica'] = mes.isin([3, 7]).astype(int)
    
    # Periodo de cierre fiscal (diciembre)
    df_trib['es_cierre_fiscal'] = (mes == 12).astype(int)
    
    # Periodo post-festivo (enero)
    df_trib['es_enero'] = (mes == 1).astype(int)
    
    print("‚úÖ Regresores tributarios creados:")
    print("   - es_periodo_renta (abril-mayo)")
    print("   - es_periodo_ica (marzo, julio)")
    print("   - es_cierre_fiscal (diciembre)")
    print("   - es_enero (pico post-festivo)")
    
    return df_trib

print("‚è≥ Pendiente: Crear regresores tributarios")

## 8. Features de Momentum y Aceleraci√≥n

In [None]:
def crear_features_momentum(df, columna_target):
    """
    Crea features de cambio y aceleraci√≥n
    """
    df_mom = df.copy()
    
    # Diferenciaci√≥n de primer orden (cambio mensual)
    df_mom['diff_1'] = df_mom[columna_target].diff(1)
    
    # Diferenciaci√≥n de segundo orden (aceleraci√≥n)
    df_mom['diff_2'] = df_mom[columna_target].diff(1).diff(1)
    
    # Cambio porcentual
    df_mom['pct_change'] = df_mom[columna_target].pct_change()
    
    # Momentum (suma de cambios √∫ltimos 3 meses)
    df_mom['momentum_3m'] = df_mom['diff_1'].rolling(window=3).sum()
    
    print("‚úÖ Features de momentum creados")
    return df_mom

print("‚è≥ Pendiente: Crear features de momentum")

## 9. Pipeline Completo de Feature Engineering

In [None]:
def pipeline_feature_engineering(df, columna_target, columna_fecha):
    """
    Ejecuta el pipeline completo de feature engineering
    """
    print("="*80)
    print("INICIANDO PIPELINE DE FEATURE ENGINEERING")
    print("="*80)
    
    df_features = df.copy()
    
    # 1. Features temporales
    print("\nüîÑ Paso 1: Features Temporales")
    df_features = crear_features_temporales(df_features, columna_fecha)
    
    # 2. Regresores tributarios
    print("\nüîÑ Paso 2: Regresores Tributarios")
    df_features = crear_regresores_tributarios(df_features)
    
    # 3. Lags
    print("\nüîÑ Paso 3: Variables de Rezago")
    df_features = crear_lags(df_features, columna_target, lags=[1, 3, 6, 12])
    
    # 4. Rolling features
    print("\nüîÑ Paso 4: Rolling Statistics")
    df_features = crear_rolling_features(df_features, columna_target, ventanas=[3, 6, 12])
    
    # 5. EWMA
    print("\nüîÑ Paso 5: EWMA Features")
    df_features = crear_ewma_features(df_features, columna_target, alphas=[0.3, 0.5, 0.7])
    
    # 6. Momentum
    print("\nüîÑ Paso 6: Momentum Features")
    df_features = crear_features_momentum(df_features, columna_target)
    
    print("\n" + "="*80)
    print("‚úÖ PIPELINE COMPLETADO")
    print(f"Features creados: {df_features.shape[1] - df.shape[1]}")
    print(f"Total de columnas: {df_features.shape[1]}")
    print("="*80)
    
    return df_features

print("‚è≥ Pipeline definido. Ejecutar cuando se tenga df mensual")

## 10. Manejo de Valores Faltantes por Lags

In [None]:
# Los lags generan NaN en las primeras observaciones
# Estrategia: eliminar filas con NaN (perder primeros 12 meses del hist√≥rico)
# O rellenar con estrategias espec√≠ficas

print("‚è≥ Estrategia de NaN:")
print("1. Identificar filas con NaN")
print("2. Eliminar primeras filas (lag m√°ximo = 12 meses)")
print("3. Validar que train set tenga suficientes datos")

## 11. Agregaciones Multi-Horizonte

Preparar datasets para los 3 horizontes temporales

### 11.1. Dataset Mensual

In [None]:
# TODO: Dataset mensual ya est√° preparado
print("‚úÖ Dataset mensual: Base para horizonte mensual")
print("   Features: Todos los creados en el pipeline")

### 11.2. Dataset Trimestral

In [None]:
def agregar_trimestral(df_mensual, columna_target, columna_fecha):
    """
    Agrega datos mensuales a trimestral
    """
    df_trim = df_mensual.copy()
    df_trim[columna_fecha] = pd.to_datetime(df_trim[columna_fecha])
    
    # Crear periodo trimestral
    df_trim['periodo_trim'] = df_trim[columna_fecha].dt.to_period('Q')
    
    # Agregar recaudo por trimestre (suma)
    df_trimestral = df_trim.groupby('periodo_trim').agg({
        columna_target: 'sum',
        'a√±o': 'first',
        'trimestre': 'first',
        # Regresores: tomar m√°ximo (si hubo evento en el trimestre)
        'es_periodo_renta': 'max',
        'es_periodo_ica': 'max',
        'es_cierre_fiscal': 'max',
        'es_enero': 'max'
    }).reset_index()
    
    print(f"‚úÖ Dataset trimestral creado: {len(df_trimestral)} trimestres")
    return df_trimestral

print("‚è≥ Pendiente: Crear agregaci√≥n trimestral")

### 11.3. Dataset Semestral

In [None]:
def agregar_semestral(df_mensual, columna_target, columna_fecha):
    """
    Agrega datos mensuales a semestral
    """
    df_sem = df_mensual.copy()
    df_sem[columna_fecha] = pd.to_datetime(df_sem[columna_fecha])
    
    # Crear campo a√±o-semestre
    df_sem['semestre_periodo'] = df_sem['a√±o'].astype(str) + '-S' + df_sem['semestre'].astype(str)
    
    # Agregar recaudo por semestre (suma)
    df_semestral = df_sem.groupby(['a√±o', 'semestre']).agg({
        columna_target: 'sum',
        'es_periodo_renta': 'max',
        'es_periodo_ica': 'max',
        'es_cierre_fiscal': 'max',
        'es_enero': 'max'
    }).reset_index()
    
    # Crear periodo legible
    df_semestral['periodo_sem'] = df_semestral['a√±o'].astype(str) + '-S' + df_semestral['semestre'].astype(str)
    
    print(f"‚úÖ Dataset semestral creado: {len(df_semestral)} semestres")
    return df_semestral

print("‚è≥ Pendiente: Crear agregaci√≥n semestral")

## 12. Divisi√≥n Train-Test para los 3 Horizontes

In [None]:
def dividir_train_test_horizonte(df, columna_fecha, a√±o_test=2026):
    """
    Divide datos en train (hasta 2025) y test (2026)
    """
    df_copy = df.copy()
    
    if 'a√±o' not in df_copy.columns:
        df_copy['a√±o'] = pd.to_datetime(df_copy[columna_fecha]).dt.year
    
    train = df_copy[df_copy['a√±o'] < a√±o_test]
    test = df_copy[df_copy['a√±o'] == a√±o_test]
    
    print(f"‚úÖ Divisi√≥n completada:")
    print(f"   Train: {len(train)} registros (2022-2025)")
    print(f"   Test:  {len(test)} registros (2026)")
    
    return train, test

print("‚è≥ Pendiente: Aplicar divisi√≥n a los 3 datasets")

## 13. Exportar Datasets Procesados

In [None]:
print("üíæ EXPORTAR DATASETS:")
print("="*80)

# TODO: Guardar datasets procesados
archivos_exportar = [
    '../data/features/datos_con_features_mensual.csv',
    '../data/features/datos_trimestral.csv',
    '../data/features/datos_semestral.csv',
    '../data/features/train_mensual.csv',
    '../data/features/test_mensual.csv',
    '../data/features/train_trimestral.csv',
    '../data/features/test_trimestral.csv',
    '../data/features/train_semestral.csv',
    '../data/features/test_semestral.csv'
]

for archivo in archivos_exportar:
    print(f"  - {archivo}")

print("\n‚úÖ Datasets listos para modelado")
print("\nüìã SIGUIENTE PASO:")
print("   Abrir cuaderno: 03_Modelos_Predictivos.ipynb")

## 14. Resumen de Features Creados

In [None]:
print("="*80)
print("RESUMEN DE FEATURE ENGINEERING")
print("="*80)

print("\nüìä CATEGOR√çAS DE FEATURES:")
print("\n1. FEATURES TEMPORALES (16):")
print("   - a√±o, mes, trimestre, semestre")
print("   - mes_sin, mes_cos (ciclicidad)")
print("   - es_mes_1 a es_mes_12 (one-hot)")

print("\n2. REGRESORES TRIBUTARIOS (4):")
print("   - es_periodo_renta, es_periodo_ica")
print("   - es_cierre_fiscal, es_enero")

print("\n3. VARIABLES DE REZAGO (4):")
print("   - recaudo_lag1, lag3, lag6, lag12")

print("\n4. ROLLING STATISTICS (12):")
print("   - rolling_mean/std/min/max (3, 6, 12 meses)")

print("\n5. EWMA FEATURES (3):")
print("   - ewma_alpha0.3, alpha0.5, alpha0.7")

print("\n6. MOMENTUM FEATURES (4):")
print("   - diff_1, diff_2, pct_change, momentum_3m")

print("\n‚úÖ TOTAL DE FEATURES INGENIER√çA: ~43 nuevas variables")
print("\nüéØ Listos para entrenamiento de modelos de series de tiempo")
print("="*80)