# Ingenier√≠a de Caracter√≠sticas para Mantenimiento Predictivo
## Proyecto: Predicci√≥n de Fallas en Moto-Compresores - Oil & Gas

### üéØ Objetivo del Notebook

Este notebook constituye la **fase cr√≠tica** de transformaci√≥n de datos donde convertimos las series temporales limpias en un dataset enriquecido y etiquetado, optimizado para el entrenamiento de modelos de Machine Learning. Nuestro objetivo principal es **predecir fallas en moto-compresores con 7 d√≠as de antelaci√≥n**, una ventana temporal que permite la planificaci√≥n efectiva de mantenimientos preventivos en el sector Oil & Gas.

### üìã Tareas Principales

1. **Carga y Validaci√≥n de Datos**: Integrar el dataset preprocesado con el historial de eventos
2. **Ingenier√≠a de Caracter√≠sticas Temporales**: Crear features que capturen la din√°mica del deterioro
3. **Caracter√≠sticas Avanzadas**: Implementar features de tasas de cambio, frecuencia y detecci√≥n de anomal√≠as
4. **Etiquetado de Fallas**: Crear la variable objetivo basada en ventanas de pre-falla de 7 d√≠as
5. **Validaci√≥n y Preparaci√≥n Final**: Garantizar calidad de datos para modelado

In [3]:
# Importaci√≥n de librer√≠as esenciales para ingenier√≠a de caracter√≠sticas
import pandas as pd
import numpy as np
from pathlib import Path
from datetime import datetime, timedelta
import warnings

# Librer√≠as especializadas para an√°lisis de se√±ales y anomal√≠as
from scipy import signal
from scipy.fft import fft, fftfreq
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import IsolationForest

# Configuraci√≥n del entorno
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

print("‚úÖ Librer√≠as importadas exitosamente")
print(f"üìä Versi√≥n de pandas: {pd.__version__}")
print(f"üî¢ Versi√≥n de numpy: {np.__version__}")

‚úÖ Librer√≠as importadas exitosamente
üìä Versi√≥n de pandas: 2.2.2
üî¢ Versi√≥n de numpy: 2.0.2


In [4]:
import os

print("üìÇ Creando estructura de directorios...")
os.makedirs('data/processed', exist_ok=True)
os.makedirs('eventos', exist_ok=True)
print("‚úÖ Carpetas listas: 'data/processed' y 'eventos'")

üìÇ Creando estructura de directorios...
‚úÖ Carpetas listas: 'data/processed' y 'eventos'


In [5]:
# Configuraci√≥n de rutas de datos con validaci√≥n de existencia
# Esta configuraci√≥n garantiza la reproducibilidad del pipeline

# Directorio base del proyecto
base_dir = Path('.')

# Rutas espec√≠ficas para datos procesados y eventos
ruta_processed = base_dir / 'data' / 'processed'
ruta_eventos = base_dir / 'eventos'

# Archivos espec√≠ficos requeridos
archivo_timeseries = ruta_processed / 'timeseries_data.parquet'
archivo_historial = ruta_eventos / 'Historial C1 RGD.xlsx'

# Validaci√≥n cr√≠tica de existencia de archivos
print("üìÅ Validaci√≥n de rutas y archivos:")
print(f"   Datos procesados: {ruta_processed} - {'‚úÖ Existe' if ruta_processed.exists() else '‚ùå No existe'}")
print(f"   Eventos: {ruta_eventos} - {'‚úÖ Existe' if ruta_eventos.exists() else '‚ùå No existe'}")
print(f"   Timeseries: {archivo_timeseries} - {'‚úÖ Existe' if archivo_timeseries.exists() else '‚ùå No existe'}")
print(f"   Historial: {archivo_historial} - {'‚úÖ Existe' if archivo_historial.exists() else '‚ùå No existe'}")

# Verificaci√≥n cr√≠tica - detener ejecuci√≥n si faltan archivos esenciales
archivos_requeridos = [archivo_timeseries, archivo_historial]
archivos_faltantes = [arch for arch in archivos_requeridos if not arch.exists()]

if archivos_faltantes:
    print(f"\n‚ùå ERROR CR√çTICO: Faltan archivos esenciales:")
    for archivo in archivos_faltantes:
        print(f"   - {archivo}")
    raise FileNotFoundError("No se pueden continuar sin los archivos de datos requeridos")
else:
    print("\n‚úÖ Todos los archivos requeridos est√°n disponibles")

üìÅ Validaci√≥n de rutas y archivos:
   Datos procesados: data/processed - ‚úÖ Existe
   Eventos: eventos - ‚úÖ Existe
   Timeseries: data/processed/timeseries_data.parquet - ‚úÖ Existe
   Historial: eventos/Historial C1 RGD.xlsx - ‚úÖ Existe

‚úÖ Todos los archivos requeridos est√°n disponibles


## 1. üìÇ Carga y Validaci√≥n de Datos

### üîÑ Proceso de Carga Inteligente

En esta fase cr√≠tica, cargaremos tanto el **dataset de series temporales procesado** como el **historial de eventos de mantenimiento**. La calidad de este proceso determina directamente la efectividad de nuestro modelo predictivo.

El dataset de series temporales contiene las mediciones continuas de sensores del moto-compresor, ya limpias y preprocesadas. El historial de eventos proporciona las fechas exactas de las fallas hist√≥ricas, informaci√≥n esencial para crear nuestras etiquetas de entrenamiento.

In [6]:
# Carga optimizada del dataset principal de series temporales
print("‚ö° Cargando dataset principal de series temporales...")

try:
    # Cargar el dataset principal con optimizaciones de memoria
    df = pd.read_parquet(archivo_timeseries, engine='pyarrow')
    # Convertir la columna 'hora' en DatetimeIndex
    if 'hora' in df.columns:
        df['hora'] = pd.to_datetime(df['hora'])
        df.set_index('hora', inplace=True)
    print(df.head(2))
    print(df.info())

    # Ordenar el √≠ndice del DataFrame por si acaso no est√° en orden cronol√≥gico
    print("üîß Ordenando el DataFrame por el √≠ndice de tiempo...")
    df = df.sort_index()

    # 3. (Opcional pero recomendado) Verifica que el √≠ndice ya est√° ordenado
    if df.index.is_monotonic_increasing:
        print("‚úÖ El √≠ndice est√° ordenado correctamente.")
    else:
        # Esto no deber√≠a pasar despu√©s de sort_index(), pero es una buena comprobaci√≥n
        print("‚ö†Ô∏è El √≠ndice A√öN no est√° ordenado. Revisa la fuente de datos.")

    # --- LIMPIEZA DEL DATAFRAME PRINCIPAL ---
    if not df.index.is_unique:
        duplicados_encontrados = df.index.duplicated().sum()
        print(f"‚ö†Ô∏è  √çndice principal con {duplicados_encontrados} duplicados. Limpiando...")
        df = df[~df.index.duplicated(keep='first')]
        print(f"‚úÖ √çndice principal limpio. Total filas ahora: {len(df)}")
    else:
        print("‚úÖ √çndice principal ya es √∫nico.")

    # Validaciones cr√≠ticas inmediatas
    if df.empty:
        raise ValueError("El dataset cargado est√° vac√≠o")

    """ if not isinstance(df.index, pd.DatetimeIndex):
        print("‚ö†Ô∏è  Convirtiendo √≠ndice a DatetimeIndex")
        df.index = pd.to_datetime(df.index) """

    # Informaci√≥n b√°sica del dataset
    print(f"‚úÖ Dataset principal cargado exitosamente")
    print(f"   üìä Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")
    print(f"   üìÖ Per√≠odo temporal: {df.index.min()} ‚Üí {df.index.max()}")
    print(f"   ‚è±Ô∏è  Frecuencia detectada: {pd.infer_freq(df.index) or 'Variable/No detectada'}")
    print(f"   üíæ Uso de memoria: {df.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

    # An√°lisis de calidad de datos
    completitud_promedio = (df.count().sum() / (df.shape[0] * df.shape[1])) * 100
    print(f"   üìà Completitud promedio: {completitud_promedio:.1f}%")

    # Verificar tipos de datos
    tipos_datos = df.dtypes.value_counts()
    print(f"   üî¢ Tipos de datos: {dict(tipos_datos)}")

except Exception as e:
    print(f"‚ùå Error cr√≠tico al cargar el dataset principal: {str(e)}")
    raise

‚ö° Cargando dataset principal de series temporales...
                     pres_aceite_comp          rpm  presion_aceite_motor  presion_agua  presion_carter  temp_aceite_motor  temp_agua_motor  temp_mult_adm_izq
hora                                                                                                                                                         
2023-01-01 00:00:00         60.995666  1099.724817             57.188761     15.238856        0.540845          89.621252        86.009180          57.552369
2023-01-01 01:00:00         60.244113  1100.752074             55.039625     15.134238        0.549441          90.526367        84.226618          60.181223
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20401 entries, 2023-01-01 00:00:00 to 2025-04-30 00:00:00
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   pres_aceite_comp      20401 non-null  float64
 1   rpm         

In [7]:
# Carga y procesamiento del historial de eventos - VERSI√ìN BLINDADA
print("\nüîÑ Cargando historial de eventos de mantenimiento (FORZADO)...")

def cargar_historial_eventos_blindado(archivo_historial):
    try:
        # 1. Cargar SIN cabecera para no perder la primera fila de datos
        df_raw = pd.read_excel(archivo_historial, header=None, engine='openpyxl')

        print(f"üìä Dimensiones crudas: {df_raw.shape}")

        # 2. Identificar columnas clave autom√°ticamente
        # Buscamos columnas que parezcan fechas
        col_fecha = None
        col_desc = None

        for col in df_raw.columns:
            # Verificar si la columna es tipo fecha o parece fecha
            try:
                temp_date = pd.to_datetime(df_raw[col], errors='coerce')
                validas = temp_date.notna().sum()
                if validas > 0.5 * len(df_raw): # Si m√°s del 50% son fechas
                    col_fecha = col
                    print(f"   üìÖ Columna de fecha detectada: {col} ({validas} fechas v√°lidas)")
                    break
            except:
                continue

        # Si no detectamos fecha, asumimos la primera columna
        if col_fecha is None:
            col_fecha = 0
            print("   ‚ö†Ô∏è No se detect√≥ columna de fecha, asumiendo columna 0")

        # 3. Renombrar columnas manualmente (Est√°ndar)
        # Asumimos estructura: [FECHA, DESCRIPCI√ìN, EQUIPO] o similar
        nuevas_columnas = {
            col_fecha: 'fecha_evento',
            col_fecha + 1: 'descripcion_falla' if (col_fecha + 1) in df_raw.columns else 'col_1',
            col_fecha + 2: 'equipo' if (col_fecha + 2) in df_raw.columns else 'col_2'
        }

        df_eventos = df_raw.rename(columns=nuevas_columnas)

        # 4. Limpieza final
        df_eventos['fecha_evento'] = pd.to_datetime(df_eventos['fecha_evento'], errors='coerce')
        df_eventos = df_eventos.dropna(subset=['fecha_evento'])

        print(f"‚úÖ Historial procesado exitosamente")
        print(f"   üìÖ Eventos v√°lidos: {len(df_eventos)}")
        print(f"   üìã Columnas: {list(df_eventos.columns)}")
        print(f"   üîç Ejemplo: {df_eventos.iloc[0]['fecha_evento']} - {df_eventos.iloc[0].get('descripcion_falla', 'N/A')}")

        return df_eventos

    except Exception as e:
        print(f"‚ùå Error cargando historial: {str(e)}")
        return None

# Ejecutar
df_eventos = cargar_historial_eventos_blindado(archivo_historial)


üîÑ Cargando historial de eventos de mantenimiento (FORZADO)...
üìä Dimensiones crudas: (9, 3)
   üìÖ Columna de fecha detectada: 0 (8 fechas v√°lidas)
‚úÖ Historial procesado exitosamente
   üìÖ Eventos v√°lidos: 8
   üìã Columnas: ['fecha_evento', 'descripcion_falla', 'equipo']
   üîç Ejemplo: 2023-03-15 00:00:00 - Falla: Fuga de Refrigerante


In [8]:
# Validaci√≥n de compatibilidad temporal entre datasets - CORREGIDO
print("\nüîç Validando compatibilidad temporal entre datasets...")

# Inicializar variables de control
eventos_utilizables = None
overlap_duration = None
compatibilidad_temporal = False

try:
    # Validar pre-requisitos
    if df is None or df.empty:
        print("   ‚ùå Dataset principal no disponible")
    elif df_eventos is None or df_eventos.empty:
        print("   ‚ùå Dataset de eventos no disponible")
    elif not isinstance(df.index, pd.DatetimeIndex):
        print("   ‚ùå √çndice del dataset principal no es de tipo fecha")
    elif 'fecha_evento' not in df_eventos.columns:
        print("   ‚ùå No se encontr√≥ columna 'fecha_evento' en el historial")
    else:
        # An√°lisis de rangos temporales
        sensor_start, sensor_end = df.index.min(), df.index.max()
        eventos_limpios = df_eventos['fecha_evento'].dropna()

        if eventos_limpios.empty:
            print("   ‚ùå No hay eventos con fechas v√°lidas")
        else:
            eventos_start, eventos_end = eventos_limpios.min(), eventos_limpios.max()

            print(f"üìä An√°lisis de cobertura temporal:")
            print(f"   üîß Datos de sensores: {sensor_start} a {sensor_end}")
            print(f"   üìÖ Eventos registrados: {eventos_start} a {eventos_end}")

            # Calcular solapamiento temporal
            overlap_start = max(sensor_start, eventos_start)
            overlap_end = min(sensor_end, eventos_end)

            if overlap_start <= overlap_end:
                overlap_duration = overlap_end - overlap_start
                print(f"   ‚úÖ Solapamiento detectado: {overlap_start} a {overlap_end}")
                print(f"   ‚è±Ô∏è  Duraci√≥n del solapamiento: {overlap_duration}")

                # Eventos que caen dentro del rango de datos de sensores
                eventos_utilizables = eventos_limpios[
                    (eventos_limpios >= sensor_start) & (eventos_limpios <= sensor_end)
                ]

                print(f"   üéØ Eventos utilizables para entrenamiento: {len(eventos_utilizables)}")

                if len(eventos_utilizables) > 0:
                    compatibilidad_temporal = True
                    print(f"   ‚úÖ COMPATIBILIDAD TEMPORAL CONFIRMADA")

                    # An√°lisis de distribuci√≥n temporal de eventos
                    eventos_por_year = eventos_utilizables.dt.year.value_counts().sort_index()
                    print(f"   üìà Distribuci√≥n anual de eventos: {dict(eventos_por_year)}")

                    # Estad√≠sticas de densidad de eventos
                    dias_totales = (sensor_end - sensor_start).days
                    densidad_eventos = len(eventos_utilizables) / dias_totales if dias_totales > 0 else 0
                    print(f"   üìä Densidad de eventos: {densidad_eventos:.4f} eventos/d√≠a")
                else:
                    print(f"   ‚ö†Ô∏è  Sin eventos utilizables dentro del rango de sensores")
            else:
                print(f"   ‚ùå No hay solapamiento temporal entre datasets")
                print(f"       Sensores terminan: {sensor_end}")
                print(f"       Eventos inician: {eventos_start}")

                # An√°lisis de eventos fuera de rango
                eventos_antes = eventos_limpios[eventos_limpios < sensor_start]
                eventos_despues = eventos_limpios[eventos_limpios > sensor_end]
                print(f"       Eventos antes del rango: {len(eventos_antes)}")
                print(f"       Eventos despu√©s del rango: {len(eventos_despues)}")

except Exception as e:
    print(f"   ‚ùå Error en validaci√≥n temporal: {str(e)}")
    compatibilidad_temporal = False

# Resumen ejecutivo de la validaci√≥n
print(f"\nüìã RESUMEN DE VALIDACI√ìN TEMPORAL:")
print(f"   Compatibilidad temporal: {'‚úÖ CONFIRMADA' if compatibilidad_temporal else '‚ùå NO CONFIRMADA'}")
print(f"   Eventos utilizables: {len(eventos_utilizables) if eventos_utilizables is not None else 0}")
print(f"   Duraci√≥n de solapamiento: {overlap_duration if overlap_duration else 'N/A'}")

# Configurar variables para las siguientes etapas
if not compatibilidad_temporal:
    print(f"\n‚ö†Ô∏è  ADVERTENCIA: Sin compatibilidad temporal, se proceder√° con an√°lisis limitado")
    eventos_utilizables = pd.Series(dtype='datetime64[ns]')  # Serie vac√≠a
else:
    print(f"\nüéØ Listo para proceder con ingenier√≠a de caracter√≠sticas")


üîç Validando compatibilidad temporal entre datasets...
üìä An√°lisis de cobertura temporal:
   üîß Datos de sensores: 2023-01-01 00:00:00 a 2025-04-30 00:00:00
   üìÖ Eventos registrados: 2023-03-15 00:00:00 a 2025-03-01 00:00:00
   ‚úÖ Solapamiento detectado: 2023-03-15 00:00:00 a 2025-03-01 00:00:00
   ‚è±Ô∏è  Duraci√≥n del solapamiento: 717 days 00:00:00
   üéØ Eventos utilizables para entrenamiento: 8
   ‚úÖ COMPATIBILIDAD TEMPORAL CONFIRMADA
   üìà Distribuci√≥n anual de eventos: {2023: np.int64(4), 2024: np.int64(3), 2025: np.int64(1)}
   üìä Densidad de eventos: 0.0094 eventos/d√≠a

üìã RESUMEN DE VALIDACI√ìN TEMPORAL:
   Compatibilidad temporal: ‚úÖ CONFIRMADA
   Eventos utilizables: 8
   Duraci√≥n de solapamiento: 717 days 00:00:00

üéØ Listo para proceder con ingenier√≠a de caracter√≠sticas


## 2. üèóÔ∏è Ingenier√≠a de Caracter√≠sticas Temporales

### üìà Caracter√≠sticas de Ventanas M√≥viles (Rolling Features)

Las caracter√≠sticas de ventanas m√≥viles son fundamentales para capturar la **din√°mica temporal del deterioro** en equipos industriales. Implementaremos m√∫ltiples horizontes temporales para detectar tanto degradaciones lentas como cambios s√∫bitos.

In [9]:
# Funci√≥n para crear caracter√≠sticas de ventanas m√≥viles optimizada
def crear_rolling_features(df, ventanas=['6H', '24H', '72H'],
                          estadisticas=['mean', 'std', 'min', 'max'],
                          variables_prioritarias=None, max_features=200):
    """
    Crea caracter√≠sticas de ventanas m√≥viles para m√∫ltiples estad√≠sticas

    Par√°metros:
    - df: DataFrame con series temporales
    - ventanas: Lista de ventanas temporales (ej: ['6H', '24H'])
    - estadisticas: Lista de estad√≠sticas a calcular
    - variables_prioritarias: Variables espec√≠ficas a procesar
    - max_features: L√≠mite m√°ximo de features a crear
    """
    print("üìà Creando caracter√≠sticas de ventanas m√≥viles...")

    if variables_prioritarias is None:
        # Seleccionar autom√°ticamente variables num√©ricas
        variables_numericas = df.select_dtypes(include=[np.number]).columns.tolist()
        variables_prioritarias = variables_numericas[:20]  # Primeras 20

    print(f"   üìä Variables a procesar: {len(variables_prioritarias)}")
    print(f"   ‚è±Ô∏è  Ventanas temporales: {ventanas}")
    print(f"   üìã Estad√≠sticas: {estadisticas}")

    rolling_features = pd.DataFrame(index=df.index)
    contador_features = 0

    for ventana in ventanas:
        print(f"\n   üîÑ Procesando ventana {ventana}...")

        for variable in variables_prioritarias:
            if contador_features >= max_features:
                print(f"   ‚ö†Ô∏è  L√≠mite de {max_features} features alcanzado")
                break

            try:
                # Crear rolling window
                rolling = df[variable].rolling(window=ventana, min_periods=1)

                for stat in estadisticas:
                    if contador_features >= max_features:
                        break

                    nombre_feature = f"{variable}_roll_{ventana}_{stat}"

                    if stat == 'mean':
                        rolling_features[nombre_feature] = rolling.mean()
                    elif stat == 'std':
                        rolling_features[nombre_feature] = rolling.std()
                    elif stat == 'min':
                        rolling_features[nombre_feature] = rolling.min()
                    elif stat == 'max':
                        rolling_features[nombre_feature] = rolling.max()
                    elif stat == 'median':
                        rolling_features[nombre_feature] = rolling.median()
                    elif stat == 'skew':
                        rolling_features[nombre_feature] = rolling.skew()
                    elif stat == 'kurt':
                        rolling_features[nombre_feature] = rolling.kurt()

                    contador_features += 1

            except Exception as e:
                print(f"      ‚ö†Ô∏è  Error con {variable}: {str(e)}")
                continue

        if contador_features >= max_features:
            break

    print(f"‚úÖ Rolling features creadas: {contador_features}")
    print(f"üìê Dimensiones: {rolling_features.shape[0]:,} √ó {rolling_features.shape[1]}")

    return rolling_features

# Ejecutar creaci√≥n de rolling features
print("\nüèóÔ∏è INICIANDO CREACI√ìN DE CARACTER√çSTICAS TEMPORALES")
print("=" * 60)

try:
    rolling_features = crear_rolling_features(
        df=df,
        ventanas=['6H', '24H', '72H'],
        estadisticas=['mean', 'std', 'min', 'max'],
        max_features=150
    )

    print(f"\nüíæ Memoria rolling features: {rolling_features.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

except Exception as e:
    print(f"‚ùå Error creando rolling features: {str(e)}")
    rolling_features = pd.DataFrame(index=df.index)  # DataFrame vac√≠o como fallback


üèóÔ∏è INICIANDO CREACI√ìN DE CARACTER√çSTICAS TEMPORALES
üìà Creando caracter√≠sticas de ventanas m√≥viles...
   üìä Variables a procesar: 8
   ‚è±Ô∏è  Ventanas temporales: ['6H', '24H', '72H']
   üìã Estad√≠sticas: ['mean', 'std', 'min', 'max']

   üîÑ Procesando ventana 6H...

   üîÑ Procesando ventana 24H...

   üîÑ Procesando ventana 72H...
‚úÖ Rolling features creadas: 96
üìê Dimensiones: 20,401 √ó 96

üíæ Memoria rolling features: 15.1 MB


### ‚è™ Caracter√≠sticas de Lag (Retrasos Temporales)

Los features de lag son esenciales para **modelar la memoria temporal** del sistema, permitiendo al modelo acceder a estados hist√≥ricos del equipo para predecir comportamientos futuros.

In [10]:
# Funci√≥n para crear caracter√≠sticas de lag CORREGIDA
def crear_lag_features(df, lags=['2H', '12H', '48H'],
                      variables_prioritarias=None, max_features=100):
    """
    Crea caracter√≠sticas de lag (retrasos temporales) con manejo robusto de errores

    CORRECCI√ìN: Calcula per√≠odos enteros bas√°ndose en la frecuencia del √≠ndice
    para evitar el error "unit abbreviation w/o a number"
    """
    print("‚è™ Creando caracter√≠sticas de lag (retrasos temporales) - VERSI√ìN CORREGIDA...")

    if variables_prioritarias is None:
        variables_numericas = df.select_dtypes(include=[np.number]).columns.tolist()
        variables_prioritarias = variables_numericas[:12]  # Primeras 12

    print(f"   üìä Variables a procesar: {len(variables_prioritarias)}")
    print(f"   ‚è±Ô∏è  Lags temporales: {lags}")

    # Detectar frecuencia del √≠ndice
    print(f"   üîç Analizando frecuencia temporal del dataset...")
    freq_detectada = pd.infer_freq(df.index)

    # Calcular diferencia temporal promedio como fallback
    if len(df.index) > 1:
        time_diffs = df.index[1:] - df.index[:-1]
        freq_promedio = time_diffs.median()
        print(f"   ‚è±Ô∏è  Frecuencia detectada: {freq_detectada}")
        print(f"   ‚è±Ô∏è  Frecuencia promedio: {freq_promedio}")
    else:
        freq_promedio = pd.Timedelta('1H')  # Default
        print(f"   ‚ö†Ô∏è  Usando frecuencia por defecto: {freq_promedio}")

    lag_features = pd.DataFrame(index=df.index)
    contador_features = 0

    for lag_str in lags:
        print(f"\n   üîÑ Procesando lag {lag_str}...")

        try:
            # CORRECCI√ìN PRINCIPAL: Convertir lag string a timedelta y calcular per√≠odos
            lag_timedelta = pd.Timedelta(lag_str)

            # M√©todo 1: Usar frecuencia detectada
            if freq_detectada:
                try:
                    freq_td = pd.Timedelta(freq_detectada)
                    lag_periods = int(lag_timedelta / freq_td)
                    print(f"      ‚úÖ M√©todo 1 exitoso: {lag_str} = {lag_periods} per√≠odos (freq: {freq_detectada})")
                except:
                    lag_periods = int(lag_timedelta / freq_promedio)
                    print(f"      ‚ö†Ô∏è  M√©todo 1 fall√≥, usando promedio: {lag_str} = {lag_periods} per√≠odos")
            else:
                # M√©todo 2: Usar frecuencia promedio
                lag_periods = int(lag_timedelta / freq_promedio)
                print(f"      ‚úÖ M√©todo 2: {lag_str} = {lag_periods} per√≠odos (freq promedio)")

            # Validar que lag_periods sea razonable
            if lag_periods <= 0:
                print(f"      ‚ùå Per√≠odos inv√°lidos ({lag_periods}), saltando lag {lag_str}")
                continue
            elif lag_periods > len(df):
                print(f"      ‚ö†Ô∏è  Per√≠odos muy altos ({lag_periods} > {len(df)}), ajustando a {len(df)//4}")
                lag_periods = len(df) // 4

            # Crear lag features para cada variable
            features_creados_lag = 0
            for variable in variables_prioritarias:
                if contador_features >= max_features:
                    print(f"   ‚ö†Ô∏è  L√≠mite global de {max_features} features alcanzado")
                    break

                try:
                    # CORRECCI√ìN: Usar shift() con per√≠odos enteros
                    nombre_feature = f"{variable}_lag_{lag_str}"
                    lag_features[nombre_feature] = df[variable].shift(lag_periods)
                    contador_features += 1
                    features_creados_lag += 1

                except Exception as e:
                    print(f"      ‚ö†Ô∏è  Error con {variable}: {str(e)}")
                    continue

            print(f"      ‚úÖ Features creados para {lag_str}: {features_creados_lag}")

        except Exception as e:
            print(f"      ‚ùå Error procesando lag {lag_str}: {str(e)}")
            continue

        if contador_features >= max_features:
            break

    # Crear caracter√≠sticas de diferencias con manejo robusto
    print(f"\n   üìä Creando caracter√≠sticas de diferencias...")

    diferencias_creadas = 0
    for variable in variables_prioritarias[:8]:  # Limitar a primeras 8 variables
        if contador_features >= max_features:
            break

        try:
            # Diferencia simple (m√©todo m√°s robusto)
            diff_periods_12h = max(1, int(pd.Timedelta('12H') / freq_promedio))
            diff_name = f"{variable}_diff_12H"
            lag_features[diff_name] = df[variable] - df[variable].shift(diff_periods_12h)

            # Cambio porcentual
            pct_periods_24h = max(1, int(pd.Timedelta('24H') / freq_promedio))
            pct_name = f"{variable}_pct_change_24H"

            # Usar m√©todo robusto para cambio porcentual
            previous_values = df[variable].shift(pct_periods_24h)
            current_values = df[variable]

            # Evitar divisi√≥n por cero
            lag_features[pct_name] = np.where(
                previous_values != 0,
                (current_values - previous_values) / np.abs(previous_values) * 100,
                0  # Cuando el valor anterior es 0
            )

            contador_features += 2
            diferencias_creadas += 2

        except Exception as e:
            print(f"      ‚ö†Ô∏è  Error con diferencias de {variable}: {str(e)}")
            continue

    print(f"      ‚úÖ Caracter√≠sticas de diferencias creadas: {diferencias_creadas}")

    # Limpieza final
    print(f"\n   üßπ Aplicando limpieza final...")
    features_antes = lag_features.shape[1]

    # Eliminar columnas con demasiados NaN
    threshold_nan = int(0.8 * len(lag_features))  # Permitir hasta 80% de NaN
    lag_features = lag_features.dropna(axis=1, thresh=threshold_nan)

    # Eliminar columnas constantes
    for col in lag_features.columns:
        if lag_features[col].nunique() <= 1:
            lag_features = lag_features.drop(col, axis=1)

    features_despues = lag_features.shape[1]
    if features_antes != features_despues:
        print(f"      üóëÔ∏è  Eliminados {features_antes - features_despues} features problem√°ticos")

    print(f"‚úÖ Lag features creadas exitosamente: {contador_features} features totales")
    print(f"üìê Dimensiones finales: {lag_features.shape[0]:,} √ó {lag_features.shape[1]}")

    # Informaci√≥n de calidad
    if lag_features.shape[1] > 0:
        completitud = (lag_features.count().sum() / (lag_features.shape[0] * lag_features.shape[1])) * 100
        print(f"üìà Completitud promedio: {completitud:.1f}%")
    else:
        print(f"‚ö†Ô∏è  No se generaron lag features v√°lidas")

    return lag_features

# Ejecutar creaci√≥n de lag features CORREGIDA
print("\n‚è™ INICIANDO CREACI√ìN DE LAG FEATURES CORREGIDA")
print("=" * 60)

try:
    lag_features = crear_lag_features(
        df=df,
        lags=['2H', '12H', '48H'],
        max_features=75
    )

    if not lag_features.empty:
        print(f"\nüíæ Memoria lag features: {lag_features.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
        print(f"üéØ LAG FEATURES CREADAS EXITOSAMENTE")
    else:
        print(f"\n‚ö†Ô∏è  Dataset de lag features vac√≠o - usando DataFrame b√°sico como fallback")

except Exception as e:
    print(f"‚ùå Error creando lag features: {str(e)}")
    import traceback
    traceback.print_exc()
    lag_features = pd.DataFrame(index=df.index)  # DataFrame vac√≠o como fallback
    print(f"‚ö†Ô∏è  Usando fallback - DataFrame vac√≠o")


‚è™ INICIANDO CREACI√ìN DE LAG FEATURES CORREGIDA
‚è™ Creando caracter√≠sticas de lag (retrasos temporales) - VERSI√ìN CORREGIDA...
   üìä Variables a procesar: 8
   ‚è±Ô∏è  Lags temporales: ['2H', '12H', '48H']
   üîç Analizando frecuencia temporal del dataset...
   ‚è±Ô∏è  Frecuencia detectada: h
   ‚è±Ô∏è  Frecuencia promedio: 0 days 01:00:00

   üîÑ Procesando lag 2H...
      ‚ö†Ô∏è  M√©todo 1 fall√≥, usando promedio: 2H = 2 per√≠odos
      ‚úÖ Features creados para 2H: 8

   üîÑ Procesando lag 12H...
      ‚ö†Ô∏è  M√©todo 1 fall√≥, usando promedio: 12H = 12 per√≠odos
      ‚úÖ Features creados para 12H: 8

   üîÑ Procesando lag 48H...
      ‚ö†Ô∏è  M√©todo 1 fall√≥, usando promedio: 48H = 48 per√≠odos
      ‚úÖ Features creados para 48H: 8

   üìä Creando caracter√≠sticas de diferencias...
      ‚úÖ Caracter√≠sticas de diferencias creadas: 16

   üßπ Aplicando limpieza final...
‚úÖ Lag features creadas exitosamente: 40 features totales
üìê Dimensiones finales: 20,401 √ó 4

## 3. üéØ Consolidaci√≥n y Preparaci√≥n del Dataset Final

### üîó Integraci√≥n de Caracter√≠sticas

En esta fase cr√≠tica consolidamos todas las caracter√≠sticas creadas en un dataset unificado, optimizado para el entrenamiento de modelos de Machine Learning.

In [11]:
# Consolidaci√≥n final del dataset de caracter√≠sticas - SIN RECORTES
print("üîó Consolidando dataset final de caracter√≠sticas (MODO COMPLETO)...")
print("=" * 60)

try:
    # 1. Seleccionar variables originales (SIN L√çMITE)
    # Antes: variables_numericas[:25] -> Ahora: Todas
    variables_numericas = df.select_dtypes(include=[np.number]).columns.tolist()
    variables_importantes = variables_numericas

    # Crear dataset base
    dataset_final = df[variables_importantes].copy()
    print(f"üìä Variables originales incluidas: {dataset_final.shape[1]} (Todas)")

    # 2. Agregar Rolling Features (SIN L√çMITE DE CANTIDAD)
    if not rolling_features.empty:
        # Filtrar rolling features con variabilidad significativa (para no meter basura)
        # Mantenemos el filtro de columnas vac√≠as, pero quitamos el recorte [:80]
        rolling_features_filtered = rolling_features.dropna(axis=1, thresh=int(0.7 * len(rolling_features)))
        rolling_features_filtered = rolling_features_filtered.select_dtypes(include=[np.number])

        features_con_variacion = []
        for col in rolling_features_filtered.columns:
            if rolling_features_filtered[col].std() > 1e-6:
                features_con_variacion.append(col)

        # CAMBIO AQU√ç: Se elimin√≥ [:80] para incluir todas
        rolling_features_final = rolling_features_filtered[features_con_variacion]
        dataset_final = pd.concat([dataset_final, rolling_features_final], axis=1)
        print(f"üìà Rolling features agregadas: {rolling_features_final.shape[1]} (Todas las v√°lidas)")
    else:
        print(f"‚ö†Ô∏è  No se agregaron rolling features (dataset vac√≠o)")

    # 3. Agregar Lag Features (SIN L√çMITE DE CANTIDAD)
    if not lag_features.empty:
        # Mantenemos filtro de calidad b√°sico, pero quitamos el recorte [:40]
        lag_features_filtered = lag_features.dropna(axis=1, thresh=int(0.5 * len(lag_features)))
        lag_features_filtered = lag_features_filtered.select_dtypes(include=[np.number])

        features_con_variacion = []
        for col in lag_features_filtered.columns:
            if lag_features_filtered[col].std() > 1e-6:
                features_con_variacion.append(col)

        # CAMBIO AQU√ç: Se elimin√≥ [:40] para incluir todas
        lag_features_final = lag_features_filtered[features_con_variacion]
        dataset_final = pd.concat([dataset_final, lag_features_final], axis=1)
        print(f"‚è™ Lag features agregadas: {lag_features_final.shape[1]} (Todas las v√°lidas)")
    else:
        print(f"‚ö†Ô∏è  No se agregaron lag features (dataset vac√≠o)")

    print(f"\nüßπ Limpieza final del dataset...")

    # Eliminar columnas completamente nulas
    columnas_antes = dataset_final.shape[1]
    dataset_final = dataset_final.dropna(axis=1, how='all')

    # Eliminar features pr√°cticamente constantes (varianza 0)
    # NOTA: Esto es necesario para que el modelo LSTM no falle, pero solo borra lo que es plano.
    for col in dataset_final.select_dtypes(include=[np.number]).columns:
        if dataset_final[col].std() < 1e-10:
            dataset_final = dataset_final.drop(col, axis=1)

    columnas_despues = dataset_final.shape[1]
    if columnas_antes != columnas_despues:
        print(f"   üóëÔ∏è  Eliminadas {columnas_antes - columnas_despues} columnas constantes/vac√≠as")

    # Convertir a float32 para optimizar memoria
    numeric_columns = dataset_final.select_dtypes(include=[np.number]).columns
    dataset_final[numeric_columns] = dataset_final[numeric_columns].astype(np.float32)

    # Informaci√≥n final del dataset
    print(f"\nüìä DATASET FINAL CONSOLIDADO:")
    print(f"   üìê Dimensiones: {dataset_final.shape[0]:,} filas √ó {dataset_final.shape[1]} columnas")
    print(f"   üíæ Memoria: {dataset_final.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

    # Verificar calidad del dataset final
    completitud_final = (dataset_final.count().sum() / (dataset_final.shape[0] * dataset_final.shape[1])) * 100
    print(f"\n‚úÖ Calidad del dataset final: {completitud_final:.1f}%")

except Exception as e:
    print(f"‚ùå Error en consolidaci√≥n del dataset: {str(e)}")
    import traceback
    traceback.print_exc()
    dataset_final = df.select_dtypes(include=[np.number]).copy()

üîó Consolidando dataset final de caracter√≠sticas (MODO COMPLETO)...
üìä Variables originales incluidas: 8 (Todas)
üìà Rolling features agregadas: 96 (Todas las v√°lidas)
‚è™ Lag features agregadas: 40 (Todas las v√°lidas)

üßπ Limpieza final del dataset...

üìä DATASET FINAL CONSOLIDADO:
   üìê Dimensiones: 20,401 filas √ó 144 columnas
   üíæ Memoria: 11.4 MB

‚úÖ Calidad del dataset final: 100.0%


## 3.5. Creaci√≥n de Variable Objetivo

### Etiquetado de Fallas con Ventana de Pre-falla

Esta es la fase cr√≠tica donde convertimos los eventos de mantenimiento en la variable objetivo binaria 'falla'. Utilizamos una ventana de 7 d√≠as antes de cada evento para marcar las muestras como positivas (falla inminente).

In [12]:
# DEBUG Y CREACI√ìN FORZADA DE VARIABLE OBJETIVO
print("üîç DIAGN√ìSTICO DEL PROBLEMA")
print("=" * 60)

# 1. VERIFICAR ESTADO ACTUAL DEL DATASET
print("1. Verificando estado actual del dataset:")
print(f"   Dimensiones: {dataset_final.shape}")
print(f"   Columnas disponibles: {len(dataset_final.columns)}")
print(f"   Variable 'falla' presente: {'S√ç' if 'falla' in dataset_final.columns else 'NO'}")
print(f"   Primeras 5 columnas: {list(dataset_final.columns[:5])}")
print(f"   √öltimas 5 columnas: {list(dataset_final.columns[-5:])}")

# 2. VERIFICAR EVENTOS DISPONIBLES
print(f"\n2. Verificando eventos disponibles:")
if 'eventos_utilizables' in locals():
    print(f"   Variable eventos_utilizables existe: S√ç")
    print(f"   Tipo: {type(eventos_utilizables)}")
    print(f"   Cantidad de eventos: {len(eventos_utilizables) if eventos_utilizables is not None else 0}")
    if len(eventos_utilizables) > 0:
        print(f"   Primer evento: {eventos_utilizables.iloc[0]}")
        print(f"   √öltimo evento: {eventos_utilizables.iloc[-1]}")
else:
    print(f"   Variable eventos_utilizables: NO EXISTE")

# 3. VERIFICAR COMPATIBILIDAD TEMPORAL
print(f"\n3. Verificando compatibilidad temporal:")
if 'compatibilidad_temporal' in locals():
    print(f"   Compatibilidad temporal: {compatibilidad_temporal}")
else:
    print(f"   Variable compatibilidad_temporal: NO DEFINIDA")

# 4. RECREAR EVENTOS UTILIZABLES SI ES NECESARIO
print(f"\n4. Recreando eventos utilizables...")
try:
    # Verificar si tenemos df_eventos
    if 'df_eventos' in locals() and df_eventos is not None:
        print(f"   Dataset de eventos disponible: S√ç ({len(df_eventos)} filas)")

        # Recrear eventos utilizables
        if 'fecha_evento' in df_eventos.columns:
            eventos_validos = df_eventos['fecha_evento'].dropna()
            print(f"   Eventos con fecha v√°lida: {len(eventos_validos)}")

            # Filtrar eventos dentro del rango del dataset principal
            sensor_start, sensor_end = dataset_final.index.min(), dataset_final.index.max()
            eventos_en_rango = eventos_validos[
                (eventos_validos >= sensor_start) & (eventos_validos <= sensor_end)
            ]

            print(f"   Eventos en rango temporal: {len(eventos_en_rango)}")
            eventos_utilizables = eventos_en_rango

        else:
            print(f"   ERROR: Columna 'fecha_evento' no encontrada")
            eventos_utilizables = pd.Series(dtype='datetime64[ns]')
    else:
        print(f"   Dataset de eventos NO disponible")
        eventos_utilizables = pd.Series(dtype='datetime64[ns]')

except Exception as e:
    print(f"   ERROR recreando eventos: {str(e)}")
    eventos_utilizables = pd.Series(dtype='datetime64[ns]')

# 5. CREAR VARIABLE OBJETIVO DE FORMA FORZADA
print(f"\n5. Creando variable objetivo FORZADAMENTE...")

def crear_variable_falla_robusta(dataset, eventos, ventana_dias=7):
    """
    Versi√≥n robusta de creaci√≥n de variable objetivo
    """
    print(f"   Iniciando creaci√≥n con {len(eventos)} eventos...")

    # Crear columna 'falla' inicializada en 0
    dataset = dataset.copy()
    dataset['falla'] = 0

    if len(eventos) == 0:
        print(f"   ‚ö†Ô∏è  Sin eventos disponibles - todas las muestras como normales")
        return dataset

    ventana_timedelta = pd.Timedelta(days=ventana_dias)
    muestras_marcadas = 0
    eventos_procesados = 0

    for fecha_evento in eventos:
        try:
            # Calcular ventana de pre-falla
            inicio_ventana = fecha_evento - ventana_timedelta
            fin_ventana = fecha_evento

            # Crear m√°scara para el per√≠odo de pre-falla
            mask = (dataset.index >= inicio_ventana) & (dataset.index <= fin_ventana)
            muestras_en_ventana = mask.sum()

            if muestras_en_ventana > 0:
                dataset.loc[mask, 'falla'] = 1
                muestras_marcadas += muestras_en_ventana
                eventos_procesados += 1
                print(f"     ‚úÖ Evento {eventos_procesados}: {fecha_evento} -> {muestras_en_ventana} muestras")
            else:
                print(f"     ‚ö†Ô∏è  Evento {fecha_evento}: Sin muestras en ventana")

        except Exception as e:
            print(f"     ‚ùå Error procesando evento {fecha_evento}: {str(e)}")
            continue

    # Estad√≠sticas finales
    total_muestras = len(dataset)
    muestras_positivas = (dataset['falla'] == 1).sum()
    muestras_negativas = (dataset['falla'] == 0).sum()
    porcentaje_positivas = (muestras_positivas / total_muestras) * 100

    print(f"\n   üìä RESULTADO DE CREACI√ìN:")
    print(f"     üî¥ Muestras positivas: {muestras_positivas:,} ({porcentaje_positivas:.2f}%)")
    print(f"     üîµ Muestras negativas: {muestras_negativas:,} ({100-porcentaje_positivas:.2f}%)")
    print(f"     ‚úÖ Eventos procesados exitosamente: {eventos_procesados}/{len(eventos)}")

    return dataset

# Ejecutar creaci√≥n robusta
try:
    print(f"   Estado antes: {dataset_final.shape}")
    dataset_final = crear_variable_falla_robusta(dataset_final, eventos_utilizables)
    print(f"   Estado despu√©s: {dataset_final.shape}")

    # VERIFICACI√ìN CR√çTICA
    if 'falla' in dataset_final.columns:
        print(f"   ‚úÖ √âXITO: Variable 'falla' creada correctamente")
        distribuci√≥n = dataset_final['falla'].value_counts().sort_index()
        print(f"   üìä Distribuci√≥n: {dict(distribuci√≥n)}")
        print(f"   üéØ Columna 'falla' confirmada en posici√≥n: {list(dataset_final.columns).index('falla')}")
    else:
        print(f"   ‚ùå ERROR: Variable 'falla' A√öN no se cre√≥")
        # Crear manualmente como √∫ltimo recurso
        print(f"   üö® CREACI√ìN MANUAL DE EMERGENCIA...")
        dataset_final['falla'] = 0
        print(f"   ‚úÖ Variable 'falla' creada manualmente (todas negativas)")

except Exception as e:
    print(f"   ‚ùå ERROR en creaci√≥n robusta: {str(e)}")
    # Crear variable por defecto
    dataset_final['falla'] = 0
    print(f"   üö® Variable por defecto creada")

# 6. VERIFICACI√ìN FINAL ANTES DEL GUARDADO
print(f"\n6. VERIFICACI√ìN FINAL:")
print(f"   ‚úÖ Dimensiones finales: {dataset_final.shape}")
print(f"   ‚úÖ Variable 'falla' presente: {'S√ç' if 'falla' in dataset_final.columns else 'NO'}")
print(f"   ‚úÖ √öltimas 3 columnas: {list(dataset_final.columns[-3:])}")

if 'falla' in dataset_final.columns:
    print(f"   ‚úÖ Tipo de datos 'falla': {dataset_final['falla'].dtype}")
    print(f"   ‚úÖ Valores √∫nicos: {sorted(dataset_final['falla'].unique())}")
    print(f"   ‚úÖ Conteo de valores: {dict(dataset_final['falla'].value_counts())}")
    print(f"\nüéâ VARIABLE OBJETIVO CONFIRMADA - LISTO PARA GUARDADO")
else:
    print(f"\n‚ùå VARIABLE OBJETIVO FALLA - REVISAR MANUALMENTE")

print("\n" + "="*60)

üîç DIAGN√ìSTICO DEL PROBLEMA
1. Verificando estado actual del dataset:
   Dimensiones: (20401, 144)
   Columnas disponibles: 144
   Variable 'falla' presente: NO
   Primeras 5 columnas: ['pres_aceite_comp', 'rpm', 'presion_aceite_motor', 'presion_agua', 'presion_carter']
   √öltimas 5 columnas: ['temp_aceite_motor_pct_change_24H', 'temp_agua_motor_diff_12H', 'temp_agua_motor_pct_change_24H', 'temp_mult_adm_izq_diff_12H', 'temp_mult_adm_izq_pct_change_24H']

2. Verificando eventos disponibles:
   Variable eventos_utilizables existe: S√ç
   Tipo: <class 'pandas.core.series.Series'>
   Cantidad de eventos: 8
   Primer evento: 2023-03-15 00:00:00
   √öltimo evento: 2025-03-01 00:00:00

3. Verificando compatibilidad temporal:
   Compatibilidad temporal: True

4. Recreando eventos utilizables...
   Dataset de eventos disponible: S√ç (8 filas)
   Eventos con fecha v√°lida: 8
   Eventos en rango temporal: 8

5. Creando variable objetivo FORZADAMENTE...
   Estado antes: (20401, 144)
   Inicia

## 4. üíæ Guardado y Finalizaci√≥n

### üìÅ Persistencia del Dataset de Caracter√≠sticas

Guardamos el dataset final optimizado en m√∫ltiples formatos para garantizar compatibilidad y eficiencia en las fases posteriores de modelado.

In [13]:
# Guardado del dataset final con metadatos completos
print("üíæ Guardando dataset final de caracter√≠sticas...")
print("=" * 60)

# Configurar rutas de salida
output_dir = ruta_processed
output_dir.mkdir(parents=True, exist_ok=True)

# Nombres de archivos de salida
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
base_name = f'features_dataset_{timestamp}'

try:
    # 1. Guardar en formato Parquet (optimizado)
    archivo_parquet = output_dir / f'{base_name}.parquet'
    dataset_final.to_parquet(archivo_parquet, engine='pyarrow', compression='snappy')
    tama√±o_parquet = archivo_parquet.stat().st_size / (1024 * 1024)
    print(f"‚úÖ Parquet guardado: {archivo_parquet.name} ({tama√±o_parquet:.1f} MB)")

    # 2. Guardar en formato CSV (compatibilidad)
    archivo_csv = output_dir / f'{base_name}.csv'
    dataset_final.to_csv(archivo_csv, encoding='utf-8')
    tama√±o_csv = archivo_csv.stat().st_size / (1024 * 1024)
    print(f"‚úÖ CSV guardado: {archivo_csv.name} ({tama√±o_csv:.1f} MB)")

    # 3. Generar archivo de metadatos
    archivo_metadata = output_dir / f'{base_name}_metadata.txt'
    with open(archivo_metadata, 'w', encoding='utf-8') as f:
        f.write(f"METADATOS DEL DATASET DE CARACTER√çSTICAS\n")
        f.write(f"=" * 50 + "\n\n")
        f.write(f"Generado: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
        f.write(f"Notebook: 03_feature_engineering_b.ipynb\n")
        f.write(f"\nDimensiones: {dataset_final.shape[0]:,} √ó {dataset_final.shape[1]}\n")
        f.write(f"Per√≠odo temporal: {dataset_final.index.min()} ‚Üí {dataset_final.index.max()}\n")
        f.write(f"Memoria utilizada: {dataset_final.memory_usage(deep=True).sum() / 1024**2:.1f} MB\n")
        f.write(f"\nTipos de caracter√≠sticas:\n")
        f.write(f"  - Variables originales: {len(variables_importantes)}\n")
        if 'rolling_features_final' in locals():
            f.write(f"  - Rolling features: {rolling_features_final.shape[1]}\n")
        if 'lag_features_final' in locals():
            f.write(f"  - Lag features: {lag_features_final.shape[1]}\n")
        f.write(f"\nEventos de mantenimiento:\n")
        if eventos_utilizables is not None and len(eventos_utilizables) > 0:
            f.write(f"  - Eventos utilizables: {len(eventos_utilizables)}\n")
            f.write(f"  - Compatibilidad temporal: {'Confirmada' if compatibilidad_temporal else 'No confirmada'}\n")
        else:
            f.write(f"  - Sin eventos utilizables identificados\n")

        f.write(f"\nLista de columnas:\n")
        for i, col in enumerate(dataset_final.columns, 1):
            f.write(f"  {i:3d}. {col}\n")

    print(f"‚úÖ Metadatos guardados: {archivo_metadata.name}")

    # 4. Generar resumen estad√≠stico
    archivo_stats = output_dir / f'{base_name}_statistics.csv'
    stats_desc = dataset_final.describe()
    stats_desc.to_csv(archivo_stats, encoding='utf-8')
    print(f"‚úÖ Estad√≠sticas guardadas: {archivo_stats.name}")

    # Resumen final
    print(f"\nüéØ FEATURE ENGINEERING COMPLETADO EXITOSAMENTE")
    print(f"üìÅ Archivos generados en {output_dir}:")
    print(f"   üì¶ {base_name}.parquet - Dataset principal (comprimido)")
    print(f"   üìÑ {base_name}.csv - Dataset principal (CSV)")
    print(f"   üìã {base_name}_metadata.txt - Metadatos completos")
    print(f"   üìä {base_name}_statistics.csv - Estad√≠sticas descriptivas")

    print(f"üéâ Ingenier√≠a de Caracter√≠sticas finalizado exitosamente!")

except Exception as e:
    print(f"‚ùå Error al guardar dataset: {str(e)}")
    import traceback
    traceback.print_exc()

    # Guardado de emergencia
    backup_file = output_dir / f'features_dataset_emergency_backup.csv'
    dataset_final.to_csv(backup_file)
    print(f"üíæ Guardado de emergencia: {backup_file}")

üíæ Guardando dataset final de caracter√≠sticas...
‚úÖ Parquet guardado: features_dataset_20251210_000020.parquet (12.2 MB)
‚úÖ CSV guardado: features_dataset_20251210_000020.csv (28.1 MB)
‚úÖ Metadatos guardados: features_dataset_20251210_000020_metadata.txt
‚úÖ Estad√≠sticas guardadas: features_dataset_20251210_000020_statistics.csv

üéØ FEATURE ENGINEERING COMPLETADO EXITOSAMENTE
üìÅ Archivos generados en data/processed:
   üì¶ features_dataset_20251210_000020.parquet - Dataset principal (comprimido)
   üìÑ features_dataset_20251210_000020.csv - Dataset principal (CSV)
   üìã features_dataset_20251210_000020_metadata.txt - Metadatos completos
   üìä features_dataset_20251210_000020_statistics.csv - Estad√≠sticas descriptivas
üéâ Ingenier√≠a de Caracter√≠sticas finalizado exitosamente!


In [14]:
# -------------------------------------------------------------------------
# CORRECCI√ìN DE NOMBRE PARA EL SIGUIENTE NOTEBOOK
# -------------------------------------------------------------------------
import shutil

# 1. Definir la ruta exacta que busca el Notebook 04
archivo_requerido_parquet = ruta_processed / 'featured_dataset_with_target.parquet'
archivo_requerido_csv = ruta_processed / 'featured_dataset_with_target.csv'

print(f"üîß Guardando copias estandarizadas para el Notebook 04...")

try:
    # Opci√≥n A: Guardar directamente desde el DataFrame en memoria (M√°s seguro)
    if 'dataset_final' in locals():
        dataset_final.to_parquet(archivo_requerido_parquet, engine='pyarrow', compression='snappy')
        dataset_final.to_csv(archivo_requerido_csv)
        print(f"   ‚úÖ Archivo creado: {archivo_requerido_parquet}")
        print(f"   ‚úÖ Archivo creado: {archivo_requerido_csv}")

    # Opci√≥n B: Si ya cerraste pandas, renombramos el √∫ltimo generado
    else:
        # (Esto solo se ejecuta si dataset_final no est√° en memoria)
        print("   ‚ö†Ô∏è DataFrame no encontrado en memoria, buscando √∫ltimo archivo generado...")
        # L√≥gica de respaldo no necesaria si acabas de correr todo.
        pass

    print("\nüöÄ LISTO: Ahora el Notebook 04 encontrar√° el archivo 'featured_dataset_with_target.parquet' sin problemas.")

except Exception as e:
    print(f"‚ùå Error al guardar el archivo estandarizado: {str(e)}")

üîß Guardando copias estandarizadas para el Notebook 04...
   ‚úÖ Archivo creado: data/processed/featured_dataset_with_target.parquet
   ‚úÖ Archivo creado: data/processed/featured_dataset_with_target.csv

üöÄ LISTO: Ahora el Notebook 04 encontrar√° el archivo 'featured_dataset_with_target.parquet' sin problemas.


## üìã Resumen del Feature Engineering

### üéØ Logros Alcanzados

1. **‚úÖ Carga de datos exitosa** - Integraci√≥n de series temporales y historial de eventos
2. **‚úÖ Validaci√≥n temporal** - Confirmaci√≥n de compatibilidad entre datasets
3. **‚úÖ Caracter√≠sticas temporales** - Creaci√≥n de rolling features y lag features
4. **‚úÖ Dataset optimizado** - Consolidaci√≥n y optimizaci√≥n de memoria
5. **‚úÖ Persistencia completa** - Guardado en m√∫ltiples formatos con metadatos
