# Preprocesamiento de Datos
## Proyecto de Mantenimiento Predictivo - Moto-Compresores

### üéØ Objetivo del Notebook
Este notebook realiza la **limpieza y preprocesamiento** de los datos operacionales del moto-compresor para prepararlos para el modelado de Machine Learning. El objetivo es consolidar m√∫ltiples archivos de sensores, limpiar inconsistencias, manejar valores at√≠picos y crear un dataset estructurado y confiable.

### üìã Tareas Principales
1. **Carga y Consolidaci√≥n**: Integrar datos de 28 archivos Excel de sensores
2. **Limpieza de Estructura**: Estandarizar nombres de columnas y tipos de datos
3. **Conversi√≥n Temporal**: Procesar diferentes formatos de fecha/hora
4. **Tratamiento de Valores Faltantes**: Interpolaci√≥n basada en tiempo
5. **Manejo de Outliers**: Clipping estad√≠stico para preservar informaci√≥n √∫til
6. **Validaci√≥n de Calidad**: M√©tricas de evaluaci√≥n del procesamiento

### üõ†Ô∏è Librer√≠as Utilizadas
- **pandas**: Manipulaci√≥n y an√°lisis de datos
- **numpy**: Operaciones num√©ricas
- **pathlib**: Manejo de rutas de archivos
- **warnings**: Supresi√≥n de advertencias menores

In [1]:
# Importaci√≥n de librer√≠as esenciales
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
from datetime import datetime
import re
import gc
import sys
import subprocess

warnings.filterwarnings('ignore')


# Configuraci√≥n del entorno
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

print("‚úÖ Librer√≠as importadas exitosamente")
print(f"üìä Versi√≥n de pandas: {pd.__version__}")
print(f"üî¢ Versi√≥n de numpy: {np.__version__}")

‚úÖ Librer√≠as importadas exitosamente
üìä Versi√≥n de pandas: 2.3.1
üî¢ Versi√≥n de numpy: 2.3.2


In [2]:
# Configuraci√≥n de rutas de directorio usando pathlib
# Esto garantiza compatibilidad cross-platform y rutas relativas robustas
# Directorio base del proyecto
base_dir = Path('..')

# Rutas de datos
ruta_raw = base_dir / 'data' / 'raw'
ruta_processed = base_dir / 'data' / 'processed'
ruta_eventos = base_dir / 'eventos'

# Crear directorio processed si no existe
ruta_processed.mkdir(parents=True, exist_ok=True)

# Validaci√≥n de rutas
print("üìÅ Configuraci√≥n de rutas:")
print(f"   Raw data: {ruta_raw} - {'‚úÖ Existe' if ruta_raw.exists() else '‚ùå No existe'}")
print(f"   Processed: {ruta_processed} - {'‚úÖ Existe' if ruta_processed.exists() else '‚ùå No existe'}")
print(f"   Eventos: {ruta_eventos} - {'‚úÖ Existe' if ruta_eventos.exists() else '‚ùå No existe'}")

# Listar archivos disponibles
archivos_excel = list(ruta_raw.glob('*.xls*'))
print(f"\nüìä Archivos de datos encontrados: {len(archivos_excel)} archivos")

üìÅ Configuraci√≥n de rutas:
   Raw data: ../data/raw - ‚úÖ Existe
   Processed: ../data/processed - ‚úÖ Existe
   Eventos: ../eventos - ‚úÖ Existe

üìä Archivos de datos encontrados: 28 archivos


## 1. üìÅ Funci√≥n de Carga y Consolidaci√≥n de Datos

### üîß Estrategia T√©cnica
Desarrollaremos una funci√≥n robusta que:
- **Detecta autom√°ticamente** la estructura de cada archivo Excel
- **Identifica el encabezado** buscando palabras clave como 'COMPRESOR' y 'MOTOR'
- **Maneja diferentes engines** (.xls con xlrd, .xlsx con openpyxl)
- **Consolida datos** de m√∫ltiples archivos manteniendo consistencia

Esta aproximaci√≥n es porque los archivos industriales pueden tener estructuras variables.

In [3]:
def detectar_fila_encabezado(df_raw):
    """
    Detecta autom√°ticamente la fila donde comienzan los encabezados de columnas
    buscando palabras clave relacionadas con el moto-compresor
    """
    palabras_clave = ['COMPRESOR', 'MOTOR', 'HORA', 'TIEMPO', 'TEMP', 'PRES']
    
    for idx, fila in df_raw.iterrows():
        # Convertir toda la fila a string y buscar palabras clave
        fila_str = ' '.join([str(cell).upper() for cell in fila if pd.notna(cell)])
        
        # Si encontramos al menos 2 palabras clave, probablemente es el encabezado
        coincidencias = sum(1 for palabra in palabras_clave if palabra in fila_str)
        if coincidencias >= 2:
            return idx
    
    return None

def cargar_archivo_sensor(file_path):
    """
    Carga un archivo de sensores con detecci√≥n autom√°tica de estructura
    """
    try:
        # Cargar archivo completo para an√°lisis de estructura
        if file_path.suffix == '.xlsx':
            df_raw = pd.read_excel(file_path, header=None, engine='openpyxl')
        else:
            df_raw = pd.read_excel(file_path, header=None, engine='xlrd')
        
        # Detectar fila de encabezado
        header_row = detectar_fila_encabezado(df_raw)
        
        if header_row is None:
            print(f"‚ö†Ô∏è  No se detect√≥ encabezado autom√°ticamente en {file_path.name}, usando fila 0")
            header_row = 0
        
        # Cargar datos con el encabezado correcto
        if file_path.suffix == '.xlsx':
            df = pd.read_excel(file_path, 
                             header=header_row,
                             skiprows=range(0, header_row) if header_row > 0 else None,
                             engine='openpyxl')
        else:
            df = pd.read_excel(file_path, 
                             header=header_row,
                             skiprows=range(0, header_row) if header_row > 0 else None,
                             engine='xlrd')
        
        # Informaci√≥n b√°sica del archivo
        print(f"üìã {file_path.name}: {df.shape[0]} filas, {df.shape[1]} columnas (encabezado en fila {header_row})")
        
        return df, True
        
    except Exception as e:
        print(f"‚ùå Error cargando {file_path.name}: {str(e)}")
        return None, False

def cargar_y_consolidar_datos(ruta_raw):
    """
    Carga y consolida todos los archivos de sensores de la ruta especificada
    """
    archivos_excel = list(ruta_raw.glob('*.xls*'))
    
    if not archivos_excel:
        raise FileNotFoundError(f"No se encontraron archivos Excel en {ruta_raw}")
    
    print(f"üîÑ Iniciando consolidaci√≥n de {len(archivos_excel)} archivos...\n")
    
    dataframes_lista = []
    archivos_exitosos = []
    archivos_fallidos = []
    
    for archivo in sorted(archivos_excel):  # Ordenar para procesamiento consistente
        df, exito = cargar_archivo_sensor(archivo)
        
        if exito and df is not None and not df.empty:
            dataframes_lista.append(df)
            archivos_exitosos.append(archivo.name)
        else:
            archivos_fallidos.append(archivo.name)
    
    if not dataframes_lista:
        raise ValueError("No se pudo cargar ning√∫n archivo exitosamente")
    
    # Consolidar todos los DataFrames
    print(f"\nüîó Consolidando {len(dataframes_lista)} DataFrames...")
    df_consolidado = pd.concat(dataframes_lista, ignore_index=True, sort=False)
    
    # Reporte de consolidaci√≥n
    print(f"\nüìä Resumen de Consolidaci√≥n:")
    print(f"   ‚úÖ Archivos exitosos: {len(archivos_exitosos)}")
    print(f"   ‚ùå Archivos fallidos: {len(archivos_fallidos)}")
    print(f"   üìà Dataset final: {df_consolidado.shape[0]:,} filas, {df_consolidado.shape[1]} columnas")
    
    if archivos_fallidos:
        print(f"\n‚ö†Ô∏è  Archivos que fallaron: {', '.join(archivos_fallidos)}")
    
    return df_consolidado, archivos_exitosos, archivos_fallidos

# Ejecutar consolidaci√≥n
print("üöÄ Ejecutando carga y consolidaci√≥n de datos...")
df_raw, exitosos, fallidos = cargar_y_consolidar_datos(ruta_raw)

üöÄ Ejecutando carga y consolidaci√≥n de datos...
üîÑ Iniciando consolidaci√≥n de 28 archivos...

üìã 01-2024.xls: 745 filas, 34 columnas (encabezado en fila 2)
üìã 01-2025.xls: 745 filas, 34 columnas (encabezado en fila 2)
üìã 02-2024..xls: 697 filas, 34 columnas (encabezado en fila 2)
üìã 02-2025.xls: 673 filas, 34 columnas (encabezado en fila 2)
üìã 03-2024..xls: 745 filas, 34 columnas (encabezado en fila 2)
üìã 03-2025.xls: 745 filas, 34 columnas (encabezado en fila 2)
üìã 04-2024..xls: 721 filas, 34 columnas (encabezado en fila 2)
üìã 04-2025.xls: 721 filas, 34 columnas (encabezado en fila 2)
üìã 05-2024..xls: 745 filas, 34 columnas (encabezado en fila 2)
üìã 06-2024..xls: 721 filas, 34 columnas (encabezado en fila 2)
üìã 07-2024..xls: 745 filas, 34 columnas (encabezado en fila 2)
üìã 08-2024.xls: 745 filas, 34 columnas (encabezado en fila 2)
üìã 09-2024.xls: 721 filas, 34 columnas (encabezado en fila 2)
üìã 1-2023...xls: 745 filas, 34 columnas (encabezado en fila 

## 2. üßπ Pipeline de Limpieza de Datos

### üìù Justificaci√≥n de la Estrategia
Los datos industriales presentan desaf√≠os t√≠picos:
- **Nombres inconsistentes**: Espacios, saltos de l√≠nea, caracteres especiales
- **Formatos temporales variables**: N√∫meros de Excel vs. strings de fecha
- **Tipos de datos mixtos**: Strings donde deber√≠an ser num√©ricos

Implementaremos un pipeline robusto que maneja estos problemas sistem√°ticamente.

In [4]:
def limpiar_nombres_columnas(df):
    """
    Limpia y estandariza los nombres de columnas a formato snake_case
    """
    print("üî§ Limpiando nombres de columnas...")
    
    # Mostrar algunos nombres originales para referencia
    print(f"\nüìã Muestra de nombres originales:")
    for i, col in enumerate(df.columns[:5]):
        print(f"   {i+1}. '{col}'")
    
    nombres_limpios = []
    
    for col in df.columns:
        # Convertir a string si no lo es
        nombre = str(col)
        
        # Convertir a min√∫sculas
        nombre = nombre.lower()
        
        # Reemplazar vocales con acento por las vocales sin acento
        nombre = nombre.replace('√°', 'a').replace('√©', 'e').replace('√≠', 'i').replace('√≥', 'o').replace('√∫', 'u')
        
        # Reemplazar saltos de l√≠nea y espacios m√∫ltiples por un espacio
        nombre = re.sub(r'\s+', ' ', nombre)
        
        # Reemplazar espacios por guiones bajos
        nombre = nombre.replace(' ', '_')
        
        # Eliminar caracteres especiales, mantener solo letras, n√∫meros y guiones bajos
        nombre = re.sub(r'[^a-z0-9_]', '', nombre)
        
        # Eliminar guiones bajos m√∫ltiples
        nombre = re.sub(r'_+', '_', nombre)
        
        # Eliminar guiones bajos al inicio y final
        nombre = nombre.strip('_')
        
        # Si el nombre est√° vac√≠o, generar uno gen√©rico
        if not nombre:
            nombre = f'columna_{len(nombres_limpios)}'
        
        
        nombres_limpios.append(nombre)
    
    # Manejar nombres duplicados
    nombres_finales = []
    contador_nombres = {}
    
    for nombre in nombres_limpios:
        if nombre in contador_nombres:
            contador_nombres[nombre] += 1
            nombre_final = f"{nombre}_{contador_nombres[nombre]}"
        else:
            contador_nombres[nombre] = 0
            nombre_final = nombre
        
        nombres_finales.append(nombre_final)
    
    # Aplicar nombres limpios
    df.columns = nombres_finales
    
    print(f"\nüìã Muestra de nombres limpios:")
    for i, col in enumerate(df.columns[:5]):
        print(f"   {i+1}. '{col}'")
    
    print(f"\n‚úÖ Limpieza de nombres completada: {len(nombres_finales)} columnas procesadas")
    
    return df

# Ejecutar limpieza de nombres
df_clean = limpiar_nombres_columnas(df_raw.copy())

üî§ Limpiando nombres de columnas...

üìã Muestra de nombres originales:
   1. 'ESTADO'
   2. 'Hora'
   3. 'RPM'
   4. 'Presi√≥n
Succi√≥n'
   5. 'Presi√≥n
Intermedia'

üìã Muestra de nombres limpios:
   1. 'estado'
   2. 'hora'
   3. 'rpm'
   4. 'presion_succion'
   5. 'presion_intermedia'

‚úÖ Limpieza de nombres completada: 68 columnas procesadas


In [5]:
def detectar_columna_tiempo(df):
    """
    Detecta la columna de tiempo bas√°ndose en nombres comunes y contenido
    """
    nombres_tiempo = ['hora', 'tiempo', 'time', 'fecha', 'date', 'timestamp']
    
    # Buscar por nombre
    for col in df.columns:
        if any(nombre in col.lower() for nombre in nombres_tiempo):
            return col
    
    # Si no encontramos por nombre, buscar la primera columna que parezca temporal
    for col in df.columns:
        try:
            # Verificar si los valores pueden ser fechas
            muestra = df[col].dropna().head(100)
            if muestra.empty:
                continue
                
            # Intentar conversi√≥n a datetime
            pd.to_datetime(muestra, errors='raise')
            return col
        except:
            continue
    
    return None

def convertir_tiempo_excel_inteligente(serie_tiempo):
    """
    Convierte una serie de tiempo manejando diferentes formatos:
    - N√∫meros de Excel (d√≠as desde 1899-12-30)
    - Strings de fecha/hora
    - Timestamps ya convertidos
    """
    if serie_tiempo.empty:
        return serie_tiempo
    
    # Tomar una muestra para detectar formato
    muestra = serie_tiempo.dropna().head(10)
    
    if muestra.empty:
        return serie_tiempo
    
    primer_valor = muestra.iloc[0]
    
    try:
        # Caso 1: Ya es datetime
        if pd.api.types.is_datetime64_any_dtype(serie_tiempo):
            print("   ‚úÖ Columna ya en formato datetime")
            return serie_tiempo
        
        # Caso 2: N√∫meros de Excel (t√≠picamente entre 40000-50000 para fechas 2009-2037)
        if pd.api.types.is_numeric_dtype(serie_tiempo):
            if isinstance(primer_valor, (int, float)) and 30000 < primer_valor < 60000:
                print(f"   üî¢ Detectado formato num√©rico Excel (ej: {primer_valor})")
                return pd.to_datetime(serie_tiempo, unit='D', origin='1899-12-30', errors='coerce')
        
        # Caso 3: Strings de fecha/hora
        if isinstance(primer_valor, str):
            print(f"   üìù Detectado formato string (ej: '{primer_valor}')")
            return pd.to_datetime(serie_tiempo, errors='coerce', infer_datetime_format=True)
        
        # Caso 4: Intentar conversi√≥n general
        print(f"   üîÑ Intentando conversi√≥n general para tipo: {type(primer_valor)}")
        return pd.to_datetime(serie_tiempo, errors='coerce')
        
    except Exception as e:
        print(f"   ‚ö†Ô∏è  Error en conversi√≥n temporal: {str(e)}")
        return pd.to_datetime(serie_tiempo, errors='coerce')

def convertir_tipos_datos(df):
    """
    Convierte los tipos de datos apropiadamente:
    - Columna de tiempo a datetime
    - Resto de columnas a num√©rico (float64)
    """
    print("üîÑ Convirtiendo tipos de datos...")
    
    # Detectar columna de tiempo
    col_tiempo = detectar_columna_tiempo(df)
    
    if col_tiempo:
        print(f"‚è∞ Columna de tiempo detectada: '{col_tiempo}'")
        
        # Convertir columna de tiempo
        df[col_tiempo] = convertir_tiempo_excel_inteligente(df[col_tiempo])
        
        # Verificar conversi√≥n exitosa
        valores_validos = df[col_tiempo].notna().sum()
        total_valores = len(df[col_tiempo])
        
        print(f"   üìä Conversi√≥n temporal: {valores_validos:,}/{total_valores:,} valores v√°lidos ({valores_validos/total_valores*100:.1f}%)")
        
        if valores_validos > 0:
            print(f"   üìÖ Rango temporal: {df[col_tiempo].min()} a {df[col_tiempo].max()}")
            
            # Establecer como √≠ndice
            df_indexed = df.set_index(col_tiempo)
            print(f"   ‚úÖ Columna '{col_tiempo}' establecida como √≠ndice")
        else:
            print(f"   ‚ùå Conversi√≥n temporal fall√≥, manteniendo √≠ndice num√©rico")
            df_indexed = df
    else:
        print("‚ö†Ô∏è  No se detect√≥ columna de tiempo, manteniendo √≠ndice num√©rico")
        df_indexed = df
    
    # Convertir columnas restantes a num√©rico
    print("\nüî¢ Convirtiendo columnas num√©ricas...")
    
    columnas_numericas = [col for col in df_indexed.columns if col != col_tiempo]
    conversiones_exitosas = 0
    
    for col in columnas_numericas:
        try:
            # Intentar conversi√≥n a num√©rico
            valores_originales = df_indexed[col].notna().sum()
            df_indexed[col] = pd.to_numeric(df_indexed[col], errors='coerce')
            valores_finales = df_indexed[col].notna().sum()
            
            if valores_finales >= valores_originales * 0.8:  # 80% de √©xito m√≠nimo
                conversiones_exitosas += 1
            else:
                print(f"   ‚ö†Ô∏è  {col}: conversi√≥n perdi√≥ muchos valores ({valores_finales}/{valores_originales})")
                
        except Exception as e:
            print(f"   ‚ùå Error convirtiendo {col}: {str(e)}")
    
    print(f"   ‚úÖ Conversiones num√©ricas exitosas: {conversiones_exitosas}/{len(columnas_numericas)} columnas")
    
    return df_indexed

# Ejecutar conversi√≥n de tipos
df_typed = convertir_tipos_datos(df_clean)

üîÑ Convirtiendo tipos de datos...
‚è∞ Columna de tiempo detectada: 'hora'
   ‚úÖ Columna ya en formato datetime
   üìä Conversi√≥n temporal: 19,752/20,523 valores v√°lidos (96.2%)
   üìÖ Rango temporal: 2023-01-01 00:00:00 a 2025-04-30 23:00:00
   ‚úÖ Columna 'hora' establecida como √≠ndice

üî¢ Convirtiendo columnas num√©ricas...
   ‚ö†Ô∏è  estado: conversi√≥n perdi√≥ muchos valores (0/19752)
   ‚ö†Ô∏è  unnamed_0: conversi√≥n perdi√≥ muchos valores (0/744)
   ‚úÖ Conversiones num√©ricas exitosas: 65/67 columnas


In [6]:
# Verificar columnas y datos actuales
print(df_typed.head(2))
df_typed.info()

            estado         rpm  presion_succion  presion_intermedia  presion_descarga  pres_aceite_comp  temp_cilindro_1  temp_cilindro_2  temp_cilindro_3  temp_cilindro_4  presion_aceite_motor  presion_agua  presion_mult_adm_izq  presion_mult_adm_der  presion_carter  temp_aceite_motor  temp_agua_motor  temp_mult_adm_izq  temp_mult_adm_der  temp_cil_1_l  temp_cil_1_r  temp_cil_2_l  temp_cil_2_r  temp_cil_3_l  temp_cil_3_r  temp_mult_esc_izq  temp_cil_4_l  temp_cil_4_r  temp_cil_5_l  temp_cil_5_r  temp_cil_6_l  temp_cil_6_r  temp_mult_esc_der  unnamed_0            unnamed_1  unnamed_2  unnamed_3  unnamed_4  unnamed_5  unnamed_6  unnamed_7  unnamed_8  unnamed_9  unnamed_10  unnamed_11  unnamed_12  unnamed_13  unnamed_14  unnamed_15  unnamed_16  unnamed_17  unnamed_18  unnamed_19  unnamed_20  unnamed_21  unnamed_22  unnamed_23  unnamed_24  unnamed_25  unnamed_26  unnamed_27  unnamed_28  unnamed_29  unnamed_30  unnamed_31  unnamed_32  unnamed_33
hora                                        

## 3. üîß Tratamiento de Valores Faltantes y At√≠picos

### ‚ö†Ô∏è Borrar registro de nulos y columnas no identificadas

### üìä Estrategia para Valores Faltantes
Para series temporales industriales, la **interpolaci√≥n basada en tiempo** es superior a otros m√©todos porque:
- **Preserva tendencias temporales** naturales del proceso industrial
- **Mantiene correlaciones** entre variables del moto-compresor
- **Es m√°s realista** que forward-fill o valores promedio est√°ticos

### üìà Estrategia para Outliers
Aplicaremos **clipping estad√≠stico global** (percentiles 1-99) porque:
- **Preserva informaci√≥n** de eventos operacionales reales
- **Elimina errores de medici√≥n** extremos sin perder datos √∫tiles
- **Mantiene consistencia** en rangos operacionales para el modelo

In [7]:
# Eliminar filas con todos los valores vac√≠os o nulos
df_typed.dropna(inplace=True, how='all')

# Eliminar columnas que su nombre empiece con 'unnamed'
unnamed_cols = [col for col in df_typed.columns if col.startswith('unnamed')]
df_typed.drop(columns=unnamed_cols, inplace=True)

df_typed.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20523 entries, NaT to 2023-09-30 23:00:00
Data columns (total 33 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   estado                0 non-null      float64
 1   rpm                   19678 non-null  float64
 2   presion_succion       19679 non-null  float64
 3   presion_intermedia    19679 non-null  float64
 4   presion_descarga      19679 non-null  float64
 5   pres_aceite_comp      19678 non-null  float64
 6   temp_cilindro_1       19678 non-null  float64
 7   temp_cilindro_2       19678 non-null  float64
 8   temp_cilindro_3       19678 non-null  float64
 9   temp_cilindro_4       19678 non-null  float64
 10  presion_aceite_motor  19678 non-null  float64
 11  presion_agua          19678 non-null  float64
 12  presion_mult_adm_izq  19678 non-null  float64
 13  presion_mult_adm_der  19678 non-null  float64
 14  presion_carter        19678 non-null  float64
 15  

In [8]:
def analizar_valores_faltantes(df):
    """
    Analiza el patr√≥n de valores faltantes en el dataset
    """
    print("üîç Analizando valores faltantes...")
    
    total_filas = len(df)
    
    # Calcular estad√≠sticas de valores faltantes por columna
    missing_stats = pd.DataFrame({
        'columna': df.columns,
        'valores_faltantes': df.isnull().sum(),
        'porcentaje_faltante': (df.isnull().sum() / total_filas * 100).round(2)
    })
    
    # Ordenar por porcentaje de valores faltantes
    missing_stats = missing_stats.sort_values('porcentaje_faltante', ascending=False)
    
    # Mostrar estad√≠sticas generales
    total_missing = df.isnull().sum().sum()
    total_valores = df.size
    porcentaje_total = (total_missing / total_valores * 100)
    
    print(f"\nüìä Resumen General:")
    print(f"   Total de valores: {total_valores:,}")
    print(f"   Valores faltantes: {total_missing:,} ({porcentaje_total:.2f}%)")
    print(f"   Columnas con valores faltantes: {(missing_stats['valores_faltantes'] > 0).sum()}")
    
    # Mostrar columnas con m√°s valores faltantes
    columnas_con_faltantes = missing_stats[missing_stats['valores_faltantes'] > 0]
    
    if not columnas_con_faltantes.empty:
        print(f"\nüìã Top 10 columnas con m√°s valores faltantes:")
        for _, row in columnas_con_faltantes.head(10).iterrows():
            print(f"   {row['columna']}: {row['valores_faltantes']:,} ({row['porcentaje_faltante']}%)")
    else:
        print("\n‚úÖ ¬°No hay valores faltantes en el dataset!")
    
    return missing_stats

def tratar_valores_faltantes(df):
    """
    Trata los valores faltantes usando interpolaci√≥n temporal
    """
    print("\nüîß Aplicando tratamiento de valores faltantes...")
    
    # Estad√≠sticas antes del tratamiento
    missing_antes = df.isnull().sum().sum()
    
    if missing_antes == 0:
        print("‚úÖ No hay valores faltantes que tratar")
        return df, 0, 0
    
    try:
        # Crear una copia del DataFrame para evitar modificar el original
        df_filled = df.copy()
        
        # Aplicar interpolaci√≥n temporal si tenemos √≠ndice de tiempo
        if isinstance(df.index, pd.DatetimeIndex):
            print("   üìÖ Aplicando interpolaci√≥n temporal (method='time')...")
            # Verificar si hay NaNs en el √≠ndice que podr√≠an causar problemas
            if df.index.isna().any():
                print("   ‚ö†Ô∏è  Advertencia: √çndice contiene valores NaN, usando interpolaci√≥n lineal")
                df_filled = df_filled.interpolate(method='linear', limit_direction='both')
            else:
                df_filled = df_filled.interpolate(method='time', limit_direction='both')
        else:
            print("   üìà Aplicando interpolaci√≥n lineal (no hay √≠ndice temporal)...")
            df_filled = df_filled.interpolate(method='linear', limit_direction='both')
        
        # Para valores que siguen faltando al inicio/final, usar backward/forward fill
        # Reemplazar m√©todos deprecated
        df_filled = df_filled.bfill().ffill()
        
        # Estad√≠sticas despu√©s del tratamiento
        missing_despues = df_filled.isnull().sum().sum()
        valores_interpolados = missing_antes - missing_despues
        
        print(f"   üìä Resultados:")
        print(f"      Valores faltantes antes: {missing_antes:,}")
        print(f"      Valores faltantes despu√©s: {missing_despues:,}")
        print(f"      Valores interpolados: {valores_interpolados:,}")
        
        if missing_antes > 0:
            print(f"      Tasa de √©xito: {(valores_interpolados/missing_antes*100):.1f}%")
        
        return df_filled, missing_antes, valores_interpolados
        
    except Exception as e:
        print(f"   ‚ùå Error durante la interpolaci√≥n: {str(e)}")
        print("   üîÑ Intentando m√©todo alternativo con forward/backward fill √∫nicamente...")
        
        try:
            # M√©todo alternativo: solo usar forward/backward fill
            df_filled = df.copy()
            df_filled = df_filled.bfill().ffill()
            
            missing_despues = df_filled.isnull().sum().sum()
            valores_interpolados = missing_antes - missing_despues
            
            print(f"   üìä Resultados (m√©todo alternativo):")
            print(f"      Valores faltantes antes: {missing_antes:,}")
            print(f"      Valores faltantes despu√©s: {missing_despues:,}")
            print(f"      Valores rellenados: {valores_interpolados:,}")
            
            if missing_antes > 0:
                print(f"      Tasa de √©xito: {(valores_interpolados/missing_antes*100):.1f}%")
            
            return df_filled, missing_antes, valores_interpolados
            
        except Exception as e2:
            print(f"   ‚ùå Error tambi√©n en m√©todo alternativo: {str(e2)}")
            print("   ‚ö†Ô∏è  Retornando DataFrame original sin cambios")
            return df, missing_antes, 0


# Ejecutar an√°lisis y tratamiento de valores faltantes
missing_stats = analizar_valores_faltantes(df_typed)
df_no_missing, missing_original, interpolated = tratar_valores_faltantes(df_typed)



üîç Analizando valores faltantes...

üìä Resumen General:
   Total de valores: 677,259
   Valores faltantes: 47,583 (7.03%)
   Columnas con valores faltantes: 33

üìã Top 10 columnas con m√°s valores faltantes:
   estado: 20,523 (100.0%)
   temp_mult_esc_izq: 848 (4.13%)
   temp_cil_5_l: 847 (4.13%)
   temp_cil_6_r: 847 (4.13%)
   temp_cil_6_l: 847 (4.13%)
   temp_mult_esc_der: 847 (4.13%)
   temp_cil_2_r: 847 (4.13%)
   temp_mult_adm_der: 847 (4.13%)
   temp_mult_adm_izq: 847 (4.13%)
   rpm: 845 (4.12%)

üîß Aplicando tratamiento de valores faltantes...
   üìÖ Aplicando interpolaci√≥n temporal (method='time')...
   ‚ö†Ô∏è  Advertencia: √çndice contiene valores NaN, usando interpolaci√≥n lineal
   üìä Resultados:
      Valores faltantes antes: 47,583
      Valores faltantes despu√©s: 20,523
      Valores interpolados: 27,060
      Tasa de √©xito: 56.9%


In [9]:
def analizar_outliers(df):
    """
    Analiza outliers en las columnas num√©ricas del dataset
    """
    print("üîç Analizando outliers en columnas num√©ricas...")
    
    # Seleccionar solo columnas num√©ricas
    cols_numericas = df.select_dtypes(include=[np.number]).columns
    
    if len(cols_numericas) == 0:
        print("‚ö†Ô∏è  No se encontraron columnas num√©ricas")
        return pd.DataFrame()
    
    outlier_stats = []
    
    for col in cols_numericas:
        serie = df[col].dropna()
        
        if len(serie) == 0:
            continue
        
        # Calcular percentiles
        q01 = serie.quantile(0.01)
        q99 = serie.quantile(0.99)
        q25 = serie.quantile(0.25)
        q75 = serie.quantile(0.75)
        
        # Contar outliers usando m√©todo de percentiles
        outliers_bajos = (serie < q01).sum()
        outliers_altos = (serie > q99).sum()
        total_outliers = outliers_bajos + outliers_altos
        
        # Contar outliers usando m√©todo IQR (para comparaci√≥n)
        iqr = q75 - q25
        lower_iqr = q25 - 1.5 * iqr
        upper_iqr = q75 + 1.5 * iqr
        outliers_iqr = ((serie < lower_iqr) | (serie > upper_iqr)).sum()
        
        outlier_stats.append({
            'columna': col,
            'total_valores': len(serie),
            'outliers_percentil': total_outliers,
            'outliers_iqr': outliers_iqr,
            'porcentaje_percentil': (total_outliers / len(serie) * 100),
            'porcentaje_iqr': (outliers_iqr / len(serie) * 100),
            'q01': q01,
            'q99': q99,
            'min_original': serie.min(),
            'max_original': serie.max()
        })
    
    outlier_df = pd.DataFrame(outlier_stats)
    outlier_df = outlier_df.sort_values('porcentaje_percentil', ascending=False)
    
    # Resumen general
    total_outliers_percentil = outlier_df['outliers_percentil'].sum()
    total_valores = outlier_df['total_valores'].sum()
    
    print(f"\nüìä Resumen de Outliers:")
    print(f"   Columnas analizadas: {len(cols_numericas)}")
    print(f"   Total outliers (percentil 1-99): {total_outliers_percentil:,} ({total_outliers_percentil/total_valores*100:.2f}%)")
    
    # Mostrar top columnas con m√°s outliers
    print(f"\nüìã Top 10 columnas con m√°s outliers (m√©todo percentil):")
    for _, row in outlier_df.head(10).iterrows():
        print(f"   {row['columna']}: {row['outliers_percentil']:,} outliers ({row['porcentaje_percentil']:.1f}%)")
    
    return outlier_df

def aplicar_clipping_outliers(df):
    """
    Aplica clipping de outliers usando percentiles 1 y 99
    """
    print("\nüîß Aplicando clipping de outliers...")
    
    # Seleccionar columnas num√©ricas
    cols_numericas = df.select_dtypes(include=[np.number]).columns
    
    if len(cols_numericas) == 0:
        print("‚ö†Ô∏è  No se encontraron columnas num√©ricas para procesar")
        return df, 0
    
    df_clipped = df.copy()
    total_clipped = 0
    
    print(f"   üìä Procesando {len(cols_numericas)} columnas num√©ricas...")
    
    for col in cols_numericas:
        serie_original = df_clipped[col]
        serie_valida = serie_original.dropna()
        
        if len(serie_valida) == 0:
            continue
        
        # Calcular l√≠mites de clipping
        limite_inferior = serie_valida.quantile(0.01)
        limite_superior = serie_valida.quantile(0.99)
        
        # Aplicar clipping
        serie_clipped = serie_original.clip(lower=limite_inferior, upper=limite_superior)
        
        # Contar valores modificados
        valores_modificados = (serie_original != serie_clipped).sum()
        total_clipped += valores_modificados
        
        # Actualizar la columna
        df_clipped[col] = serie_clipped
        
        if valores_modificados > 0:
            porcentaje = (valores_modificados / len(serie_original) * 100)
            print(f"      {col}: {valores_modificados:,} valores clipped ({porcentaje:.1f}%) [{limite_inferior:.2f}, {limite_superior:.2f}]")
    
    print(f"\n   ‚úÖ Clipping completado: {total_clipped:,} valores modificados en total")
    
    return df_clipped, total_clipped

# Ejecutar an√°lisis y tratamiento de outliers
outlier_stats = analizar_outliers(df_no_missing)
df_final, total_clipped = aplicar_clipping_outliers(df_no_missing)

üîç Analizando outliers en columnas num√©ricas...

üìä Resumen de Outliers:
   Columnas analizadas: 33
   Total outliers (percentil 1-99): 11,958 (1.82%)

üìã Top 10 columnas con m√°s outliers (m√©todo percentil):
   rpm: 412 outliers (2.0%)
   presion_intermedia: 412 outliers (2.0%)
   presion_descarga: 412 outliers (2.0%)
   pres_aceite_comp: 412 outliers (2.0%)
   presion_agua: 412 outliers (2.0%)
   presion_mult_adm_izq: 412 outliers (2.0%)
   presion_aceite_motor: 412 outliers (2.0%)
   temp_mult_adm_der: 412 outliers (2.0%)
   temp_cil_4_l: 412 outliers (2.0%)
   temp_cil_6_r: 412 outliers (2.0%)

üîß Aplicando clipping de outliers...
   üìä Procesando 33 columnas num√©ricas...
      rpm: 412 valores clipped (2.0%) [-106.41, 872.91]
      presion_succion: 411 valores clipped (2.0%) [-74.85, 486.60]
      presion_intermedia: 412 valores clipped (2.0%) [-117.62, 496.31]
      presion_descarga: 412 valores clipped (2.0%) [-124.46, 483.54]
      pres_aceite_comp: 412 valores cli

## 4. üìä Validaci√≥n de Calidad de Datos

### üéØ M√©tricas de Calidad
Evaluaremos la calidad del preprocesamiento mediante m√©tricas cuantitativas que demuestren la efectividad de cada paso del pipeline de limpieza.

In [10]:
def generar_reporte_calidad(df_original, df_final, missing_original, interpolated, total_clipped):
    """
    Genera un reporte completo de la calidad del preprocesamiento
    """
    print("üìã REPORTE DE CALIDAD DEL PREPROCESAMIENTO")
    print("=" * 60)
    
    # 1. Estad√≠sticas dimensionales
    print("\n1Ô∏è‚É£  DIMENSIONES DEL DATASET")
    print(f"   Filas originales: {len(df_original):,}")
    print(f"   Filas finales: {len(df_final):,}")
    print(f"   Columnas originales: {df_original.shape[1]}")
    print(f"   Columnas finales: {df_final.shape[1]}")
    
    # 2. Calidad de datos
    print("\n2Ô∏è‚É£  CALIDAD DE DATOS")
    missing_final = df_final.isnull().sum().sum()
    total_valores = df_final.size
    
    print(f"   Valores faltantes originales: {missing_original:,}")
    print(f"   Valores interpolados: {interpolated:,}")
    print(f"   Valores faltantes finales: {missing_final:,}")
    print(f"   Tasa de completitud: {((total_valores - missing_final) / total_valores * 100):.2f}%")
    
    # 3. Tratamiento de outliers
    print("\n3Ô∏è‚É£  TRATAMIENTO DE OUTLIERS")
    print(f"   Valores clipped: {total_clipped:,}")
    print(f"   Porcentaje de valores modificados: {(total_clipped / total_valores * 100):.2f}%")
    
    # 4. Tipos de datos
    print("\n4Ô∏è‚É£  TIPOS DE DATOS")
    tipos_finales = df_final.dtypes.value_counts()
    for tipo, cantidad in tipos_finales.items():
        print(f"   {tipo}: {cantidad} columnas")
    
    # 5. Informaci√≥n temporal
    print("\n5Ô∏è‚É£  INFORMACI√ìN TEMPORAL")
    if isinstance(df_final.index, pd.DatetimeIndex):
        print(f"   √çndice temporal: ‚úÖ Configurado")
        print(f"   Rango temporal: {df_final.index.min()} a {df_final.index.max()}")
        print(f"   Duraci√≥n total: {df_final.index.max() - df_final.index.min()}")
    else:
        print(f"   √çndice temporal: ‚ùå No configurado (√≠ndice num√©rico)")
    
    # 6. Resumen de columnas
    print("\n6Ô∏è‚É£  RESUMEN DE COLUMNAS")
    cols_numericas = df_final.select_dtypes(include=[np.number]).columns
    cols_temporales = df_final.select_dtypes(include=['datetime']).columns
    cols_otros = df_final.select_dtypes(exclude=[np.number, 'datetime']).columns
    
    print(f"   Columnas num√©ricas: {len(cols_numericas)}")
    print(f"   Columnas temporales: {len(cols_temporales)}")
    print(f"   Otras columnas: {len(cols_otros)}")
    
    # 7. Estad√≠sticas descriptivas b√°sicas
    if len(cols_numericas) > 0:
        print("\n7Ô∏è‚É£  ESTAD√çSTICAS DESCRIPTIVAS (Columnas Num√©ricas)")
        stats_desc = df_final[cols_numericas].describe()
        print(f"   Promedio de medias: {stats_desc.loc['mean'].mean():.2f}")
        print(f"   Promedio de desv. est√°ndar: {stats_desc.loc['std'].mean():.2f}")
        print(f"   Rango de valores m√≠nimos: [{stats_desc.loc['min'].min():.2f}, {stats_desc.loc['min'].max():.2f}]")
        print(f"   Rango de valores m√°ximos: [{stats_desc.loc['max'].min():.2f}, {stats_desc.loc['max'].max():.2f}]")
    
    print("\n" + "=" * 60)
    print("‚úÖ PREPROCESAMIENTO COMPLETADO EXITOSAMENTE")
    print("=" * 60)

# Generar reporte de calidad
generar_reporte_calidad(df_raw, df_final, missing_original, interpolated, total_clipped)

üìã REPORTE DE CALIDAD DEL PREPROCESAMIENTO

1Ô∏è‚É£  DIMENSIONES DEL DATASET
   Filas originales: 20,523
   Filas finales: 20,523
   Columnas originales: 68
   Columnas finales: 33

2Ô∏è‚É£  CALIDAD DE DATOS
   Valores faltantes originales: 47,583
   Valores interpolados: 27,060
   Valores faltantes finales: 20,523
   Tasa de completitud: 96.97%

3Ô∏è‚É£  TRATAMIENTO DE OUTLIERS
   Valores clipped: 11,958
   Porcentaje de valores modificados: 1.77%

4Ô∏è‚É£  TIPOS DE DATOS
   float64: 33 columnas

5Ô∏è‚É£  INFORMACI√ìN TEMPORAL
   √çndice temporal: ‚úÖ Configurado
   Rango temporal: 2023-01-01 00:00:00 a 2025-04-30 23:00:00
   Duraci√≥n total: 850 days 23:00:00

6Ô∏è‚É£  RESUMEN DE COLUMNAS
   Columnas num√©ricas: 33
   Columnas temporales: 0
   Otras columnas: 0

7Ô∏è‚É£  ESTAD√çSTICAS DESCRIPTIVAS (Columnas Num√©ricas)
   Promedio de medias: 252.59
   Promedio de desv. est√°ndar: 231.57
   Rango de valores m√≠nimos: [-124.46, 82.16]
   Rango de valores m√°ximos: [1.18, 2191.88]

‚ú

## 5. üíæ Guardado del Dataset Procesado

### üéØ Objetivo Final
Guardar el dataset completamente procesado en formato CSV para uso en las siguientes fases del proyecto:
- **Feature Engineering** (03_feature_engineering.ipynb)
- **Model Training** (04_model_training.ipynb)
- **Model Evaluation** (05_model_evaluation.ipynb)

In [13]:
def guardar_dataset_final(df, ruta_destino, nombre_base='timeseries_data',
                         archivos_procesados=None, archivos_fallidos=None,
                         valores_interpolados=0, valores_clipped=0):
    """
    Guarda dataset en CSV (siempre) y Parquet (usando subprocess para evitar conflictos)
    Incluye todos los archivos de metadatos
    """
    ruta_destino = Path(ruta_destino)
    ruta_destino.mkdir(parents=True, exist_ok=True)
    
    print(f"üíæ Guardando dataset final...")
    print(f"   üìä Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")
    
    resultados = {}
    
    # ========== CSV (SIEMPRE) ==========
    try:
        archivo_csv = ruta_destino / f"{nombre_base}.csv"
        print(f"   üìÑ Guardando CSV...")
        df.to_csv(archivo_csv, index=True, encoding='utf-8')
        tama√±o_mb = archivo_csv.stat().st_size / (1024 * 1024)
        print(f"      ‚úÖ CSV: {tama√±o_mb:.1f} MB")
        resultados['csv'] = {'exito': True, 'tama√±o_mb': tama√±o_mb}
    except Exception as e:
        print(f"      ‚ùå CSV Error: {str(e)}")
        return {'csv': {'exito': False, 'error': str(e)}}
    
    # ========== PARQUET (SUBPROCESS AISLADO) ==========
    archivo_parquet = ruta_destino / f"{nombre_base}.parquet"
    print(f"   üì¶ Guardando Parquet (subprocess aislado)...")
    
    try:
        # CSV temporal
        temp_csv = ruta_destino / 'temp_for_parquet.csv'
        df.to_csv(temp_csv, index=True)
        
        # Script aislado
        script_content = f'''
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

try:
    df = pd.read_csv("{temp_csv}", index_col=0, parse_dates=True)
    
    # Limpiar para Parquet
    if hasattr(df.index, 'hasnans') and df.index.hasnans:
        df = df[df.index.notna()]
    if str(type(df.index)) == "<class 'pandas.core.indexes.datetimes.DatetimeIndex'>":
        df = df.reset_index()
    
    df.to_parquet("{archivo_parquet}", engine='pyarrow', index=False, compression='snappy')
    print("PARQUET_SUCCESS")
    
except Exception as e:
    print(f"PARQUET_ERROR: {{e}}")
'''
        
        # Ejecutar subprocess
        result = subprocess.run([sys.executable, '-c', script_content], 
                              capture_output=True, text=True, timeout=120)
        
        # Limpiar
        if temp_csv.exists():
            temp_csv.unlink()
        
        # Verificar
        if result.returncode == 0 and "PARQUET_SUCCESS" in result.stdout:
            tama√±o_mb = archivo_parquet.stat().st_size / (1024 * 1024)
            print(f"      ‚úÖ Parquet: {tama√±o_mb:.1f} MB")
            resultados['parquet'] = {'exito': True, 'tama√±o_mb': tama√±o_mb}
        else:
            print(f"      ‚ùå Parquet: Subprocess failed")
            resultados['parquet'] = {'exito': False, 'error': 'subprocess_failed'}
            
    except Exception as e:
        print(f"      ‚ùå Parquet Exception: {str(e)}")
        resultados['parquet'] = {'exito': False, 'error': str(e)}
    
    # ========== METADATOS COMPLETOS ==========
    try:
        print(f"   üìÑ Generando archivos de metadatos...")
        
        # 1. Metadatos principales
        archivo_meta = ruta_destino / 'preproceso_metadata.txt'
        with open(archivo_meta, 'w', encoding='utf-8') as f:
            f.write(f"METADATOS DEL PREPROCESAMIENTO\n")
            f.write(f"=" * 40 + "\n\n")
            f.write(f"Timestamp: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
            f.write(f"Dimensiones: {df.shape[0]:,} √ó {df.shape[1]}\n")
            f.write(f"Archivos procesados: {len(archivos_procesados or [])}\n")
            f.write(f"Archivos fallidos: {len(archivos_fallidos or [])}\n")
            f.write(f"Valores interpolados: {valores_interpolados:,}\n")
            f.write(f"Valores clipped: {valores_clipped:,}\n")
            f.write(f"√çndice temporal: {'S√≠' if hasattr(df.index, 'tz') or 'datetime' in str(type(df.index)).lower() else 'No'}\n")
            f.write(f"\nFormatos guardados:\n")
            for formato, resultado in resultados.items():
                status = "‚úÖ" if resultado['exito'] else "‚ùå" 
                f.write(f"  {formato.upper()}: {status}\n")
            
            if archivos_procesados:
                f.write(f"\nArchivos procesados exitosamente:\n")
                for archivo in archivos_procesados:
                    f.write(f"  - {archivo}\n")
            
            if archivos_fallidos:
                f.write(f"\nArchivos que fallaron:\n")
                for archivo in archivos_fallidos:
                    f.write(f"  - {archivo}\n")
        
        # 2. Resumen de columnas
        archivo_columnas = ruta_destino / 'columnas_resumen.csv'
        columnas_info = pd.DataFrame({
            'columna': df.columns,
            'tipo_datos': [str(dtype) for dtype in df.dtypes],
            'valores_no_nulos': df.count(),
            'valores_nulos': df.isnull().sum(),
            'porcentaje_completitud': ((df.count() / len(df)) * 100).round(2)
        })
        
        # Agregar estad√≠sticas para columnas num√©ricas
        numeric_cols = df.select_dtypes(include=[np.number]).columns
        columnas_info['es_numerica'] = columnas_info['columna'].isin(numeric_cols)
        
        # Estad√≠sticas b√°sicas para columnas num√©ricas
        columnas_info['min_valor'] = np.nan
        columnas_info['max_valor'] = np.nan
        columnas_info['media'] = np.nan
        
        for col in numeric_cols:
            if not df[col].empty and df[col].notna().any():
                idx = columnas_info['columna'] == col
                try:
                    columnas_info.loc[idx, 'min_valor'] = df[col].min()
                    columnas_info.loc[idx, 'max_valor'] = df[col].max()
                    columnas_info.loc[idx, 'media'] = df[col].mean()
                except:
                    pass  # Ignorar errores en estad√≠sticas
        
        columnas_info.to_csv(archivo_columnas, index=False, encoding='utf-8')
        
        # 3. Estad√≠sticas descriptivas b√°sicas (solo num√©ricas)
        if len(numeric_cols) > 0:
            archivo_stats = ruta_destino / 'estadistica_basica.csv'
            stats_desc = df[numeric_cols].describe()
            stats_desc.to_csv(archivo_stats, encoding='utf-8')
        
        print(f"      ‚úÖ preproceso_metadata.txt")
        print(f"      ‚úÖ columnas_resumen.csv")
        if len(numeric_cols) > 0:
            print(f"      ‚úÖ estadistica_basica.csv")
        
    except Exception as e:
        print(f"      ‚ö†Ô∏è  Error en metadatos: {str(e)}")
        pass
    
    # ========== RESUMEN FINAL ==========
    print(f"\nüìã Resumen del guardado:")
    exitosos = sum(1 for r in resultados.values() if r['exito'])
    for formato, resultado in resultados.items():
        if resultado['exito']:
            print(f"   ‚úÖ {formato.upper()}: {resultado['tama√±o_mb']:.1f} MB")
        else:
            print(f"   ‚ùå {formato.upper()}: Error")
    
    print(f"\nüìÅ Archivos generados en data/processed/:")
    print(f"   üóÉÔ∏è  {nombre_base}.csv - Dataset principal")
    if resultados.get('parquet', {}).get('exito'):
        print(f"   üì¶ {nombre_base}.parquet - Dataset comprimido")
    print(f"   üìÑ preproceso_metadata.txt - Metadatos del procesamiento")
    print(f"   üìä columnas_resumen.csv - Resumen de columnas")
    if len(df.select_dtypes(include=[np.number]).columns) > 0:
        print(f"   üìà estadistica_basica.csv - Estad√≠sticas descriptivas")
    
    print(f"‚úÖ Guardado completado: {exitosos}/{len(resultados)} formatos exitosos")
    
    return resultados
    
exito_guardado = guardar_dataset_final(df_final, ruta_processed)


üíæ Guardando dataset final...
   üìä Dimensiones: 20,523 filas √ó 33 columnas
   üìÑ Guardando CSV...
      ‚úÖ CSV: 11.8 MB
   üì¶ Guardando Parquet (subprocess aislado)...
      ‚úÖ Parquet: 3.2 MB
   üìÑ Generando archivos de metadatos...
      ‚úÖ preproceso_metadata.txt
      ‚úÖ columnas_resumen.csv
      ‚úÖ estadistica_basica.csv

üìã Resumen del guardado:
   ‚úÖ CSV: 11.8 MB
   ‚úÖ PARQUET: 3.2 MB

üìÅ Archivos generados en data/processed/:
   üóÉÔ∏è  timeseries_data.csv - Dataset principal
   üì¶ timeseries_data.parquet - Dataset comprimido
   üìÑ preproceso_metadata.txt - Metadatos del procesamiento
   üìä columnas_resumen.csv - Resumen de columnas
   üìà estadistica_basica.csv - Estad√≠sticas descriptivas
‚úÖ Guardado completado: 2/2 formatos exitosos


## üìà Resumen del Preprocesamiento

### ‚úÖ Tareas Completadas

1. **Carga y Consolidaci√≥n Inteligente**
   - ‚úÖ Detecci√≥n autom√°tica de estructura de archivos Excel
   - ‚úÖ Consolidaci√≥n de 28 archivos en un dataset √∫nico
   - ‚úÖ Manejo robusto de diferentes formatos (.xls/.xlsx)

2. **Limpieza de Estructura de Datos**
   - ‚úÖ Normalizaci√≥n de nombres de columnas a formato snake_case
   - ‚úÖ Conversi√≥n inteligente de tipos de datos
   - ‚úÖ Manejo de diferentes formatos temporales

3. **Tratamiento de Calidad de Datos**
   - ‚úÖ Interpolaci√≥n temporal de valores faltantes
   - ‚úÖ Clipping estad√≠stico de outliers (percentiles 1-99)
   - ‚úÖ Preservaci√≥n de informaci√≥n operacional relevante

4. **Validaci√≥n y Documentaci√≥n**
   - ‚úÖ M√©tricas completas de calidad de datos
   - ‚úÖ Documentaci√≥n exhaustiva del procesamiento
   - ‚úÖ Archivos de metadatos para trazabilidad

### üîÑ Pipeline de Calidad Implementado

```
Datos Raw ‚Üí Detecci√≥n Autom√°tica ‚Üí Limpieza ‚Üí Conversi√≥n de Tipos ‚Üí 
Interpolaci√≥n ‚Üí Clipping ‚Üí Validaci√≥n ‚Üí Dataset Limpio
```

---

**üìä Estado**: ‚úÖ **Preprocesamiento Completado**  
**‚û°Ô∏è  Siguiente fase**: `03_feature_engineering.ipynb`