# üìù Limpieza Robusta y Preparaci√≥n de Datos (Data Pre-processing)
El objetivo de este m√≥dulo es garantizar la integridad estructural de nuestra serie de tiempo para que est√© lista para el an√°lisis exploratorio y el modelado. Para lograrlo, hemos encapsulado todos los pasos cr√≠ticos en una √∫nica funci√≥n de sanitizaci√≥n.

## 1. Funci√≥n Central: sanitizar_serie_tiempo()
Esta funci√≥n act√∫a como una "caja negra" que toma los datos crudos, corrige los errores de formato, y se asegura de que la serie de tiempo sea continua y sin duplicados en el √≠ndice.

### 1.1 Definici√≥n de la Funci√≥n de Sanitizaci√≥n

In [7]:
import pandas as pd
import numpy as np 

def sanitizar_serie_tiempo(df, columna_fecha='Fecha', frecuencia_esperada='D'):
    """
    Realiza la limpieza estructural y formal completa, corrigiendo el error de Key Error en el √≠ndice.
    """
    print("--- INICIO DEL PROCESO DE SANITIZACI√ìN ---")
    
    df_sanitizado = df.copy() 
    
    # --- 1. Manejo de Errores Cr√≠ticos (Estructura) ---
    try:
        # A. Verificar existencia y renombrar columna de fecha
        if columna_fecha not in df_sanitizado.columns:
            raise ValueError(f"‚ùå Error Cr√≠tico: La columna de fecha '{columna_fecha}' no se encuentra.")
        
        df_sanitizado = df_sanitizado.rename(columns={columna_fecha: 'Fecha'})

        # B. Transformaci√≥n a datetime 
        df_sanitizado['Fecha'] = pd.to_datetime(df_sanitizado['Fecha'], errors='coerce')
        
        # C. ¬°CORRECCI√ìN! Eliminar las filas con fechas no v√°lidas ANTES de establecer el √≠ndice.
        # Usamos 'Fecha' como columna, que a√∫n existe.
        nan_fechas_antes = df_sanitizado['Fecha'].isna().sum()
        if nan_fechas_antes > 0:
            print(f"‚ö†Ô∏è Advertencia: Eliminando {nan_fechas_antes} filas con fechas no convertibles.")
            df_sanitizado.dropna(subset=['Fecha'], inplace=True)
            
        # D. Establecimiento del √≠ndice
        df_sanitizado = df_sanitizado.set_index('Fecha').sort_index()

    except Exception as e:
        # En caso de que falle la carga o el renombramiento
        print(f"‚ùå ERROR FATAL en el manejo de tipos o √≠ndice: {e}")
        return None 
        
    # --- 2. Coerci√≥n de Tipos de Datos y Duplicados ---
    
    for col in df_sanitizado.columns:
        df_sanitizado[col] = pd.to_numeric(df_sanitizado[col], errors='coerce')

    duplicados = df_sanitizado.index.duplicated().sum()
    if duplicados > 0:
        print(f"‚ö†Ô∏è Advertencia: Eliminando {duplicados} entradas duplicadas en el √≠ndice.")
        df_sanitizado = df_sanitizado[~df_sanitizado.index.duplicated(keep='first')]
    else:
        print("‚úÖ √çndice libre de duplicados.")

    # --- 3. Verificaci√≥n de Continuidad (Granularidad) ---
    idx_completo = pd.date_range(start=df_sanitizado.index.min(), 
                                 end=df_sanitizado.index.max(), 
                                 freq=frecuencia_esperada)
    
    fechas_faltantes = idx_completo.difference(df_sanitizado.index)
    
    if len(fechas_faltantes) > 0:
        print(f"‚ö†Ô∏è Advertencia: Se detectaron {len(fechas_faltantes)} d√≠as faltantes (huecos).")
        df_sanitizado = df_sanitizado.reindex(idx_completo)
    else:
        print(f"‚úÖ La serie es continua con frecuencia '{frecuencia_esperada}'.")
        
    # --- 4. Reporte Final ---
    nulos_totales = df_sanitizado.isnull().sum().sum()
    print(f"\n‚ú® RESUMEN DE SANITIZACI√ìN: La serie limpia tiene {nulos_totales} NaNs para imputar.")
    print("--- PROCESO DE SANITIZACI√ìN FINALIZADO ---")
    
    return df_sanitizado

### 1.2 Ejecuci√≥n de la Limpieza (Flujo Central)

Aqu√≠ cargaremos nuestras librer√≠as y ejecutaremos el c√≥digo de nuestra funci√≥n de sanitizaci√≥n tras la carga de nuestros datos

In [8]:
# Cargar librer√≠as
import pandas as pd

# Cargar el archivo CSV
df_crudo = pd.read_csv("dataset/pinar_del_rio_temperaturas_2024_2025.csv" )

print("Datos crudos cargados, listos para sanitizaci√≥n.")

Datos crudos cargados, listos para sanitizaci√≥n.


In [None]:
# Ejecutar la funci√≥n de sanitizaci√≥n "todo en uno"
df_limpio = sanitizar_serie_tiempo(df_crudo, columna_fecha='Fecha')

if df_limpio is not None:
    print("\nDataFrame Limpio (Primeras filas):")
    print(df_limpio.head())
    print("\nTipos de Datos del DataFrame Limpio:")
    print(df_limpio.info())

    # Guardar el archivo limpio para el siguiente notebook
    df_limpio.to_csv("dataset/pinar_del_rio_temperaturas_LIMPIO_FINAL.csv")

--- INICIO DEL PROCESO DE SANITIZACI√ìN ---
‚úÖ √çndice libre de duplicados.
‚úÖ La serie es continua con frecuencia 'D'.

‚ú® RESUMEN DE SANITIZACI√ìN: La serie limpia tiene 0 NaNs para imputar.
--- PROCESO DE SANITIZACI√ìN FINALIZADO ---

DataFrame Limpio (Primeras filas):
            Temp_Maxima_C  Temp_Minima_C
Fecha                                   
2024-01-01           24.1           13.1
2024-01-02           24.2           13.7
2024-01-03           23.2           15.0
2024-01-04           27.2           15.6
2024-01-05           25.8           17.0

Tipos de Datos del DataFrame Limpio:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 671 entries, 2024-01-01 to 2025-11-01
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Temp_Maxima_C  671 non-null    float64
 1   Temp_Minima_C  671 non-null    float64
dtypes: float64(2)
memory usage: 15.7 KB
None
