# Análisis y Preparación de Datos para la Predicción de Demanda Eléctrica

Este notebook se centra en la preparación y análisis inicial de los datos necesarios para desarrollar un modelo de predicción de demanda eléctrica. El proceso incluye:

1. Carga de datos de diferentes fuentes
2. Preprocesamiento y limpieza

In [1]:
# Importar bibliotecas necesarias
import pandas as pd
from pathlib import Path
from IPython.display import display

## Configuración de Rango de Fechas

Define el rango de fechas para filtrar los datos que se procesarán.

**Nota**: Estos valores pueden ser sobrescritos por el Notebook 00 (Pipeline Maestro) cuando se ejecuta automáticamente.

In [2]:
# PARÁMETROS - Esta celda puede ser sobrescrita por papermill (NB00)
# Si ejecutas este notebook manualmente, modifica estos valores aquí
# Si lo ejecutas desde NB00, estos valores serán reemplazados automáticamente

# Configuración de rango de fechas para generar datasets
# None = usar todos los datos disponibles desde el inicio
FECHA_INICIO_DATOS = pd.Timestamp('2023-01-01 00:00:00')
# Por defecto: hasta el 2025-09-20 (puedes cambiarlo según necesites)
FECHA_FIN_DATOS = pd.Timestamp('2025-10-21 23:59:59')

In [3]:
# Mostrar configuración activa
print("="*80)
print("CONFIGURACIÓN DE FECHAS ACTIVA (NB01 - Data Preparation)")
print("="*80)
print(f"Inicio: {'Desde el principio' if FECHA_INICIO_DATOS is None else FECHA_INICIO_DATOS}")
print(f"Fin:    {FECHA_FIN_DATOS}")
print("="*80)

CONFIGURACIÓN DE FECHAS ACTIVA (NB01 - Data Preparation)
Inicio: 2023-01-01 00:00:00
Fin:    2025-10-21 23:59:59


In [4]:

# Configuración de visualización
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

## Carga de Datos

Cargaremos los datos necesarios de las diferentes fuentes:
1. Datos de demanda eléctrica de REE
2. Datos meteorológicos
3. Datos de embalses
4. Datos de eventos y calendario
5. Precios de la electricidad

Para cada conjunto de datos, realizaremos una inspección inicial y mostraremos sus características principales.

In [5]:
# Definir rutas base
REE_PATH = '../../data/ree/data_parquet_clean/demanda'
METEO_PATH = '../../data/climatologia/data_parquet_clean/meteo'
EMBALSES_PATH = '../../data/hidrografica/data_parquet_clean/embalses'
PRECIOS_PATH = '../../data/precio_luz/data_parquet_clean'

## Análisis de la Estructura de Datos

Los datos están organizados de la siguiente manera:

1. Datos de REE (Red Eléctrica Española):
   - Demanda eléctrica

2. Datos Meteorológicos:
   - Datos por ciudad
   - Incluye temperatura, humedad y otras variables meteorológicas

3. Datos de Embalses:
   - Niveles y capacidades
   - Datos históricos

4. Precios de la Electricidad:
   - Datos históricos de precios

A continuación, analizaremos cada fuente de datos en detalle para entender su estructura y contenido.

In [6]:
# Cargar los datos
print("Cargando datos de demanda...")
demand_df = pd.read_parquet(REE_PATH)

# Mostrar información básica
print("\nInformación del dataset de demanda:")
print("-----------------------------------")
print(f"Número de registros: {len(demand_df):,}")
print(f"Período de tiempo: {demand_df['Hora'].min()} a {demand_df['Hora'].max()}")
print("\nColumnas disponibles:")
print(demand_df.columns.tolist())

# Mostrar primeras filas
print("\nPrimeras filas del dataset:")
display(demand_df.head())

# Cargar datos meteorológicos, precios y de embalses
print("Cargando datos meteorológicos...")
weather_df = pd.read_parquet(METEO_PATH)
print("\nCargando datos de precios...")
price_df = pd.read_parquet(PRECIOS_PATH)
print("\nCargando datos de embalses...")
reservoir_df = pd.read_parquet(EMBALSES_PATH)

# Mostrar información básica de cada dataset
print("\nInformación del dataset meteorológico:")
print("-------------------------------------")
print(f"Número de registros: {len(weather_df):,}")
print("Columnas disponibles:")
print(weather_df.columns.tolist())
print("\nPrimeras filas del dataset:")
display(weather_df.tail())

print("\nInformación del dataset de embalses:")
print("-----------------------------------")
print(f"Número de registros: {len(reservoir_df):,}")
print("Columnas disponibles:")
print(reservoir_df.columns.tolist())
print("\nPrimeras filas del dataset:")
display(reservoir_df.head())

print("\nInformación del dataset de precios:")
print("-----------------------------------")
print(f"Número de registros: {len(price_df):,}")
print("Columnas disponibles:")
print(price_df.columns.tolist())
print("\nPrimeras filas del dataset:")
display(price_df.head())

Cargando datos de demanda...

Información del dataset de demanda:
-----------------------------------
Número de registros: 610,848
Período de tiempo: 2020-01-01 00:00:00 a 2025-10-21 23:55:00

Columnas disponibles:
['Hora', 'Real', 'Prevista', 'Programada', 'year']

Primeras filas del dataset:


Unnamed: 0,Hora,Real,Prevista,Programada,year
0,2020-01-01 00:00:00,24601.0,24951.0,24366.0,2020
1,2020-01-01 00:05:00,24545.0,24852.0,24366.0,2020
2,2020-01-01 00:10:00,24644.0,24758.0,24366.0,2020
3,2020-01-01 00:15:00,24669.0,24667.0,24366.0,2020
4,2020-01-01 00:20:00,24664.0,24581.0,24366.0,2020


Cargando datos meteorológicos...

Cargando datos de precios...

Cargando datos de embalses...

Información del dataset meteorológico:
-------------------------------------
Número de registros: 2,338,272
Columnas disponibles:
['time', 'temperature_2m', 'precipitation', 'rain', 'cloud_cover', 'cloud_cover_low', 'cloud_cover_mid', 'cloud_cover_high', 'wind_speed_10m', 'wind_speed_100m', 'wind_direction_10m', 'wind_direction_100m', 'wind_gusts_10m', 'date', 'hour', 'latitude', 'longitude', 'generationtime_ms', 'utc_offset_seconds', 'timezone', 'timezone_abbreviation', 'elevation', 'city', 'year']

Primeras filas del dataset:

Información del dataset meteorológico:
-------------------------------------
Número de registros: 2,338,272
Columnas disponibles:
['time', 'temperature_2m', 'precipitation', 'rain', 'cloud_cover', 'cloud_cover_low', 'cloud_cover_mid', 'cloud_cover_high', 'wind_speed_10m', 'wind_speed_100m', 'wind_direction_10m', 'wind_direction_100m', 'wind_gusts_10m', 'date', 'hour',

Unnamed: 0,time,temperature_2m,precipitation,rain,cloud_cover,cloud_cover_low,cloud_cover_mid,cloud_cover_high,wind_speed_10m,wind_speed_100m,wind_direction_10m,wind_direction_100m,wind_gusts_10m,date,hour,latitude,longitude,generationtime_ms,utc_offset_seconds,timezone,timezone_abbreviation,elevation,city,year
2338267,2025-10-18 19:00:00,22.1,0.0,0.0,0,0,0,0,5.2,11.7,136,136,19.1,2025-10-18,19:00:00,41.652,-0.91,129.336,7200,Europe/Madrid,GMT+2,228.0,zaragoza,2025
2338268,2025-10-18 20:00:00,20.3,0.0,0.0,0,0,0,0,5.5,12.7,128,128,11.5,2025-10-18,20:00:00,41.652,-0.91,129.336,7200,Europe/Madrid,GMT+2,228.0,zaragoza,2025
2338269,2025-10-18 21:00:00,19.4,0.0,0.0,0,0,0,0,6.5,15.3,124,118,13.0,2025-10-18,21:00:00,41.652,-0.91,129.336,7200,Europe/Madrid,GMT+2,228.0,zaragoza,2025
2338270,2025-10-18 22:00:00,18.0,0.0,0.0,0,0,0,0,4.5,13.7,119,122,11.9,2025-10-18,22:00:00,41.652,-0.91,129.336,7200,Europe/Madrid,GMT+2,228.0,zaragoza,2025
2338271,2025-10-18 23:00:00,17.4,0.0,0.0,0,0,0,0,6.3,15.8,90,109,11.2,2025-10-18,23:00:00,41.652,-0.91,129.336,7200,Europe/Madrid,GMT+2,228.0,zaragoza,2025



Información del dataset de embalses:
-----------------------------------
Número de registros: 1,030,824
Columnas disponibles:
['AMBITO_NOMBRE', 'EMBALSE_NOMBRE', 'FECHA', 'AGUA_TOTAL', 'AGUA_ACTUAL', 'ELECTRICO_FLAG', 'porcentaje', 'Hora', 'year']

Primeras filas del dataset:


Unnamed: 0,AMBITO_NOMBRE,EMBALSE_NOMBRE,FECHA,AGUA_TOTAL,AGUA_ACTUAL,ELECTRICO_FLAG,porcentaje,Hora,year
0,Cantábrico Occidental,Alfilorios,2020-01-09,8.0,6.0,0,0.75,2020-01-09 00:00:00,2020
1,Cantábrico Occidental,Alfilorios,2020-01-09,8.0,6.0,0,0.75,2020-01-09 01:00:00,2020
2,Cantábrico Occidental,Alfilorios,2020-01-09,8.0,6.0,0,0.75,2020-01-09 02:00:00,2020
3,Cantábrico Occidental,Alfilorios,2020-01-09,8.0,6.0,0,0.75,2020-01-09 03:00:00,2020
4,Cantábrico Occidental,Alfilorios,2020-01-09,8.0,6.0,0,0.75,2020-01-09 04:00:00,2020



Información del dataset de precios:
-----------------------------------
Número de registros: 50,904
Columnas disponibles:
['Hora', 'Dia', 'GEN', 'NOC', 'VHC', 'COFGEN', 'COFNOC', 'COFVHC', 'PMHGEN', 'PMHNOC', 'PMHVHC', 'SAHGEN', 'SAHNOC', 'SAHVHC', 'FOMGEN', 'FOMNOC', 'FOMVHC', 'FOSGEN', 'FOSNOC', 'FOSVHC', 'INTGEN', 'INTNOC', 'INTVHC', 'PCAPGEN', 'PCAPNOC', 'PCAPVHC', 'TEUGEN', 'TEUNOC', 'TEUVHC', 'CCVGEN', 'CCVNOC', 'CCVVHC', 'hour', 'price', 'PCB', 'CYM', 'COF2TD', 'PMHPCB', 'PMHCYM', 'SAHPCB', 'SAHCYM', 'FOMPCB', 'FOMCYM', 'FOSPCB', 'FOSCYM', 'INTPCB', 'INTCYM', 'PCAPPCB', 'PCAPCYM', 'TEUPCB', 'TEUCYM', 'CCVPCB', 'CCVCYM', 'EDSRPCB', 'EDSRCYM', 'EDCGASPCB', 'EDCGASCYM', 'TAHPCB', 'TAHCYM', 'year']

Primeras filas del dataset:


Unnamed: 0,Hora,Dia,GEN,NOC,VHC,COFGEN,COFNOC,COFVHC,PMHGEN,PMHNOC,PMHVHC,SAHGEN,SAHNOC,SAHVHC,FOMGEN,FOMNOC,FOMVHC,FOSGEN,FOSNOC,FOSVHC,INTGEN,INTNOC,INTVHC,PCAPGEN,PCAPNOC,PCAPVHC,TEUGEN,TEUNOC,TEUVHC,CCVGEN,CCVNOC,CCVVHC,hour,price,PCB,CYM,COF2TD,PMHPCB,PMHCYM,SAHPCB,SAHCYM,FOMPCB,FOMCYM,FOSPCB,FOSCYM,INTPCB,INTCYM,PCAPPCB,PCAPCYM,TEUPCB,TEUCYM,CCVPCB,CCVCYM,EDSRPCB,EDSRCYM,EDCGASPCB,EDCGASCYM,TAHPCB,TAHCYM,year
0,2020-01-01 00:00:00,01/01/2020,107.12,57.59,61.8,0.0,0.0,0.0,52.07,49.55,52.4,2.98,2.83,3.0,0.03,0.03,0.03,0.17,0.17,0.17,0.04,0.04,0.04,5.84,0.97,1.38,44.03,2.22,2.88,1.95,1.79,1.9,0,107.12,,,,,,,,,,,,,,,,,,,,,,,,,,2020
1,2020-01-01 01:00:00,01/01/2020,104.07,54.69,51.42,0.0,0.0,0.0,48.17,45.84,44.32,3.87,3.69,3.56,0.03,0.03,0.03,0.17,0.17,0.16,0.04,0.04,0.03,5.84,0.97,0.75,44.03,2.22,0.89,1.91,1.74,1.68,1,104.07,,,,,,,,,,,,,,,,,,,,,,,,,,2020
2,2020-01-01 02:00:00,01/01/2020,103.72,54.12,50.8,0.0,0.0,0.0,46.36,43.97,42.45,5.24,4.97,4.8,0.03,0.03,0.03,0.18,0.17,0.16,0.04,0.04,0.04,5.92,0.98,0.75,44.03,2.22,0.89,1.91,1.75,1.68,2,103.72,,,,,,,,,,,,,,,,,,,,,,,,,,2020
3,2020-01-01 03:00:00,01/01/2020,100.27,50.84,47.64,0.0,0.0,0.0,41.34,39.21,37.86,6.86,6.51,6.28,0.03,0.03,0.03,0.18,0.17,0.16,0.04,0.04,0.04,5.93,0.98,0.75,44.03,2.22,0.89,1.86,1.7,1.63,3,100.27,,,,,,,,,,,,,,,,,,,,,,,,,,2020
4,2020-01-01 04:00:00,01/01/2020,98.81,49.46,46.31,0.0,0.0,0.0,39.5,37.46,36.17,7.27,6.9,6.66,0.03,0.03,0.03,0.18,0.17,0.16,0.04,0.04,0.04,5.93,0.98,0.75,44.03,2.22,0.89,1.84,1.68,1.62,4,98.81,,,,,,,,,,,,,,,,,,,,,,,,,,2020


In [7]:
# Funcion para que el dataframe que le pase todas sus columnas sean minusculas y sin espacios 
def limpiar_columnas(df):
    df.columns = df.columns.str.lower().str.replace(' ', '_')
    # Renombrar columnas relacionadas con la hora
    if ('hora' in df.columns) or ('time' in df.columns):
        df.rename(columns={'hora': 'datetime', 'time': 'datetime'}, inplace=True)
    return df

# Renombrar columnas y mostramos resultados de cada dataframe
demand_df = limpiar_columnas(demand_df)
weather_df = limpiar_columnas(weather_df)
reservoir_df = limpiar_columnas(reservoir_df)
price_df = limpiar_columnas(price_df)
print("\nColumnas del dataset de demanda tras limpieza:")
print(demand_df.columns.tolist())
print("\nColumnas del dataset meteorológico tras limpieza:")
print(weather_df.columns.tolist())
print("\nColumnas del dataset de embalses tras limpieza:")
print(reservoir_df.columns.tolist())
print("\nColumnas del dataset de precios tras limpieza:")
print(price_df.columns.tolist())


Columnas del dataset de demanda tras limpieza:
['datetime', 'real', 'prevista', 'programada', 'year']

Columnas del dataset meteorológico tras limpieza:
['datetime', 'temperature_2m', 'precipitation', 'rain', 'cloud_cover', 'cloud_cover_low', 'cloud_cover_mid', 'cloud_cover_high', 'wind_speed_10m', 'wind_speed_100m', 'wind_direction_10m', 'wind_direction_100m', 'wind_gusts_10m', 'date', 'hour', 'latitude', 'longitude', 'generationtime_ms', 'utc_offset_seconds', 'timezone', 'timezone_abbreviation', 'elevation', 'city', 'year']

Columnas del dataset de embalses tras limpieza:
['ambito_nombre', 'embalse_nombre', 'fecha', 'agua_total', 'agua_actual', 'electrico_flag', 'porcentaje', 'datetime', 'year']

Columnas del dataset de precios tras limpieza:
['datetime', 'dia', 'gen', 'noc', 'vhc', 'cofgen', 'cofnoc', 'cofvhc', 'pmhgen', 'pmhnoc', 'pmhvhc', 'sahgen', 'sahnoc', 'sahvhc', 'fomgen', 'fomnoc', 'fomvhc', 'fosgen', 'fosnoc', 'fosvhc', 'intgen', 'intnoc', 'intvhc', 'pcapgen', 'pcapnoc', '

In [8]:
# Eliminamos columnas innecesarias

# Meteorología: columnas técnicas innecesarias
for col in ['hour', 'date', 'latitude', 'longitude', 'generationtime_ms', 'utc_offset_seconds', 'timezone', 'timezone_abbreviation', 'elevation']:
    if col in weather_df.columns:
        weather_df.drop(columns=[col], inplace=True)

# Embalses: columna fecha duplicada
if 'fecha' in reservoir_df.columns:
    reservoir_df.drop(columns=['fecha'], inplace=True)

# Demanda: eliminar 'programada' y 'prevista' (son predicciones de REE, no deben usarse para entrenar)
for col in ['programada', 'prevista']:
    if col in demand_df.columns:
        print(f"Eliminando columna '{col}' de demanda (son predicciones, no features válidas)")
        demand_df.drop(columns=[col], inplace=True)

# Precios: quedarnos solo con datetime y price
price_df = price_df[['datetime', 'price']]

print("\nColumnas finales de demanda (sin 'programa' y 'prevista'):")
print(demand_df.columns.tolist())

Eliminando columna 'programada' de demanda (son predicciones, no features válidas)
Eliminando columna 'prevista' de demanda (son predicciones, no features válidas)

Columnas finales de demanda (sin 'programa' y 'prevista'):
['datetime', 'real', 'year']


## Aplicar Filtros de Fecha y Crear Versiones Procesadas

Aplicamos los filtros de fecha configurados al inicio y creamos las versiones procesadas de cada dataset.

## Estandarización a Frecuencia Horaria

Para asegurar la compatibilidad entre todos los datasets, vamos a estandarizar todos los datos a **frecuencia horaria** sin huecos ni duplicados.

**Estrategia por dataset:**

1. **Demanda** (5 minutos → 1 hora): Agregación usando media
2. **Meteorología** (1 hora): Verificar huecos y rellenar con interpolación lineal
3. **Precios** (1 hora): Eliminar duplicados y rellenar huecos con interpolación
4. **Embalses** (diario → 1 hora): Forward-fill (repetir valor del día para todas las horas)

Esta estandarización garantiza que todos los datos estén alineados temporalmente.

In [9]:
import warnings
import numpy as np
warnings.filterwarnings('ignore')

def estandarizar_frecuencia_horaria(df, columnas_numericas, metodo='mean'):
    """
    Estandariza un dataframe a frecuencia horaria sin huecos ni duplicados.
    
    Parameters:
    -----------
    df : pd.DataFrame
        DataFrame con columna 'datetime'
    columnas_numericas : list
        Lista de columnas numéricas a procesar
    metodo : str
        'mean' (agregación por media), 'ffill' (forward fill), 'interpolate' (interpolación lineal)
    
    Returns:
    --------
    pd.DataFrame estandarizado a frecuencia horaria
    """
    # 1. Ordenar por datetime
    df = df.sort_values('datetime').copy()
    
    # 2. Asegurar que datetime esté en formato datetime
    df['datetime'] = pd.to_datetime(df['datetime'])
    
    # 3. Redondear a la hora más cercana (por si hay segundos/minutos)
    df['datetime'] = df['datetime'].dt.floor('H')
    
    # 4. Eliminar duplicados según el método
    if metodo == 'mean':
        # Agrupar por hora y promediar
        df_grouped = df.groupby('datetime')[columnas_numericas].mean().reset_index()
    elif metodo == 'ffill':
        # Tomar el primer valor de cada hora (mantener solo datetime y columnas numéricas)
        df_temp = df[['datetime'] + columnas_numericas].copy()
        df_grouped = df_temp.drop_duplicates(subset='datetime', keep='first').reset_index(drop=True)
    elif metodo == 'interpolate':
        # Eliminar duplicados tomando la media
        df_grouped = df.groupby('datetime')[columnas_numericas].mean().reset_index()
    else:
        raise ValueError(f"Método '{metodo}' no reconocido")
    
    # 5. Crear rango completo de horas (sin huecos)
    fecha_min = df_grouped['datetime'].min()
    fecha_max = df_grouped['datetime'].max()
    rango_completo = pd.date_range(start=fecha_min, end=fecha_max, freq='H')
    
    # 6. Reindexar para llenar huecos
    df_estandarizado = df_grouped.set_index('datetime').reindex(rango_completo)
    
    # 7. Rellenar huecos según el método
    if metodo == 'mean' or metodo == 'interpolate':
        # Interpolación lineal para valores continuos
        df_estandarizado[columnas_numericas] = df_estandarizado[columnas_numericas].interpolate(method='linear', limit_direction='both')
    elif metodo == 'ffill':
        # Forward fill para valores discretos (como niveles de embalse)
        df_estandarizado[columnas_numericas] = df_estandarizado[columnas_numericas].ffill()
        # Si quedan NaN al inicio, usar backfill
        df_estandarizado[columnas_numericas] = df_estandarizado[columnas_numericas].bfill()
    
    # 8. Resetear índice
    df_estandarizado.index.name = 'datetime'
    df_estandarizado = df_estandarizado.reset_index()
    
    return df_estandarizado

print("Función de estandarización definida correctamente")

Función de estandarización definida correctamente


In [10]:
# Aplicar filtros de fecha a cada dataset
print("Aplicando filtros de fecha...")
print(f"Rango configurado: {FECHA_INICIO_DATOS} hasta {FECHA_FIN_DATOS}")

# Filtrar demanda
if FECHA_INICIO_DATOS is not None:
    demand_df_filtered = demand_df[demand_df['datetime'] >= FECHA_INICIO_DATOS].copy()
else:
    demand_df_filtered = demand_df.copy()

if FECHA_FIN_DATOS is not None:
    demand_df_filtered = demand_df_filtered[demand_df_filtered['datetime'] <= FECHA_FIN_DATOS]

# Filtrar meteorología
if FECHA_INICIO_DATOS is not None:
    weather_df_filtered = weather_df[weather_df['datetime'] >= FECHA_INICIO_DATOS].copy()
else:
    weather_df_filtered = weather_df.copy()

if FECHA_FIN_DATOS is not None:
    weather_df_filtered = weather_df_filtered[weather_df_filtered['datetime'] <= FECHA_FIN_DATOS]

# Filtrar embalses
if FECHA_INICIO_DATOS is not None:
    reservoir_df_filtered = reservoir_df[reservoir_df['datetime'] >= FECHA_INICIO_DATOS].copy()
else:
    reservoir_df_filtered = reservoir_df.copy()

if FECHA_FIN_DATOS is not None:
    reservoir_df_filtered = reservoir_df_filtered[reservoir_df_filtered['datetime'] <= FECHA_FIN_DATOS]

# Filtrar precios
if FECHA_INICIO_DATOS is not None:
    price_df_filtered = price_df[price_df['datetime'] >= FECHA_INICIO_DATOS].copy()
else:
    price_df_filtered = price_df.copy()

if FECHA_FIN_DATOS is not None:
    price_df_filtered = price_df_filtered[price_df_filtered['datetime'] <= FECHA_FIN_DATOS]

print("\nDatos filtrados:")
print(f"Demanda: {len(demand_df):,} → {len(demand_df_filtered):,} registros")
print(f"Meteorología: {len(weather_df):,} → {len(weather_df_filtered):,} registros")
print(f"Embalses: {len(reservoir_df):,} → {len(reservoir_df_filtered):,} registros")
print(f"Precios: {len(price_df):,} → {len(price_df_filtered):,} registros")

print("\nFecha máxima y mínima de los datos filtrados:")
print(f"Demanda: {demand_df_filtered['datetime'].min()} a {demand_df_filtered['datetime'].max()}")
print(f"Meteorología: {weather_df_filtered['datetime'].min()} a {weather_df_filtered['datetime'].max()}")
print(f"Embalses: {reservoir_df_filtered['datetime'].min()} a {reservoir_df_filtered['datetime'].max()}")
print(f"Precios: {price_df_filtered['datetime'].min()} a {price_df_filtered['datetime'].max()}")    

Aplicando filtros de fecha...
Rango configurado: 2023-01-01 00:00:00 hasta 2025-10-21 23:59:59

Datos filtrados:
Demanda: 610,848 → 295,200 registros
Meteorología: 2,338,272 → 1,128,288 registros
Embalses: 1,030,824 → 492,960 registros
Precios: 50,904 → 24,600 registros

Fecha máxima y mínima de los datos filtrados:
Demanda: 2023-01-01 00:00:00 a 2025-10-21 23:55:00
Meteorología: 2023-01-01 00:00:00 a 2025-10-18 23:00:00
Embalses: 2023-01-08 00:00:00 a 2025-10-06 23:00:00
Precios: 2023-01-01 00:00:00 a 2025-10-21 23:00:00


In [11]:
print("\n" + "="*80)
print("ESTANDARIZANDO TODOS LOS DATASETS A FRECUENCIA HORARIA")
print("="*80)

# 1. DEMANDA: Agregación de 5min a 1 hora usando media
print("\n1. Procesando DEMANDA (5min → 1h)...")
print(f"   Registros antes: {len(demand_df_filtered):,}")

# Identificar columnas numéricas (excluyendo datetime y columnas categóricas)
demand_cols = [col for col in demand_df_filtered.columns 
               if col not in ['datetime', 'ambito_nombre', 'ambito_id'] 
               and demand_df_filtered[col].dtype in ['float64', 'int64', 'float32', 'int32']]
print(f"   Columnas a procesar: {demand_cols}")

demand_processed = estandarizar_frecuencia_horaria(
    demand_df_filtered, 
    columnas_numericas=demand_cols,
    metodo='mean'  # Media para agregar de 5min a 1h
)
print(f"   Registros después: {len(demand_processed):,}")
print(f"   Frecuencia: {demand_processed['datetime'].diff().mode()[0]}")

# 2. METEOROLOGÍA: Ya debería ser horaria, solo rellenar huecos
print("\n2. Procesando METEOROLOGÍA (1h → 1h)...")
print(f"   Registros antes: {len(weather_df_filtered):,}")

# Identificar columnas numéricas (excluyendo categóricas)
weather_cols = [col for col in weather_df_filtered.columns 
                if col != 'datetime' 
                and weather_df_filtered[col].dtype in ['float64', 'int64', 'float32', 'int32']]
print(f"   Columnas a procesar: {len(weather_cols)} variables meteorológicas")

weather_processed = estandarizar_frecuencia_horaria(
    weather_df_filtered,
    columnas_numericas=weather_cols,
    metodo='interpolate'  # Interpolación lineal para variables continuas
)
print(f"   Registros después: {len(weather_processed):,}")
print(f"   Frecuencia: {weather_processed['datetime'].diff().mode()[0]}")

# 3. PRECIOS: Horaria, eliminar duplicados y rellenar huecos
print("\n3. Procesando PRECIOS (1h → 1h)...")
print(f"   Registros antes: {len(price_df_filtered):,}")

price_cols = ['price']

price_processed = estandarizar_frecuencia_horaria(
    price_df_filtered,
    columnas_numericas=price_cols,
    metodo='mean'  # Media en caso de duplicados
)
print(f"   Registros después: {len(price_processed):,}")
print(f"   Frecuencia: {price_processed['datetime'].diff().mode()[0]}")

# 4. EMBALSES: Diario a horario usando forward-fill
print("\n4. Procesando EMBALSES (diario → 1h)...")
print(f"   Registros antes: {len(reservoir_df_filtered):,}")

# Identificar columnas numéricas (excluyendo categóricas)
reservoir_cols = [col for col in reservoir_df_filtered.columns 
                  if col != 'datetime' 
                  and reservoir_df_filtered[col].dtype in ['float64', 'int64', 'float32', 'int32']]
print(f"   Columnas a procesar: {len(reservoir_cols)} variables de embalses")

reservoirs_processed = estandarizar_frecuencia_horaria(
    reservoir_df_filtered,
    columnas_numericas=reservoir_cols,
    metodo='ffill'  # Forward-fill: repetir valor diario para todas las horas
)
print(f"   Registros después: {len(reservoirs_processed):,}")
print(f"   Frecuencia: {reservoirs_processed['datetime'].diff().mode()[0]}")

print("\n" + "="*80)
print("ESTANDARIZACIÓN COMPLETADA")
print("="*80)
print("\nTodos los datasets ahora tienen:")
print("  ✓ Frecuencia horaria (1H)")
print("  ✓ Sin huecos temporales")
print("  ✓ Sin duplicados")
print("  ✓ Mismo rango de fechas alineado")


ESTANDARIZANDO TODOS LOS DATASETS A FRECUENCIA HORARIA

1. Procesando DEMANDA (5min → 1h)...
   Registros antes: 295,200
   Columnas a procesar: ['real']
   Registros después: 24,600
   Frecuencia: 0 days 01:00:00

2. Procesando METEOROLOGÍA (1h → 1h)...
   Registros antes: 1,128,288
   Columnas a procesar: 12 variables meteorológicas
   Registros después: 24,528
   Frecuencia: 0 days 01:00:00

3. Procesando PRECIOS (1h → 1h)...
   Registros antes: 24,600
   Registros después: 24,600
   Frecuencia: 0 days 01:00:00

4. Procesando EMBALSES (diario → 1h)...
   Registros antes: 492,960
   Columnas a procesar: 4 variables de embalses
   Registros después: 24,072
   Frecuencia: 0 days 01:00:00

ESTANDARIZACIÓN COMPLETADA

Todos los datasets ahora tienen:
  ✓ Frecuencia horaria (1H)
  ✓ Sin huecos temporales
  ✓ Sin duplicados
  ✓ Mismo rango de fechas alineado
   Registros después: 24,528
   Frecuencia: 0 days 01:00:00

3. Procesando PRECIOS (1h → 1h)...
   Registros antes: 24,600
   Regist

## Alineación Temporal - Rango Común

Después de estandarizar a frecuencia horaria, alineamos todos los datasets al mismo rango temporal usando la intersección común de fechas.

In [12]:
print("\n" + "="*80)
print("ALINEANDO TODOS LOS DATASETS AL RANGO DE DEMANDA")
print("="*80)

# 1. Usar el rango de DEMANDA como referencia (dataset principal)
min_date = demand_processed['datetime'].min()
max_date = demand_processed['datetime'].max()

print(f"\nRango de referencia (DEMANDA):")
print(f"  Desde: {min_date}")
print(f"  Hasta: {max_date}")

print(f"\nRangos de otros datasets (ANTES de alinear):")
print(f"  Meteorología: {weather_processed['datetime'].min()} a {weather_processed['datetime'].max()}")
print(f"  Precios:      {price_processed['datetime'].min()} a {price_processed['datetime'].max()}")
print(f"  Embalses:     {reservoirs_processed['datetime'].min()} a {reservoirs_processed['datetime'].max()}")

# 2. Crear rango horario completo basado en DEMANDA
rango_completo = pd.date_range(start=min_date, end=max_date, freq='H')
print(f"\nRango completo a cubrir: {len(rango_completo):,} horas")

# 3. Función para alinear un dataset al rango común
def alinear_a_rango_comun(df, rango_completo, columnas_numericas, metodo='ffill'):
    """
    Alinea un dataset al rango temporal común.
    
    Parameters:
    -----------
    df : pd.DataFrame
        DataFrame con columna 'datetime'
    rango_completo : pd.DatetimeIndex
        Rango completo de fechas horarias
    columnas_numericas : list
        Lista de columnas numéricas
    metodo : str
        'ffill' (forward fill) o 'interpolate' (interpolación)
    """
    # Reindexar al rango completo
    df_aligned = df.set_index('datetime').reindex(rango_completo)
    
    # Rellenar valores faltantes
    if metodo == 'ffill':
        df_aligned[columnas_numericas] = df_aligned[columnas_numericas].ffill().bfill()
    elif metodo == 'interpolate':
        df_aligned[columnas_numericas] = df_aligned[columnas_numericas].interpolate(method='linear', limit_direction='both')
    
    # Resetear índice
    df_aligned.index.name = 'datetime'
    df_aligned = df_aligned.reset_index()
    
    return df_aligned

# 4. Alinear cada dataset al rango de DEMANDA
print("\nAlineando datasets al rango de DEMANDA...")

# Identificar columnas numéricas de cada dataset
demand_num_cols = [col for col in demand_processed.columns if col != 'datetime']
weather_num_cols = [col for col in weather_processed.columns if col != 'datetime']
price_num_cols = [col for col in price_processed.columns if col != 'datetime']
reservoir_num_cols = [col for col in reservoirs_processed.columns if col != 'datetime']

# DEMANDA: Ya está en el rango correcto, no necesita alineación
print("  - Demanda: Ya está en el rango deseado (no se modifica)")

# Alinear los demás datasets
print("  - Meteorología (interpolación para rellenar huecos)...")
weather_processed = alinear_a_rango_comun(weather_processed, rango_completo, weather_num_cols, metodo='interpolate')

print("  - Precios (interpolación para rellenar huecos)...")
price_processed = alinear_a_rango_comun(price_processed, rango_completo, price_num_cols, metodo='interpolate')

print("  - Embalses (forward-fill para rellenar huecos)...")
reservoirs_processed = alinear_a_rango_comun(reservoirs_processed, rango_completo, reservoir_num_cols, metodo='ffill')

print("\n" + "="*80)
print("ALINEACIÓN COMPLETADA")
print("="*80)
print("\nTodos los datasets ahora tienen:")
print(f"  ✓ Mismo rango: {min_date} a {max_date}")
print(f"  ✓ Mismo número de registros: {len(rango_completo):,}")
print(f"  ✓ Sin valores faltantes")

# Verificar que todos tienen el mismo tamaño
print("\nVerificación final:")
print(f"  Demanda:      {len(demand_processed):,} registros")
print(f"  Meteorología: {len(weather_processed):,} registros")
print(f"  Precios:      {len(price_processed):,} registros")
print(f"  Embalses:     {len(reservoirs_processed):,} registros")


ALINEANDO TODOS LOS DATASETS AL RANGO DE DEMANDA

Rango de referencia (DEMANDA):
  Desde: 2023-01-01 00:00:00
  Hasta: 2025-10-21 23:00:00

Rangos de otros datasets (ANTES de alinear):
  Meteorología: 2023-01-01 00:00:00 a 2025-10-18 23:00:00
  Precios:      2023-01-01 00:00:00 a 2025-10-21 23:00:00
  Embalses:     2023-01-08 00:00:00 a 2025-10-06 23:00:00

Rango completo a cubrir: 24,600 horas

Alineando datasets al rango de DEMANDA...
  - Demanda: Ya está en el rango deseado (no se modifica)
  - Meteorología (interpolación para rellenar huecos)...
  - Precios (interpolación para rellenar huecos)...
  - Embalses (forward-fill para rellenar huecos)...

ALINEACIÓN COMPLETADA

Todos los datasets ahora tienen:
  ✓ Mismo rango: 2023-01-01 00:00:00 a 2025-10-21 23:00:00
  ✓ Mismo número de registros: 24,600
  ✓ Sin valores faltantes

Verificación final:
  Demanda:      24,600 registros
  Meteorología: 24,600 registros
  Precios:      24,600 registros
  Embalses:     24,600 registros

ALINE

In [13]:
artifacts_path = Path('artifacts/data/processed')
for file in artifacts_path.glob('processed_*.parquet'):
    file.unlink()

# comprobamos que existen las carpetas necesarias
artifacts_path.mkdir(parents=True, exist_ok=True)

print("\nGuardando datos procesados...")
demand_processed.to_parquet('artifacts/data/processed/processed_demand.parquet')
weather_processed.to_parquet('artifacts/data/processed/processed_weather.parquet')
reservoirs_processed.to_parquet('artifacts/data/processed/processed_reservoirs.parquet')
price_processed.to_parquet('artifacts/data/processed/processed_prices.parquet')

print("\nDimensiones de los datasets procesados:")
print(f"Demanda: {demand_processed.shape}")
print(f"Meteorología: {weather_processed.shape}")
print(f"Embalses: {reservoirs_processed.shape}")
print(f"Precios: {price_processed.shape}")

# Mostrar las primeras filas de cada dataset procesado
print("\nPrimeras filas de demanda procesada:")
display(demand_processed.head())
print("\nPrimeras filas de meteorología procesada:")
display(weather_processed.tail())
print("\nPrimeras filas de embalses procesados:")
display(reservoirs_processed.head())
print("\nPrimeras filas de precios procesados:")
display(price_processed.head())


Guardando datos procesados...

Dimensiones de los datasets procesados:
Demanda: (24600, 2)
Meteorología: (24600, 13)
Embalses: (24600, 5)
Precios: (24600, 2)

Primeras filas de demanda procesada:


Unnamed: 0,datetime,real
0,2023-01-01 00:00:00,21419.667
1,2023-01-01 01:00:00,20627.083
2,2023-01-01 02:00:00,19437.083
3,2023-01-01 03:00:00,18331.75
4,2023-01-01 04:00:00,17712.167



Primeras filas de meteorología procesada:


Unnamed: 0,datetime,temperature_2m,precipitation,rain,cloud_cover,cloud_cover_low,cloud_cover_mid,cloud_cover_high,wind_speed_10m,wind_speed_100m,wind_direction_10m,wind_direction_100m,wind_gusts_10m
24595,2025-10-21 19:00:00,17.1,0.028,0.028,55.804,2.435,8.935,53.304,7.326,15.265,172.674,171.652,15.057
24596,2025-10-21 20:00:00,17.1,0.028,0.028,55.804,2.435,8.935,53.304,7.326,15.265,172.674,171.652,15.057
24597,2025-10-21 21:00:00,17.1,0.028,0.028,55.804,2.435,8.935,53.304,7.326,15.265,172.674,171.652,15.057
24598,2025-10-21 22:00:00,17.1,0.028,0.028,55.804,2.435,8.935,53.304,7.326,15.265,172.674,171.652,15.057
24599,2025-10-21 23:00:00,17.1,0.028,0.028,55.804,2.435,8.935,53.304,7.326,15.265,172.674,171.652,15.057



Primeras filas de embalses procesados:


Unnamed: 0,datetime,agua_total,agua_actual,electrico_flag,porcentaje
0,2023-01-01 00:00:00,8.0,4.0,0.0,0.5
1,2023-01-01 01:00:00,8.0,4.0,0.0,0.5
2,2023-01-01 02:00:00,8.0,4.0,0.0,0.5
3,2023-01-01 03:00:00,8.0,4.0,0.0,0.5
4,2023-01-01 04:00:00,8.0,4.0,0.0,0.5



Primeras filas de precios procesados:


Unnamed: 0,datetime,price
0,2023-01-01 00:00:00,41.45
1,2023-01-01 01:00:00,43.01
2,2023-01-01 02:00:00,58.07
3,2023-01-01 03:00:00,60.69
4,2023-01-01 04:00:00,62.91


In [14]:
print("\n" + "="*80)
print("VERIFICACIÓN DE ALINEACIÓN TEMPORAL")
print("="*80)

# Verificar que todos tienen el mismo rango de fechas
print("\nRangos de fechas por dataset:")
print(f"Demanda:      {demand_processed['datetime'].min()} a {demand_processed['datetime'].max()}")
print(f"Meteorología: {weather_processed['datetime'].min()} a {weather_processed['datetime'].max()}")
print(f"Precios:      {price_processed['datetime'].min()} a {price_processed['datetime'].max()}")
print(f"Embalses:     {reservoirs_processed['datetime'].min()} a {reservoirs_processed['datetime'].max()}")

# Verificar número de registros
print("\nNúmero de registros horarios:")
print(f"Demanda:      {len(demand_processed):,}")
print(f"Meteorología: {len(weather_processed):,}")
print(f"Precios:      {len(price_processed):,}")
print(f"Embalses:     {len(reservoirs_processed):,}")

# Calcular diferencias en rangos
datasets_info = {
    'demand': demand_processed,
    'weather': weather_processed,
    'price': price_processed,
    'reservoirs': reservoirs_processed
}

# Encontrar intersección común
min_date = max([df['datetime'].min() for df in datasets_info.values()])
max_date = min([df['datetime'].max() for df in datasets_info.values()])

print(f"\nIntersección común de fechas:")
print(f"  Desde: {min_date}")
print(f"  Hasta: {max_date}")
print(f"  Total de horas: {len(pd.date_range(min_date, max_date, freq='H')):,}")

# Verificar huecos
print("\nVerificación de huecos temporales:")
for name, df in datasets_info.items():
    esperado = len(pd.date_range(df['datetime'].min(), df['datetime'].max(), freq='H'))
    actual = len(df)
    if esperado == actual:
        print(f"  ✓ {name.capitalize()}: Sin huecos")
    else:
        print(f"  ✗ {name.capitalize()}: {esperado - actual} horas faltantes")

# Verificar duplicados
print("\nVerificación de duplicados:")
for name, df in datasets_info.items():
    duplicados = df['datetime'].duplicated().sum()
    if duplicados == 0:
        print(f"  ✓ {name.capitalize()}: Sin duplicados")
    else:
        print(f"  ✗ {name.capitalize()}: {duplicados} registros duplicados")

print("\n" + "="*80)
print("VERIFICACIÓN COMPLETADA")
print("="*80)


VERIFICACIÓN DE ALINEACIÓN TEMPORAL

Rangos de fechas por dataset:
Demanda:      2023-01-01 00:00:00 a 2025-10-21 23:00:00
Meteorología: 2023-01-01 00:00:00 a 2025-10-21 23:00:00
Precios:      2023-01-01 00:00:00 a 2025-10-21 23:00:00
Embalses:     2023-01-01 00:00:00 a 2025-10-21 23:00:00

Número de registros horarios:
Demanda:      24,600
Meteorología: 24,600
Precios:      24,600
Embalses:     24,600

Intersección común de fechas:
  Desde: 2023-01-01 00:00:00
  Hasta: 2025-10-21 23:00:00
  Total de horas: 24,600

Verificación de huecos temporales:
  ✓ Demand: Sin huecos
  ✓ Weather: Sin huecos
  ✓ Price: Sin huecos
  ✓ Reservoirs: Sin huecos

Verificación de duplicados:
  ✓ Demand: Sin duplicados
  ✓ Weather: Sin duplicados
  ✓ Price: Sin duplicados
  ✓ Reservoirs: Sin duplicados

VERIFICACIÓN COMPLETADA
