# Previsi√≥n del precio de la electricidad con redes neuronales

### üí° Objetivo:

Este cuaderno busca utilizar t√©cnicas avanzadas de aprendizaje autom√°tico para **prever el precio de la electricidad**. Mediante el uso de redes neuronales, como LSTM, CNN y RNN, se intentar√° modelar y entender las complejidades y patrones inherentes a los datos de series temporales.

### ‚ö° Importancia de Prever el Precio de la Electricidad:

La electricidad es un recurso esencial en la sociedad moderna y su **precio** tiene un impacto directo en la econom√≠a y en la vida cotidiana. **Prever su precio** permite a las empresas y consumidores planificar sus gastos y promueve la **estabilidad del mercado energ√©tico**. Adem√°s, con la incorporaci√≥n de **fuentes de energ√≠a renovable**, la **previsi√≥n precisa del precio** se vuelve crucial.

###  üìú Antecedentes:

La electricidad, fundamental para el progreso social, ha pasado a ser un bien comerciable en pa√≠ses desregulados. La **Ley del Sector El√©ctrico 54/1997 en Espa√±a** introdujo incertidumbre en la industria el√©ctrica, ya que los **precios de la electricidad** est√°n influenciados por innumerables factores y la dificultad de **almacenar electricidad**. La **creciente demanda** de m√©todos de pron√≥stico fiables ha abierto una v√≠a para la **investigaci√≥n**.

El objetivo de este an√°lisis es **predecir el precio de la electricidad de la hora** siguiente utilizando datos hist√≥ricos del precio de la electricidad, as√≠ como otras variables relevantes relacionadas con la generaci√≥n de energ√≠a y las condiciones meteorol√≥gicas. Esta investigaci√≥n proporciona una exploraci√≥n detallada, limpieza de datos, an√°lisis de series temporales del precio de la electricidad.

<img src="images/051a5cb7-768f-4d82-89e1-626b198b7878.jpg" width="600" />

### üìÇ Exploraci√≥n y limpieza:

Los datos constan de **registros horarios** que abarcan desde el a√±o 2015 hasta el 2019. Cada registro se describe mediante m√∫ltiples columnas de caracter√≠sticas relacionadas con la generaci√≥n de energ√≠a y las condiciones meteorol√≥gicas en cinco ciudades principales de Espa√±a: Madrid, Barcelona, Valencia, Sevilla y Bilbao.

> **`'weather_features.csv':`** Contiene informaci√≥n horaria sobre las condiciones meteorol√≥gicas (por ejemplo, temperatura, velocidad del viento y humedad).
>>Caracter√≠sticas:
>>- `time` (Hora del registro): Valor temporal que indica el momento espec√≠fico del registro.
>>- `temp` (Temperatura en Kelvins): Valor num√©rico que indica la temperatura.
>>- `temp_min` (Temperatura m√≠nima en Kelvins): Valor num√©rico que indica la temperatura m√°s baja registrada.
>>- `temp_max` (Temperatura m√°xima en Kelvins): Valor num√©rico que indica la temperatura m√°s alta registrada.
>>- `pressure` (Presi√≥n atmosf√©rica en hectopascales): Valor num√©rico que muestra la presi√≥n atmosf√©rica.
>>- `humidity` (Humedad relativa en porcentaje): Valor num√©rico que indica el porcentaje de humedad en el aire.
>>- `wind_speed` (Velocidad del viento en metros por segundo): Valor num√©rico que muestra la velocidad a la que se desplaza el viento.
>>- `wind_deg` (Direcci√≥n del viento en grados): Valor num√©rico que indica la direcci√≥n desde la cual proviene el viento, medida en grados.

> **`'energy_dataset.csv':`** Contiene informaci√≥n horaria sobre la generaci√≥n de energ√≠a. En particular, hay informaci√≥n (en MW) sobre la cantidad de electricidad generada por las distintas fuentes de energ√≠a (nuclear, gas f√≥sil y energ√≠a e√≥lica dominan la red energ√©tica), as√≠ como sobre la carga total (demanda de energ√≠a) de la red nacional y el precio de la energ√≠a (&euro;/MWh). 

>>Caracter√≠sticas:
>>- `time` (Hora del registro): Valor temporal que indica el momento espec√≠fico del registro.
>>- `generation biomass` (Generaci√≥n de biomasa): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de biomasa.
>>- `generation fossil brown coal/lignite` (Generaci√≥n de carb√≥n lignito): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de carb√≥n marr√≥n o lignito.
>>- `generation fossil gas` (Generaci√≥n de gas f√≥sil): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de gas f√≥sil.
>>- `generation fossil hard coal` (Generaci√≥n de carb√≥n duro): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de carb√≥n duro.
>>- `generation fossil oil` (Generaci√≥n de petr√≥leo f√≥sil): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de petr√≥leo.
>>- `generation hydro pumped storage consumption` (Consumo de almacenamiento de bombeo hidroel√©ctrico): Valor num√©rico en MW que indica la cantidad de electricidad consumida por el almacenamiento de bombeo hidroel√©ctrico.
>>- `generation hydro run-of-river and poundage` (Generaci√≥n hidroel√©ctrica de r√≠o y embalse): Valor num√©rico en MW que indica la cantidad de electricidad generada por tecnolog√≠as hidroel√©ctricas de r√≠o y embalse.
>>- `generation hydro water reservoir` (Generaci√≥n hidroel√©ctrica de embalse): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de embalses.
>>- `generation nuclear` (Generaci√≥n nuclear): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de energ√≠a nuclear.
>>- `generation other` (Otras fuentes de generaci√≥n): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de otras fuentes no especificadas.
>>- `generation other renewable` (Generaci√≥n de otras fuentes renovables): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de otras fuentes renovables no especificadas.
>>- `generation solar` (Generaci√≥n solar): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de energ√≠a solar.
>>- `generation waste` (Generaci√≥n a partir de residuos): Valor num√©rico en MW que indica la cantidad de electricidad generada a partir de residuos.
>>- `generation wind onshore` (Generaci√≥n e√≥lica en tierra): Valor num√©rico en MW que indica la cantidad de electricidad generada por turbinas e√≥licas en tierra.
>>- `total load actual` (Carga total real): Valor num√©rico en MW que indica la demanda total de electricidad en la red.
>>- `price day ahead` (Precio del d√≠a siguiente): Valor num√©rico en ‚Ç¨/MWh que indica el precio acordado de la electricidad para el d√≠a siguiente basado en las previsiones.
>>- `price actual` (Precio real o actual): Valor num√©rico en ‚Ç¨/MWh que indica el precio real de la electricidad en el mercado en tiempo real, reflejando las condiciones actuales de oferta y demanda.


---

In [1]:
# Import Libraries
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
import os
import warnings

from tensorflow.data import Dataset
from tensorflow.keras.losses import MeanSquaredError
from tensorflow.keras.metrics import RootMeanSquaredError
from tensorflow.keras.callbacks import LearningRateScheduler, EarlyStopping
from tensorflow.keras.layers import Dense, SimpleRNN, LSTM, Conv1D, MaxPooling1D, TimeDistributed, Flatten, Dropout, RepeatVector, RNN
from tensorflow.keras.backend import clear_session
from tensorflow.keras.models import Sequential
from tensorflow.keras.callbacks import ModelCheckpoint
from tensorflow.keras.optimizers import Adam

from statsmodels.tsa.seasonal import STL
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.stattools import adfuller, kpss, ccf
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split

from math import sqrt

%matplotlib inline

warnings.simplefilter(action='ignore', category=(FutureWarning, UserWarning))
pd.set_option('mode.chained_assignment', 'warn')

plt.style.use('seaborn-v0_8-whitegrid') # print(plt.style.available)
plt.rcParams['figure.dpi'] = 100

In [None]:
# Load data
weather_columns=['time', 'city_name',
                 'temp', 'temp_min', 'temp_max',
                 'pressure', 'humidity', 'wind_speed', 'wind_deg']

enery_columns = ['time',
                 'generation biomass',
                 'generation fossil brown coal/lignite',
                 'generation fossil gas',
                 'generation fossil hard coal',
                 'generation fossil oil',
                 'generation hydro pumped storage consumption',
                 'generation hydro run-of-river and poundage',
                 'generation hydro water reservoir',
                 'generation nuclear',
                 'generation other',
                 'generation other renewable',
                 'generation solar',
                 'generation waste',
                 'generation wind onshore',
                 'total load actual',
                 #'price day ahead',
                 'price actual']

def parse_utc(x):
    return pd.to_datetime(x, utc=True, infer_datetime_format=True)

df_weather = pd.read_csv('weather_features.csv',
                         parse_dates=['time'],
                         date_parser=parse_utc,
                         usecols=weather_columns,
                         index_col=['time'])

df_energy = pd.read_csv('energy_dataset.csv',
                        parse_dates=['time'],
                        date_parser=parse_utc,
                        usecols=enery_columns,
                        index_col=['time'])

display(df_weather.head(), df_energy.head())

In [None]:
# Data exploration

# COMPLETE HERE

# 1. Detect gaps in time series

# 2. Convert data types in DataFrame

# 3. Display descriptive statistics

In [None]:
def plot_series(df=None, column=None, series=pd.Series([]), 
                label=None, ylabel=None, title=None, start=0, end=None):

    sns.set_style("whitegrid")
    sns.set_context("talk")
    fig, ax = plt.subplots(figsize=(30, 12))
    
    ax.set_xlabel('Time', fontsize=18, weight='bold')  
    line_width = 5 
    if column:
        ax.plot(df[column][start:end], label=label, linewidth=line_width)
        ax.set_ylabel(ylabel, fontsize=18, weight='bold')  
    if series.any():
        ax.plot(series, label=label, linewidth=line_width)
        ax.set_ylabel(ylabel, fontsize=18, weight='bold')  
    if label:
        ax.legend(fontsize=18)  
    if title:
        ax.set_title(title, fontsize=26, weight='bold')  
    
    ax.tick_params(axis='x', labelsize=18, labelrotation=0)
    ax.tick_params(axis='y', labelsize=18)
    
    for label in ax.get_xticklabels():
        label.set_weight('bold')
        label.set_color('black')
    
    for label in ax.get_yticklabels():
        label.set_weight('bold')
        label.set_color('black')
    
    ax.grid(True)
    return ax

ax = plot_series(df=df_energy, column='total load actual', ylabel='Total Load (MWh)',
                 title='Actual Total Load (First 2 weeks - Original)', end=24*7*2)
plt.show()

In [None]:
# DATA IMPUTATION AND CLEANING

# 1. Check missing values

# 2. Check duplicates

# 3. Replace outliers with NaN

# 4. Imputation methods

In [None]:
# Number of observations per city

In [None]:
# Merge dataframes

## üìä Visualizaciones y an√°lisis de series temporales

In [None]:
# Actual electricity price plot per two weeks
ax = plot_series(df, 'price actual', label='Hourly', ylabel='Actual Price (‚Ç¨/MWh)',
                 start=1 + 24 * 500, end=1 + 24 * 515,
                 title='Actual Hourly Electricity Price (Zoomed - 2 Weeks)')

start_of_first_week = '2016-04-24'
end_of_first_week = '2016-05-01'
ax.axvspan(start_of_first_week, end_of_first_week, facecolor='lightblue', alpha=0.5)

start_of_second_week = '2016-05-01'
end_of_second_week = '2016-05-08'
ax.axvspan(start_of_second_week, end_of_second_week, facecolor='lightgreen', alpha=0.5)

plt.show()

In [None]:
# Actual electricity price decompose (Y = Trend + Seasonal + Cyclical + Irregular)

# Extract the trend component

# Extract the seasonal component

# Extract the irregular component

## üî™ Segmentaci√≥n de Datos Multivariantes en Ventanas

**Concepto Principal:**

La segmentaci√≥n de datos en ventanas es una t√©cnica esencial cuando se trabaja con series temporales, en particular para modelos de aprendizaje profundo como las redes neuronales. Esta t√©cnica permite transformar un conjunto de datos temporal en segmentos o "ventanas" que facilitan el entrenamiento y la predicci√≥n.

La idea es tomar "fotograf√≠as" o "ventanas" de datos consecutivos y usarlas como entradas para el modelo. Cada ventana tiene una longitud fija y se mueve a trav√©s del conjunto de datos paso a paso.

<table style="width:100%;">
  <tr>
    <td style="text-align:center;"><img src="images/backtesting_refit_fixed_train_size.gif" alt="Backtesting Refit Fixed Train Size"/></td>
    <td style="text-align:center;"><img src="images/Sliding-Windows-Approach-window-size-10-and-step-1.ppm" alt="Sliding Windows Approach"/></td>
  </tr>
</table>

In [None]:
def multivariate_data(dataset, target, start_index, end_index, windows_size,
                      target_size, step, single_step=False):
# COMPLETE HERE
    return np.array(data), np.array(labels)

La funci√≥n **multivariate_data** crea conjuntos de datos con ventanas a partir de datos de series temporales, utilizando el m√©todo de windowing o ventana deslizante. Para ello, segmenta el conjunto de datos en ventanas superpuestas o no superpuestas y, a continuaci√≥n, organiza estas ventanas en un formato adecuado.

**Atributos:**
- `dataset`: La matriz de datos de entrada.
- `target`: La matriz de valores objetivo.
- `start_index`: El √≠ndice en el que comenzar a extraer datos.
- `end_index`: El √≠ndice en el que detener la extracci√≥n de datos.
- `history_size`: El tama√±o de la ventana hist√≥rica de datos a utilizar.
- `target_size`: El n√∫mero de valores objetivo a predecir.
- `step`: El paso o intervalo entre datos consecutivos en una ventana.
- `single_step`: Un booleano para determinar si predecir un solo paso en el futuro (True) o varios pasos (False).

In [None]:
# Split the data

### ü§ñ Modelos y Capas:

In [None]:
# Parameters
BATCH_SIZE = 32
BUFFER_SIZE = 1000

# 1. Preparing datasets

# Training dataset
train = Dataset.from_tensor_slices((X_train, y_train))
train = train.cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE).prefetch(1)

# Validation dataset
validation = Dataset.from_tensor_slices((X_val, y_val))
validation = validation.batch(BATCH_SIZE).prefetch(1)

# 2. Model parameters and callbacks

# Input shape for the neural network
input_shape = X_train.shape[-2:]

# Loss function
loss = MeanSquaredError()

# Metrics
metric = [RootMeanSquaredError()]

# Learning rate scheduler
lr_schedule = LearningRateScheduler(lambda epoch: 1e-4 * 10**(epoch / 10))

# Early stopping callback
early_stopping = EarlyStopping(patience=10)

# 3. Post-processing for test data
y_test = y_test.reshape(-1, 1)
y_test_inv = scaler_y.inverse_transform(y_test)

In [None]:
# plots for model evaluation
def plot_model_rmse_and_loss(history):
    
    train_rmse = history.history['root_mean_squared_error']
    val_rmse = history.history['val_root_mean_squared_error']
    
    train_loss = history.history['loss']
    val_loss = history.history['val_loss']
    
    plt.figure(figsize=(20, 10))
    plt.subplot(1, 2, 1)
    plt.plot(train_rmse, label='Training RMSE')
    plt.plot(val_rmse, label='Validation RMSE')
    plt.legend()
    plt.title('Epochs vs. Training and Validation RMSE')
    
    plt.subplot(1, 2, 2)
    plt.plot(train_loss, label='Training Loss')
    plt.plot(val_loss, label='Validation Loss')
    plt.legend()
    plt.title('Epochs vs. Training and Validation Loss')
    
    plt.show()
    
def plot_goodness_of_fit(y_true, y_pred):
    
    r2 = r2_score(y_true, y_pred)
    
    fig, ax = plt.subplots()
    
    ax.scatter(y_true, y_pred, alpha=0.5, marker='.', edgecolors='white', linewidths=0.5)
    ax.plot([y_true.min(), y_true.max()], [y_true.min(), y_true.max()],
            'k--', lw=2, color='black', label='Reference')
    ax.text(0.8, 0.1, f'R¬≤ = {r2:.2f}', transform=ax.transAxes, fontsize=12,
            verticalalignment='center', horizontalalignment='center')
    
    ax.set_xlabel('Real Values')
    ax.set_ylabel('Predictions')
    ax.legend()
    
    plt.show()

### RNN (Recurrent Neural Networks):

Las RNN son redes neuronales dise√±adas para trabajar con secuencias de datos, donde la informaci√≥n previa podr√≠a influir en la salida actual.

A diferencia de las redes neuronales tradicionales, las RNN mantienen una especie de "memoria" al recircular la salida de una capa neuronal a la entrada de la misma. Esto les permite recordar informaci√≥n de entradas anteriores.

![](images/1_SKGAqkVVzT6co-sZ29ze-g.webp)

In [None]:
# Compile and fit RNN model
clear_session()

model_rnn = Sequential([
# COMPLETE HERE
])

# COMPLETE HERE

In [None]:
# Evaluate RNN model: performance and visualize results
plot_model_rmse_and_loss(history)

y_pred = model_rnn.predict(X_test)

y_test_original = scaler_y.inverse_transform(y_test.reshape(-1, 1))
y_pred_original = scaler_y.inverse_transform(y_pred.reshape(-1, 1))

plot_goodness_of_fit(y_test_original, y_pred_original)

### LSTM (Long Short-Term Memory):

Las LSTM son una variante especializada de las Redes Neuronales Recurrentes (RNN). Est√°n dise√±adas para recordar patrones a largo plazo y son particularmente √∫tiles para secuencias y series temporales.

A diferencia de las RNN est√°ndar, que pueden tener dificultades para mantener informaci√≥n a lo largo de muchas secuencias debido al "problema de la desaparici√≥n del gradiente", las LSTM tienen una estructura de "celda de memoria". Estas celdas permiten que la informaci√≥n sea le√≠da, escrita o borrada, gracias a estructuras llamadas puertas (gates).

![](images/LSTM.jpg)

In [None]:
# Compile and fit LSTM model
clear_session()

model_lstm = Sequential([
    # COMPLETE HERE
])

# COMPLETE HERE

In [None]:
# Evaluate LSTM model: performance and visualize results
plot_model_rmse_and_loss(history)

y_pred = model_lstm.predict(X_test)

y_test_original = scaler_y.inverse_transform(y_test.reshape(-1, 1))
y_pred_original = scaler_y.inverse_transform(y_pred.reshape(-1, 1))

plot_goodness_of_fit(y_test_original, y_pred_original)

### CNN (Convolutional Neural Networks):

Las CNN son redes neuronales que se han popularizado en tareas de procesamiento de im√°genes.

En el contexto de series temporales, una convoluci√≥n funciona como un filtro que se desliza a trav√©s de los datos temporales, detectando caracter√≠sticas espec√≠ficas en el tiempo. Cada filtro puede estar dise√±ado para captar una caracter√≠stica temporal diferente, como tendencias, ciclos, o anomal√≠as.
<table style="width:100%;">
  <tr>
    <td style="text-align:center;"><img src="images/bb_copy.gif"/></td>
    <td style="text-align:center;"><img src="images/1_BqNxNytX2Ihp-xGH-XSF8Q.webp"/></td>
  </tr>
</table>

In [None]:
# compile and fit CNN model
clear_session()

model_cnn = Sequential([
    # COMPLETE HERE
])

# COMPLETE HERE

In [None]:
# Evaluate CNN model: performance and visualize results
plot_model_rmse_and_loss(history)

y_pred = model_cnn.predict(X_test)

y_test_original = scaler_y.inverse_transform(y_test.reshape(-1, 1))
y_pred_original = scaler_y.inverse_transform(y_pred.reshape(-1, 1))

plot_goodness_of_fit(y_test_original, y_pred_original)

## üìö Enlaces de inter√©s

https://www.kaggle.com/code/azminetoushikwasi/time-series-analysis-forecasting

https://www.kaggle.com/code/iamleonie/intro-to-time-series-forecasting