### Importación de los módulos necesarios

In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from pmdarima.arima import ndiffs, nsdiffs
from datetime import datetime
import statsmodels.api as sm
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
import seaborn as sns
from dateutil.relativedelta import relativedelta
from metricas import mae, mape, rmse

import warnings
warnings.simplefilter("ignore")

# Mostramos las versiones de los módulos para posibles reproducciones del código

print('Versión pandas:', pd.__version__)
print('Versión numpy:', np.__version__)
print('Versión matplotlib:', matplotlib.__version__)
print('Version statsmodels', sm.__version__)

Versión pandas: 1.0.5
Versión numpy: 1.19.5
Versión matplotlib: 3.2.2
Version statsmodels 0.12.2


### Lectura del dataframe horario

In [2]:
df = pd.read_csv('Data/datos_horarios_prediccion_electricidad.csv', index_col = 0)

df.index = pd.to_datetime(df.index)

df = df.sort_index()


### Modelo regresión lineal

In [50]:
db = df.dropna()
db = db.drop(columns = ["Prevision_Demanda", "Prevision_Eol_Fotov", "Festivo_Regional", "Festivo_Nacional"])
db.loc[:, "lag_24"] = db.Spot_electricidad.shift(24)
# db.loc[:, "lag_48"] = db.Spot_electricidad.shift(48)
# db.loc[:, "lag_1_semana"] = db.Spot_electricidad.shift(24*7)

db = db.dropna()
X = sm.add_constant(db)
y = X.pop('Spot_electricidad')

model = sm.OLS(y,X).fit()

model.summary()

0,1,2,3
Dep. Variable:,Spot_electricidad,R-squared:,0.954
Model:,OLS,Adj. R-squared:,0.954
Method:,Least Squares,F-statistic:,16400.0
Date:,"Tue, 01 Feb 2022",Prob (F-statistic):,0.0
Time:,23:03:06,Log-Likelihood:,-94462.0
No. Observations:,25536,AIC:,189000.0
Df Residuals:,25503,BIC:,189300.0
Df Model:,32,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-20.2164,0.417,-48.461,0.000,-21.034,-19.399
Hueco_Termico,0.0013,1.52e-05,83.514,0.000,0.001,0.001
Lunes,5.9499,0.242,24.537,0.000,5.475,6.425
Martes,2.4303,0.241,10.065,0.000,1.957,2.904
Miercoles,1.5614,0.242,6.461,0.000,1.088,2.035
Jueves,2.0659,0.241,8.562,0.000,1.593,2.539
Viernes,0.9883,0.239,4.133,0.000,0.520,1.457
Sabado,0.0253,0.232,0.109,0.913,-0.428,0.479
Hora_1,1.1342,0.425,2.670,0.008,0.302,1.967

0,1,2,3
Omnibus:,14494.715,Durbin-Watson:,0.17
Prob(Omnibus):,0.0,Jarque-Bera (JB):,717412.191
Skew:,-2.029,Prob(JB):,0.0
Kurtosis:,28.648,Cond. No.,505000.0


### Backtesting regresión lineal

In [51]:
def bascktesting_regresion_lineal(db, año, mes, rolling_window, days_start):
    fecha = datetime(año, mes, 1)
    fecha_str = str(año) + '-' + str(mes) + '-' + str(1)
    
    db = db.dropna()
    array_real, array_pred, array_date = np.zeros(len(db.loc[fecha_str:])), np.zeros(len(db.loc[fecha_str:])), []

    # En caso de que haya rolling window
    if rolling_window == True:
        for day in range(int(len(db.loc[fecha_str:]) / 24)):
            fecha_end_train = fecha + relativedelta(days = day)
            fecha_start_train = fecha_end_train - relativedelta(days = days_start)
            fecha_end_train = str(fecha_end_train.year) + "-" + str(fecha_end_train.month) + "-" + str(fecha_end_train.day)
            fecha_start_train = str(fecha_start_train.year) + "-" + str(fecha_start_train.month) + "-" + str(fecha_start_train.day)
            db_aux = db.loc[fecha_start_train:fecha_end_train]
            
            # Dataframe de Entrenamiento
            X_train = sm.add_constant(db_aux)
            y_train = X_train.pop('Spot_electricidad')
            
            # Dataframe de Test
            X_test = X_train.loc[fecha_end_train]
            y_test = y_train.pop(fecha_end_train)

            # Quitamos al dataframe de train, el dataframe de test
            X_train = X_train.drop(index = X_train.iloc[-24:].index)

            # Entrenamos el modelo
            model = sm.OLS(y_train, X_train).fit()
            
            # Realizamos las predicciones
            pred = model.predict(X_test)
            date = pred.index

            array_date.append(date)
            array_pred[day*24:day*24 + 24] = pred
            array_real[day*24:day*24 + 24] = y_test
        
    # En caso de que no haya rolling window, siempre cogemos todo el dataframe disponible
    else:
        for day in range(int(len(db.loc[fecha_str:]) / 24)):
            fecha_end_train = fecha + relativedelta(days = day)
            fecha_end_train = str(fecha_end_train.year) + "-" + str(fecha_end_train.month) + "-" + str(fecha_end_train.day)
            db_aux = db.loc[:fecha_end_train]

            # Dataframe de Entrenamiento
            X_train = sm.add_constant(db_aux)
            y_train = X_train.pop('Spot_electricidad')
            
            # Dataframe de Test
            X_test = X_train.loc[fecha_end_train]
            y_test = y_train.pop(fecha_end_train)
            
            # Quitamos al dataframe de train, el dataframe de test
            X_train = X_train.drop(index = X_train.iloc[-24:].index)
            
            # Entrenamos el modelo
            model = sm.OLS(y_train, X_train).fit()
            
            # Realizamos las predicciones
            pred = model.predict(X_test)
            date = pred.index

            array_date.append(date)
            array_pred[day*24:day*24 + 24] = pred
            array_real[day*24:day*24 + 24] = y_test
            
    array_date = [item for sublist in array_date for item in sublist]
    return array_pred, array_real, array_date
    
pred, real, dates = bascktesting_regresion_lineal(db.loc["2019":"2021-04"], 2020, 1, rolling_window = True, days_start = 30)

In [63]:
# Backtesting rapido

for dias in [7, 14, 21, 30, 60, 90, 150, 220, 365]:
    print(dias)
    pred, real, dates = bascktesting_regresion_lineal(db.loc["2019":"2021-04"], 2020, 1, rolling_window = True, days_start = dias)
    resultados = pd.DataFrame({"Pred":pred, "Real":real}, index = dates)
    resultados["Pred"][resultados.loc[:, "Pred"] < 0] = 0
    calculo_metricas(resultados)

7
Media  MAE en el periodo: 6.11 €/MWh
Desviacion estandar del  MAE : 11.152 €/MWh

Media  MAPE en el periodo: 45.458 %
Desviacion estandar del  MAPE : 457.824 %

El RMSE para el periodo es: 12.716 €/MWh
Porcentaje de acierto tendencias: 82.29
14
Media  MAE en el periodo: 4.849 €/MWh
Desviacion estandar del  MAE : 4.888 €/MWh

Media  MAPE en el periodo: 34.926 %
Desviacion estandar del  MAPE : 358.098 %

El RMSE para el periodo es: 6.885 €/MWh
Porcentaje de acierto tendencias: 82.66
21
Media  MAE en el periodo: 4.66 €/MWh
Desviacion estandar del  MAE : 4.785 €/MWh

Media  MAPE en el periodo: 27.325 %
Desviacion estandar del  MAPE : 306.865 %

El RMSE para el periodo es: 6.679 €/MWh
Porcentaje de acierto tendencias: 83.2
30
Media  MAE en el periodo: 4.548 €/MWh
Desviacion estandar del  MAE : 4.615 €/MWh

Media  MAPE en el periodo: 31.516 %
Desviacion estandar del  MAPE : 345.027 %

El RMSE para el periodo es: 6.48 €/MWh
Porcentaje de acierto tendencias: 83.4
60
Media  MAE en el periodo:

### Cálculo de las métricas

In [60]:
resultados = pd.DataFrame({"Pred":pred, "Real":real}, index = dates)
resultados["Pred"][resultados.loc[:, "Pred"] < 0] = 0

def calculo_metricas(dataframe):
    dataframe.loc[:, "MAE"] = mae(dataframe.Pred, dataframe.Real)
    dataframe.loc[:, "MAPE"] = mape(dataframe.Pred, dataframe.Real)
    
    for metrica in ["MAE", "MAPE"]:
        if metrica == "MAE":
            print("Media ", metrica, "en el periodo:", round(float(dataframe.loc["2020-01":"2021-04"][[metrica]].mean()), 3), '€/MWh\nDesviacion estandar del ', metrica,':' ,round(float(dataframe.loc["2020-01":"2021-04"][[metrica]].std()), 3), "€/MWh\n")
        else:
            print("Media ", metrica, "en el periodo:", round(float(dataframe.loc["2020-01":"2021-04"][[metrica]].mean()), 3), '%\nDesviacion estandar del ', metrica,':' ,round(float(dataframe.loc["2020-01":"2021-04"][[metrica]].std()), 3), "%\n")
    
    print('El RMSE para el periodo es:', round(rmse(dataframe.Pred, dataframe.Real),3), "€/MWh")
    
    metricas_mensuales_dataframe = dataframe.loc["2020-01":"2021-04"].groupby([dataframe.loc["2020-01":"2021-04"].index.year, dataframe.loc["2020-01":"2021-04"].index.month])[["MAE", "MAPE"]].mean()
    up_down_price = dataframe[["Pred", "Real"]].diff(1).dropna()
#     up_down_price = up_down_price[up_down_price.loc[:, "Real"] != 0.00]
    up_down_price.loc[:, "Ind_Pred"] = [1 if data > 0 else 0 for data in up_down_price.Pred]
    up_down_price.loc[:, "Ind_Real"] = [1 if data > 0 else 0 for data in up_down_price.Real]
    up_down_price.loc[:, "Aciertos"] = up_down_price.loc[:, "Ind_Pred"] == up_down_price.loc[:, "Ind_Real"]
    print('Porcentaje de acierto tendencias:', round(up_down_price.Aciertos.value_counts()[1] / up_down_price.Aciertos.value_counts().sum() * 100, 2))
    return dataframe, metricas_mensuales_dataframe

reg_lineal, reg_lineal_metricas_mensuales = calculo_metricas(resultados)

Media  MAE en el periodo: 4.548 €/MWh
Desviacion estandar del  MAE : 4.615 €/MWh

Media  MAPE en el periodo: 31.516 %
Desviacion estandar del  MAPE : 345.027 %

El RMSE para el periodo es: 6.48 €/MWh
Porcentaje de acierto tendencias: 83.4


In [61]:
reg_lineal.to_csv('Resultados/resultados_reg_lineal.csv')

In [62]:
import plotly.graph_objects as go

def graficas(dataframe):
    # Create traces
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=dataframe.loc["2019-01":].index, y=dataframe.loc["2019-01":].Real,
                        mode='lines',
                        name='Real')).add_trace(go.Scatter(x=dataframe.loc["2019-01":].index, y=dataframe.loc["2019-01":].Pred,
                        mode='lines',
                        name='Predicciones'))
    
    fig.show()
    
    # Create traces
#     fig = go.Figure()
#     fig.add_trace(go.Scatter(x=dataframe.loc["2019-07"].index, y=dataframe.loc["2019-07"].Real,
#                     mode='lines',
#                     name='Real')).add_trace(go.Scatter(x=dataframe.loc["2019-07"].index, y=dataframe.loc["2019-07"].Pred,
#                     mode='lines',
#                     name='Predicciones'))

#     fig.show()
    
graficas(reg_lineal)