# **PREDICCIÓN DE RADIACIÓN SOLAR CON SCIKIT-LEARN**

Fabio Scielzo Ortiz, Marcos Álvarez Martín

Las fuentes de energía renovable, como la solar o la eólica, ofrecen muchas ventajas ambientales sobre los combustibles fósiles para la generación de electricidad, pero la energía que producen fluctúa con las condiciones climáticas cambiantes. Las empresas de servicios eléctricos necesitan pronósticos precisos de la producción de energía para tener disponible el equilibrio adecuado de combustibles fósiles y renovables. Los errores en el pronóstico podrían generar grandes gastos para la empresa de servicios públicos debido al consumo excesivo de combustible o compras de emergencia de electricidad a las empresas vecinas. Los pronósticos de energía generalmente se derivan de modelos numéricos de predicción del clima, pero las técnicas estadísticas y de aprendizaje automático se utilizan cada vez más junto con los modelos numéricos para producir pronósticos más precisos.
El objetivo de este concurso es descubrir qué técnicas estadísticas y de machine learning proporcionan las mejores predicciones a corto plazo de la producción de energía solar. Se predicirá el total de energía solar entrante diaria en 98 sitios de Oklahoma Mesonet.

Hay 15 variables, predichas para 5 momentos del día siguiente lo que equivale a 75 atributos de entrada. En cuanto a las instancias tenemos que son 4380. En cuanto a las variables:

* 1: apcp_sfc. Precipitación acumulada en 3 horas en la superficie. Mide en kg/m^2.
* 2: dlwrf_sfc. Promedio del flujo radiativo de onda larga descendente en la superficie. Mide en W/m^2.
* 3: dswrf_sfc. Promedio del flujo radiativo de onda corta descendente en la superficie. Mide en W/m^2.
* 4: pres_msl. Presión del aire al nivel medio del mar. Mide en Pa.
* 5: pwat_eatm. Agua precipitable en toda la profundidad de la atmósfera(representa la cantidad de agua potencial para ser precipitable ya sea lluvia, nieve, granizo,etc…). Mide en Kg/m^2.
* 6: spfh_2m. Humedad específica a 2 metros del suelo. Mide en Kg.

* 7: tcdc_eatm. Cobertura total de nubes en toda la profundidad de la atmósfera. Mide en %.
* 8: tcolc_eatm. Condensado total integrado en la columna en toda la atmósfera. Mide en Kg/m^2.
* 9: tmax_2m. Temperatura máxima durante las últimas 3 horas a 2 metros sobre el suelo. Mide en K(kelvin).
* 10: tmin_2m. Temperatura mínima durante las últimas 3 horas a 2 metros sobre el suelo. Mide en K(kelvin).
* 11: tmp_2m. Temperatura actual a 2 m sobre el suelo. Mide en K(kelvin).
* 12: tmp_sfc. Temperatura de la superficie. Mide en K(kelvin).
* 13: ulwrf_sfc. Radiación de onda larga ascendente en la superficie. Mide en W/m^2.
* 14: ulwrf_tatm. Radiación de onda larga ascendente en la parte superior de la atmósfera. Mide en W/m^2.
* 15: uswrf_sfc. Radiación ascendente de onda corta en la superficie. Mide en W/m^2.


*** A pesar de que las variables originales representan lo indicado anteriormente, los datos han sido modificados y por ende algunos no corresponden con los valores “esperados”.

Fuente: https://www.kaggle.com/c/ams-2014-solar-energy-prediction-contest/data

## **1) y 2) Preparación y tratamiento de datos**

Tras tratar los datos previamente en R, procedemos a cargar los datos en Python


In [40]:
# pip install feather

# pip install pyarrow

In [5]:
# Importamos la librería pandas para leer los datos como data-frame

import pandas as pd
import numpy as np

In [8]:
# Leemos los datos

datos = pd.read_feather("disp_2.feather")

In [9]:
# Vemos las primeras observaciones de la base de datos

datos.head()

Unnamed: 0,salida,apcp_sf1_1,apcp_sf2_1,apcp_sf3_1,apcp_sf4_1,dlwrf_s1_1,dlwrf_s2_1,dlwrf_s3_1,dlwrf_s4_1,dlwrf_s5_1,...,tmin_2m4_1,tmp_2m_2_1,tmp_sfc2_1,tmp_sfc3_1,ulwrf_s1_1,uswrf_s1_1,uswrf_s3_1,dswrf_s5_1,pwat_ea3_1,ulwrf_s2_1
0,11930700.0,red,1,1,0.0,2,244.241641,1,1,268.377441,...,285.799685,0.0,289.42532,295.546109,0.0,0.077417,50.0,blue,red,blue
1,9778500.0,red,1,1,0.008182,2,255.824126,2,2,307.929083,...,283.687009,0.0,278.269459,287.04897,0.0,0.0,35.909091,red,red,blue
2,9771900.0,red,1,1,0.0,1,211.996022,1,1,239.840132,...,276.041792,0.0,271.690993,281.759993,0.0,0.0,76.151808,blue,red,green
3,6466800.0,red,1,1,0.0,2,230.896544,1,1,237.804048,...,276.94299,0.0,289.42532,281.291418,0.0,0.0,46.0,blue,red,blue
4,11545200.0,red,1,1,0.0,1,238.927051,1,1,275.572826,...,283.734819,0.0,275.132668,285.698725,0.0,0.077417,48.909091,green,red,blue


# **3) Aprendizaje automático con Scikit-learn:**

## **3.1) Análisis Exploratorio de datos**

In [10]:
print('La dimensión de la tabla es:')
print('===============================')
print(datos.shape)
print()

# Observamos que hay 4380 filas con 76 columnas

print('El tipo de atributos que hay son:')
print('================================')
datos.info()

# Como vemos hay 3 variables categóricas nominales, 39 variables numéricas continuas y 34 variables numéricas enteras(discretas)

print()

print('Proporción de datos faltantes es:')
print('======================================')
print(datos.isnull().mean())

# No hay datos faltantes

La dimensión de la tabla es:
(4380, 76)

El tipo de atributos que hay son:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4380 entries, 0 to 4379
Data columns (total 76 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   salida      4380 non-null   float64 
 1   apcp_sf1_1  4380 non-null   category
 2   apcp_sf2_1  4380 non-null   int32   
 3   apcp_sf3_1  4380 non-null   int32   
 4   apcp_sf4_1  4380 non-null   float64 
 5   dlwrf_s1_1  4380 non-null   int32   
 6   dlwrf_s2_1  4380 non-null   float64 
 7   dlwrf_s3_1  4380 non-null   int32   
 8   dlwrf_s4_1  4380 non-null   int32   
 9   dlwrf_s5_1  4380 non-null   float64 
 10  dswrf_s2_1  4380 non-null   float64 
 11  dswrf_s4_1  4380 non-null   float64 
 12  pres_ms1_1  4380 non-null   int32   
 13  pres_ms2_1  4380 non-null   int32   
 14  pres_ms3_1  4380 non-null   int32   
 15  pres_ms4_1  4380 non-null   int32   
 16  pres_ms5_1  4380 non-null   float64 
 17  pwat_ea1_1  438

Por tanto tenemos :

- 4380 filas con 76 columnas.


- Hay 3 variables categóricas nominales, 39 variables numéricas continuas y 34 variables numéricas enteras(discretas).


- No hay datos faltantes.

## **3.2) Matriz de variables predictoras X y vector variable salida y**

In [11]:
# Vamos a crear una matriz de variables predictoras X y el vector con la variable respuesta y(que contiene la variable salida)
# Matriz de predictores X:
datos = pd.DataFrame(datos)

X=datos.loc[:,"apcp_sf2_1":"uswrf_s2_1"]
print(X)

      apcp_sf2_1  apcp_sf3_1  apcp_sf4_1  dlwrf_s1_1  dlwrf_s2_1  dlwrf_s3_1  \
0              1           1    0.000000           2  244.241641           1   
1              1           1    0.008182           2  255.824126           2   
2              1           1    0.000000           1  211.996022           1   
3              1           1    0.000000           2  230.896544           1   
4              1           1    0.000000           1  238.927051           1   
...          ...         ...         ...         ...         ...         ...   
4375           1           1    0.070000           2  270.305969           2   
4376           1           1    0.000000           2  246.100211           1   
4377           1           1    0.000000           2  266.566642           2   
4378           1           1    0.000000           2  268.708427           2   
4379           1           1    0.000000           2  266.527091           2   

      dlwrf_s4_1  dlwrf_s5_1  dswrf_s2_

In [12]:
print(X.info)

# Como vemos hay 4380 observaciones con 75 columnas(variables independientes)

<bound method DataFrame.info of       apcp_sf2_1  apcp_sf3_1  apcp_sf4_1  dlwrf_s1_1  dlwrf_s2_1  dlwrf_s3_1  \
0              1           1    0.000000           2  244.241641           1   
1              1           1    0.008182           2  255.824126           2   
2              1           1    0.000000           1  211.996022           1   
3              1           1    0.000000           2  230.896544           1   
4              1           1    0.000000           1  238.927051           1   
...          ...         ...         ...         ...         ...         ...   
4375           1           1    0.070000           2  270.305969           2   
4376           1           1    0.000000           2  246.100211           1   
4377           1           1    0.000000           2  266.566642           2   
4378           1           1    0.000000           2  268.708427           2   
4379           1           1    0.000000           2  266.527091           2   

      d

In [13]:
# Vector de variable respuesta y

y=datos.iloc[:,[0]]
print(y)

          salida
0     11930700.0
1      9778500.0
2      9771900.0
3      6466800.0
4     11545200.0
...          ...
4375   8781300.0
4376  12099000.0
4377  11793900.0
4378  11154300.0
4379  11121300.0

[4380 rows x 1 columns]


In [14]:
print(y)

# Como vemos solo esta la variable salida

          salida
0     11930700.0
1      9778500.0
2      9771900.0
3      6466800.0
4     11545200.0
...          ...
4375   8781300.0
4376  12099000.0
4377  11793900.0
4378  11154300.0
4379  11121300.0

[4380 rows x 1 columns]


## 3.3) **Convertimos las variables categóricas de X a dummy's**

In [15]:
# Cargamos las librerías para transformar las variables categóricas a dummy's

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.compose import make_column_selector as selector

In [16]:
# Definimos las variables categóricas

categorical_features = ['spfh_2m5_1','apcp_sf1_1','uswrf_s2_1']

# Transformamos las variables categóricas en dummy's

preprocessor = ColumnTransformer(
    transformers = [ 
                    ('categorical', OneHotEncoder(handle_unknown='ignore'),  selector(dtype_include=["category"]))
                    ],
                    remainder='passthrough' 
)

# Ajustamos a la matriz de predictores X

preprocessor.fit(X)

# Aplicamos el preproceso
X = preprocessor.transform(X)

In [17]:
# Comprobamos que se han cambiado

print(X.shape)

# Como vemos ahora hay 81 columnas, ya que se han añadido variables dummys para cada variable categórica

(4380, 54)


## **3.4) Modelo árboles: Decision trees**

In [18]:
# Dividimos en entrenamiento y test(para validar)

# Para entrenar el modelo seleccionamos los primeros 6 años
X_train_tree = X[0:(6*356),:]
print(X_train_tree.shape)

(2136, 54)


In [19]:
# Validación
# Para validar seleccionamos los 3 años del año 6 al año 9

X_validation_tree=X[(6*356+1):(9*356),:]
print(X_validation_tree.shape)

(1067, 54)


In [20]:
# Ahora con la variable salida y
# Entrenamiento con 6 años

y_train_tree = y[0:(6*356)]
print(y_train_tree)

          salida
0     11930700.0
1      9778500.0
2      9771900.0
3      6466800.0
4     11545200.0
...          ...
2131  17169300.0
2132  16436700.0
2133  15861300.0
2134  14513700.0
2135  12300600.0

[2136 rows x 1 columns]


In [21]:
# Ahora establecemos el conjunto de validación
# Validación con 3 años del año 6 al 9
# Conjunto de test

y_validation_tree=y[(6*356+1):(9*356)]

# Miramos los 10 primeros valores del conjunto de test
print(y_validation_tree.head(10))

          salida
2137  10599600.0
2138  14204700.0
2139  14214000.0
2140  13899900.0
2141  13845000.0
2142  13891800.0
2143  13743900.0
2144  13846200.0
2145  13708800.0
2146  13370100.0


In [22]:
# Cargamos las librerías

from sklearn.metrics import mean_absolute_error as mae
from sklearn import tree

In [23]:
# Establecemos el modelo de regresión de árboles

tree_regr = tree.DecisionTreeRegressor()

# Establecemos la semilla para RNG 

np.random.seed(100407632)

# Entrenamos el modelo
tree_regr.fit(X_train_tree, y_train_tree)

DecisionTreeRegressor()

In [24]:
# Predicción del conjunto de test/validar

y_validation_tree_pred = tree_regr.predict(X_validation_tree)

# Miramos las 10 primeras predicciones
print(y_validation_tree_pred[0:10])

[13345200. 13345200.  9414300. 10233300. 10233300. 10233300. 14148600.
 11693100. 13249200. 12700500.]


In [25]:
# Calculamos el error
# En este caso como es un problema de regresión usamos el MAE(es la diferencia entre el valor real y el predicho elevado al cuadrado).

mae_validation_tree = mae(y_validation_tree, y_validation_tree_pred)
print(f"El MAE de regresión del modelo árbol es: {mae_validation_tree}")

El MAE de regresión del modelo árbol es: 3266939.550140581


En este caso el MAE de regresión del modelo de árbol/tree es 3266939.55. La métrica MAE se mide en las mismas unidades que la variable respuesta que en este caso es la radiación solar. Algunos valores de la respuesta toma valores grandes. Por tanto de momento no es un indicador muy bueno del rendimiento del modelo.

## **3.5) Modelo KNN**

In [26]:
# Cargamos las librerías

# KNN
from sklearn import neighbors

# Para escalar 
from sklearn.preprocessing import StandardScaler

# Secuencia
from sklearn.pipeline import Pipeline

In [27]:
# Dividimos en entrenamiento y test(para validar)

# En entrenamiento metemos los 6 primeros años
X_train_knn = X[0:(6*356),:]
print(X_train_knn)

[[1.         1.         0.         ... 3.         3.         1.        ]
 [1.         1.         0.00818182 ... 2.         2.         1.        ]
 [1.         1.         0.         ... 2.         2.         1.        ]
 ...
 [1.         1.         0.         ... 3.         3.         1.        ]
 [1.         1.         0.         ... 3.         3.         1.        ]
 [1.         1.         0.00363636 ... 3.         3.         1.        ]]


In [28]:
# Validación
# Metemos el conjunto de validación desde el año 6 al 9 para validar
# Conjunto de test

X_validation_knn=X[(6*356+1):(9*356),:]
print(X_validation_knn)

[[ 1.          1.          0.         ...  3.          3.
   1.        ]
 [ 1.          1.          0.         ...  3.          3.
   1.        ]
 [ 1.          1.          0.         ...  3.          3.
   1.        ]
 ...
 [ 1.          1.          0.         ...  2.          2.
   2.        ]
 [ 1.          1.         20.47181797 ...  1.          1.
   1.        ]
 [ 1.          1.          0.36       ...  2.          3.
   1.        ]]


In [29]:
# Ahora con la variable salida y
# Entrenamiento

y_train_knn = y[0:(6*356)]
print(y_train_knn)

          salida
0     11930700.0
1      9778500.0
2      9771900.0
3      6466800.0
4     11545200.0
...          ...
2131  17169300.0
2132  16436700.0
2133  15861300.0
2134  14513700.0
2135  12300600.0

[2136 rows x 1 columns]


In [30]:
# Ahora establecemos el conjunto de validación

y_validation_knn=y[(6*356+1):(9*356)]

# Miramos el valor de las primeras 10 observaciones del conjunto de test
print(y_validation_knn.head(10))

          salida
2137  10599600.0
2138  14204700.0
2139  14214000.0
2140  13899900.0
2141  13845000.0
2142  13891800.0
2143  13743900.0
2144  13846200.0
2145  13708800.0
2146  13370100.0


In [31]:
# Creamos el modelo
# K=5 vecinos

K=5

knn= neighbors.KNeighborsRegressor(n_neighbors=K)

# Para escalar
scaling = StandardScaler()

# Definimos la secuencia para escalar
regr = Pipeline([('scaler', scaling), 
                ('knn', knn)])

In [32]:
# Semilla

np.random.seed(100407632) 

In [33]:
# Entrenamos

knn.fit(X_train_knn, y_train_knn)

KNeighborsRegressor()

In [34]:
# Predicciones

y_validation_knn_pred = knn.predict(X_validation_knn)

# Miramos las 10 primeras predicciones
print(y_validation_knn_pred[0:10])

[[12232980.]
 [ 9403800.]
 [ 7719780.]
 [12433020.]
 [12137640.]
 [13346460.]
 [ 9307560.]
 [12176940.]
 [12105540.]
 [13202760.]]


In [35]:
# MAE

mae_validation_knn = mae(y_validation_knn, y_validation_knn_pred)
print(f"El MAE de regresión del modelo KNN es: {mae_validation_knn}")

El MAE de regresión del modelo KNN es: 2792825.0046860357


En el caso del modelo KNN el MAE es de 2792825.005. Como antes no es un indicador muy bueno.

## **3.6.1) RAE para Modelo Tree**

In [36]:
# Calculamos el RAE
# Definimos el mae para un modelo trivial

mae_validation_dummy_tree = np.mean(np.abs(y_validation_tree-y_train_tree.mean()))

# Calculamos el RAE para el modelo de árboles

rae_validation_tree = mae_validation_tree / mae_validation_dummy_tree

  return mean(axis=axis, dtype=dtype, out=out, **kwargs)


In [37]:
# RAE para el modelo Tree

print(f"El RAE de regresión del modelo tree es: {rae_validation_tree}")

El RAE de regresión del modelo tree es: salida    0.475429
dtype: float64


En este caso obtenemos un RAE 0.475. Por tanto indica que lo hace mejor que un modelo trivial/dummy ya que si fuera cercano a 1 indicaría que no hay diferencia entre este modelo(que es más complejo) y uno muy básico. Si fuera más cercano a 0 indicaría que es un modelo perfecto ya que acierta en todas las predicciones. Y si es mayor que 1 indica que tiene un rendimiento peor que un modelo trivial lo que sería un modelo muy malo.

## **3.6.2) RAE para Modelo KNN**

In [38]:
# Calculamos el RAE
# Definimos el mae para modelo trivial

mae_validation_dummy_knn = np.mean(np.abs(y_validation_knn-y_train_knn.mean()))

# Calculamos el RAE

rae_validation_knn = mae_validation_knn / mae_validation_dummy_knn

In [39]:
# RAE para el modelo KNN

print(f"El RAE de regresión del modelo KNN es: {rae_validation_knn}")

El RAE de regresión del modelo KNN es: salida    0.406433
dtype: float64


En cuanto al modelo KNN tiene un RAE 0.406. Esto indica que lo hace mejor al predecir que un modelo trivial y que el modelo tree.

## **3.7) Comparación RAE con modelos de MLR3 vs Scikit-learn**

In [41]:
# Vamos a hacer una tabla donde comparemos los RAE de los modelos tree y knn de R con MLR3 y Python con Scikit-learn
# Importamos la librería
from tabulate import tabulate as tab

# Creamos la tabla
tabla=[ ['RAE:MLR3','RAE:SCIKIT-LEARN'],['KNN=0.40','KNN=0.406'],['TREE=0.43','TREE=0.475']                        
]

# Imprimir la tabla
print(tab(tabla, headers='firstrow',tablefmt='fancy_grid'))

╒════════════╤════════════════════╕
│ RAE:MLR3   │ RAE:SCIKIT-LEARN   │
╞════════════╪════════════════════╡
│ KNN=0.40   │ KNN=0.406          │
├────────────┼────────────────────┤
│ TREE=0.43  │ TREE=0.475         │
╘════════════╧════════════════════╛


In [None]:
# Vemos los hiperparámetros del modelo KNN

print(knn.get_params())

{'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 5, 'p': 2, 'weights': 'uniform'}


In [None]:
# Vemos los hiperparámetros del modelo Tree

print(tree_regr.get_params())

{'ccp_alpha': 0.0, 'criterion': 'squared_error', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'random_state': None, 'splitter': 'best'}


In [None]:
# Creamos la tabla de los hiperparámetros por defecto del modelo KNN
tabla_knn_hp=[['HP:KNN:MLR3','HP:KNN:SCIKIT-LEARN'],['K=7','K=5']                        
]

# Imprimir la tabla
print(tab(tabla_knn_hp, headers='firstrow',tablefmt='fancy_grid'))

╒═══════════════╤═══════════════════════╕
│ HP:KNN:MLR3   │ HP:KNN:SCIKIT-LEARN   │
╞═══════════════╪═══════════════════════╡
│ K=7           │ K=5                   │
╘═══════════════╧═══════════════════════╛


In [None]:
# Creamos la tabla de los hiperparámetros por defecto del modelo Tree/Rpart
tabla_tree_hp=[['HP:TREE:MLR3','HP:TREE:SCIKIT-LEARN'],['min_split=20','min_split=2'],['max_depth=30','max_depth=NONE']                        
]

# Imprimir la tabla
print(tab(tabla_tree_hp, headers='firstrow',tablefmt='fancy_grid'))

╒════════════════╤════════════════════════╕
│ HP:TREE:MLR3   │ HP:TREE:SCIKIT-LEARN   │
╞════════════════╪════════════════════════╡
│ min_split=20   │ min_split=2            │
├────────────────┼────────────────────────┤
│ max_depth=30   │ max_depth=NONE         │
╘════════════════╧════════════════════════╛


- Como se aprecia en la tabla los modelos hechos en Python con la librería scikit-learn obtenemos un RAE mayor en comparación con los modelos hechos en Rstudio con MLR3. 

- A pesar de que los datos son algo diferentes y de que se han hecho con los hiper-parámetros por omisión que también son desiguales(en KNN vemos que en MLR3 el hiperparámetro k/número de vecinos por defecto es 7 mientras que en scikit-learn es 5 y en el modelo tree en MLR3 min_split es 20 y max_depth=30 mientras que en scikit-learn min_split es 2 y max_depth no tiene valor por defecto y por tanto se crea el árbol entero). 

- En el modelo KNN en Python no se puede dejar el parámetro k/número de vecinos por defecto ya que hay que introducirlo manualmente y en este caso hemos escogido 5.

- El RAE del modelo de árbol/tree en Python no es muy diferente al calculado en R solo es mayor con 0.3 unidades. En cambio en el modelo KNN si que se observa un RAE mayor.

-  En MLR3 se ha usado un preproceso diferente, por ejemplo a la hora de imputar los datos faltantes se ha usado para knn el método de la mediana y la moda mientras que para el modelo rpart/tree se ha usado el imputador multivariante(rpart) y la moda. También se usaban las variables ordinales mientras que aquí las hemos convertidos a enteros. Los valores faltantes en scikit-learn se han imputado con la media y la moda.

- Por tanto vemos que hay diferencias entre los métodos utilizados y la comparación no es del todo realista.