# **PREDICCIÓN DE RADIACIÓN SOLAR CON SCIKIT-LEARN**

Fabio Scielzo Ortiz, Marcos Álvarez Martín

Las fuentes de energía renovable, como la solar o la eólica, ofrecen muchas ventajas ambientales sobre los combustibles fósiles para la generación de electricidad, pero la energía que producen fluctúa con las condiciones climáticas cambiantes. Las empresas de servicios eléctricos necesitan pronósticos precisos de la producción de energía para tener disponible el equilibrio adecuado de combustibles fósiles y renovables. Los errores en el pronóstico podrían generar grandes gastos para la empresa de servicios públicos debido al consumo excesivo de combustible o compras de emergencia de electricidad a las empresas vecinas. Los pronósticos de energía generalmente se derivan de modelos numéricos de predicción del clima, pero las técnicas estadísticas y de aprendizaje automático se utilizan cada vez más junto con los modelos numéricos para producir pronósticos más precisos.
El objetivo de este concurso es descubrir qué técnicas estadísticas y de machine learning proporcionan las mejores predicciones a corto plazo de la producción de energía solar. Se predicirá el total de energía solar entrante diaria en 98 sitios de Oklahoma Mesonet.

Hay 15 variables, predichas para 5 momentos del día siguiente lo que equivale a 75 atributos de entrada. En cuanto a las instancias tenemos que son 4380. En cuanto a las variables:

* 1: apcp_sfc. Precipitación acumulada en 3 horas en la superficie. Mide en kg/m^2.
* 2: dlwrf_sfc. Promedio del flujo radiativo de onda larga descendente en la superficie. Mide en W/m^2.
* 3: dswrf_sfc. Promedio del flujo radiativo de onda corta descendente en la superficie. Mide en W/m^2.
* 4: pres_msl. Presión del aire al nivel medio del mar. Mide en Pa.
* 5: pwat_eatm. Agua precipitable en toda la profundidad de la atmósfera(representa la cantidad de agua potencial para ser precipitable ya sea lluvia, nieve, granizo,etc…). Mide en Kg/m^2.
* 6: spfh_2m. Humedad específica a 2 metros del suelo. Mide en Kg.

* 7: tcdc_eatm. Cobertura total de nubes en toda la profundidad de la atmósfera. Mide en %.
* 8: tcolc_eatm. Condensado total integrado en la columna en toda la atmósfera. Mide en Kg/m^2.
* 9: tmax_2m. Temperatura máxima durante las últimas 3 horas a 2 metros sobre el suelo. Mide en K(kelvin).
* 10: tmin_2m. Temperatura mínima durante las últimas 3 horas a 2 metros sobre el suelo. Mide en K(kelvin).
* 11: tmp_2m. Temperatura actual a 2 m sobre el suelo. Mide en K(kelvin).
* 12: tmp_sfc. Temperatura de la superficie. Mide en K(kelvin).
* 13: ulwrf_sfc. Radiación de onda larga ascendente en la superficie. Mide en W/m^2.
* 14: ulwrf_tatm. Radiación de onda larga ascendente en la parte superior de la atmósfera. Mide en W/m^2.
* 15: uswrf_sfc. Radiación ascendente de onda corta en la superficie. Mide en W/m^2.


*** A pesar de que las variables originales representan lo indicado anteriormente, los datos han sido modificados y por ende algunos no corresponden con los valores “esperados”.

Fuente: https://www.kaggle.com/c/ams-2014-solar-energy-prediction-contest/data

## **1) y 2) Preparación y tratamiento de datos**

###### Tras tratar los datos previamente en R, procedemos a cargar los datos en Python


In [3]:
pip install feather

In [None]:
# Importamos la librería pandas para leer los datos como data-frame

import pandas as pd
import numpy as np

# Leemos los datos

datos = pd.read_feather("disp_38.feather")

In [None]:
# Vemos las primeras observaciones de la base de datos

datos.head()

Unnamed: 0,salida,apcp_sf2_1,apcp_sf4_1,dlwrf_s1_1,dlwrf_s4_1,dlwrf_s5_1,dswrf_s1_1,dswrf_s2_1,dswrf_s3_1,dswrf_s4_1,dswrf_s5_1,pres_ms1_1,pres_ms3_1,pres_ms4_1,pres_ms5_1,pwat_ea1_1,pwat_ea2_1,pwat_ea3_1,pwat_ea4_1,pwat_ea5_1,spfh_2m1_1,spfh_2m2_1,spfh_2m4_1,spfh_2m5_1,tcdc_ea1_1,tcdc_ea4_1,tcolc_e1_1,tcolc_e2_1,tcolc_e3_1,tcolc_e5_1,tmax_2m1_1,tmax_2m2_1,tmax_2m3_1,tmax_2m4_1,tmax_2m5_1,tmin_2m1_1,tmin_2m3_1,tmin_2m4_1,tmin_2m5_1,tmp_2m_2_1,tmp_2m_3_1,tmp_2m_4_1,tmp_2m_5_1,tmp_sfc1_1,tmp_sfc2_1,tmp_sfc3_1,tmp_sfc4_1,tmp_sfc5_1,ulwrf_s1_1,ulwrf_s4_1,ulwrf_s5_1,ulwrf_t1_1,ulwrf_t3_1,ulwrf_t4_1,uswrf_s1_1,uswrf_s3_1,uswrf_s5_1,apcp_sf3_1,apcp_sf5_1,dlwrf_s2_1,dlwrf_s3_1,pres_ms2_1,spfh_2m3_1,tcdc_ea2_1,tcdc_ea3_1,tcdc_ea5_1,tcolc_e4_1,tmin_2m2_1,tmp_2m_1_1,ulwrf_s2_1,ulwrf_s3_1,ulwrf_t2_1,ulwrf_t5_1,uswrf_s4_1,apcp_sf1_1,uswrf_s2_1
0,11621100.0,1,0.0,259.492673,265.741308,264.195623,1,1,1,2,2,2,2,101947.338068,102032.089489,1,1,9.178981,1,1,1,1,1,red,1,0.0,1,1,0.0,1,2,2,2,284.918049,2,2,277.778362,2,0.0,0.0,284.188235,2,2,277.051106,2,2,287.014274,277.372808,2,390.046781,375.463043,2,2,3,1,48.0,69.818182,0.0,0.0,245.787096,320.256337,0.0,0.003823,0.0,0.0,0.003636,0.001736,277.777163,278.767431,333.158827,351.26249,0.0,254.976936,103.636364,red,red
1,6513000.0,1,0.059091,254.725868,305.62356,309.383628,1,1,1,2,1,2,2,101017.495028,101425.340199,1,1,11.832082,1,1,1,1,1,red,1,0.0,1,1,0.0,1,2,2,2,286.106684,2,2,276.84517,2,0.0,0.0,283.222784,2,2,275.920921,2,2,286.443656,280.350711,2,386.65413,374.410167,2,2,2,1,19.545455,40.454545,0.0,0.662727,287.27867,300.254822,0.0,0.003799,0.0,0.159091,0.139091,0.229145,276.84517,276.946253,331.354673,398.45402,0.0,209.780189,66.909091,red,red
2,9841500.0,1,0.0,215.280002,239.983668,245.567405,1,1,1,2,2,2,2,101587.113636,101479.088778,1,1,5.972727,1,1,1,1,1,red,1,0.0,1,1,0.0,1,2,1,1,278.050421,2,2,267.942796,1,0.0,0.0,274.539001,2,2,268.251237,1,2,281.568262,273.333688,1,360.066409,347.04212,2,2,2,1,53.727273,74.181818,0.0,0.004545,210.086931,215.133093,0.0,0.001959,0.0,0.040909,0.092727,0.065172,267.944095,268.473239,294.206507,312.068945,0.0,225.074921,127.592047,red,red
3,7633800.0,1,0.0,240.408503,239.910919,237.894957,1,1,1,2,2,2,3,102601.849432,102543.911932,1,1,6.199266,1,1,1,1,1,red,1,0.0,1,1,0.0,1,2,2,2,277.704912,1,2,272.365981,2,0.0,0.0,275.859569,2,1,272.942949,2,2,281.053492,270.537212,2,356.752333,343.891047,2,2,2,1,37.545455,69.909091,0.0,0.0,238.623817,246.948127,0.0,0.002611,0.0,0.008182,0.025455,0.065172,272.365506,274.248793,311.670654,398.45402,0.0,241.321951,103.0,red,red
4,10550400.0,1,0.0,233.435475,270.759064,279.572826,1,1,1,2,2,2,2,100253.016335,100058.93679,1,1,11.016872,1,1,1,1,1,red,1,0.0,1,1,0.0,1,2,2,2,287.089339,2,2,272.964539,2,0.0,0.0,282.935824,2,2,271.833152,2,2,287.636014,282.457758,2,385.19238,379.409776,2,2,2,1,46.363636,66.818182,0.0,0.0,237.927051,245.669004,0.0,0.002937,0.0,0.065701,0.112727,0.036373,272.979359,272.969385,312.308719,331.860368,0.0,241.200682,102.454545,red,red


# **3) Aprendizaje automático con Scikit-learn:**

## **3.1) Análisis Exploratorio de datos**

In [None]:
print('La dimensión de la tabla es:')
print('===============================')
print(datos.shape)
print()

# Observamos que hay 4380 filas con 76 columnas

print('El tipo de atributos que hay son:')
print('================================')
datos.info()

# Como vemos hay 3 variables categóricas nominales, 39 variables numéricas continuas y 34 variables numéricas enteras(discretas)

print()

print('Proporción de datos faltantes es:')
print('======================================')
print(datos.isnull().mean())

# No hay datos faltantes

La dimensión de la tabla es:
(4380, 76)

El tipo de atributos que hay son:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4380 entries, 0 to 4379
Data columns (total 76 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   salida      4380 non-null   float64 
 1   apcp_sf2_1  4380 non-null   int32   
 2   apcp_sf4_1  4380 non-null   float64 
 3   dlwrf_s1_1  4380 non-null   float64 
 4   dlwrf_s4_1  4380 non-null   float64 
 5   dlwrf_s5_1  4380 non-null   float64 
 6   dswrf_s1_1  4380 non-null   int32   
 7   dswrf_s2_1  4380 non-null   int32   
 8   dswrf_s3_1  4380 non-null   int32   
 9   dswrf_s4_1  4380 non-null   int32   
 10  dswrf_s5_1  4380 non-null   int32   
 11  pres_ms1_1  4380 non-null   int32   
 12  pres_ms3_1  4380 non-null   int32   
 13  pres_ms4_1  4380 non-null   float64 
 14  pres_ms5_1  4380 non-null   float64 
 15  pwat_ea1_1  4380 non-null   int32   
 16  pwat_ea2_1  4380 non-null   int32   
 17  pwat_ea3_1  438

Por tanto tenemos :

· 4380 filas con 76 columnas.


· Hay 3 variables categóricas nominales, 39 variables numéricas continuas y 34 variables numéricas enteras(discretas).


· No hay datos faltantes.

## **3.2) Matriz de variables predictoras X y vector variable salida y**

In [None]:
# Vamos a crear una matriz de variables predictoras X y el vector con la variable respuesta y(que contiene la variable salida)
# Matriz de predictores X:
datos = pd.DataFrame(datos)

X=datos.loc[:,"apcp_sf2_1":"uswrf_s2_1"]
print(X)

      apcp_sf2_1  apcp_sf4_1  dlwrf_s1_1  ...  uswrf_s4_1  apcp_sf1_1  uswrf_s2_1
0              1    0.000000  259.492673  ...  103.636364         red         red
1              1    0.059091  254.725868  ...   66.909091         red         red
2              1    0.000000  215.280002  ...  127.592047         red         red
3              1    0.000000  240.408503  ...  103.000000         red         red
4              1    0.000000  233.435475  ...  102.454545         red         red
...          ...         ...         ...  ...         ...         ...         ...
4375           1    0.315455  272.168651  ...   27.000000         red         red
4376           1    0.000000  248.642001  ...  103.545455         red         red
4377           1    0.000000  271.809801  ...  104.363636         red         red
4378           1    0.000000  266.952959  ...  105.090909         red         red
4379           1    0.000000  268.748985  ...  127.592047         red         red

[4380 rows x 75

In [None]:
print(X.info)

# Como vemos hay 4380 observaciones con 75 columnas(variables independientes)

<bound method DataFrame.info of       apcp_sf2_1  apcp_sf4_1  dlwrf_s1_1  ...  uswrf_s4_1  apcp_sf1_1  uswrf_s2_1
0              1    0.000000  259.492673  ...  103.636364         red         red
1              1    0.059091  254.725868  ...   66.909091         red         red
2              1    0.000000  215.280002  ...  127.592047         red         red
3              1    0.000000  240.408503  ...  103.000000         red         red
4              1    0.000000  233.435475  ...  102.454545         red         red
...          ...         ...         ...  ...         ...         ...         ...
4375           1    0.315455  272.168651  ...   27.000000         red         red
4376           1    0.000000  248.642001  ...  103.545455         red         red
4377           1    0.000000  271.809801  ...  104.363636         red         red
4378           1    0.000000  266.952959  ...  105.090909         red         red
4379           1    0.000000  268.748985  ...  127.592047         

In [None]:
# Vector de variable respuesta y

y=datos.iloc[:,[0]]
print(y)

          salida
0     11621100.0
1      6513000.0
2      9841500.0
3      7633800.0
4     10550400.0
...          ...
4375   8851200.0
4376  11423400.0
4377  11387400.0
4378  11190900.0
4379  10721700.0

[4380 rows x 1 columns]


In [None]:
print(y)

# Como vemos solo esta la variable salida

          salida
0     11621100.0
1      6513000.0
2      9841500.0
3      7633800.0
4     10550400.0
...          ...
4375   8851200.0
4376  11423400.0
4377  11387400.0
4378  11190900.0
4379  10721700.0

[4380 rows x 1 columns]


## 3.3) **Convertimos las variables categóricas de X a dummy's**

In [None]:
# Cargamos las librerías para transformar las variables categóricas a dummy's

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.compose import make_column_selector as selector

In [None]:
# Definimos las variables categóricas

categorical_features = ['spfh_2m5_1','apcp_sf1_1','uswrf_s2_1']

# Transformamos las variables categóricas en dummy's

preprocessor = ColumnTransformer(
    transformers = [ 
                    ('categorical', OneHotEncoder(handle_unknown='ignore'),  selector(dtype_include=["category"]))
                    ],
                    remainder='passthrough' 
)

# Ajustamos a la matriz de predictores X

preprocessor.fit(X)

# Aplicamos el preproceso
X = preprocessor.transform(X)

In [None]:
# Comprobamos que se han cambiado

print(X.shape)

# Como vemos ahora hay 81 columnas, ya que se han añadido variables dummys para cada variable categórica

(4380, 81)
[278.76743109 276.946253   268.47323886 ... 280.2320196  283.29503285
 280.66207608]


## **3.4) Modelo árboles: Decision trees**

In [None]:
# Dividimos en entrenamiento y test(para validar)

# Para entrenar el modelo seleccionamos los primeros 6 años
X_train_tree = X[0:(6*356),:]
print(X_train_tree.shape)

(2136, 81)


In [None]:
# Validación
# Para validar seleccionamos los 3 años del año 6 al año 9

X_validation_tree=X[(6*356+1):(9*356),:]
print(X_validation_tree.shape)

(1067, 81)


In [None]:
# Ahora con la variable salida y
# Entrenamiento con 6 años

y_train_tree = y[0:(6*356)]
print(y_train_tree)

          salida
0     11621100.0
1      6513000.0
2      9841500.0
3      7633800.0
4     10550400.0
...          ...
2131  16577100.0
2132  15490500.0
2133  15665700.0
2134  14891400.0
2135  13263000.0

[2136 rows x 1 columns]


In [None]:
# Ahora establecemos el conjunto de validación
# Validación con 3 años del año 6 al 9
# Conjunto de test

y_validation_tree=y[(6*356+1):(9*356)]

# Miramos los 10 primeros valores del conjunto de test
print(y_validation_tree.head(10))

          salida
2137  13234500.0
2138  13497600.0
2139  14347800.0
2140  13682100.0
2141  13896600.0
2142  13729200.0
2143  13800300.0
2144  13810800.0
2145  13413900.0
2146  13225500.0


In [None]:
# Cargamos las librerías

from sklearn.metrics import mean_absolute_error as mae
from sklearn import tree

In [None]:
# Establecemos el modelo de regresión de árboles

tree_regr = tree.DecisionTreeRegressor()

# Establecemos la semilla para RNG 

np.random.seed(100407632)

# Entrenamos el modelo
tree_regr.fit(X_train_tree, y_train_tree)

DecisionTreeRegressor()

In [None]:
# Predicción del conjunto de test/validar

y_validation_tree_pred = tree_regr.predict(X_validation_tree)

# Miramos las 10 primeras predicciones
print(y_validation_tree_pred[0:10])

[15063600. 14893200. 14891400. 14891400. 15063600. 15063600. 14891400.
  9892200. 16331700. 14891400.]


In [None]:
# Calculamos el error
# En este caso como es un problema de regresión usamos el MAE(es la diferencia entre el valor real y el predicho elevado al cuadrado).

mae_validation_tree = mae(y_validation_tree, y_validation_tree_pred)
print(f"El MAE de regresión del modelo árbol es: {mae_validation_tree}")

El MAE de regresión del modelo árbol es: 3059457.6382380505


En este caso el MAE de regresión del modelo de árbol/tree es ≈ 3059458. La métrica MAE se mide en las mismas unidades que y que en este caso es la radiación solar. Algunos valores de y que toma valores grandes. Por tanto de momento no es un indicador muy bueno del rendimiento del modelo.

## **3.5) Modelo KNN**

In [None]:
# Cargamos las librerías

# KNN
from sklearn import neighbors

# Para escalar 
from sklearn.preprocessing import StandardScaler

# Secuencia
from sklearn.pipeline import Pipeline

In [None]:
# Dividimos en entrenamiento y test(para validar)

# En entrenamiento metemos los 6 primeros años
X_train_knn = X[0:(6*356),:]
print(X_train_knn)

[[  0.           0.           1.         ...   0.         254.97693565
  103.63636364]
 [  0.           0.           1.         ...   0.         209.78018882
   66.90909091]
 [  0.           0.           1.         ...   0.         225.07492065
  127.59204702]
 ...
 [  0.           0.           1.         ...   0.         260.23763107
  126.54545455]
 [  1.           0.           0.         ...   0.         290.84068992
  117.63636364]
 [  1.           0.           0.         ...   0.         260.23763107
  127.59204702]]


In [None]:
# Validación
# Metemos el conjunto de validación desde el año 6 al 9 para validar
# Conjunto de test

X_validation_knn=X[(6*356+1):(9*356),:]
print(X_validation_knn)

[[  1.           0.           0.         ...   0.         289.61789495
  114.81818182]
 [  0.           0.           1.         ...   0.         260.23763107
  112.54545455]
 [  0.           0.           1.         ...   0.         293.04694713
  117.27272727]
 ...
 [  0.           0.           1.         ...   0.         243.0952731
  136.90909091]
 [  1.           0.           0.         ...   0.         131.9424161
  127.59204702]
 [  1.           0.           0.         ...   0.         260.7470287
  127.59204702]]


In [None]:
# Ahora con la variable salida y
# Entrenamiento

y_train_knn = y[0:(6*356)]
print(y_train_knn)

          salida
0     11621100.0
1      6513000.0
2      9841500.0
3      7633800.0
4     10550400.0
...          ...
2131  16577100.0
2132  15490500.0
2133  15665700.0
2134  14891400.0
2135  13263000.0

[2136 rows x 1 columns]


In [None]:
# Ahora establecemos el conjunto de validación

y_validation_knn=y[(6*356+1):(9*356)]

# Miramos el valor de las primeras 10 observaciones del conjunto de test
print(y_validation_knn.head(10))

          salida
2137  13234500.0
2138  13497600.0
2139  14347800.0
2140  13682100.0
2141  13896600.0
2142  13729200.0
2143  13800300.0
2144  13810800.0
2145  13413900.0
2146  13225500.0


In [None]:
# Creamos el modelo
# K=5 vecinos

K=5

knn= neighbors.KNeighborsRegressor(n_neighbors=K)

# Para escalar
scaling = StandardScaler()

# Definimos la secuencia para escalar
regr = Pipeline([('scaler', scaling), 
                ('knn', knn)])

In [None]:
# Semilla

np.random.seed(100407632) 

In [None]:
# Entrenamos

knn.fit(X_train_knn, y_train_knn)

KNeighborsRegressor()

In [None]:
# Predicciones

y_validation_knn_pred = knn.predict(X_validation_knn)

# Miramos las 10 primeras predicciones
print(y_validation_knn_pred[0:10])

[[17631420.]
 [14532240.]
 [14766540.]
 [16030620.]
 [20126520.]
 [15903060.]
 [16148700.]
 [19169520.]
 [20706780.]
 [16390620.]]


In [None]:
# MAE

mae_validation_knn = mae(y_validation_knn, y_validation_knn_pred)
print(f"El MAE de regresión del modelo KNN es: {mae_validation_knn}")

El MAE de regresión del modelo KNN es: 3374026.8416119963 


En el caso del modelo KNN el MAE es de ≈ 3374027. Como antes no es un indicador muy bueno.

## **3.6.1) RAE para Modelo Tree**

In [None]:
# Calculamos el RAE
# Definimos el mae para un modelo trivial

mae_validation_dummy_tree = np.mean(np.abs(y_validation_tree-y_train_tree.mean()))

# Calculamos el RAE para el modelo de árboles

rae_validation_tree = mae_validation_tree / mae_validation_dummy_tree

In [None]:
# RAE para el modelo Tree

print(f"El RAE de regresión del modelo tree es: {rae_validation_tree}")

El RAE de regresión del modelo tree es: salida    0.446681
dtype: float64


En este caso obtenemos un RAE ≈ 0.44. Por tanto indica que lo hace mejor que un modelo trivial/dummy ya que si fuera cercano a 1 indicaría que no hay diferencia entre este modelo(que es más complejo) y uno muy básico. Si fuera más cercano a 0 indicaría que es un modelo perfecto ya que acierta en todas las predicciones. Y si es mayor que 1 indica que tiene un rendimiento peor que un modelo trivial lo que sería un modelo horrible.

## **3.6.2) RAE para Modelo KNN**

In [None]:
# Calculamos el RAE
# Definimos el mae para modelo trivial

mae_validation_dummy_knn = np.mean(np.abs(y_validation_knn-y_train_knn.mean()))

# Calculamos el RAE

rae_validation_knn = mae_validation_knn / mae_validation_dummy_knn

In [None]:
# RAE para el modelo KNN

print(f"El RAE de regresión del modelo KNN es: {rae_validation_knn}")

El RAE de regresión del modelo KNN es: salida    0.492608
dtype: float64


En cuanto al modelo KNN tiene un RAE ≈ 0.49, es decir ≈ 0.50. Esto indica que lo hace mejor al predecir que un modelo trivial pero que no es un modelo muy acertado ya que solo es mejor la "mitad" de las veces.

## **3.7) Comparación RAE con modelos de MLR3 vs Scikit-learn**

In [None]:
# Vamos a hacer una tabla donde comparemos los RAE de los modelos tree y knn de R con MLR3 y Python con Scikit-learn
# Importamos la librería
from tabulate import tabulate as tab

# Creamos la tabla
tabla=[ ['RAE:MLR3','RAE:SCIKIT-LEARN'],['KNN=0.37','KNN=0.49'],['TREE=0.41','TREE=0.44']                        
]

# Imprimir la tabla
print(tab(tabla, headers='firstrow',tablefmt='fancy_grid'))

╒════════════╤════════════════════╕
│ RAE:MLR3   │ RAE:SCIKIT-LEARN   │
╞════════════╪════════════════════╡
│ KNN=0.37   │ KNN=0.49           │
├────────────┼────────────────────┤
│ TREE=0.41  │ TREE=0.44          │
╘════════════╧════════════════════╛


In [None]:
# Vemos los hiperparámetros del modelo KNN

print(knn.get_params())

{'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 5, 'p': 2, 'weights': 'uniform'}


In [None]:
# Vemos los hiperparámetros del modelo Tree

print(tree_regr.get_params())

{'ccp_alpha': 0.0, 'criterion': 'squared_error', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'random_state': None, 'splitter': 'best'}


In [None]:
# Creamos la tabla de los hiperparámetros por defecto del modelo KNN
tabla_knn_hp=[['HP:KNN:MLR3','HP:KNN:SCIKIT-LEARN'],['K=7','K=5']                        
]

# Imprimir la tabla
print(tab(tabla_knn_hp, headers='firstrow',tablefmt='fancy_grid'))

╒═══════════════╤═══════════════════════╕
│ HP:KNN:MLR3   │ HP:KNN:SCIKIT-LEARN   │
╞═══════════════╪═══════════════════════╡
│ K=7           │ K=5                   │
╘═══════════════╧═══════════════════════╛


In [None]:
# Creamos la tabla de los hiperparámetros por defecto del modelo Tree/Rpart
tabla_tree_hp=[['HP:TREE:MLR3','HP:TREE:SCIKIT-LEARN'],['min_split=20','min_split=2'],['max_depth=30','max_depth=NONE']                        
]

# Imprimir la tabla
print(tab(tabla_tree_hp, headers='firstrow',tablefmt='fancy_grid'))

╒════════════════╤════════════════════════╕
│ HP:TREE:MLR3   │ HP:TREE:SCIKIT-LEARN   │
╞════════════════╪════════════════════════╡
│ min_split=20   │ min_split=2            │
├────────────────┼────────────────────────┤
│ max_depth=30   │ max_depth=NONE         │
╘════════════════╧════════════════════════╛


·Como se aprecia en la tabla los modelos hechos en Python con la librería scikit-learn obtenemos un RAE mayor en comparación con los modelos hechos en Rstudio con MLR3. 

·A pesar de que los datos son algo diferentes y de que se han hecho con los hiper-parámetros por omisión que también son desiguales(en KNN vemos que en MLR3 el hiperparámetro k/número de vecinos por defecto es 7 mientras que en scikit-learn es 5 y en el modelo tree en MLR3 min_split es 20 y max_depth=30 mientras que en scikit-learn min_split es 2 y max_depth no tiene valor por defecto y por tanto se crea el árbol entero). 

· En el modelo KNN en Python no se puede dejar el parámetro k/número de vecinos por defecto ya que hay que introducirlo manualmente y en este caso hemos escogido 5.

·El RAE del modelo de árbol/tree en Python no es muy diferente al calculado en R solo es mayor con 0.3 unidades. En cambio en el modelo KNN si que se observa un RAE mayor.

· En MLR3 se ha usado un preproceso diferente, por ejemplo a la hora de imputar los datos faltantes se ha usado para knn el método de la mediana y la moda mientras que para el modelo rpart/tree se ha usado el imputador multivariante(rpart) y la moda. También se usaban las variables ordinales mientras que aquí las hemos convertidos a enteros. Los valores faltantes en scikit-learn se han imputado con la media y la moda.

· Por tanto vemos que hay diferencias entre los métodos utilizados y la comparación no es del todo realista.