<img src="figuras/cabecera.png" alt="Drawing" style="width: 1100px;"/>

# EJERCICIO 1
# Aprendizaje supervisado: Regresión.

## *Predicción de generación fotovoltaica para autoconsumo*

**Objetivo:** predecir la generación fotovoltaica para el día siguiente de un hogar con autoconsumo. Se utilizarán datos históricos de la variable target que queremos predecir (datos históricos de generación fotovoltaica) y de otros atributos (features) que pueden ayudar a predecir modelo, como por ejemplo la irradiancia o temperatura.

### Antes de empezar:

* En el archivo **EJ1-data-pv.csv** se encuentra el conjunto de datos de entrada de este ejercicio (atributos + etiqueta). 

# Cómo crear un modelo de Machine Learning desde cero?

<img src="figuras/creacion-modeloML.png" alt="Drawing" style="width: 800px;"/>

## **Importar librerías y datos**

In [35]:
# Importamos las librerías
import sklearn  
import pandas as pd  
import matplotlib.pyplot as plt

# Cargamos el conjunto de datos de entrada
# dataset = 

## **PASO 1: Comprender los datos**

<img src="figuras/paso1.png" alt="Drawing" style="width: 100px;"/>



<img src="figuras/paso1-estadistica.png" alt="Drawing" style="width: 800px;"/>


### Estadísitica descriptiva

Es necesario visualizar y comprender los datos con los que vamos a trabajar, así como conocer sus características. 

1. ¿Cuántos datos hay? ¿Cuántos atributos hay en los datos?  
2. ¿Qué significan?
3. ¿Falta algún dato?
4. Resumen estadístico del conjunto de datos de entrada.

**1. ¿Cuántos datos hay?**   **¿Cuántos atributos hay en los datos?**

In [36]:
# Filas x columnas de los datos
dataset.shape

**2. ¿Qué significan?**

In [37]:
# Observa las primeras 5 filas de datos
dataset.head()

In [38]:
# Formato de los datos
dataset.dtypes

In [5]:
# Convert localhour in datetime
dataset['localhour'] = pd.to_datetime(dataset['localhour'])

**3. ¿Falta algún dato?** Se comprueba si falta algún dato, y de ser así, se realiza el recuento de celdas vacías en cada atributo. En este caso, no faltan  datos.

In [39]:
# Comprobar si falta algún dato y en qué atributo


**4. Resumen estadístico del conjunto de datos de entrada.**

In [40]:
# Resumen estadístico de los datos
dataset.describe()

In [41]:
# Añado columnas de mes y hora
dataset['hora'] = pd.DatetimeIndex(dataset['localhour']).hour
dataset



<img src="figuras/paso1.png" alt="Drawing" style="width: 100px;"/>

<img src="figuras/paso1-visualizacion.png" alt="Drawing" style="width: 800px;"/>

Una manera visual de entender los datos de entrada. 

1. Boxplots
2. Matriz de correlación

### Histograma

Respresentación gráfica de cada uno de los atributos en forma de barras, donde la superficie de la barra es proporcional a la frecuencia de los valores representados.

In [42]:
histograma = dataset.hist(xlabelsize=10, ylabelsize=10, bins=100, figsize=(15, 10))

### Boxplots

El boxplot (diagrama de caja) nos permite identificar los valores atípicos y comparar distribuciones. Además, se conoce como se distribuyen el 50% de los valores (dentro de la caja).

In [44]:
atributos_boxplot = dataset.plot(kind='box', subplots=True, layout=(4, 3), figsize=(11, 11),
                                 sharex=False, sharey=False, fontsize=10)

### **Matriz de correlación** 

Tabla de doble entrada de los atributos

In [None]:
# Otra librería de visualización de datos
import seaborn as sns
import numpy as np

# Cálculo de coeficientes de correlación
corr = dataset.corr(method='spearman') 

# Quitar valores repetidos
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
  
f, ax = plt.subplots(figsize=(16, 14))
#Generar Heat Map,
sns.heatmap(corr, annot=True, fmt=".2f", mask=mask)
    # xticks
plt.xticks(range(len(corr.columns)), corr.columns);
    # yticks
plt.yticks(range(len(corr.columns)), corr.columns)
    # plot
plt.show()


## *PASO 2: Preparar los datos*

<img src="figuras/paso2.png" alt="Drawing" style="width: 100px;"/>

<img src="figuras/paso2-datacleaning.png" alt="Drawing" style="width: 800px;"/>

En este paso se aplicarán:

1. Limpieza de datos (data cleaning)
2. Transformación

**1. Limpieza de datos (data cleaning)**

Comprobar si exisiten Nan en los datos de entrada. 

- Se utiliza el método [fillna] de Pandas.

- Más información acerca de cómo imputar valores con [Scikit Learn]

[Scikit Learn]: https://scikit-learn.org/stable/modules/impute.html
[fillna]: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

In [12]:
dataset.fillna(method="backfill", inplace=True)

Comprobamos de nuevo que no existe ningún **Nan**

In [None]:
# Comprobar si falta algún dato y en qué atributo
dataset.isna().sum()

**2. Transformación**. 

- Eliminar/escalar datos si fuera necesario

In [None]:
# Elimino columnas que no nos interesan
dataset.drop(['XXXXXXXXXX'], axis=1, inplace=True)
dataset.head()

Divido los datos en **atributos**: X (features) y **etiquetas**: y (target)

In [15]:
# Atributos X (features); etiquetas y (target)
X = dataset.drop(['pvgen'], axis=1) 
y = dataset['pvgen']

**Atributos**

In [None]:
X.head()

**Etiquetas**

In [None]:
y.head()


<img src="figuras/paso2.png" alt="Drawing" style="width: 100px;"/>

<img src="figuras/paso2-datoscategoricos.png" alt="Drawing" style="width: 750px;"/>



<img src="figuras/paso2.png" alt="Drawing" style="width: 100px;"/>

<img src="figuras/paso2-escalado.png" alt="Drawing" style="width: 750px;"/>


- Más información de métodos de escalado y preproceso en [Scikit Learn]

[Scikit Learn]: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing

In [18]:
from sklearn.preprocessing import MinMaxScaler

# Escalo los atributos/features. Para este caso de estudio no hará falta.
#scaler = MinMaxScaler()
#X_df = X.copy()
#X_scaled = pd.DataFrame(scaler.fit_transform(X_df))
#X_scaled.columns = X_df.columns
#X_scaled.head()

## *PASO 3: Dividir los datos*

<img src="figuras/paso3.png" alt="Drawing" style="width: 100px;"/>


Se dividen los datos en datos de entreno ``X_train``, ``y_train``, datos de validación ``X_val``, ``y_val`` y datos de test ``X_test``, ``y_test``
.

.

.





<img src="figuras/split-data.jpg" alt="Drawing" style="width: 600px;"/>


In [20]:
from sklearn.model_selection import train_test_split

test_size = 0.2  # porcentaje de los datos de entrada que utilizaré para validar el modelo

# Divido los datos en datos de entreno, validación y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size,
                                                    shuffle=False)

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=test_size,
                                                    shuffle=False)

# PASO 4:  Construcción y evaluación de modelos

* La métrica de evaluacion seleccionada es **RMSE y R2**. 
- Todas las métricas en https://scikit-learn.org/stable/modules/model_evaluation.html
- Modelos supervisados en Scikit-Learn: https://scikit-learn.org/stable/supervised_learning.html



In [21]:
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor
import xgboost as xgb

num_folds = 5
error_metrics = {'neg_root_mean_squared_error', 'r2'}
models = {('MLP', MLPRegressor()),('RFR', RandomForestRegressor()),
          ('GradBR', GradientBoostingRegressor()), ('AdaB', AdaBoostRegressor()),
         ('XGB', xgb.XGBRegressor())}


results = [] # guarda los resultados de las métricas de evaluación
names = []  # Nombre de cada algoritmo
msg = []  # imprime el resumen del método de cross-validation


In [22]:
# !pip install matplotlib==3.2.2

### ¿Qué es el método de Cross-validation?

La [validación cruzada] o cross-validation es una técnica utilizada para evaluar los resultados de un análisis estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar la precisión de un modelo que se llevará a cabo a la práctica.

En [Scikit-learn] se pueden consultar todos los tipos de validación cruzada. 

[validación cruzada]: https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada

[Scikit-learn]: https://scikit-learn.org/stable/modules/cross_validation.html


<img src="figuras/cross-validation.png" alt="Drawing" style="width: 1300px;"/>


Se entrenan cada uno de los modelos, se guarda su resultado y se comparan gráficamente.

In [None]:
from sklearn.model_selection import KFold, cross_val_score, GridSearchCV

# Entreno con validación cruzada
for scoring in error_metrics:
    print('Métrica de evaluación: ', scoring)
    for name, model in models:
        print('Modelo ', name)
        cross_validation = KFold(n_splits=num_folds, shuffle=False)
        cv_results = cross_val_score(model, X_train, y_train, cv=cross_validation, scoring=scoring)
        results.append(cv_results)
        names.append(name)
        resume = (name, cv_results.mean(), cv_results.std())
        msg.append(resume)
    print(msg)

    # Comparar resultados entre algoritmos
    fig = plt.figure()
    fig.suptitle('Comparación de algoritmos con métrica de evaluación: %s' %scoring)
    ax = fig.add_subplot(111)
    ax.set_xlabel('Modelos candidatos')
    ax.set_ylabel('%s' %scoring)
    plt.boxplot(results)
    ax.set_xticklabels(names)
    plt.show()

    results = []


# PASO 5:  Ajustar hiperparámetros

Pasos para realizar el hiperajuste de los parámetros:
* Especificar el modelo (modelos) a ajustar.
* Especificar una métrica para optimizar.
* Definir los rangos de los parámetros de búsqueda: *params*
* Asignar un método de validación: *KFold*
* Encontrar los Hiperparámetros con los datos de validación: *X_val*

In [None]:
modelo = GradientBoostingRegressor()
scoring='r2'
params = {
    # Number of trees in random forest
    'n_estimators': [500, 800, 1000, 1200],  # default=100
    'learning_rate': [0.1, 0.01],
     # Maximum number of levels in tree
    'max_depth': [2, None],  #deafult = None
     # Method of selecting samples for training each tree
}


# Búsqueda de la mejor combinación de hiperparámetros
cross_validation = KFold(n_splits=5, shuffle=False)
my_cv = cross_validation.split(X_val)
gsearch = GridSearchCV(estimator=modelo, param_grid=params, scoring=scoring, cv=my_cv, verbose=2)
gsearch.fit(X_val, y_val)

# Imprimo el mejor resultado
print("Mejor resultado: %f utilizando los siguientes hiperparámetros %s" % (gsearch.best_score_, gsearch.best_params_))
means = gsearch.cv_results_['mean_test_score']
stds = gsearch.cv_results_['std_test_score']
params = gsearch.cv_results_['params']

# PASO 5: Evaluación final del modelo


Finalmente, se realizan las predicciones de generación fotovoltaica.

Métricas de evaluación:
  * RMSE
  * R2

    
Se entrena ``.fit()`` al modelo con los hiperparámetros óptimos encontrados en el apartado anterior y acto seguido se realizan las predicciones con el método ``.predict()``. 

In [24]:
# Entrenamos el modelo seleccionado con los hyperparámetros óptimos.
modelo_final = GradientBoostingRegressor(n_estimators=500, learning_rate=0.01, max_depth=2)
modelo_final.fit(X_train,y_train)  # Se entrena al modelo 
y_predict = modelo_final.predict(X_test)  # Se calculan las predicciones


In [None]:
y_predict

In [None]:
# Error RMSE de test data
import math
from sklearn.metrics import mean_squared_error, r2_score

math.sqrt(mean_squared_error(y_test, y_predict))


In [None]:
r2_score(y_test, y_predict)

## 9. Graficar resultados obtenidos. 

In [None]:
# Plot y_predict vs y_test

x = range(len(y_predict))
plt.figure(figsize=(20,5))
plt.xlabel('tiempo', size=15)
plt.ylabel('Energía producida (kWh)', size=15)
plt.plot(x, y_predict, alpha=0.4, color='blue', label='PV predict')
plt.plot(x, y_test, alpha=0.4, color='red',  label='PV real')
plt.title('Predicción vs Real')
plt.legend()
plt.show()

### Necesitamos hacer Zoom in!!

Si fuera necesario, instalar la librería Plotly ``!pip install plotly``


In [None]:
# !pip install plotly

In [None]:
import plotly.graph_objects as go  # Importamos la librería de plotly
import numpy as np

# Convierto y_test en formato numpy array para poder graficarlo con plotly
y_test= np.array(y_test)

init = list(range(len(y_predict)))
y_predict_plot = pd.DataFrame(data=y_predict, index=init, columns=['predict'])
y_test_plot = pd.DataFrame(data=y_test, index=init, columns=['test'])


# Creamos la figura
fig = go.Figure()
fig.add_trace(go.Scatter(x=init, y=y_predict_plot['predict'][init],
                    mode='lines',
                    name='PV predicción'))
fig.add_trace(go.Scatter(x=init, y=y_test_plot['test'][init],
                     mode='lines', name='PV real'))


# Editamos la figura
fig.update_layout(autosize=False,
                  width=1000,
                    height=500,
                    title='Predicción vs Real',
                   xaxis_title='Periodos',
                   yaxis_title='Energía (kWh)')


fig.show()

### Features/atributos más importantes 

¿Cuales son las features que tienen más peso es este ejemplo? 

## Guardar el modelo con joblib

In [None]:
import joblib

# save the model to disk
filename = 'dataset\modelo-final-pv'
joblib.dump(modelo_final, filename)  # guardo el modelo

modelo_final

## Cargo el modelo 

[Joblib] nos permite guardar nuestro modelo ya entrenado para utilizarlo cuando lo necesitemos. 

[Joblib]: http://exponentis.es/persistencia-de-modelos-en-python-como-guardar-tu-modelo-entrenado-de-machine-learning

In [None]:

# load the model from disk
loaded_model = joblib.load(filename)

# Cargamos el conjunto de datos de entrada
dataset_prueba = pd.read_excel('dataset/pv-prueba.xlsx')
dataset_prueba



In [None]:
resultados = loaded_model.predict(dataset_prueba)
resultados

In [None]:
pv_real = [-0.01, -0.009, -0.009, -0.008, -0.009, -0.009, -0.009, -0.007, 0.076, 0.259, 0.965,
           1.674, 2.106, 3.376, 2.681, 2.127, 3.617, 3.344, 2.223, 0.25, -0.008, -0.009, -0.008, -0.008]

In [None]:
# Plot y_predict vs y_test

x = range(len(resultados))
plt.figure(figsize=(20,5))
plt.xlabel('tiempo', size=15)
plt.ylabel('Energía producida (kWh)', size=15)
plt.plot(x, resultados, alpha=0.4, color='blue', label='PV predict')
plt.plot(x, pv_real, alpha=0.4, color='red',  label='PV real')
plt.title('Predicción vs Real')
plt.legend()
plt.show()