<img src="https://raw.githubusercontent.com/pelaokano/inel_ML/main/Modulo4/logo_inel.png">

<h1 align="center">Machine Learning Aplicado a la Ingeniería Eléctrica</h1>

<h2 align="center">Ejercicio Clasificación</h2>

# EJERCICIO
# Aprendizaje supervisado: Clasificación.

## *Clasificación binaria de precios de electricidad en el Mercado Diario*

**Objetivo:** Imaginando que estamos a medioados de 2020, predecir en qué horas el precio de la electricidad en el Mercado Diario será elevado, siendo la **clase 0** para valores menores a 40 €, y **clase 1** para valores mayores a 40 €.  Se utilizará el contexto y datos históricos del **2020** de la variable target que queremos clasificar y de otros atributos (features) que pueden ayudar a predecir modelo.


Una técnica ampliamente adoptada para tratar conjuntos de datos muy desequilibrados se denomina remuestreo. Consiste en eliminar muestras de la clase mayoritaria (submuestreo) y/o añadir más ejemplos de la clase minoritaria (sobremuestreo).

<img src="https://raw.githubusercontent.com/pelaokano/inel_ML/main/Modulo5/imagenes/ejercicio-clasificacion.png" alt="Drawing" style="width: 800px;"/>



### Antes de empezar:

* En el archivo **precios.xlsx** se encuentra el conjunto de datos de entrada de este ejemplo (atributos + etiqueta). 
* Datos del 2 de enero 2020 al 26 de junio de 2020.


# Pasos para crear un modelo de machine learning

<img src="https://raw.githubusercontent.com/pelaokano/inel_ML/main/Modulo5/imagenes/creacion-modeloML.png" alt="Drawing" style="width: 800px;"/>

## **1. Importar librerías y datos**


In [1]:
# Importamos las librerías
import sklearn
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# Cargamos el conjunto de datos de entrada
dataset=pd.read_excel('precios.xlsx')

## **2. Comprender los datos**

Es necesario visualizar y comprender los datos con los que vamos a trabajar, así como conocer sus características. 

1. ¿Cuántos datos hay? ¿Cuántos atributos hay en los datos?  
2. ¿Qué significan?
3. ¿Falta algún dato?
4. ¿Están balanceadas las etiquetas? 
4. Resumen estadístico del conjunto de datos de entrada.

<div class="alert">
    <b> ¿Cuántos datos hay?¿Cuántos atributos hay en los datos? </b>
</div>



<div class="alert alert-success">
    <b> ¿Qué significan? </b>
</div>

* ***[Hora, Día, Mes]*** Hora, día y mes de cada una de las observaciones. Son valores enteros *int64*.

* ***[Hidraul, Eolica, Ciclocomb, Cogener, Nuclear, Carbon, Biomas]*** se refiere a la energía programada horaria del programa PVP en el mercado diario por tipo de producción del día anterior.  Son valores reales *float*.

* ***[Demanda]*** es la totalidad de energía programada en el mercado diario eléctrico en España el día anterior.  Son valores reales *float*.

* ***[precio-elect-dia-anterior]*** precio de la electricidad el día anterior. Son valores reales *float*.

* ***[MIBGAS-dia-anterior]*** precio del gas natural el día anterior. Son valores reales *float*.

* ***[Clases]*** son las etiquetas de precio que queremos predecir. Son valores enteros *int64*.




<div class="alert alert-success">
    <b> ¿Falta algún dato? De ser así, indica cuántos y en que atributo </b>
</div>




<div class="alert alert-success">
    <b> ¿Están balanceadas las etiquetas? </b>
</div>


### Resampling 

Una técnica ampliamente adoptada para tratar conjuntos de datos muy desequilibrados se denomina remuestreo. Consiste en eliminar muestras de la clase mayoritaria (submuestreo) y/o añadir más ejemplos de la clase minoritaria (sobremuestreo).

<img src="https://github.com/sbarja/curso-intro-machine-learning-2023/blob/main/figuras/resampling.png?raw=1" alt="Drawing" style="width: 800px;"/>

<div class="alert alert-success">
    <b> Oversampling de la clase minoritaria </b>
</div>


El sobremuestreo puede definirse como añadir más copias de la clase minoritaria. El sobremuestreo puede ser una buena opción cuando no se tiene muchos datos con los que trabajar.

Utilizaremos el módulo de remuestreo de Scikit-Learn para replicar aleatoriamente muestras de la clase minoritaria.

<div class="alert alert-success">
    <b> Grafico de nuevo el balance de clases, para comprobar que efectivamente están balanceadas. </b>
</div>


<div class="alert alert-success">
    <b> Resumen estadístico del conjunto de datos de entrada: </b>
</div>
La estadística descriptiva recolecta y analiza el conjunto de datos de entrada con el objetivo de describir las características y comportamientos de este conjunto mediante las siguientes medidas resumen: número total de observaciones (count), media (mean), desviación estándar (std), valor mínimo (min), valor máximo (max) y los valores de los diferentes cuartiles (25%, 50%, 75%).

## **3. Visualizar los datos**

Una manera visual de entender los datos de entrada. 
1. Histograma
2. Curva de densidad
3. Boxplots
4. Matriz de correlación


<div class="alert alert-success">
    <b>Histograma </b>
</div>


Respresentación gráfica de cada uno de los atributos en forma de barras, donde la superficie de la barra es proporcional a la frecuencia de los valores representados.

<div class="alert alert-success">
    <b> Gráfico de densidades </b>
</div>

Visualiza la distribución de los datos. Es una variable del histograma, pero elimina el ruido, por lo que son mejores para determinar la forma de distribución de un atributo. Lo spicos del gráfico de densidad ayudan a mostrar dónde los valores se concentran más. 

<div class="alert alert-success">
    <b> Boxplots </b>
</div>


El boxplot (diagrama de caja) nos permite identificar los valores atípicos y comparar distribuciones. Además, se conoce como se distribuyen el 50% de los valores (dentro de la caja).


<div class="alert alert-success">
    <b> Matriz de correlación </b>
</div>

Utilizamos el método de Spearman para evaluar la relación monótona entre dos variables contínuas. 

Comparación entre método de [Pearson y Spearman]

[Pearson y Spearman]: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/correlation-and-covariance/a-comparison-of-the-pearson-and-spearman-correlation-methods/


* **¿Qué variable no tiene ninguna correlación con ningún atributo?** 


<div class="alert alert-success">
    <b> La etiqueta es de tipo ´´object´´, por lo que hay que transformarla a numérico </b>
</div>

No podemos ver la correlación con el precio, debemos pasarlo a numérico [LabelEncoder]


[LabelEncoder]: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

<div class="alert alert-success">
    <b> Volvemos a mostrar la matriz de correlación con el valor del precio [1 (muy alto), 0 (normal)] </b>
</div>



## *4. Preparar los datos*

1. Missing data
2. Data cleaning (eliminar outliers).
3. LabelEncoding (ya lo hemos hecho)
4. Feature engineering
5. Transformación.

Primero, divido los datos en **atributos**: X (features) y **etiquetas**: y (target)


<div class="alert alert-success">
    <b> Missing data </b>
</div>


Comprobar si exisiten Nan en los datos de entrada. 

- Se utiliza el método [fillna] de Pandas.

- Más información acerca de cómo imputar valores con [Scikit Learn]

[Scikit Learn]: https://scikit-learn.org/stable/modules/impute.html
[fillna]: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html






<div class="alert alert-success">
    <b> Feature engineering</b>
</div>



Utilizando la matriz de correlación, eliminar los atributos con una correlacion cercana a 0 con la etiqueta **"precio"**. 

* **¿Qué atributo(s) se elimana(n)?** 

## *5. Dividir los datos*
 


<div class="alert alert-success">
    <b> Transformación (escalado) </b>
</div>

* **Escalar los datos utilizando el método de *MinMaxScaler()* dentro del rango [0,1] o StandardScaler()**

<div class="alert alert-success">
    <b> Escalamos los datos de TEST con la media y desviación estandar del dataset de entreno (X_train) </b>
</div>


<div class="alert alert-success">
    <b> Dividimos los datos en entreno en:
        datos de entreno y 
     datos de validación </b>
</div>


## *6. Construcción y evaluación de modelos*

* Seleccionamos **[balanced_accuracy]** como métrica de evaluación. 
* Métricas de evaluación disponibles en [Scikit-Learn].


[Scikit-Learn]: https://scikit-learn.org/stable/modules/model_evaluation.html

[balanced_accuracy]: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html

* Recordar utilizar siempre el mismo random_state para poder comparar resultados. 

<div class="alert alert-success">
    <b> Modelo LogisticRegression</b>
</div>

<div class="alert alert-success">
    <b> Modelo RandomForestClassifier</b>
</div>

<div class="alert alert-success">
    <b> Modelo KNeighborsClassifier</b>
</div>

<div class="alert alert-success">
    <b> Modelo MLPClassifier</b>
</div>

<div class="alert alert-success">
    <b>Cross Validation</b>
</div>

<img src="https://raw.githubusercontent.com/pelaokano/inel_ML/main/Modulo5/imagenes/grid_search_cross_validation.png">

<div class="alert alert-success">
    <b> StratifiedKFold vs KFold</b>
</div>

<img src="https://raw.githubusercontent.com/pelaokano/inel_ML/main/Modulo5/imagenes/kfold.jpeg">

<div class="alert alert-success">
    <b> ¿Cuál obtiene mejores resultados? ¿Qué balanced_accuracy obtiene?</b>
</div>


## *7. Ajustar hiperparámetros*

Pasos para realizar el hiperajuste de los parámetros:
[XGBClassifier] parámeteros

* Métrica para optimizar: *balanced_accuracy*
* Definir los rangos de los parámetros de búsqueda: *params*
* Entrenar con los datos de validación: *X_val*

[XGBClassifier]:https://xgboost.readthedocs.io/en/latest/parameter.html

## *8. Evaluación final del modelo*



Métricas de evaluación:
  * 1. Matriz de confusión
  * 2. Coeficiente de Matthews (MCC)

  
  <div class="alert alert-success">
    <b> Entrena el modelo con los hiperparámetros óptimos encontrados en el apartado anterior y realiza las predicciones. </b>
</div>


<div class="alert alert-success">
    <b> Matriz de Confusión </b>
</div>


<div class="alert alert-success">
    <b> Coeficiente de Mathews </b>
</div>


El MCC utiliza coeficientes de correlación entre -1 y +1. 
* Coeficiente +1 representa una predicción perfecta
* Coeficiente 0 representa una predicción media aleatoria
* Coeficiente -1 representa una predicción inversa. 

### Probamos ahora con Random Forest

<div class="alert alert-success">
    <b> ¿Qué atributos tienen más peso en el modelo? </b>
</div>

Para el caso del Random Forest, el atributo más importante para predecir los precios es la generación de carbón, seguido de la generación hidráulica y del mes del año. En la matriz de correlación, el atributo carbón era el que tenía más correlación con la variable clase. 

<div class="alert alert-success">
    <b> Matriz de Confusión </b>
</div>


<div class="alert alert-success">
    <b> Coeficiente de Mathews </b>
</div>


El MCC utiliza coeficientes de correlación entre -1 y +1. 
* Coeficiente +1 representa una predicción perfecta
* Coeficiente 0 representa una predicción media aleatoria
* Coeficiente -1 representa una predicción inversa. 

<div class="alert alert-success">
    <b> ROC  </b>
</div>


Una técnica ampliamente adoptada para tratar conjuntos de datos muy desequilibrados se denomina remuestreo. Consiste en eliminar muestras de la clase mayoritaria (submuestreo) y/o añadir más ejemplos de la clase minoritaria (sobremuestreo).

<img src="https://raw.githubusercontent.com/sbarja/smart-energy-22-23/main/Figures/roc-auc.png" alt="Drawing" style="width: 800px;"/>

