![alt text](img/MIoT_ML.png "MIoT_ML")
# Unidad 04  Entrenamiento de Modelos de Aprendizaje Automático

El objetivo principal de esta práctica es el desarrollo, optimización y evaluación de un modelo de Aprendizaje Automático.

El Notebook contiene varios ejercicios sencillos. Debéis desarrollarlos durante la clase y subirlos al aula virtual.

## Referencias útiles para la práctica
1. API Pandas: [https://pandas.pydata.org/docs/reference/index.html](https://pandas.pydata.org/docs/reference/index.html)
2. API Scikit-learn: [https://scikit-learn.org/stable/api/index.html](https://scikit-learn.org/stable/api/index.html)
3. Dataset para el ejercicio: [https://www.kaggle.com/datasets/camnugent/california-housing-prices](https://www.kaggle.com/datasets/camnugent/california-housing-prices)
4. Géron, Aurélien. Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. " O'Reilly Media, Inc.", 2022.
5. Bergstra, J., & Bengio, Y. (2012). Random search for hyperparameter optimization. Journal of machine learning research, 13 (2). *Para profundizar en la optimización de hiperparámetros*
   
## 1. Flujo de trabajo básico en problemas de Aprendizaje Automático (*ML workflow*)
A la hora de enfrentarnos a un nuevo problema de Aprendizaje Automático (ML), existen una serie de pasos típicos y comunes que debemos afrontar:
1. Entender el problema y su contexto.
2. Obtener los datos (histórico).
3. Explorar, analizar y entender los datos.
4. Preparar los datos para los modelos.
5. Seleccionar, optimizar y entrenar los modelos ML.
6. Evaluar y presentar el modelo seleccionado.
7. Desplegar, monitorizar y mantener la solución.

En esta unidad nos centraremos en los pasos 5 y 6 del flujo de trabajo.

## 2. Carga y partición de datos
### 2.1. Carga de los datos
Cargaremos los datos generados durante la Unidad02, almacenados al finalizar la misma. Suponemos que se han mantenido los nombres generados durante dicha unidad, y que los datos están almacenados en el directorio raíz.

- Características de entrada preprocesadas (*Inputs*) de las observaciones del conjunto de entrenamiento (*preprocessing_trainset_inputs.csv*).
- Etiquetas de salida (*Outputs*) de las observaciones del conjunto de entrenamiento (*trainset_ouputs.csv*).
- Características de entrada preprocesadas (*Inputs*) de las observaciones del conjunto de Test (*preprocessing_testset_inputs.csv*).
- Etiquetas de salida (*Outputs*) de las observaciones del conjunto de Test (*testset_outputs.csv*).

In [54]:
# pandas library
import pandas as pd
try:
    import pandas as pd
except ImportError as err:
    !pip install pandas
    import pandas as pd


training_inputs = pd.read_csv("./preprocessing_trainset_inputs.csv", index_col="idx")
training_outputs = pd.read_csv("./trainset_ouputs.csv", index_col="idx")
print("Longitud del conjunto de entrenamiento:", len(training_inputs))

testing_inputs = pd.read_csv("./preprocessing_testset_inputs.csv", index_col="idx")
testing_outputs = pd.read_csv("./testset_outputs.csv", index_col="idx")
print("Longitud del conjunto de test:", len(testing_inputs))

Longitud del conjunto de entrenamiento: 13758
Longitud del conjunto de test: 5916


### 2.2. Creación del conjunto de validación

Vamos a dividir el conjunto de test original en dos conjuntos de igual tamaño: el conjunto de validación, que emplearemos para seleccionar los hiperparámetros que den mejores resultados; y el conjunto de test propiamente dicho, que emplearemos para medir la calidad del modelo.

In [55]:
try:
    from sklearn.model_selection import train_test_split
except ImportError as err:
    !pip install sklearn
    from sklearn.model_selection import train_test_split

SEED=1234

# dividimos el conjunto de test original: testing_inputs
test_inputs, val_inputs = train_test_split(testing_inputs, test_size=0.5, train_size=0.5, random_state=SEED, shuffle=True)

# generamos los outputs correspondientes a los dos conjuntos creados
val_outputs = testing_outputs.loc[val_inputs.index]
print("Longitud del conjunto de validación:", len(val_outputs))

test_outputs = testing_outputs.loc[test_inputs.index]
print("Longitud del conjunto de test:", len(test_outputs))

Longitud del conjunto de validación: 2958
Longitud del conjunto de test: 2958


## 3. Creación y evaluación de un modelo básico

### 3.1. Selección de una métrica de evaluación

Para medir la calidad del modelo que vamos a desarrollar, necesitamos seleccionar una métrica que nos dé un valor que cuantifique la diferencia entre los datos conocidos del conjunto de test y los datos predichos por el modelo. En nuestro caso, vamos a emplear la métrica Root Mean Squared Error (en Scikit-learn está disponible mediante la función "root_mean_squared_error").

![alt text](img/RMSE.png "RMSE")

In [56]:
from sklearn.metrics import root_mean_squared_error


### 3.2. Creación y evaluación de un modelo básico
#### 3.2.1. Creación de un modelo de regresión lineal

Como dijimos en la unidad anterior, en la vida real normalmente no programaremos un modelo, sino que eligiremos uno de los muchos que hay en las librerías conocidas, como Scikit-learn. En este caso, vamos a elegir un modelo básico de regresión lineal multivariable (varios atributos de entrada), que en Scitkit-learn es implementado por la clase **LinerRegression**. Y llamaremos a su función *fit* pasándole las entradas y los valores reales (del conjunto de entrenamiento) para que entrene el modelo con esos datos y ajuste los parámetros del modelo.

**Nota**: se puede añadir al propio pipeline de preprocesado

In [57]:
from sklearn.linear_model import LinearRegression

model_lin_reg = LinearRegression()
model_lin_reg.fit(training_inputs, training_outputs)


#### 3.2.2. Evaluación con el dataset de entrenamiento

Una vez entrenado el modelo con el conjunto de entrenamiento, podemos ver qué tal es su desempeño sobre el conjunto de entrenamiento (midiéndolo con la métrica RMSE). El grado de acierto sobre las primeras muestras:


In [58]:

training_predictions = model_lin_reg.predict(training_inputs)

print("Primeras 5 observaciones del entrenamiento")
for real, pred in zip(training_predictions[:5].round(-2) ,training_outputs.iloc[:5].values):
    print(f"Valor real: {real}, valor predicho: {pred}. Diferencia en absoluto{abs(real-pred)}. Porcentaje desvío: {(abs(real-pred)*100/real).round(2)}%")

# lin_reg_rmse = root_mean_squared_error(traini)

Primeras 5 observaciones del entrenamiento
Valor real: [280200.], valor predicho: [335400.]. Diferencia en absoluto[55200.]. Porcentaje desvío: [19.7]%
Valor real: [287700.], valor predicho: [470000.]. Diferencia en absoluto[182300.]. Porcentaje desvío: [63.36]%
Valor real: [207700.], valor predicho: [170800.]. Diferencia en absoluto[36900.]. Porcentaje desvío: [17.77]%
Valor real: [140400.], valor predicho: [225000.]. Diferencia en absoluto[84600.]. Porcentaje desvío: [60.26]%
Valor real: [198500.], valor predicho: [155300.]. Diferencia en absoluto[43200.]. Porcentaje desvío: [21.76]%


Y el grado de acierto sobre todo el dataset de entrenamiento.

In [59]:

rmse_train = root_mean_squared_error(training_outputs, training_predictions)
print(f"RMSE de entrenamiento con modelo de regresión lineal: {rmse_train.round(2)}")

RMSE de entrenamiento con modelo de regresión lineal: 64102.07


#### 3.2.3. Evaluación con un conjunto de datos no visto previamente

Veamos ahora cómo se comporta el modelo con un conjunto de datos que no ha visto durante el entrenamiento, por ejemplo, el conjunto de validación.

In [60]:
# Evaluación con el dataset de Validación para el modelo de regresión lineal
val_predictions = model_lin_reg.predict(val_inputs)
rmse_val_lr = root_mean_squared_error(val_outputs, val_predictions)
print(f"RMSE de Validación con modelo de regresión lineal: {rmse_val_lr.round(2)}")


RMSE de Validación con modelo de regresión lineal: 63616.94


### 3.3. Creación y evaluación de otro modelo (DecisionTree)

Veamos ahora otro modelo de predicción, un árbol de decisión.

#### 3.3.1. Creación del modelo de árbol de decisión

Para esta tarea, tenemos la clase *DecisionTreeRegressor* del Scikit-learn.

In [61]:
from sklearn.tree import DecisionTreeRegressor
model_tree = DecisionTreeRegressor(random_state=SEED)
model_tree.fit(training_inputs, training_outputs)


#### 3.3.2. Evaluación con el dataset de entrenamiento

Una vez entrenado el modelo con el conjunto de entrenamiento, podemos ver qué tal es su desempeño sobre el conjunto de entrenamiento (midiéndolo con la métrica RMSE). El grado de acierto sobre las primeras muestras y sobre todo el conjunto de entrenamiento es:


In [62]:
training_predictions = model_tree.predict(training_inputs)

print("Primeras 5 observaciones del entrenamiento")
for real, pred in zip(training_predictions[:5].round(-2),training_outputs.iloc[:5].values):
    print(f"Valor real: {real}, valor predicho: {pred}. Diferencia en absoluto{abs(real-pred)}. Porcentaje desvío: {(abs(real-pred)*100/real).round(2)}%")

rmse_train = root_mean_squared_error(training_outputs, training_predictions)
print(f"RMSE de entrenamiento con modelo de árbol de decisión: {rmse_train.round(2)}")



Primeras 5 observaciones del entrenamiento
Valor real: 335400.0, valor predicho: [335400.]. Diferencia en absoluto[0.]. Porcentaje desvío: [0.]%
Valor real: 470000.0, valor predicho: [470000.]. Diferencia en absoluto[0.]. Porcentaje desvío: [0.]%
Valor real: 170800.0, valor predicho: [170800.]. Diferencia en absoluto[0.]. Porcentaje desvío: [0.]%
Valor real: 225000.0, valor predicho: [225000.]. Diferencia en absoluto[0.]. Porcentaje desvío: [0.]%
Valor real: 155300.0, valor predicho: [155300.]. Diferencia en absoluto[0.]. Porcentaje desvío: [0.]%
RMSE de entrenamiento con modelo de árbol de decisión: 0.0


**¿Qué ha pasado? ¿Cómo puede ser que no tenga ningún error?**

**EJERCICIO**
Explica en una celda de texto qué puede estar pasando para que no exista error



In [63]:
# EJERCICIO
# Explica en esta celda de texto que puede estar pasando para que no exista error





#### 3.3.3. Evaluación con un conjunto de datos no visto previamente

Veamos ahora cómo se comporta el modelo con un conjunto de datos que no ha visto durante el entrenamiento, por ejemplo, el conjunto de validación.

In [64]:

val_predictions = model_tree.predict(val_inputs)
rmse_val_dt = root_mean_squared_error(val_outputs, val_predictions)
print(f"RMSE de Validación con el modelo árbol de decisión: {rmse_val_dt.round(2)}")

RMSE de Validación con el modelo árbol de decisión: 76521.31


### 3.4. Creación y evaluación de otro modelo (RandomForest)

Veamos ahora otro modelo de predicción, un RandomForest.

Para esta tarea, tenemos la clase *RandomForestRegressor* del Scikit-learn.

In [65]:
from sklearn.ensemble import RandomForestRegressor
import numpy as np
    
model_forest = RandomForestRegressor(n_estimators=100, random_state=SEED)
model_forest.fit(training_inputs, np.array(training_outputs).ravel())
training_predictions = model_forest.predict(training_inputs)

print("Primeras 5 observaciones del entrenamiento")
for real, pred in zip(training_predictions[:5].round(-2),training_outputs.iloc[:5].values):
    print(f"Valor real: {real}, valor predicho: {pred}. Diferencia en absoluto{abs(real-pred)}. Porcentaje desvío: {(abs(real-pred)*100/real).round(2)}%")

rmse_train = root_mean_squared_error(training_outputs, training_predictions)
print(f"RMSE de entrenamiento con modelo de random forest: {rmse_train.round(2)}")

val_predictions = model_forest.predict(val_inputs)
rmse_val_rf = root_mean_squared_error(val_outputs, val_predictions)
print(f"RMSE de Validación con el modelo random forest: {rmse_val_rf.round(2)}")


Primeras 5 observaciones del entrenamiento
Valor real: 322700.0, valor predicho: [335400.]. Diferencia en absoluto[12700.]. Porcentaje desvío: [3.94]%
Valor real: 407900.0, valor predicho: [470000.]. Diferencia en absoluto[62100.]. Porcentaje desvío: [15.22]%
Valor real: 174200.0, valor predicho: [170800.]. Diferencia en absoluto[3400.]. Porcentaje desvío: [1.95]%
Valor real: 190000.0, valor predicho: [225000.]. Diferencia en absoluto[35000.]. Porcentaje desvío: [18.42]%
Valor real: 167600.0, valor predicho: [155300.]. Diferencia en absoluto[12300.]. Porcentaje desvío: [7.34]%
RMSE de entrenamiento con modelo de random forest: 20747.85
RMSE de Validación con el modelo random forest: 54909.24


**Conclusión:** Como vemos, el modelo RandomForest da mejores resultados sobre el conjunto de evaluación.

In [66]:
print("RSME LR =", rmse_val_lr, "    RSME DT =", rmse_val_dt, "    RSME RF =", rmse_val_rf)

RSME LR = 63616.93786689843     RSME DT = 76521.31321932255     RSME RF = 54909.242012329436


## 4. Selección de características


#### Filtros

#### Embebidos

#### Wrappers

## 5. Optimización de hiperparámetros
Los algoritmos de ML tienen una serie de parámetros de configuración que afectan al entrenamiento del modelo y posteriormente al desempeño de este (ej. Learning Rate, momento, etc.). Los parámetros por defecto raras veces son los óptimos, y es necesario optimizarlos para cada problema concreto. Este es un proceso muy costoso computacionalmente, y que requiere muchas veces de recursos dedicados. Existen diferentes técnicas para realizar la optimización (ej. GRID, aleatoria, evolutiva, etc.). La más básica es la optimización basada en una búsqueda GRID.

### 5.1. Grid Search

La optimización GRID es la prueba exhaustiva de todas las combinaciones posibles de varios parámetros. Para aplicarla, lo primero que necesitamos es establecer los rangos de valores que queremos probar. La prueba exhaustiva es el equivalente a probar todas las combinaciones empleando bucles “for” anidados. Las optimizaciones de hiperparámetros se hacen y se comparan a través de un conjunto de validación (o empleando validación cruzada), pero nunca contra el conjunto de test).


| ![alt text](img/gridSearch.png "Grid Search")| 
|:--:| 
| **Grid Search**: Búsqueda a través de diferentes valores de dos hiperparámetros. Para cada hiperparámetro se consideran 10 valores diferentes (100 combinaciones distintas). Los contornos azules indican las regiones con mejores resultados, mientras que los rojos son regiones con peores resultados. Fuente de la imagen [wikipedia](https://es.m.wikipedia.org/wiki/Archivo:Hyperparameter_Optimization_using_Grid_Search.svg)|

In [67]:
from sklearn.model_selection import GridSearchCV
import numpy as np

param_grid = [
{'criterion': ["squared_error", "absolute_error"]},
{'max_features': [0.25, 0.5, 0.75, 1.0]}
]

grid_search = GridSearchCV(estimator=model_tree, param_grid=param_grid,
                           cv=[(np.arange(len(training_inputs)), np.arange(len(training_inputs),len(training_inputs)+ len(val_inputs)))])


x=pd.concat([training_inputs, val_inputs])
y=pd.concat([training_outputs, val_outputs])

results=grid_search.fit(x,y)

print(results)
print(grid_search.best_params_)



GridSearchCV(cv=[(array([    0,     1,     2, ..., 13755, 13756, 13757]),
                  array([13758, 13759, 13760, ..., 16713, 16714, 16715]))],
             estimator=DecisionTreeRegressor(random_state=1234),
             param_grid=[{'criterion': ['squared_error', 'absolute_error']},
                         {'max_features': [0.25, 0.5, 0.75, 1.0]}])
{'max_features': 0.75}


#### Random Search


| ![alt text](img/randomSearch.png "Random Search")| 
|:--:| 
| **Random Search**: Búsqueda aleatoria entre diferentes combinaciones de valores para dos hiperparámetros. En este ejemplo se evalúan 100 opciones aleatorias diferentes.Los contornos azules indican las regiones con mejores resultados, mientras que los rojos son regiones con peores resultados. Fuente de la imagen [wikipedia](https://commons.wikimedia.org/wiki/File:Hyperparameter_Optimization_using_Random_Search.svg)|


### 5.2. Validación cruzada (Cross Validation)

Para estar seguros de que la selección de un conjunto de prueba determinado no influye en la medición de la calidad del modelo, se suele recurrir a un procedimiento de validación cruzada. En ese mecanismo se realizan distintas particiones del dataset, por ejemplo N, y se realizan N entrenamientos con su correspondiente evaluación, en cada una de ellas seleccionando una partición distinta como conjunto de test. Luego se estudia la lista de resultados (evaluaciones), y se decide un resultado del modelo de alguna forma (por ejemplo, haciendo la media).

Por supuesto, es posible hacerlo a mano, pero, afortunadamente, Scikit-learn nos ofrece herramientas para hacerlo de forma automática (la función "cross_val_score").


In [75]:
from sklearn.model_selection import cross_val_score
inputs = pd.concat([training_inputs, testing_inputs])
outputs = pd.concat([training_outputs,testing_outputs])
scores = cross_val_score(model_lin_reg, inputs, outputs, cv=5, scoring='neg_mean_squared_error')
root_scores = np.sqrt(-scores)
print(root_scores, "   Media=", root_scores.mean())

[63933.41353326 65927.37589044 67593.07146307 62849.4503759
 62637.14792119]    Media= 64588.09183677144


En el ejemplo anterior elegimos realizar una validación cruzada con 5 particiones, pero, por defecto, las particiones se realizan siguiendo el orden secuencial de las observaciones, sin aleatoriedad ni estratificación. Si queremos hacerlo de forma aleatoria en el atributo de salidas, podemos emplear la clase **KFold** para crear un objeto y dárselo al parámetro $cv$.

In [82]:
from sklearn.model_selection import KFold

skf = KFold(n_splits=5, shuffle=True, random_state=SEED)
scores = cross_val_score(model_lin_reg, inputs, outputs, cv=skf, scoring='neg_mean_squared_error')
root_scores = np.sqrt(-scores)
print(root_scores, "   Media=", root_scores.mean())


[65135.2115836  64077.44078982 65026.10885081 64140.1986569
 63280.32001112]    Media= 64331.855978451415
