# Árboles de decisión: Scikit-learn
M2U5 - Ejercicio 1

## ¿Qué vamos a hacer?
- Entrenar un modelo de regresión lineal por árboles de decisión
- Detectar si se produce desviación o sobreajuste en el modelo
- Optimizar los hiper-parámetros con validación
- Evaluarlo sobre el subset de test

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
Vamos a resolver un problema de regresión lineal multivariable similar al de ejercicios anteriores, pero esta vez usando un árbol de decisión para regresión lineal.

Un ejemplo que puedes tener como referencia para este ejercicio: [Decision Tree Regression](https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html)

In [None]:
# TODO: Importa todos los módulos necesarios en esta celda

## Generar un dataset sintético

Genera un dataset sintético con un término de error algo acusado y pocas características, de forma manual o con Scikit-learn:

In [None]:
# TODO: Genera un dataset sintético, con pocas características y un término de error notable
# No añadas término de bias a X

m = 1000
n = 2

X = [...]

Theta_verd = [...]

error = 0.3

Y = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

In [None]:
# TODO: Representa gráficamente en 3D el dataset para asegurarte que el término de error es suficientemente alto

plt.figure(1)

plt.title()
plt.xlabel()
plt.ylabel()

[...]

plt.show()

## Preprocesar los datos

- Reordena los datos aleatoriamente.
- Normalízalos.
- Divídelos en subsets de entrenamiento y test.

*Nota*: De nuevo usaremos K-fold para la validación cruzada.

In [None]:
# TODO: Reordena los datos aleatoriamente, normaliza los ejemplos y dividelos en subsets de entrenamiento y test

## Entrena un modelo inicial

Vamos a comenzar a explorar los modelos de árboles de decisión para regresión con un modelo inicial.

Para ello, entrena un modelo de [sklearn.tree.DecissionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html) sobre el subset de entrenamiento:

In [None]:
# TODO: Entrena un árbol de regresión sobre el subset de entrenamiento con una profundidad máx. de 2

Ahora comprueba la idoneidad del modelo evaluándolo sobre el subset de test:

In [None]:
# TODO: Evalúa el modelo con MSE, RMSE y R^2 sobre el subset de test

y_test_pred = [...]

mse = [...]
rmse = [...]
r2_score = [...]
print('Error cuadrático medio: {%.2f}'.format(mse))
print('Raíz del error cuadrático medio: {%.2f}'.format(rmse))
print('Coeficiente de determinación: {%.2f}'.format(r2_score))

*PREGUNTA:*
*¿Crees que se da desviación o sobreajuste en dicho modelo?*

Para ello, compara su precisión con la calculada sobre el subset de entrenamiento y responde en esta celda:

In [None]:
# TODO: Evalúa el modelo con MSE, RMSE y R^2 ahora sobre el subset de entrenamiento

y_train_pred = [...]

mse = [...]
rmse = [...]
r2_score = [...]
print('Error cuadrático medio: {%.2f}'.format(mse))
print('Raíz del error cuadrático medio: {%.2f}'.format(rmse))
print('Coeficiente de determinación: {%.2f}'.format(r2_score))

Como decíamos, los árboles de decisión tienden a sobreajustar, a ajustarse demasiado a los datos usados para entrenarlo y a veces no poder predecir bien sobre nuevos ejemplos.

Vamos a comprobarlo gráficamente entrenando otro modelo con una profundidad máxima mucho mayor, de 6:

In [None]:
# TODO: Entrena otro árbol de regresión sobre el subset de entrenamiento con profundidad máx. de 6

In [None]:
# TODO: Evalúa el modelo con MSE, RMSE y R^2 sobre el subset de entrenamiento

y_train_pred = [...]

mse = [...]
rmse = [...]
r2_score = [...]
print('Error cuadrático medio: {%.2f}'.format(mse))
print('Raíz del error cuadrático medio: {%.2f}'.format(rmse))
print('Coeficiente de determinación: {%.2f}'.format(r2_score))

Compara la precisión del entrenamiento de este modelo con el anterior (sobre el subset de entrenamiento).

*PREGUNTA:* ¿Es mayor o menor al aumentar la profundidad máxima del árbol?

Ahora vamos a representar gráficamente ambos modelos, para comprobar si sufren desviación o sobreajuste.

Para hacerlo, puedes guiarte por el ejemplo anterior: [Decision Tree Regression](https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html)

In [None]:
# TODO: Representa gráficamente las predicciones de ambos modelos

plt.figure(2)

plt.title([...])
plt.xlabel([...])
plt.ylabel([...])

# Representa en un gráfico de puntos el subset de entrenamiento para la característica 1 y 2 (con formas diferentes)
plt.scatter([...])
plt.scatter([...])
# Representa en un gráfico de puntos el subset de test para la característica 1 y 2 (con formas diferentes), con un color diferente respecto al subset de entrenamiento
plt.scatter([...])
plt.scatter([...])

# Representa en un gráfico de líneas las predicciones de ambos modelos, con colores diferentes y una leyenda para distinguirlos
# Como eje horizontal, usa un espacio lineal de un gran nº de elementos entre el valor máx. y mín. de ambas características de X
x_axis = [...]

plt.plot([...])
plt.plot([...])

plt.show()

Como hemos podido comprobar, generalmente una profundidad máx. demasiado pequeña lleva a un modelo con desviación, un modelo que no es capaz de ajustar suficientemente bien la curva, mientras que una profundidad máx. demasiado alta lleva a un modelo con sobreajuste, un modelo que ajusta demasiado bien la curva, pero que no tiene una buena precisión en ejemplos futuros.

Por tanto, entre todos los hiper-parámetros de los árboles de regresión, tenemos la profundidad máxima, que debemos optimizar por validación. También hay otros hiper-parámetros, como el criterio para medir la calidad de una división, la estrategia para crear esa división, el nº mín. de ejemplos necesario para dividir un nodo, etc.

Por simpleza, vamos a comenzar realizando una validación cruzada sólo para hallar el valor óptimo de la profunidad máxima:

In [None]:
# TODO: Entrena un modelo diferente para cada valor de max_depth considerado sobre un fold diferente

# Valores de max_depth a considerar en un espacio de nºs enteros [1, 8]
max_depths = [...]
print('Profundidades máx. a considerar:')
print(max_depths)

# Crea x splits de K-fold, uno por cada valor de max_depth a considerar
kf = [...]

# Itera sobre los splits, entrena tus modelos y evalúalos sobre el subset de CV generado
linear_models = []
best_model = None
for train, cv in kf.split(X):
    # Entrena un modelo sobre el subset train
    # Evalúalo sobre el subset cv usando su método score()
    # Guarda el modelo con el mejor score en la variable best_model y muestra el alpha del mejor modelo
    alpha = [...]
    print('Profundidad máx. usada:', max_depth)
    
    linear_models.append([...])
    
    # Si el modelo es mejor que el mejor modelo hasta ahora, actualiza el mejor modelo encontrado
    best_model = [...]
    
    print('Profundidad máx. y R^2 del mejor árbol hasta ahora:', max_depth, best_model.score([...]))

## Evaluar el modelo sobre el subset de test

Finalmente, vamos a evaluar el modelo sobre el subset de test.

Para ello, calcula sus métricas de MSE, RMSE y R^2 y representa gráficamente las predicciones del modelo y residuos vs el subset de test:

In [None]:
# TODO: Evalúa el modelo con MSE, RMSE y R^2 sobre el subset de test

y_train_test = [...]

mse = [...]
rmse = [...]
r2_score = [...]
print('Error cuadrático medio: {%.2f}'.format(mse))
print('Raíz del error cuadrático medio: {%.2f}'.format(rmse))
print('Coeficiente de determinación: {%.2f}'.format(r2_score))

In [None]:
# TODO: Representa gráficamente las predicciones del mejor árbol sobre el subset de test y sus residuos

plt.figure(3)

plt.title([...])
plt.xlabel([...])
plt.ylabel([...])

# Representa en un gráfico de puntos el subset de test, mostrando ambas características con una forma diferente
plt.scatter([...])

# Representa en un gráfico de líneas las predicciones del modelo
# Como eje horizontal, usa un espacio lineal de un gran nº de elementos entre el valor máx. y mín. de las características de X_test
x_axis = [...]

plt.plot([...])

# Calcula los residuos y represéntalos como un gráfico de barras sobre el eje horizontal
residuals = [...]

plt.bar([...]

plt.show()