![Astrofisica Computacional](../logo.PNG)

---
## 25. El problema del sobre-ajuste de los Árboles de Decisión.


Eduard Larrañaga (ealarranaga@unal.edu.co)

---

### Resumen

En este cuaderno se ilustrará el problema del sobre-ajuste de los árboles de decisión.

---

El sobre-ajuste de datos hace referencia a que un algoritmo intenta incorporar todos los puntos del conjunto de datos (incluso los más aislados). Esto puede tener como consecuencia que se pierde el poder de predicción general. 


En este cuaderno ilustraremos estos inconvenientes en el algoritmo de árbol de decisión cuando su entrenamiento no se supervisa.

### Cargando los datos

De nuevo utilizaremos el archivo `'sdss_galaxy_colors.npy'`con los datos fotométricos de las galaxias. 


In [1]:
import numpy as np

data = np.load('sdss_galaxy_colors.npy')
data

array([(19.84132, 19.52656, 19.46946, 19.17955, 19.10763, b'QSO', 0.539301  , 6.543622e-05),
       (19.86318, 18.66298, 17.84272, 17.38978, 17.14313, b'GALAXY', 0.1645703 , 1.186625e-05),
       (19.97362, 18.31421, 17.47922, 17.0744 , 16.76174, b'GALAXY', 0.04190006, 2.183788e-05),
       ...,
       (19.82667, 18.10038, 17.16133, 16.5796 , 16.19755, b'GALAXY', 0.0784592 , 2.159406e-05),
       (19.98672, 19.75385, 19.5713 , 19.27739, 19.25895, b'QSO', 1.567295  , 4.505933e-04),
       (18.00024, 17.80957, 17.77302, 17.72663, 17.7264 , b'QSO', 0.4749449 , 6.203324e-05)],
      dtype=[('u', '<f8'), ('g', '<f8'), ('r', '<f8'), ('i', '<f8'), ('z', '<f8'), ('spec_class', 'S6'), ('redshift', '<f8'), ('redshift_err', '<f8')])

Las características incorporados en el conjunto de datos son:

| dtype | Feature|
|:-:|:-:|
|`u` |u band filter|
|`g` |g band filter|
|`r` |r band filter|
|`i` |i band filter|
|`z` |z band filter|
|`spec_class` |spectral class|
|`redshift` |redshift|
|`redshift_err` |redshift error|


El número de galaxias en el conjunto es

In [None]:
n = data.size
n

50000

---
### Entrenamiento del Árbol de Decisión

Como se vió en la práctica anterior, los árboles de decisión tienen ventajas como

- Son fáciles de implementar 
- Son fáciles de interpretar
- Los datos no requieren mucha preparación 
- Usualmente los árboles de decisión son eficientes computacionalmente.

Sin embargo, los árboles de decisión también tienen limitaciones. La mayor de ellas es que tienden a sobre-ajustar los datos si no se supervisa el proceso de entrenamiento. Con el sobre-ajuste, se intentará crear un árbol supercomplicado que intenta dar cuenta de todos los datos de entrada. 


El primer paso para el entrenamiento del árbol es definir los conjuntos de entrada 'features' y 'targets'.

In [None]:
# Function returning the 4 color indices and the redshifts

features, targets = ...


Luego, deben dividirse estos arreglos en los subconjuntos de entrenamiento y prueba. Puede escogerse una división de (50:50)

In [None]:
split_n = n//2
train_features = features[:split]
test_features = features[split:]
train_targets = ...
trest_targets = ...

Ahora se utilizara de nuevo la función `sklearn.tree.DecisionTreeRegressor`. Sin embargo, en esta ocasión se utilizará el argumento **tree depth** para reducir el sobre-ajuste. Este argumento restringe el número de nodos en el árbol. Incialmente, definiremos una profundidad máxima de 5,

In [None]:
from sklearn.tree import DecisionTreeRegressor

dec_tree = DecisionTreeRegressor(max_depth=5)


Utilizando el método `.fit()` se entrenará el algoritmo utilizando los subconjuntos correspondiente.

Información detallada de los árboles de decisión se puede encontrar en 

https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

In [None]:
dec_tree.fit(train_features, train_targets)

#### Prueba del Árbol de Decisión

Una vez que se construye en árbol de decisión, se aplicará el método `.predict()` sobre el conjunto de prueba,

In [None]:
predictions = dec_tree.predict(test_features)

Al igual que se hizo anteriormente, se utilizará la mediana delos residuos para medir la precisión del algoritmo,

\begin{equation}
\text{eval_dec_tree} = \text{median}\left\lbrace \left| \text{predictions}_i - \text{targets}_i \right|\right\rbrace
\end{equation}



In [None]:
eval_dec_tree = ...

#### Sobre-Ajuste y Profundidad del Árbol 

Para observar el sobre-ajuste de los datos, se examinará el papel de la profundidad del árbol en la precisión del ajuste. Se podría esperar que a mayor profundidad, mejor sería la precisión. Sin embargo, una mayor profundidad resultará en un sobre-ajuste de los datos de entrenamiento que a su vez implicará una menor precisión en la predicción del algoritmo.

**1. Defina una función que cree el árbol de decisión  con profundidades en el rango de 0 a 40.La función debe predecir el corrimiento al rojo de los conjuntos de entrenamiento y de prueba y calcular la mediana de los residuos para evaluar el algoritmo.**

**2. Grafique la mediana de los residuos vs profundidad del árbol.**

El gráfico debe lucir como este:

<center>
<img src="https://groklearning-cdn.com/problems/8Cet6iLGMbP2L8t7SVkEEg/overfitting.png" width=450>
</center>

Este gráfico muestra como la precisión sobre el conjunto de entrenamiento mejora con la profundidad. En efecto,  **para profundidades superiores a 27, el error es cero!**

Sin embargo, la predicción sobre el conjunto de prueba mejora inicialmente, pero luego empeora para grandes profundidades. Como se puede observar de la figura, para profundidades mayores que 19, el arbol de decisión comienza a presentar un sobre-ajuste de los datos de entrenamiento que se manifiesta como un aumento en el error de las predicciones en el conjunto de prueba. 

De acuerdo con esta información, para el conjunto de datos de galaxias es posible prevenir el sobre-ajuste al utilziar una profundidad máxima alrededor de 19 o 20.