# Modelos de arbol de decision

Los árboles de decisión son componentes básicos de métodos muy avanzados y potentes, como *Random Forests* y *Gradient Boosted trees*.
Esos métodos son a menudo el método de mejor rendimiento cuando se trabaja con conjuntos de datos tabulares.

## ¿Qué es un árbold e decisión?

- Tomemos el dataset de censo y en concreto, los ingresos de la población.

![image-4.png](attachment:image-4.png)

- Al mirar los datos, podríamos obtener un conjunto de reglas de decisión para ayudarnos a clasificar a las personas en diferentes grupos de ingresos.

![image.png](attachment:image.png)

> Esta estructura jerárquica: reglas de decisión basadas en una variable es lo que llamamos un árbol de decisión en el aprendizaje automático.

- Los árboles tienen **nodos**, como el nodo raíz, que son nodos de decisión o nodos divididos porque dividen los datos en dos subconjuntos.

- Y los nodos finales se llaman **hojas** del árbol, los nodos de la hoja, y sostienen los valores de predicción.

## ¿Cómo hacer crecer un árbol de clasificación?

1. Comenzamos con la raíz, que divide el dataset mediante un umbral y se calcula la probabilidad de una clase:
    - El umbral maximizará la separación de las clases.
    - Hay una cantidad que se llama **entropía o la puntuación de Gini** que permite cuantificar qué tan buena es una división.
    - Y automáticamente, el algoritmo encontrará el mejor valor umbral para maximizar la mejora en la entropía después de la división.

![image.png](attachment:image.png)

2. Dividimos un nodo y lo convertimos en un nodo de decisión, añadiendo un umbral que maximiza la separación.

![image-2.png](attachment:image-2.png)

3.Volvemos a repetir el proceso

![image-3.png](attachment:image-3.png)

Se Calcula la evolución de la entropía antes y después de la división y se encuentra la mejor división de esta manera.

A menudo es posible que un árbol de dos niveles como este no sea suficiente.

En conjuntos de datos más complejos, podríamos imaginar que tendríamos que 'cultivar' un árbol más profundo para poder separar perfectamente el conjunto de entrenamiento.

## Regresión con un árbol de decisión

Podemos aplicar las mismas ideas a los árboles de regresión.
- Esta vez, el objetivo será predecir una variable continua en lugar de valores de clase.

![image-2.png](attachment:image-2.png)

1. Here again, we start with the root node, which is a decision node, a split.
- Nos vemos forzados a encontrar un valor de división para X, por lo que podemos dividir en toda la ubicación posible de X.
- En el lado izquierdo de esa división, calcularemos **el valor promedio de la variable de destino Y para todos los puntos de datos que están a la izquierda con respecto a la variable X**.
    - la línea azul representa el valor promedio de todos los puntos en esa región, a la izquierda de la división.
    - Esto se representa por el círculo azul oscuro para un valor fuerte de Y, y azul claro para un valor promedio más bajo.
- La función de predicción de un modelo de regresión con una sola división es esta función *step*, que es básicamente constante por partes.

![image-6.png](attachment:image-6.png)

2. Podemos refinar este árbol de decisión, nuevamente, dividiendo los nodos para tomar decisiones adicionales.

![image-7.png](attachment:image-7.png)

3. Añadimos más divisiones

![image.png](attachment:image.png)


> - Si introducimos más y más divisiones: cada vez que hacemos una nueva división, añadimos un nuevo nodo de hoja y cuantos más nodos de hoja tengamos, más niveles podremos predecir.
    - progresivamente, la función de predicción se está comenzando a aproximar a la forma curvilínea del conjunto de entrenamiento.

So, how deep should we grow the trees?
Is it fine to go until the end?
Or should we stop before splitting each individual data point in the training set?
This is the topic of overfitting because as we will see, if we grow the tree too deep, then we would see that it impacts the generalization performance badly.

#### **Qué tan profundo deberíamos hacer crecer los árboles**
- ¿Está bien ir hasta el final? ¿O deberíamos detenernos antes de dividir cada punto de datos individual en el conjunto de entrenamiento?
- Ambito del **sobreajuste**: 
    - si hacemos crecer el árbol demasiado profundamente, veremos que afecta el rendimiento de la generalización a mal.

**Compensación subajuste / sobreajuste**

![image.png](attachment:image.png)

> En Scikit-Learn, podemos decidir si deseamos controlar o no la profundidad máxima o el número máximo de nodos de hoja.
- Se tienen las dos posibilidades, y tienen un impacto equivalente en controlar la compensación de subajuste-sobreajuste.

## Conclusiones


- Secuencia de reglas de decisión simples: una característica y un umbral a la vez
- No se requiere escalar características numéricas
- `max_depth` controla la compensación entre el subajuste y el sobreajuste.

<br>

- Muy útil como bases para *modelos de conjunto*:
    - Random Forests
    - Gradient Boosting Decision Trees
