# Bosques aleatorios

Los árboles de decisión son un buen método de aprendizaje supervisado. Su **interpretabilidad** es de gran ayuda para ayudarnos a entender **por qué** toma una decisión de clasificación específica. Sin embargo, tienen una desventaja bastante seria: tienden a crear modelos con **bajo sesgo y alta varianza**. Esto lo que quiere decir es que, en general, **tienden a sobreajustarse** al dataset de entrenamiento y, por ende, su desempeño con un dataset de prueba puede volverse pobre.

Veamos un ejemplo con el dataset de los lirios, y comparemos los resultados de un árbol de decisión contra los de la regresión logística.

## Alto sesgo / baja varianza
En este aspecto, los árboles de decisión son el **opuesto a la regresión logística sin regularización**, la cual tiene **alto sesgo pero baja varianza**. Al regularizar la regresión logística, aceptamos un incremento leve en la varianza para lograr una mayor reducción del sesgo.

El *cómo hacer* ese "intercambio" de sesgo por varianza con modelos de árboles ha sido objeto de estudio por mucho tiempo. Varias soluciones parciales se han planteado y hoy son parte de las bibliotecas de entrenamiento tradicional, incluyendo ideas como:

- Limitar la profundidad del árbol de decisión a un número máximo de niveles
- Requerir un tamaño mínimo de partición para evaluar predicados
- Requerir una cantidad mínima de ganancia de información para un predicado
- "Recortar" (*pruning*) ciertas ramas del árbol resultante

Estas soluciones tienden a mejorar la calidad de los modelos resultantes, pero no resuelven el problema de fondo en su totalidad.

Hoy estudiaremos dos **técnicas generales** que, aunque son aplicables a cualquier modelo de aprendizaje supervisado, tienen excelentes resultados al aplicarse a árboles de decisión. De hecho, tienden a producir clasificadores de **altísima calidad**, rara vez superados por otros métodos. La unión de estas técnicas la conocemos como un **bosque aleatorio** (*random forest* en inglés):<br>&nbsp;



<center><b>Random Forest = Bootstrap aggregation + Random subspaces</b></center>

## Ingrediente 1: agregación bootstrap

Mucho se ha investigado sobre **cómo combinar distintos modelos en uno solo**. Por ejemplo, si tenemos un dataset $D$, podemos entrenar con este distintos modelos de regresión logística, de árboles de decisión, vecinos cercanos, redes neuronales, SVMs, etc. y queremos combinarlos para producir un **modelo de conjunto** o *ensemble* con la expectativa de que **produzca mejores resultados** que los métodos individuales por separado.

Los métodos de modelos de conjunto o *ensemble* plantean soluciones a las dos siguientes preguntas:

1. ¿Cómo entreno cada modelo individual para que aporte lo mejor de sí al conjunto? 

2. ¿Cómo combino las predicciones de mis modelos en una sola predicción final?

Respondamos primero la pregunta (2): si ya tenemos los $K$ modelos entrenados, podemos simplemente ponerlos a **votar** y producir como salida la clase mayoritaria (en el caso de clasificación), o tomar **la media** de las salidas (en el caso de regresión).

La respuesta a la pregunta (1) es más delicada. Si entrenamos $K$ árboles de decisión sobre el mismo datset $D$, obtendremos **el mismo árbol de decisión repetido** $K$ **veces**, lo cual no aportaría absolutamente nada.

La solución a esto es utilizar **el bootstrap**, una técnica estadística de **resampling** que se utiliza para evaluar la calidad de un estimador. El procedimiento es el siguiente: tenemos un dataset $D$ de $N$ filas y queremos entrenar $K$ árboles de decisión distintos, entonces generaremos $K$ "datasets aleatorios" $\hat{D}_1, \hat{D}_2, ..., \hat{D}_K$ cada uno de tamaño $N$, en el que las filas son **muestreadas con reemplazo**. Esto lo que quiere decir es que la fila $D_i$ podría aparecer en $\hat{D}_1$ pero no en $\hat{D}_2$ o podría aparecer en $\hat{D}_3$ **más de una vez**. 

Veamos un ejemplo de como se vería **el bootstrap** en un pequeño dataset de seis filas:

Entonces, una vez hemos generado los datasets aleatorios $\hat{D}_1, \hat{D}_2, ..., \hat{D}_K$, procedemos entonces a entrenar $K$ modelos distintos, uno con cada dataset aleatorio. 


## Ingrediente 2: subespacios aleatorios

El segundo ingrediente en los bosques aleatorios es el de los subespacios aleatorios. Esta técnica la volveremos a ver cuando estudiemos regularización en redes neuronales bajo el nombre de **dropout**. 

La idea es parecida a la anterior: para cada uno de los datasets aleatorios $\hat{D}_1, \hat{D}_2, ..., \hat{D}_K$, vamos a seleccionar un subconjunto pequeño de columnas al azar, de modo que el modelo correspondiente no utilice todas las columnas posibles, sino solamente las que le fueron asignadas. 

## Bosques aleatorios en ``scikit-learn`` 

