# Random Forest

## El problema

Los árboles de decisión nos dejan con una decisión difícil:
- Un árbol profundo con muchas hojas sobreajustará porque cada predicción proviene de datos históricos de solo las pocas casas en su hoja.
- Un árbol poco profundo con pocas hojas tendrá un rendimiento deficiente porque no captura tantas distinciones en los datos en bruto.

Incluso las técnicas de modelado más sofisticadas de hoy en día enfrentan esta tensión entre el subajuste y el sobreajuste. Sin embargo, muchos modelos tienen ideas ingeniosas que pueden conducir a un mejor rendimiento. Veremos el Random Forest (bosque aleatorio) como un ejemplo.

<img src="./img/random_vs_single.png" alt="random_vs_single" width="600">

El Random Forest utiliza muchos árboles y hace una predicción promediando las predicciones de cada árbol. Generalmente, tiene una precisión predictiva mucho mejor que un solo árbol de decisión y funciona bien con parámetros predeterminados.

---
## Implementación

Veamos... vovleremos a preparar nuestros datos

In [None]:
from sklearn.model_selection import train_test_split
import pandas as pd

# Cargar datos
ruta = './data/melb_data.csv'
melbourne_data = pd.read_csv(ruta) 

# Quitar nulos
melbourne_data_filtrada = melbourne_data.dropna(axis=0)

# Elegir target (crear y)
y = melbourne_data_filtrada.Price

# Elegir features
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude']

# Crear X
X = melbourne_data_filtrada[melbourne_features]

train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)

Y ahora vamos a constuir el modelo Random Forest. Lo primero que notaremos es que importaremos una clase distinta de Scikit Learn

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

In [None]:
bosque = RandomForestRegressor(random_state=1)
bosque.fit(train_X, train_y)
preds = bosque.predict(val_X)
print(mean_absolute_error(val_y, preds))

## Conclusión

Probablemente haya margen para mejorar aún más, pero esto es una gran mejora en comparación con el mejor error del árbol de decisión de 250,000. Hay parámetros que nos permiten cambiar el rendimiento del Bosque Aleatorio de manera similar a como cambiamos la profundidad máxima del árbol de decisión individual. Pero una de las mejores características de los modelos de Bosque Aleatorio es que generalmente funcionan razonablemente bien incluso sin este ajuste.