<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fbigdatamagazine.es%2Fwp-content%2Fuploads%2F2023%2F02%2FFOTO-OK-BDM-DIG-DATA-MAGAZINE.jpg&f=1&nofb=1&ipt=4061921fa0da07483f83edb036d31f25545b2cae889c7eeefebd576f6e0fe5f4" style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Introducción

Los árboles de decisión te dejan ante una decisión difícil. Un árbol profundo con muchas hojas tenderá al **sobreajuste**, ya que cada predicción se basa únicamente en los pocos datos históricos disponibles en su hoja correspondiente. Pero un árbol poco profundo con pocas hojas tendrá un bajo rendimiento, ya que no logra capturar suficientes distinciones en los datos originales.

Incluso las técnicas de modelado más sofisticadas de la actualidad enfrentan esta tensión entre **subajuste** y **sobreajuste**. Sin embargo, muchos modelos incorporan ideas inteligentes que pueden mejorar el rendimiento. Vamos a estudiar el **bosque aleatorio** (*random forest*) como ejemplo.

El bosque aleatorio utiliza múltiples árboles, y realiza una predicción promediando las predicciones de cada árbol individual. En general, ofrece una precisión predictiva mucho mejor que un único árbol de decisión y funciona bien con los parámetros predeterminados. Si continúas explorando modelos, encontrarás técnicas con rendimientos aún mejores, aunque muchas de ellas son sensibles a una correcta configuración de hiperparámetros.

# Ejemplo

Ya has visto el código para cargar los datos en varias ocasiones. Al finalizar la carga de datos, contamos con las siguientes variables:
- `train_X`
- `val_X`
- `train_y`
- `val_y`

In [None]:
import pandas as pd

# Cargar los datos
melbourne_file_path = '/content/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# Filtrar las filas con valores faltantes
melbourne_data = melbourne_data.dropna(axis=0)

# Seleccionar la variable objetivo y las características
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea',
                      'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# Dividir los datos en conjuntos de entrenamiento y validación, tanto para características como para la variable objetivo
# La división se basa en un generador de números aleatorios. Proporcionar un valor numérico al argumento
# random_state garantiza que obtendremos la misma división cada vez que ejecutemos este script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)


Construimos un modelo de bosque aleatorio de forma similar a como construimos un árbol de decisión en scikit-learn —esta vez utilizando la clase `RandomForestRegressor` en lugar de `DecisionTreeRegressor`.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

191669.7536453626


# Conclusión

Probablemente haya margen para seguir mejorando, pero esta ya es una gran mejora respecto al mejor error obtenido con el árbol de decisión, que fue de 250,000. Existen hiperparámetros que te permiten ajustar el rendimiento del modelo de Bosque Aleatorio, de forma similar a como ajustamos la profundidad máxima de un árbol de decisión individual.

Sin embargo, una de las mejores características de los modelos de Random Forest es que, en general, funcionan razonablemente bien incluso sin necesidad de ajustar estos parámetros.

