## Introducción
Los árboles de decisión te dejan con una decisión difícil. Un árbol profundo con muchas hojas se ajustará demasiado porque cada predicción proviene de datos históricos de sólo las pocas casas en su hoja. Pero un árbol poco profundo y con pocas hojas tendrá un mal desempeño porque no logra capturar tantas distinciones en los datos sin procesar.

Incluso las técnicas de modelado más sofisticadas de hoy enfrentan esta tensión entre el desajuste y el sobreajuste. Sin embargo, muchos modelos tienen ideas inteligentes que pueden conducir a un mejor rendimiento. Veremos el Random Forests como ejemplo.

El Random Forests utiliza muchos árboles y realiza una predicción promediando las predicciones de cada árbol componente. Generalmente tiene una precisión predictiva mucho mejor que un árbol de decisión único y funciona bien con parámetros predeterminados. Si continúa modelando, podrá aprender más modelos con un rendimiento aún mejor, pero muchos de ellos son sensibles a la hora de obtener los parámetros correctos.

### Ejemplo
Ya has visto el código para cargar los datos varias veces. Al final de la carga de datos, tenemos las siguientes variables:

* tren_X
* val_X
* tren_y
* val_y


In [1]:
import pandas as pd
    
# Load data
melbourne_file_path = '/kaggle/input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing values
melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

Construimos un modelo de Random Forests  de manera similar a cómo construimos un árbol de decisión en scikit-learn, esta vez usando la clase RandomForestRegressor en lugar de DecisionTreeRegressor.

In [4]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=3)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

190949.01827661472


## Conclusión

Es probable que haya margen de mejora adicional, pero se trata de una gran mejora con respecto al error del mejor árbol de decisión de 250.000. Hay parámetros que le permiten cambiar el rendimiento del bosque aleatorio de la misma manera que cambiamos la profundidad máxima del árbol de decisión único. Pero una de las mejores características de los modelos Random Forest es que generalmente funcionan razonablemente incluso sin este ajuste.