# Random Forests

## Introducción

Los árboles de decisión lo dejan a usted con una decisión difícil. Un árbol profundo con muchas hojas tendrá un rendimiento excesivo porque cada predicción procede de los datos históricos de sólo las pocas casas de su hoja. Pero un árbol poco profundo con pocas hojas tendrá un mal rendimiento porque no consigue captar tantas distinciones en los datos brutos.

Incluso las técnicas de modelización más sofisticadas de hoy en día se enfrentan a esta tensión entre el subajuste y el sobreajuste. Sin embargo, muchos modelos tienen ideas inteligentes que pueden conducir a un mejor rendimiento. Veremos el bosque aleatorio como ejemplo.

El bosque aleatorio utiliza muchos árboles, y hace una predicción promediando las predicciones de cada árbol componente. Por lo general, tiene una precisión de predicción mucho mayor que la de un solo árbol de decisión y funciona bien con parámetros predeterminados. Si sigues modelando, puedes aprender más modelos con un rendimiento aún mejor, pero muchos de ellos son sensibles a la obtención de los parámetros correctos.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
    
# Load data
melbourne_data = pd.read_csv('melb_data.csv') 
# Filter rows with missing values
melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 123)

Construimos un modelo de bosque aleatorio de forma similar a como construimos un árbol de decisión en scikit-learn - esta vez usando la clase *RandomForestRegressor* en lugar de *DecisionTreeRegressor*.

In [2]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

185570.9379721684


Es probable que se pueda mejorar aún más, pero es una gran mejora respecto al mejor error del árbol de decisión de 250.000. Hay parámetros que permiten cambiar el rendimiento del Bosque Aleatorio de la misma manera que cambiamos la profundidad máxima del árbol de decisión simple. Pero una de las mejores características de los modelos **Random Forest** es que generalmente funcionan razonablemente bien incluso sin este ajuste.

## Ejemplo

### *DecisionTreeRegressor*

In [3]:
from sklearn.tree import DecisionTreeRegressor

home_data = pd.read_csv("iowa_houses_train.csv")
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)

# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE when not specifying max_leaf_nodes: {:,.0f}".format(val_mae))

# Using best value for max_leaf_nodes
iowa_model = DecisionTreeRegressor(max_leaf_nodes=100, random_state=1)
iowa_model.fit(train_X, train_y)
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE for best value of max_leaf_nodes: {:,.0f}".format(val_mae))


Validation MAE when not specifying max_leaf_nodes: 29,653
Validation MAE for best value of max_leaf_nodes: 27,283


### *RandomForestRegressor*

In [16]:
# Define the model. Set random_state to 1
rf_model = RandomForestRegressor(max_leaf_nodes=100, random_state=1)

# fit your model
rf_model.fit(train_X, train_y)

# Calculate the mean absolute error of your Random Forest model on the validation data
rf_val_predictions = rf_model.predict(val_X)
rf_val_mae = mean_absolute_error(rf_val_predictions, val_y)
print("Validation MAE for best value of max_leaf_nodes: {:,.0f}".format(rf_val_mae))

Validation MAE for best value of max_leaf_nodes: 22,041
