# Introducción al Aprendizaje Automático.

## Random Forests

### Introducción

Los árboles de decisión te dejan con una decisión difícil. Un árbol profundo con muchas hojas se sobreajustará porque cada predicción proviene de datos históricos de solo las pocas casas en su hoja. Pero un árbol poco profundo con pocas hojas funcionará mal porque no logra capturar tantas distinciones en los datos sin procesar.

Incluso las técnicas de modelado más sofisticadas de hoy se enfrentan a esta tensión entre el underfitting y el overfitting. Pero muchos modelos tienen ideas inteligentes que pueden conducir a un mejor rendimiento. Veremos el bosque aleatorio (**random forest**) como un ejemplo.

El bosque aleatorio usa muchos árboles y realiza una predicción promediando las predicciones de cada árbol componente. En general, tiene una precisión predictiva mucho mejor que un solo árbol de decisión y funciona bien con los parámetros predeterminados. Si sigues modelando puedes aprender más modelos con un rendimiento aún mejor, pero muchos de ellos son sensibles para obtener los parámetros correctos.

### Ejemplo

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
    
# Cargamos los datos
melbourne_file_path = "./input/melbourne-housing-snapshot/melb_data.csv"
melbourne_data = pd.read_csv(melbourne_file_path) 
# Eliminamos las filas con valores de precio ausentes
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Elegimos el objetivo y las características
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

# Divide los datos en datos de entrenamiento y validación, tanto para las características como para el objetivo
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

Construimos un modelo de bosque aleatorio similar a cómo construimos un árbol de decisión en scikit-learn, esta vez usando la clase `RandomForestRegressor` en lugar de `DecisionTreeRegressor`.

In [2]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

202888.18157951365




### Conclusión

Es probable que exista una mejora adicional, pero esta es una gran mejora con respecto al mejor error de árbol de decisión de 250.000. Hay parámetros que permiten cambiar el rendimiento del Bosque aleatorio tanto como cambiamos la profundidad máxima del árbol de decisión único. Pero una de las mejores características de los modelos de Random Forest es que generalmente funcionan de manera razonable incluso sin este ajuste.

Pronto aprenderemos el modelo XGBoost, que proporciona un mejor rendimiento cuando se ajusta bien con los parámetros correctos (pero que requiere cierta habilidad para obtener los parámetros correctos del modelo).

## Ejercicio

In [3]:
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor


# Path del archivo a leer
iowa_file_path = "./input/melbourne-housing-snapshot/train.csv"

home_data = pd.read_csv(iowa_file_path)

# Crea Objetivo
y = home_data.SalePrice
# Crea Características
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Divide loas datos en validación y entrenamiento
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Especifica Modelo
iowa_model = DecisionTreeRegressor(random_state=1)
# Entrena Modelo
iowa_model.fit(train_X, train_y)

# Hace predicciones y calcula el error medio absoluto
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validación MAE cuando no se especifica max_leaf_nodes: {}".format(val_mae))

# Using best value for max_leaf_nodes
iowa_model = DecisionTreeRegressor(max_leaf_nodes=100, random_state=1)
iowa_model.fit(train_X, train_y)
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validación MAE para el mejor valor de max_leaf_nodes: {}".format(val_mae))

Validación MAE cuando no se especifica max_leaf_nodes: 29652.931506849316
Validación MAE para el mejor valor de max_leaf_nodes: 27282.50803885739


La ciencia de datos no siempre es tan fácil. Pero reemplazar el árbol de decisión con un bosque aleatorio será una victoria fácil.

### Paso 1: Usar un Random Forest

In [4]:
from sklearn.ensemble import RandomForestRegressor

# Define el modelo. Establece random_state a 1
rf_model = RandomForestRegressor(random_state=1)

# Entrena el modelo
rf_model.fit(train_X, train_y)

# Calcula el error medio absoluto del modelo Random Forest con los datos de validación
rf_val_predictions = rf_model.predict(val_X)
rf_val_mae = mean_absolute_error(rf_val_predictions, val_y)

print("Validación MAE para el modelo Random Forest: {}".format(rf_val_mae))

Validación MAE para el modelo Random Forest: 22762.42931506849




Hasta ahora, hemos seguido instrucciones específicas en cada paso. Esto ayudó a aprender ideas clave y construir nuestro primer modelo, pero ahora sabemos lo suficiente como para probar las cosas por nuestra cuenta. Los concursos de Machine Learning son una excelente manera de probar nuestras propias ideas y aprender más mientras navegamos de manera independiente en un proyecto de machine learning.