# Random Forest. Using a more sophisticated machine learning algorithm.

Usando un Algoritmo de ML mas sofisticado.

<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

### Introducción

Los **decision trees** te plantean una decisión complicada. Un árbol profundo con muchas hojas tenderá al **overfitting**, ya que cada predicción se basa en datos históricos de solo unas pocas viviendas en su hoja. En cambio, un árbol poco profundo con pocas hojas tendrá un rendimiento pobre porque no logra capturar suficientes diferencias en los datos originales, lo que conduce al **underfitting**.

Incluso las técnicas de modelado más sofisticadas se enfrentan a esta tensión entre **underfitting** y **overfitting**. Sin embargo, muchos modelos incorporan ideas ingeniosas que permiten obtener un mejor rendimiento. En este caso, veremos el **random forest** como ejemplo.

El **random forest** utiliza muchos árboles y realiza una predicción promediando los resultados de cada árbol. En general, ofrece una **predictive accuracy** mucho mayor que un único **decision tree** y suele funcionar bien con los parámetros por defecto. A medida que sigas avanzando, descubrirás otros modelos con un rendimiento aún mejor, aunque muchos de ellos son sensibles a una correcta elección de sus parámetros.

</div>


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>

## Ejemplo

<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">


Ya has visto varias veces el código para cargar los datos. Al finalizar el proceso de **data loading**, disponemos de las siguientes variables:

- **train_X**
- **val_X**
- **train_y**
- **val_y**

</div>


In [2]:
import pandas as pd
# cargando data
melbourne_file_path="data/melb_data.csv"
melbourne_data=pd.read_csv(melbourne_file_path)

# Quitando filas con NaN
melbourne_data=melbourne_data.dropna(axis=0)

# Eligiendo Target y Features
y=melbourne_data.Price
melbourne_features=["Rooms","Bathroom","Landsize","BuildingArea","YearBuilt","Lattitude","Longtitude"]
X=melbourne_data[melbourne_features]

In [4]:
# dividir los datos en datos de entrenamiento y validación, tanto para las features como para el target
# la división se basa en un generador de números aleatorios. Proporcionar un valor numérico
# al argumento random_state garantiza que obtengamos la misma división cada vez que

from sklearn.model_selection import train_test_split

train_X, val_X, train_y, val_y=train_test_split(X,y,random_state=0)

<div style="background-color:#E6F4EA; padding:12px; border-radius:4px;">

Construimos un modelo de **random forest** de forma similar a como construimos un **decision tree** en **scikit-learn**, pero esta vez utilizando la clase **RandomForestRegressor** en lugar de **DecisionTreeRegressor**.

</div>


In [7]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model=RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds=forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

191669.7536453626


<div style="background-color:#FFF4CC; padding:12px; border-radius:4px;">

### Conclusión

Es probable que todavía haya margen de mejora, pero este resultado supone una mejora importante respecto al mejor error del **decision tree**, que era de 250 000. Existen **parameters** que permiten modificar el rendimiento del **Random Forest**, de forma similar a como ajustamos la **maximum depth** de un único **decision tree**. Sin embargo, una de las mejores características de los modelos **Random Forest** es que, por lo general, funcionan razonablemente bien incluso sin realizar este **tuning**.

</div>


<p align="center">
  <img src="assets/separador.png" alt="Separador" width=200"/>
</p>