# How to Develop a Random Forest Ensemble in Python

> Random forest is an ensemble machine learning algorithm.

Es tal vez el algoritmo de *machine learning* más popular y ampliamente usado dado su buen o excelente rendimiento, a lo largo de varios problemas de clasificación y regresión predictiva. También, es sencillo de usar, pues solo tiene algunos hiperparámetros clave y heurísticas sensibles para configurar estos parámetros.

## 1. Random Forest Algorithm

> Random forest is an ensemble of decision tree algorithms.

Es una extensión de **bootstrap aggregation (bagging)** de los árboles de decisión y puede ser utilizado para problemas de clasificación y regresión.

En *bagging*, un número de árboles de decisión son creados, donde cada árbol se crea a partir de una muestra *bootstrap* diferente del *dataset*. Una muestra *bootstrap* es una muestra del *dataset* donde una muestra puede aparecer más de una vez, conocico como **muestreo con reemplazo**.

*Bagging* es un algoritmo de *ensemble* efectivo, pues cada árbol de decisión es entrenado en un *dataset* ligeramente diferente y, por ende, tiene un rendimiento ligeramente diferente. A diferencia de los modelos de árboles de decisión normales, como **classification and regression trees (CART)**, los árboles utilizados en el *ensemble* son *unpruned*, lo que los convierte en ligeramente *overfit* para el *dataset*. Esto es deseable, pues ayuda a que cada árbol sea diferente y hayan menos predicciones correlacionadas o errores.

Las predicciones de estos árboles son promediadas a través de todos los árboles de decisión, lo que implica un mejor resultado que cualquier árbol individual en el modelo.

> **Regression:** prediction is the average prediction across the decision trees.

> **Classification:** prediction is the majority vote class label predicted across the decision trees.

A diferencia del *bagging*, los *random forest* también involucran seleccionar un subconjunto de las variables de entrada en cada *split point* en la construcción del árbol. Típicamente, construir un árbol de decisión involucra evaluar el valor para cada variable de entrada en los datos para seleccionar un *split point*. Al reducir los *features* a un subconjunto aleatorio que puede ser considerado en cada *split point*, se fuerza que cada árbol de decisión sea distinto.

Tal vez el hiperparámetro más importante en el *random forest* es el número de *random features* a considerar en cada *split point*. Una buena heurística para la regresión es asignarle a este hiperparámetro 1/3 de la cantidad de *input features*. En el caso de clasificiación, es adecuado asignarle la raíz cuadrada de la cantidad de *input features*.

Otro hiperparámetro importante es la profundidad de los árboles de decisión. A mayor profunidad, mayor probabilidad de *overfitting*, pero también menos correlacionados. Las profunidades entre 1 a 10 niveles pueden ser efectivas. Finalmente, el parámetro de la cantidad de árboles de decisión en el *ensemble* se incrementa hasta que no haya mejora.

## 2. Random Forest Scikit-Learn API

La librería *scikit-learn* provee una implementación de *Random Forest* para *machine learning*.

Primero, se confirma que se está usando una versión moderna de la librería:

In [1]:
# check scikit-learn version
import sklearn
print(sklearn.__version__)

0.22.2.post1


*Random Forest* es provisto via las clases **RandomForestRegressor** y **RandomForestClassifier**. Ambos modelos operan de la misma manera y toman los mismos argumentos que influyen en cómo los árboles de decisión son creados. Durante la construcción del modelo, se utiliza aleatoriedad. Esto significa que, cada vez que se corre el algoritmo, se producirá un modelo ligeramente diferente.

### Random Forest for Classification

Primero, se puede utilizar la función **make_classification()** para crear un *synthetic binary classification problem* con 1000 ejemplos y 20 variables de entrada.

In [2]:
# test classification dataset
from sklearn.datasets import make_classification
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=3)
# summarize the dataset
print(X.shape, y.shape)

(1000, 20) (1000,)


## 3. Random Forest Hyperparameters

## 4. Common Questions