# Random Forest Classifier

Cuando de clasificación se trata, otro de los algoritmos populares es <i>random forest classifier</i>, este algoritmo está formado de varios árboles de decisión que a su vez votan para elegir la clasificación de determinado elemento.

Los bosques aleatorios están implementados en la clase <code>RandomForestClassifier</code> del módulo <code>sklearn.ensemble</code>, y la forma de usarlo no es diferente de otros modelos en Scikit-learn:

In [None]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=500, n_features=15, n_classes=2, random_state=0)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [None]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()

In [None]:
rfc.fit(X_train, y_train)

In [None]:
print(rfc.predict(X_test))
rfc.score(X_test, y_test)

## Argumentos

Lo interesante son los argumentos de la clase:

 - <code>n_estimators</code>: el número de árboles en el bosque. Un valor mayor puede mejorar la precisión del modelo, pero aumenta el tiempo de entrenamiento y el uso de memoria.

 - <code>max_depth</code>: la profundidad máxima de cada árbol en el bosque. Un valor mayor puede aumentar la capacidad del modelo para ajustarse a los datos de entrenamiento, pero también puede causar sobreajuste.

 - <code>min_samples_split</code>: el número mínimo de muestras requeridas para dividir un nodo interno. Un valor menor puede permitir que el modelo capture relaciones más complejas entre las variables, pero también puede aumentar el riesgo de sobreajuste.

 - <code>min_samples_leaf</code>: el número mínimo de muestras requeridas en cada hoja del árbol. Un valor mayor puede evitar que el modelo se ajuste demasiado a los datos de entrenamiento, pero también puede reducir la capacidad del modelo para capturar relaciones complejas entre las variables.

 - <code>max_features</code>: el número máximo de variables que se consideran al dividir un nodo. Un valor menor puede reducir el sobreajuste, pero también puede reducir la capacidad del modelo para capturar relaciones complejas entre las variables.

## Comportamiento de algunos argumentos

In [None]:
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=100, random_state=42, noise=0.10)

### <code>n_estimators</code> - número de árboles

In [None]:
from utils import plot_boundaries

plot_boundaries(
    X, y, 
    [
        ('n_estimators = 1', RandomForestClassifier(n_estimators=1)),
        ('n_estimators = 10', RandomForestClassifier(n_estimators=10)),
        ('n_estimators = 100', RandomForestClassifier(n_estimators=100)),
        ('n_estimators = 1000', RandomForestClassifier(n_estimators=1000)),
    ])

### <code>max_depth</code> - profundidad máxima

In [None]:
plot_boundaries(
    X, y, 
    [
        ('max_depth = None', RandomForestClassifier(max_depth=None)),
        ('max_depth = 1', RandomForestClassifier(max_depth=1)),
        ('max_depth = 10', RandomForestClassifier(max_depth=10)),
        ('max_depth = 100', RandomForestClassifier(max_depth=100)),
        ('max_depth = 1000', RandomForestClassifier(max_depth=1000)),
        ('max_depth = 10000', RandomForestClassifier(max_depth=10000)),
    ])

### <code>min_samples_split</code>

In [None]:
plot_boundaries(
    X, y, 
    [
        ('min_samples_split = 2', RandomForestClassifier(min_samples_split=2)),
        ('min_samples_split = 10', RandomForestClassifier(min_samples_split=10)),
        ('min_samples_split = 20', RandomForestClassifier(min_samples_split=20)),
        ('min_samples_split = 30', RandomForestClassifier(min_samples_split=30)),
        ('min_samples_split = 40', RandomForestClassifier(min_samples_split=40)),
        ('min_samples_split = 50', RandomForestClassifier(min_samples_split=50)),
    ])

## Número de estimadores

Un bosque aleatorio no es más que un conjunto de árboles de decisión, cada uno con pequeñas variaciones. Cuando es momento de clasificar una nueva instancia, cada uno de estos árboles emite su voto y al final gana la clase con más votos.

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

In [None]:
# Crear un RandomForestClassifier con un solo estimador
rfc = RandomForestClassifier(n_estimators=100, random_state=42)
rfc.fit(iris.data, iris.target)

Como especificamos que tuviera 100 estimadores esa cantidad es justamente la que tiene en la propiedad <code>estimators_</code>:

In [None]:
print(len(rfc.estimators_))

Y lo que es mejor, podemos visualizar cara árbol individualmente utilizando la función <code>plot_tree</code>:

In [None]:
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt


plt.figure(figsize=(10, 10))
plot_tree(rfc.estimators_[0], feature_names=iris.feature_names, class_names=iris.target_names, filled=True)
plt.show()

El examinar los árboles uno por uno en realidad no es algo realista, pero aún así es interesante y nos da una perspectiva de lo que está sucediendo dentro del clasificador.

### Importancia de las características

Otra de las cosas interesantes que se puede hacer tiene que ver con otro atributo: <code>feature_importances_</code>. 

In [None]:
rfc.feature_importances_

Este es un arreglo en donde cada una de las entradas corresponde con las features utilizadas para entrenar el modelo.

El arreglo por si mismo no dice mucho, pero podemos graficarlas utilizando una gráfica de barras:

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
ax.bar(iris.feature_names, rfc.feature_importances_)
ax.set_title("Feature Importances")
plt.show()

Este arreglo y la gráfica subsecuente nos permite visualizar cuánto contribuye cada variable al modelo para hacer sus predicciones. Esto nos puede ayudar a seleccionar las características más importantes si lo que queremos es reducir la dimensionalidad de nuestro dataset.

Y también nos puede dar herramientas para poder interpretar cómo es que el modelo está realizando predicciones y tratar de entender su comportamiento.

Y pues ahí lo tienen, vimos algunas de las propiedades y argumentos de los bosques aleatorios.

