# Random Forests

## Ensemble Methods
Los arboles de decision tienen muchas ventajas, destacando destacando su habilidad de funcionar con variables continuas o categoricas sin mucha preparacion requerida, su interpretabilidad, y su capacidad de percibir y modelar relaciones no lineales en los datos. Sin embargo, su capacidad predictiva no es muy buena, cayendo facilmente victicas de *overfitting* al crecer arboles muy profundos. Ademas, los arboles sueles ser muy inestables a cambios sutiles en los datos---cambiar solo un par de observaciones puede tener cambios drasticos en la forma que tomara el arbol de decision.

Esta inestabilidad es aprovechada por los *ensemble methods*---modelos que combinan multiples arboles de decision en un estimador final que supera drasticamente el desempeño de un arbol individual. Las dos familias princiaples de estos modelos son:
- *Averaging methods*: varios estimadores son combinados de manera simple, promediando el valor (o probabilidad en el caso de clasificacion) o por un sistema de votacion.
- *Boosting methods*: Los estimadores son agregados de manera secuencial, cada uno buscando mejorar marginalmente el desempeño del anterior.


## Random Forests
*Random Forests* se refiere a una metodologia de *averaging* ensemble que introduce aleatoriedad a la construccion de cada arbol en el "bosque", una tecnica conocida como *perturb-and-combine*, que aprovecha la inestabilidad inehernte en los arboles de decision para terminar con un conjunto de arboles muy distintos entre si, cada uno capturando una relacion levemente distinta.

La aleatoriedad es introducida de dos formas:
- *bagging*: Cada arbol se construye con una sub-muestra de todos los datos disponibles, de manera que dos arboles distintos ven distintas observaciones y por lo tanto resultan con estructuras distintas (e idealmente complementarias).
- Sub-conjunto de atributos: Ademas de restringir el numero de observaciones, cada nodo del arbol realiza el *split* tomando en consideracion un sub-conjunto de todos los atributos (variables explicativas) disponibles.

El resultado es un estimador que posiblemente tiene un poco mas de sesgo, relativo a un estimador que consiste en un solo arbol sin elementos de aleatoriedad, pero usualmente la varianza del estimador agregado cae de manera que mas que compensa este sesgo, resultando en un mejor estimador.


## Implementacion con Scikit-Learn
*Scikit-learn* incluye este estimador para clasificacion y regresion. Los hiper-parametros disponibles consisten en los inherentes a los arboles de decision, y ademas algunos adicionales que regulan el *ensemble*:
- `n_estimators`: El numero de arboles a estimar. Mientras mas mejor (aunque con rendimiento decreciente), pero a costo de tiempo en entrenar.
- `max_features`: Numero maximo de atributos a considerar al realizar cada split. Un numero mas bajo resultara en una mayor reduccion en la varianza del estimador final, a costo de un mayor sesgo.

In [18]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn import datasets
import numpy as np

In [25]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.utils import compute_sample_weight

iris = datasets.load_iris()

clf = RandomForestClassifier(n_estimators=100,
                             max_features='auto',
                             max_depth=None,
                             min_samples_split=2,
                             oob_score=True
                            )

class_weights = {0: 5, 1: 1, 2: 1}
sample_weights = compute_sample_weight(class_weight=class_weights, y=iris.target)

print(sample_weights)
clf.fit(iris.data, iris.target, sample_weight=sample_weights)

[5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5.
 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5.
 5. 5. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=True, random_state=None,
                       verbose=0, warm_start=False)

In [28]:
# Datos falsos
n_samples = 6
X = [[np.random.randint(0, 10), np.random.randint(0, 10)]
     for _ in range(n_samples)]
y = [0, 0, 0, 1, 0, 1]
print(X, y)
# Instanciar clasificador con argumentos default
clf = RandomForestClassifier()
# lista de pesos a usar
weights = [1, 1, 1, 2, 1, 2]
# Confirmar que tienen el mismo tamaño
assert len(weights) == len(y)
# Entrenar, pasando los pesos especificados
clf.fit(X, y, sample_weight=weights)

[[1, 2], [6, 3], [7, 1], [9, 1], [9, 5], [0, 4]] [0, 0, 0, 1, 0, 1]




RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [14]:
from sklearn.utils import compute_sample_weight

weights = {0: 5, 1: 1, 2: 1}
compute_sample_weight(class_weight=weights, y=iris.target)

array([5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5.,
       5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5.,
       5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [12]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])