## De Árboles de Decisión a  
## Bosques Aleatorios de Supervivencia (RSF)

## Árboles de decisión

Es un modelo de predicción basado en decisiones. Son intuitivos y sus decisiones son fáciles de interpretar (Modelo de caja blanca).

Pueden ser utilizados para tareas de clasificación y regresión.

<img src="img/iris_tree.png" width="350">


## Impureza del nodo

La impureza de un nodo nos aporta información acerca de la probabilidad de no obtener la clase predicha por un nodo.

### Índice de Gini

$ G_i = 1 \sum_{i=1}^{n} {p_{i,k}^2} $

Un nodo $i$-esimo es puro si $G_i = 0$.

### Entropía

$ H_i = \sum_{k=1}^2{p_{i,k} log_2(p_{i,k})} $

Un nodo $i$-esimo es puro si $H_i = 0$.

$p_{i,k}$ es el ratio de instancias de clase $k$ entre las instancias de entrenamientos del nido $i$-esimo.

## Entrenamiento del modelo: Algoritmo CART

Se comienza diviendo el conjunto de entrenamiento en dos subconjuntos, mediante una característica $k$ y un umbral $t_k$.

Ej. característcia ($k$:) longitud del pétalo iris; umbral ($t_k$): $\leq$ 2.45 cm.

### ¿Cómo se elige $k$ y $t_k$? 

Se selecciona ($k$, $t_k$) que produzca los nodos más puros (ponderados por tamaño), siguiendo la función de perdida:

$ J(k,t_k) = \frac{m_{izq}}{m} G_{izq} + \frac{m_{dcha}}{m} G_{dcha}$

$G_{izq/dcha}$ mide la impureza del subconjunto (nodo) izquierdo/derecha.

$m_{izq/dcha}$ cantidad de instancias del subconjunto izquierda/derecha.

Una vez el algoritmo divide el conjunto en dos subconjuntos, divide dichos subconjuntos siguiendo la misma lógica, después los subconjuntos sy así sucesivamente.

Este proceso se repite hasta reducir completamente la impureza de los nodos o alcanzando la profundida máxima permitida.

## Complejidad Computacional

Encontrar un árbol óptimo pertenece a los problemas NP-Completo. 

Entrenar el modelo, resultado de comparar todas las características de todas las muestras de entrenamiento de cada nodo, requiere un tiempo $O(n * m * log_2(m))$.

m: número de atributos; n: número de instancias.

Realizar una predicción, recorrer el árbols desde el nodo raíz hasta el nodo terminal, requiere un tiempo aproximado de $O(log_2(m))$.

## Supuestos e hiperparámetros

Los árboles de decisión asumen muy pocos supuesos sobre la distribución de los datos, se denominan a menudo "modelos no paramétricos".

Para evitar el sobreajuste del modelo, se pueden utilizar hipterparámetros de regularización, si bien depende del algoritmo de entrenamiento utilizado, por lo general al menos se puede restringir la profundidadi máxima del árbol.

Una implementación básica en Sckit-Learn:

In [None]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(
    max_depth=2 # Profundidad máxima del árbol
)
clf.fit(X, y)

## Ensamblaje y Random Forest

La idea básica detrás de los ensambladores es contar con diferentes modelos predictivos entrenados a partir de subconjuntos de un mismo conjunto de datos. 

Los métodos más populares de ensamblaje son _bagging_, _boosting_ y _stacking_.

<img src="https://miro.medium.com/max/4800/1*WLfYK7UUFgJEbNGMAwcRaQ.png" width="550" />

## Claificadores por votación

Consiste en entrenar varios modelos (Regresión Logística, SVM, Árboles, etc.) a partir de un mismo conjunto de entrenamiento.

Para una nueva instancia, cada modelo genera una predicción. La predicción final del ensamblador será la predicción más votada de cada uno de los modelos.

<img src="https://i.stack.imgur.com/W7UmY.png" width="500" />

In [None]:
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
# Generamos datos dummy
X, y = make_moons(n_samples=1000, noise=0.2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
# Se crean las instancias de los modelos
log_clf = LogisticRegression()
rnd_clf = RandomForestClassifier()
svm_clf = SVC()

In [None]:
from sklearn.ensemble import VotingClassifier
# Se crea la instancia de un ensamblador por votación
voting_clf = VotingClassifier(
    estimators = [('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
    voting = 'hard'
)
# Se ajusta el modelo 
voting_clf.fit(X_train, y_train)

### Rendimiento de los modelos:

In [None]:
from sklearn.metrics import accuracy_score
# Rendimiento de cada uno de los modelos
for clf in (log_clf, rnd_clf, svm_clf, voting_clf) :
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.87
RandomForestClassifier 0.9466666666666667
SVC 0.9566666666666667
VotingClassifier 0.9533333333333334


## Bagging y Pasting

Este enfoque crea un ensamblador de varios predictores a partir de un mismo algoritmo, y los entrena en diferentes subconjuntos aleatorios de un mismo conjunto de entrenamiento por cada predictor.

El método __bagging__ muestrea subconjuntos con remplazo y __pasting__ lo hace sin remplazo.

<img src="https://miro.medium.com/max/1400/1*iskng0M2Qv9GF0CADcl0Ww.png" width="600" />

Tal como se observa en la imagen, un ensamble con _bagging_ de 500 árboles es capaz de generalizar mucho mejor que un solo árbol. Posee un mayor sesgo pero compensado con una menor varianza.

<img src="https://static.wixstatic.com/media/dcb8fd_0af0229fa2bb499d96a4efd2248c3c9c~mv2.png/v1/fill/w_1000,h_360,al_c,usm_0.66_1.00_0.01/dcb8fd_0af0229fa2bb499d96a4efd2248c3c9c~mv2.png" width="700" />

## Random Forest

El _Random Forest_ es un ensamble de árboles de decisión, entrenados, por lo general, mediante método _bagging_.

En Sckit-Learn, la implementación de _Random Forest_ se especializa de la implementación con _Bagging Classifier_, debido a que al primero se le introduce una aleatoriedad extra cuando hacen crecer los árboles; en vez de buscar la mejor característica cuando divide un nodo, busca la mejor característica de un subconjunto de características. Esto permite más diversidad de árboles, compensando un sesgo más alto por una varianza más baja.

Implementación de Bagging Classifier en Sklearn:

In [None]:
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(splitter = 'random', max_leaf_nodes = 16),
    n_estimators = 500, max_samples = 1.0, bootstrap = True
)

Implementación de Random Forest  en Sklearn:

In [None]:
rnd_clf = RandomForestClassifier(
    n_estimators=500, max_leaf_nodes=16
)

### Extremely Randomized Trees

Al crear un árbol en _Random Forest_, en cada nodo solo se considera un subconjunto aleatorio de características ($k$) para la división. 

Es posible hacer que los árboles sean aún más aleatorios al utilizar umbrales ($t_k$) aleatorios para cada característica ($k$), en vez de buscar los mejores umbrales posibles.

De esta forma se compensa aún más el sesgo con una varianza más baja

### Importancia de la características

Una cualidad importante de los _Random Forest_ es que hacen posible medir la importancia de las características a través de cuanto reducen la impureza.

$ J(k,t_k) = \frac{m_{izq}}{m} G_{izq} + \frac{m_{dcha}}{m} G_{dcha}$

 Se escalan los resultados de manera que la suma de todas las importancias de cada característica sea 1.

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
rnd_clf = RandomForestClassifier(n_estimators= 500, n_jobs=-1)
rnd_clf.fit(iris["data"], iris["target"])

In [12]:
for name, score in zip(iris["feature_names"], 
                       rnd_clf.feature_importances_) :
    print(name, score)

sepal length (cm) 0.09101929129155692
sepal width (cm) 0.022339654089200075
petal length (cm) 0.4116565687809954
petal width (cm) 0.4749844858382477
