# Árboles de Decisión

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [2]:
iris = load_iris()
X = iris.data[:, 2:]
y = iris.target

In [3]:
tree_clf = DecisionTreeClassifier(max_depth = 2)
tree_clf.fit(X, y)

In [4]:
from sklearn.tree import export_graphviz

with open("img/tree.dot", 'w') as f:
    export_graphviz(
        tree_clf,
        out_file = f,
        feature_names = iris.feature_names[2:],
        class_names = iris.target_names,
        rounded = True,
        filled = True
    )

En consola: dot -Tpng img/tree.dot -o img/iris_tree.png

![alt text](img/iris_tree.png "Title")

## Hacer predicciones

Si conseguimos una flor iris y queremos clasificarla. Empezamos por el nodo raíz (profundidad 0): este nodo pregunta si el ancho del pétalo es inferior o igual a 0.8 cm. Si lo esm bajamos al nodo hijo de la izquierda (profundida 1). En este caso, se trata de un "nodo terminal" (es decir, no tiene nodos hijos), así que no formula ninguna pregunta: las clase predicha es Iris setosa.

Ahora, si otra flor Iris nos indica que el ancho de su pétalo es mayor que 0.8 cm, se baja al nodo hijo de la derecha (profundidad 1), y dado que no es un nodo terminal, se realiza otra pregunta ¿el ancho del petalo es menor o igual a 1.75 cm? Si lo es, es probable que sea una Iris Versicolor (profundidad 2, izquierda), si no, seguramente será una Iris Virginica (profundidad 2, derecha).

Nota: Una de las múltiples cualidades de los árboles de decisión es que requieren muy poca preparación de los datos. No necesitas escalar las características ni centrarlas.

El atributo _sample_ de un nodo nos cuenta cuántas instancias del entrenamientos aplican para dicho nodo.

El atributo _value_ indica a cuántas instancias de entrenamiento de cada clase aplican para dicho nodo.

El atributo _gini_ es un nodo que mide la impureza de un nodo: un nodo es "puro" (gini = 0) si todas las isntancias de entrenamientoa las que aplican para dicho nodo pertenecen a la misma clase predicha por el nodo.

$ G_i = 1 \sum_{i=1}^{n} {p_{i,k}^2} $

- $p_{i,k}$ es el ratio de instancias de clase $k$ entre las instancias de entrenamientos del nido $i$-esimo.

### Interpretación del modelo: Caja Blanca vs Caja Negra

Los árboles de decisión son intuitivos y sus decisiones son fáciles de interpretar. Tales modelos se denominan a menudos modelos de caja blanca. En cambio, como veremos, los _random forest_ o las redes neuronales se consideran generalmente modelos de caja negra. Hacen predicciones geniales y puedes comprobar con facilidad los cálculos que realizan para hacerlas: pero por lo general es difícil de explicar en términos sencillos por que se han hecho las predicciones.

## Estimación de probabilidad de clase

Un árbol de decisión también puede estimar probabilidad de que una instancia pertenezca a una clase $k$ en particular. Primero recorre el árbol para encontrar el nodo terminal para esta instancia y luego devuelve el ratio de instancias de entrenamiento de clase $k$ en este nodo

In [6]:
tree_clf.predict_proba([[5, 1.5]])

array([[0.        , 0.90740741, 0.09259259]])

In [7]:
tree_clf.predict([[5, 1.5]])

array([1])

## Algoritmo de entrenamiento CART

Sckit-Learn utiliza el algoritmo _Classification And Regression Tree_ (CART) para entrenar los árboles de decisión. Funciona dividiendo  primero el conjunto de entrenamiento en dos subconjuntos mediante una única característica $k$ y un umbral $t_k$ (por ejemplo, "longitud del pétalo <= 2.45 cm"). ¿Cómo elige $k$ y $t_k$? Se busca un par ($k$ y $t_k$) que produce los subconjuntos más puros (ponderados por tamaño). Siguiendo la función de perdida siguiente:

$ J(k,t_k) = \frac{m_{izq}}{m} G_{izq} + \frac{m_{dcha}}{m} G_{dcha}$

- G_{izq/dcha} mide la impureza del subconjunto izquierda/derecha.
- m_{izq/dcha} es el número de instancias del subconjunto izquierda/derecha.

Una vez que el algoritmo CART ha conseguido dividir el conjunto de entrenamiento en dos, divide los subconjuntos empleando la misma lógica, después los sub-conjuntos y así sucesivamente. Deja de repetir la operación cuando alcanza la profundidad máxima (definida por el hiperpárametro _max_depth_) o si no puede encontrar una división que reduzca la impureza.

Otros hiperparámetros que controlan otras condiciones de detención son : _min_samples_split_, _min_samples_leaf_, _min_weight_fraction_leaf_, y _max_leaf_nodes_.

Se sabe que encontrar el árbol óptimo es un problema NP-Completo: requiere un tiempo de $O(exp(m))$, lo que hace el problema intrincado incluso con conjuntos de entrenamiento pequeños.

## Complejidad computacional

Hacer predicciones requiere atravesar el árbol de decisión desde la raíz, hasta un nodo terminal. Los árboles de decisión suelen ser aproximadamente equilibrados, así que atravesar uno requiere recorrer exhaustivamente $O(log_2(m))$ nodos. Dado que cada nodo requiere comprobar el valor de una característic, la complejidad de predicción general es $O(log_2(m))$, independiente del número de características. Así pues, las predicciones son bastantes rápidas.

El algoritmo de entrenamiento compara todas las características (o menos, si se configura _max_features_) en todas las muestras en cada nodo. El resultado de comprar todas las características de todas las muestras de entrenamiento de cada nodo es una complejidad de entrenamiento de $O(n * m * log_2(m))$

## ¿Impurezad e Gini o Entropía?

Por defecto, se utiliza la medida de la impureza de Gini, pero se puede seleccionar la Entropía como medida de impireza configurando el hiperparámetro _criterion_ = "entropy".

El concepto de entropía se origió en la termodinámica como medida de desorden molecular: la entroía se aproxima a cero cuando las moléculas están quietas y bien ordenadas. La entroía se extendió después a una amplia variedad de dominios, incluida la teoría de la información de Shannon, donde mide el contenido medio de información de un mensaje: la entropía es cero cuando todos los mensajes son idénticos. 

En _machine learning_, la entropía se utiliza con frecuencia como medida de impureza: la entropía de un conjunto es cero cuando contiene instancias de una sola clase.

Ecuación de Entropía:

$ H_i = \sum_{k=1}^2{p_{i,k} log_2(p_{i,k})} $

¿Cuál utilizar? Lo cierto es que, la mayoría de las veces, no hay mucha diferencia: conducen a árboles similares. 
- La impureza de Gini es ligeramente más rápida
- La entropía tiende a producir árboles más equilibrados

P es el conjunto de problemas que pueden resolverse en tiempo polinomial. NP es el conjunto de problemas cuya solución se puede verificar en un tiempo polinomial. Un problema NP-difícil es un problema al cual puede reducirse cualquier problema NP en tiempo polinomial.

La reducción de la entropía recibe a menudo el nombre de "ganancia de información".

## Hiperparámetros de regularización

Los árboles de decisión asumen muy pocas cosas sobre los datos de entrenamiento (que por ejemplo los modelos lineales, que asumen que los datos son lineales). Si se deja sin restricciones, la estructura del árbol tomará la forma de las clases y amenudo sobreajustandolo.

Este modelo se denomina a menudo "modelo no paramétrico", no por que no tenga parámetros, sino porque el número de parámetros no esta determinado antes del entrenamiento, así que la estructura del modelo es libre para ajustarse mucho a los parámetros predeterminados, así su grado de libertad está limitado. 

Para evitar el sobreajuste de los datos de entrenamiento, hay que restringir la libertad del árbol de decisión durante el entrenamiento, conocido como regularización. Los hiperparámetros de regularización dependen del algoritmo utilizado, pero por lo general podemos al menos restringir la profunidad máxima del árbol de decisión.

Otros algoritmos funcionan entrenando primero el árbol de decisión sin restricciones y "podando" después los nodos innecesarios. Un nodo cuyo hijos son todos nodos terminales se considera innecesario si la mejora de la puireza que proporcionan no es estadísticamente significativa.

## Regresión

Los árboles de decisión también son capaces de realizar tareas de regresión.

In [10]:
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X, y)

In [11]:
with open("img/tree_reg.dot", 'w') as f:
    export_graphviz(
        tree_reg,
        out_file = f,
        feature_names = iris.feature_names[2:],
        class_names = iris.target_names,
        rounded = True,
        filled = True
    )

dot -Tpng img/tree_reg.dot -o img/tree_reg.png

![alt text](img/tree_reg.png "Title1")