# Árboles de decisión

Un árbol de decisión es una estructura de datos que se puede utilizar para establecer un conjunto de reglas de decisión ya que se puede representar de forma visual el conjunto de reglas a seguir.

La estructura básica es un conjunto de nodos y un conjunto de ramas u hojas.

Se usa cuando la variable objetivo es discreta o categórica. Mientras que las predictoras pueden ser categóricas como numéricas.

Algunas de las ventajas de los árboles de decisión son:

* Fácil de *entender* e *interpretar*. Los árboles pueden ser **visualizados**.
* *Requiere poca preparación de datos*. Otras técnicas requieren a menudo la normalización de los datos, la creación de variables ficticias y la eliminación de valores en blanco. Tenga en cuenta, sin embargo, que este módulo no admite los **valores perdidos**.
* El costo de usar el árbol (es decir, predecir datos) es *logarítmico* en el número de puntos de datos usados para entrenar al árbol.
* Capaz de manejar *datos numéricos y categóricos*. Otras técnicas suelen estar especializadas en el análisis de conjuntos de datos que sólo tienen un tipo de variable.
* Capaz de manejar problemas de múltiples salidas.
* Utiliza un modelo de *caja blanca*. Si una situación dada es observable en un modelo, la explicación de la condición se explica fácilmente por la lógica booleana. Por el contrario, en un modelo de caja negra (por ejemplo, en una red neural artificial), los resultados pueden ser más difíciles de interpretar.
* Posibilidad de validar un modelo mediante **pruebas estadísticas**. Esto permite dar cuenta de la fiabilidad del modelo.
* Funciona bien incluso si sus suposiciones son algo violadas por el verdadero modelo a partir del cual se generaron los datos.

Las desventajas de los árboles de decisión incluyen:

* Los árboles de decisiones pueden crear árboles demasiado complejos que no generalizan bien los datos. A esto se le llama **overfitting**. Mecanismos tales como la poda, la fijación del número mínimo de muestras requeridas en un nudo de la hoja o la fijación de la profundidad máxima del árbol son necesarios para evitar este problema.
* Los árboles de decisión pueden ser **inestables** porque pequeñas variaciones en los datos pueden resultar en la generación de un árbol completamente diferente. Este problema se mitiga utilizando árboles de decisión dentro de un conjunto.
* El problema de entrenar un árbol de decisión óptimo es conocido por ser NP-completo bajo varios aspectos de optimización e incluso para conceptos simples. En consecuencia, los algoritmos prácticos de aprendizaje del árbol de decisión se basan en algoritmos heurísticos como el algoritmo codicioso, en el que se toman decisiones óptimas a nivel local en cada nodo. Tales algoritmos no pueden garantizar que devuelvan el árbol de decisión globalmente óptimo. Esto puede ser mitigado entrenando a múltiples árboles en un grupo, donde las características y muestras son muestreadas al azar con reemplazo.
* Hay conceptos que son difíciles de aprender porque los árboles de decisión no los expresan fácilmente, como XOR, paridad o problemas de multiplexor.
* Los árboles de decisión crean árboles sesgados si algunas clases dominan. Por lo tanto, se recomienda equilibrar el conjunto de datos antes de ajustarlo al árbol de decisión.

## Métricas

### Ganancia de la información y entropía

La entropía satisface las siguientes afirmaciones:

* La medida de la información debe ser proporcional. Es decir, un cambio pequeño en una de las probabilidades de aparición de uno de los elementos debe cambiar poco la entropía.
* Si todos los elementos de la señal son equiprobables, entonces la entropía será máxima.

Definición formal:

$$
H(S) = -\sum_{i = 1}^n{p_i log_{2}(p_i)}
$$

Por lo tanto, la entropía de un mensaje $X$, denotado por $H(X)$, es el valor medio ponderado de la cantidad de información de los diversos estados del mensaje que representa una medida de la incertidumbre media acerca de una variable aleatoria y por tanto de la cantidad de información.

### Coeficiente de Gini


Medida de la desilgualdad, utilizada inicialmente para medir la desigualdad en los ingresos, pero que puede utilizarse para medir cualquier forma de distribución desigual.

* El valor $0$ corresponde con la perfecta igualdad
* El valor $1$ corresponde con la perfecta desigualdad




## DecisionTreeClassifier

Al igual que con otros clasificadores, **DecisionTreeClassifier** toma como entrada dos matrices: una matriz X, dispersa o densa, de tamaño `[n_muestras, n_características]` que contiene las muestras de formación, y una matriz Y de valores enteros, tamaño `[n_muestras]`, que contiene las etiquetas de clase para las muestras de formación:

In [13]:
from sklearn.datasets import load_iris
from sklearn import tree

import matplotlib.pyplot as plt
import numpy as np

# biblioteca para visualización de grafos
import graphviz

In [2]:
# Cargamos el dataset
iris = load_iris()

# Llamamos a la clase
clf = tree.DecisionTreeClassifier()

# entrenamos el árbol
clf = clf.fit(iris.data, iris.target)

Una vez entrenados, podemos exportar el árbol en formato Graphviz usando el exportador export_graphviz. Si utiliza el gestor de paquetes conda, los binarios graphviz y el paquete python pueden instalarse con:

    conda install python-graphviz

Abajo podemos ver un ejemplo de exportación de un árbol entrenado; los resultados se guardan en un archivo llamado *iris.dot*

In [3]:
dot_data = tree.export_graphviz(clf, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)
graph = graphviz.Source(dot_data)
#graph No funciona en Jupyter

![](resources/Iris.gv.png)

Utilizando el criterio de la entropía:

In [4]:
tree_entropy = tree.DecisionTreeClassifier(criterion='entropy',
                                           min_samples_split=20,
                                          random_state=99)
tree_entropy.fit(iris.data, iris.target)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=20,
            min_weight_fraction_leaf=0.0, presort=False, random_state=99,
            splitter='best')

In [5]:
tree.export_graphviz(tree_entropy, out_file='resources/iris_entropy.gv', 
                    feature_names=iris.feature_names,  
                    class_names=iris.target_names,  
                    filled=True, rounded=True,  
                    special_characters=True)

In [6]:
"""graphviz.render(engine='dot',
                filepath='resources/iris_entropy.gv',
                format='png')"""

"graphviz.render(engine='dot',\n                filepath='resources/iris_entropy.gv',\n                format='png')"

![](resources/iris_entropy.gv.png)

## Cross validation

In [7]:
X = iris.data
y = iris.target

In [8]:
mytree = tree.DecisionTreeClassifier(criterion='entropy', 
                                    max_depth = 5,
                                    min_samples_split = 20,
                                    random_state = 99)
mytree.fit(X,y)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=20,
            min_weight_fraction_leaf=0.0, presort=False, random_state=99,
            splitter='best')

### Usamos el método K-Fold

In [11]:
from sklearn.cross_validation import KFold, cross_val_score

In [10]:
cv = KFold(n = X.shape[0], n_folds=10, shuffle=True, random_state=1)

In [16]:
score = np.mean(cross_val_score(mytree, X, y, scoring="accuracy", cv = cv, n_jobs = 1))

In [17]:
print(score)

0.9333333333333333


Vamos a realizar un bucle for para validar sobre distintas niveles de profundidad

In [20]:
for depth in range(1,8):
    mytree = tree.DecisionTreeClassifier(criterion='entropy', 
                                    max_depth = depth,
                                    min_samples_split = 20,
                                    random_state = 99)
    mytree.fit(X,y)
    cv = KFold(n = X.shape[0], n_folds=10, shuffle=True, random_state=1)
    score = np.mean(cross_val_score(mytree, X, y, scoring="accuracy", cv = cv, n_jobs = 1))
    print("Score para profundidad = {0}, es de {1}".format(depth, np.mean(score)))
    print("    ", mytree.feature_importances_)
    print()

Score para profundidad = 1, es de 0.5666666666666667
     [0. 0. 1. 0.]

Score para profundidad = 2, es de 0.9200000000000002
     [0.         0.         0.66620285 0.33379715]

Score para profundidad = 3, es de 0.9400000000000001
     [0.         0.         0.68976981 0.31023019]

Score para profundidad = 4, es de 0.9333333333333333
     [0.         0.         0.66869158 0.33130842]

Score para profundidad = 5, es de 0.9333333333333333
     [0.         0.         0.66869158 0.33130842]

Score para profundidad = 6, es de 0.9333333333333333
     [0.         0.         0.66869158 0.33130842]

Score para profundidad = 7, es de 0.9333333333333333
     [0.         0.         0.66869158 0.33130842]



In [21]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

Podemos ver que si únicamente pudiéramos elegir una de las variables predictoras, la más conveniente sería la longitud de los pétalos. En cambio si podemos elegir entre dos o más variables predictoras, las más convenientes son la longitud de los pétalos y su anchura.