## Árboles de decisión

- [Árboles de decisión para clasificación](#Árboles-de-decisión-para-clasificación)
- [Extracción de variables utilizando árboles de decisión](#Extracción-de-variables-utilizando-árboles-de-decisión)

### Árboles de decisión para clasificación

Scikit-learn nos ofrece implementados dos de los algoritmos más utilizados para generar árboles de decisión: C4.5 y CART. 

En primer lugar vamos a aprender a utilizar el paquete de la librería Scikit-learn (sklearn) que corresponde al paradigma de los árboles de decisión. Estos clasificadores están almacenados en la librería *tree*, por tanto en primer lugar debemos importarla.

In [1]:
# Se importa la librería de árboles de decisión
# BEGIN SOLUTION
from sklearn import tree
# END SOLUTION

Dentro de dicha librería está la clase específica que permite crear árboles de decisión para resolver problemas de clasificación que se llama [*DecisionTreeClassifier*](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier).

La clase *DecisionTreeClassifier* tiene varios parámetros que se pueden utilizar para determinar el árbol de decisión a utilizar (C4.5 o CART) así como varios de sus híper-parámetros que determinarán su posterior comportamiento. La llamada al constructor del árbol de decisión es la siguiente:

    clasificador = tree.DecisionTreeClassifier(criterion=tipoMedidaImpurezaNodo, min_samples_split=numeroMinimoEjemplosRama, min_samples_leaf= numeroMinimoEjemplosHoja, max_depth=maximaProfundidad, ccp_alpha=umbralAlfaEficaz, random_state=semilla)

Los valores de los híper-parámetros que determinan el comportamiento del clasificador (parte derecha de la asignación de los parámetros criterion, min_samples_split y min_samples_leaf) son los siguientes:
* tipoMedidaImpurezaNodo: tipo de medida de la impureza del nodo
    * ‘gini’: indice GINI, árbol de decisión CART
    * ‘entropy’: ratio de ganancia de información, árbol de decisión C4.5
* numeroMinimoEjemplosRama: este híper-parámetro determina el número mínimo de ejemplos que debe tener un nodo interno para dividirlo más. Admite valores enteros o reales (entre 0 y 1): en caso de valores enteros determinan el valor exacto a aplicar y en caso de números reales representa el porcentaje de ejemplos a utilizar como umbral. El valor por defecto es 2 e implica realizar una expansión total del árbol.
* numeroMinimoEjemplosHoja: este híper-parámetro determina el número mínimo de ejemplos que debe tener cualquier nodo hijo generado a partir del nodo a dividir. Si alguno no llega a este valor no se divide el nodo padre. Admite valores enteros o reales (entre 0 y 1): en caso de valores enteros determinan el valor exacto a aplicar y en caso de números reales representa el porcentaje de ejemplos a utilizar como umbral. El valor por defecto es 1 e implica realizar una expansión total del árbol.
* maximaProfundidad: este híper-parámetro permite valores enteros y determina la profundidad máxima permitida en el árbol. Si la profunidad es mayor que este valor no se divide más el árbol. Por tanto, el arbol generado será más simple. El valor por defecto es *None*, que implica expandir el árbol sin restricciones de profundidad.
* umbralAlfaEficaz: valor del umbral utilizado para detener el proceso de poda. Por defecto es 0.0 que implica no realizar poda.
* semilla: valor de la semilla para generar los números aleatorios (se utiliza para seleccionar la mejor variable/umbral en caso de empates).

NOTA: para resolver problemas de regresión la clase correspondiente a los árboles de decisión se llama [*DecisionTreeRegressor*](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html) y sus híper-parámetros son análogos a los explicados anteriormente.

Los árboles de decisión tienden a sobre-entrenar y, por tanto, los árboles generados pueden ser muy complicados para las características de los ejemplos de entrenamiento. Para tratar de no realizar árboles muy complicados (ajustados a los datos de entrenamiento) podemos utilizar las técnicas de pre-poda que están determinadas mediante los valores de los híper-parámetros (mencionados anteriormente):
* *min_samples_split*: determina el número mínimo de ejemplos que debe tener un nodo interno para dividirlo más.
    * Cuanto mayor sea el valor antes se parará de dividir y el árbol será más simple (normalmente implica obtener un accuracy menor para train).
    * Cuanto más bajo sea este valor más fácil será que los nodos se dividan y más se ajustará el árbol a los datos de entrenamiento (normalmente implica obtener un accuracy mayor para train).
* *min_samples_leaf*: determina el número mínimo de ejemplos que debe tener un nodo para generar una hoja. Si no llega a este valor no se genera el nodo hoja.
    * Cuanto mayor sea este valor más difícil será generar nodos hoja y, por tanto, el árbol generado será más simple. Suele implicar perder accuracy en train.
* *max_depth*: determina la profundidad máxima permitida en el árbol. Si la profunidad es mayor que este valor no se divide más el árbol.
    * Cuanto mayor sea este valor más profundo será el árbol de decisión y, por tanto, más riesgo de sobre-entrenamiento.

Para mostrar visualmente los árboles de decisión aprendidos Scikit-learn nos ofrece una función (del paquete *tree*) que puede utilizarse para mostrarlos gráficamente llamada [*plot_tree*](https://scikit-learn.org/stable/modules/generated/sklearn.tree.plot_tree.html). Su llamada y los argumentos que recibe son los siguientes:

    tree.plot_tree(arbol, feature_names=nombresVariables, class_names=nombresClases, filled=True, rounded=True, node_ids=True)

El significado de las variables es el siguiente:
* arbol: el árbol de decisión a mostrar, el obtenido tras realizar el aprendizaje.
* nombresVariables: nombres de las variables de entrada, en este caso iris.feature_names
* nombresClases: nombres de las clases del problema, en este caso iris.target_names
* Los argumentos (filled y rounded) hay que dejarlos como están en este ejemplo (True) para que el árbol de decisión tenga una visualización más agradable.
* node_ids es un valor booleano que hace que se imprima el identificador de cada nodo (True) o no (False, valor por defecto).
  
NOTAS:
* Los arcos que van a la izquierda cumplen la condición mostrada en el nodo del que parten y los arcos que van a la derecha no la cumplen.
* El método [*savefig*](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.savefig.html) de *MatPlotLib* permite guardar el contenido de una figura en un archivo (*variableFigura.savefig(nombreFichero)*).

También se puede obtener la representación en texto del árbol. Para ello, se debe utilizar el método [*export_text*](https://scikit-learn.org/stable/modules/generated/sklearn.tree.export_text.html) de la librería *tree* a la que se pasa como argumento de entrada el árbol a mostrar. Además, podemos guardar dicho texto en un fichero.

La interpretabilidad global de los árboles de decisión está condicionada por dos factores:
* *Número de hojas*: determina el número reglas y por tanto, cuantas más hojas será más difícil de interpretar globalmente el árbol obtenido. 
* *Número de condiciones para alcanzar una hoja*: cuantas más condiciones sean necesarias analizar para tomar la decisión más difícil será interpretarla.
    * El número medio (o máximo) de condiciones para alcanzar todas las hojas del árbol da una idea global de este factor.
    
En Scikit-learn podemos ver algunos de los valores que caraterizan la interpretabilidad del árbol como:
* El número de hojas del árbol de decisión, método *get_n_leaves* de la clase *DecisionTreeClassifier*.
* La profundidad máxima del árbol de decisión, método *get_depth* de la clase *DecisionTreeClassifier*.
* El número total de nodos del árbol de decisión, atributo *node_count* del atributo *tree_* del objeto de la clase *DecisionTreeClassifier* (*arbolDecision.tree_.node_count*).

Además, podemos mostrar textualmente la ruta seguida por un ejemplo para realizar su predicción. Para ello, os facilito una función que lo hace.

In [2]:
# Función para mostrar textualmente la ruta seguida para clasificar un ejemplo con un arbol
def mostrarTextualmenteRutaClasificacion(arbol, ejemplo, nombresVariables):
# arbol: arbol de decisión entrenado
# ejemplo: ejemplo a clasificar y mostrar su ruta
# nombresVariables: lista de los nombres de las variables del problema

    # Obtenemos valores representativos de la estructura del árbol
    atributos = arbol.tree_.feature
    umbrales = arbol.tree_.threshold

    # Se obtiene la ruta seguida para clasificar el ejemplo
    ruta = arbol.decision_path(ejemplo)
    # Se obtiene el identificador del nodo hoja usado para clasificar el ejemplo
    id_hoja = arbol.apply(ejemplo)


    # Se obtienen los indices de los nodos a través de los que pasa el ejemplo (id_ejemplo)
    indices_nodos = ruta.indices[ruta.indptr[0]: ruta.indptr[0 + 1]]

    print('Reglas usadas para predecir el ejemplo: {}\n'.format(ejemplo[0]))
    for id_nodo in indices_nodos:
        # Pasamos al siguiente nodo si es un nodo hoja
        if id_hoja[0] == id_nodo:
            continue

        # Comprobamos si el valor del ejemplo es menor que el valor usado para dividir el nodo (umbral) 
        if (ejemplo[0, atributos[id_nodo]] <= umbrales[id_nodo]):
            desigualdad = "<="
        else:
            desigualdad = ">"
        
        print("Nodo decisión #{nodo} : (Ejemplo[{atributo}] = {valor}) "
              "{desiguald} {umbral})".format(
                  nodo=id_nodo,
                  atributo=nombresVariables[atributos[id_nodo]],
                  valor=ejemplo[0][atributos[id_nodo]],
                  desiguald=desigualdad,
                  umbral=umbrales[id_nodo]))

### Poda de árboles de decisión

Existen diversas técnicas de poda, la que aplica Scikit-learn es la que obtiene el sub-árbol, $T$, que obtiene la mejor (mínima) relación entre coste y complejidad tal y como hemos visto en teoría.

La medida de coste es tradicionalmente el ratio de error de los nodos hoja. Sin embargo, en Scikit-learn se utiliza la media ponderada de la impureza de los nodos hoja como valor del coste.

Para tener una idea de los valores que pueden ser útiles para el híper-parámetro que determina la condición de parada de la poda, podemos utilizar el método [*cost_complexity_pruning_path*](https://scikit-learn.org/stable/auto_examples/tree/plot_cost_complexity_pruning.html) de la clase *DecisionTreeClassifier* al que se deben pasar los datos de entrenamiento. Este método devuelve todos los $\alpha$ eficaces que se utilizarían hasta podar el árbol entero (solo quedaría el nodo raíz etiquetado con la clase mayoritaria del problema) así como la impureza del árbol podado para cada $\alpha$ eficaz. 

NOTA: si el número de $\alpha$ eficaces es muy grande el tiempo de cómputo de las gráficas puede ser muy grande.
NOTA 2: a partir de dichos $\alpha$ eficaces se puede establecer el valor del híper-parámetro *ccp_alpha* para que se realice la poda.

### Extracción de variables utilizando árboles de decisión

Por último vamos a utilizar los árboles de decisión como método de selección de variables. Para ello, la librería de selección de variables (*feature_selection*) de Scikit-learn nos ofrece la clase [*SelectFromModel*](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html#sklearn.feature_selection.SelectFromModel) que nos facilita la tarea. La llamada al constructor de esta clase es la siguiente:

    modelo = SelectFromModel(estimator, threshold=valorUmbral)

Los argmnetos son los siguientes: 
* estimator: modelo a partir del cual obtener las variables
    * Si la clase del modelo tiene un atributo que determine la importancia de las variables se puede aplicar esta clase
* threshold=valorUmbral: valor del umbral para seleccionar las variables, puede ser
    * Valor numérico: valor asignado al umbral (float)
    * String: método a utilizar, por ejemplo la mediana de los valores de la importancia de todas las variables ('median' o 'mean'). También puede ser un string que indique que el valor sea un tanto por ciento mayor que la media por ejemplo ('1.25*mean').

Todas las variables que tengan una importancia mayor que el umbral establecido o generado son seleccionadas.

Una vez ejecutada la llamada al constructor hemos generado un objeto (almacenado en la variable model en el código de la celda posterior) que debemos entrenar (como si fuera un clasificador) puesto que el parámetro *prefit* (indice si el modelo ha sido entrenado previamente) por defecto es *False* (si fuera *True* no haría falta entrenar el objeto de *SelectFromModel*). Para ello llamamos al método *fit*. Una vez entrenado, podemos comprobar las variables seleccionadas ejecutando el método *get_support()* que devuelve una lista de booleanos con tantos elementos como variables y que tendrá valor True en las posiciones de las variables seleccionadas. 

Además, este objeto puede ser utilizado para transformar los datos y realizar la selección de variables. Para ello se utiliza el método *transform* del objeto almacenado en la variable model (*model.transform(datosATransformar)*). Este método nos devuelve los datos de entrada pero solamente de las variables seleccionadas (las que estén a True al ejecutar el método *get_support()*).