# **Árboles de Decisión**
A diferencia de otros algoritmos de aprendizaje supervisado que hemos visto hasta ahora, los **Árboles de Decisión** (*Decision Trees*) son herramientas no paramétricas, es decir, no es necesario entrenar y afinar unos parámetros que recogan la información que el modelo vaya aprendiendo. Aun así, los Árboles de Decision y sus derivados son de los algoritmos más populares tanto para tareas de clasificación como regresión.

# **Métricas de impureza**

Los Árboles de Decisión para clasificación funcionan de forma iterativa, dividiendo el dataset según un criterio o decisión sobre los valores de las columnas. Por ejemplo, supongamos un dataset que recoge las características de diferentes tipos de setas, tales como la altura del tallo o la estación del año en que aparecen. Nuestro dataset además nos indica si las setas son o no venenosas, columna que utilizaremos como objetivo de clasificación. Independientemente de si se trata de una tarea de clasificación o de regresión, el Árbol de Decisión comienza siempre realizando preguntas binarias (de sí o no) a partir de alguna de las columnas, intentando dividir los datos de la forma más pura posible. Una primera pregunta podría ser "¿Es el diámetro de la copa mayor de 6 cm?" lo que supondría la partición del dataset en dos subconjuntos u "nodos", en función de si cumplen o no con la condición. Sobre cada una de las nodos el algoritmo realizaría una segunda partición, usando criterios independientes para cada una de las "ramas" (de ahí el nombre dado a este tipo de métodos). Así procedería continuando con las particiones hasta que se cumpla cierto criterio de parada.


Sin embargo queda por responder una pregunta fundamental... ¿Qué criterio utilizar para realizar la partición? ¿Por qué elegir un diámetro de copa mayor de 6 cm y no 4? ¿O porqué no cualquier otro criterio como si son o no setas de temporada? Lo cierto es que el algoritmo debe comprobar con todas las opciones posibles, escogiendo aquellas particiones que devuelvan nodos con menor impureza. Una impureza baja implica que los dos conjuntos u nodos resultantes están bien separados o, siguiendo el ejemplo, uno de ellos contiene una amplia mayoría de setas venenosas mientras que el otro no. Una impureza alta supone que esa separación no ha sido del perfecta y los dos conjuntos contienen una mezcla muy similar de datos. Existen muchas formas de calcular la impureza, pero dos son los métodos más utilizados:

- **Coeficiente Gini**: es probablemente la opción más utilizada. Si el ratio de pertenencia a la clase es igual a $p_{i}$, mide la probabilidad de que un dato de esa clase sea clasificado incorrectamente ($1-p_{i}$). El Coeficiente de Gini es el sumatorio de estas probabilidades para cada clase $d$:
$$Gini(p) = \sum_{i=1}^{d}p_{i}(1-p_{i})$$
  o también:
  $$Gini(p) = 1 - \sum_{i=1}^{d}p_{i}^{2}$$
  Toma valores entre $0$ y $0.5$, siendo $0$ un indicativo de máxima pureza, es decir
- **Entropía**: es una medida de la incertidumbre de los datos. Se calcula la suma, ponderada por la probabilidad, de la información de un evento. La información es un concepto angular dentro del mundo de la computación y mide la lo sorpresivo que es un evento. Es por ello que la información es el inverso de la probabilidad (en logaritmo).
$$H(p) = \sum_{i=1}^{d}p_{i}\times log(\frac{1}{p_{i}})$$

  o de forma equivalente:
$$H(p) = - \sum_{i=1}^{d}p_{i}\times log(p_{i})$$
  En útima instancia, la entropía será más alta hasta $1$ cuando las dos alternativas sean igualmente probables, y bajará hasta $0$ cuando tengamos menos incertidumbre sobre el resultado.

La realidad es que ambas métricas devuelven resultados muy similares, por lo que muchas veces ni siquiera se toman como un posible meta-parámetro.

# **Construcción del árbol**

Indistintamente de las métricas utilizadas, nos interesa una partición que devuelva nodos lo más homogéneos posibles. Así que el objetivo es encontrar un criterio que minimice cualquiera de estos coeficientes. El cálculo de estas métricas se realiza para cada hoja o nodo. Para obtener el coeficiente de la partición total simplemente lo ponderamos por el número de elementos de cada nodo. Veamoslo con el ejemplo.

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1GVTIFy5MnAwJEUPZvglrp89M7hYFL_Wb" width="300">

Así, el Coficiente Gini ponderado de la partición completa es.

$$\frac{21}{47}0.499 + \frac{26}{47}0.141 = 0.301$$

Para decidirnos por esta partición (*season = 1* en el ejemplo) este Coeficiente de Gini resultante debe ser menor que el de otras posibles particiones. Cada nodo resultante es un subconjunto de datos, el cual puede a sí mismo dividirse siguiendo otros criterios. De esta manera se contruye cada rama del árbol. Una vez que el árbol se detiene podemos calcular su impureza total, que sería la misma operación de suma de los métricas de impureza de cada nodo terminal ponderadas por el número de muestras en esos nodos. Es esperable que en cada partición, ese total de impureza sea cada vez menor, aunque también suele ocurrir que el descenso es cada vez menos intenso.

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1Os0liaFuzQzSEt2rQHYk00SZXD5UmaZQ" width="500">


Existe una versión alternativa de Árbol de Decisión para tareas de regresión (*Regression Decision Trees*). La posibilidad de ser usados tanto para regresión como clasificación les ha dado a los Árboles de Decisión el sobrenombre de CART (*Classification and Regression Trees*). Al igual que en la clasificación, para tareas de regresión se comienza realizando una primera partición, es decir, eligiendo una variable y un valor que seccione el conjunto de datos en dos. La diferencia respecto al árbol de clasificación es que en este caso ya no haremos uso de métricas de impureza, sino la tradicional suma de las distancias al cuadrado, suma cuya minimización será el criterio para elegir uno u otro criterio de partición. La predicción sería simplemente la media de los valores objetivo en cada uno de los subconjuntos. También podríamos continuar ramificando el modelo, encontrando un nuevo criterio de partición para cada uno de los subconjuntos. La predicción de una instancia se realiza asignandola iterativamente a cada subconjunto anidado, tomando la media del nodo final al que pertenece. Como vemos en la imagen, los Árboles de Decisión para regresión permiten modelar estructuras no lineales en los datos.

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1ayAGQ5yMo6I8W_Tncg2aUkddw65tFLFq" width="500">

Ejemplo de *Regression Decision Tree* en ScikitLearn: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression



<br>Por último, los Árboles de Decisión permiten también la clasificación multiple (*Multi-Output Decision Trees*), es decir, predecir varias columnas al mismo tiempo sin necesidad de crear algoritmos diferentes para cada una. Para ello se aprovecha de la correlación entre las diferentes salidas. Continuando con el ejemplo, nuestro árbol podría realizar una partición en la que no solo separase entre setas que son o no venenosas, sino si son o no comestibles, una característica que evidentemente correlaciona con la primera columna objetivo. Para realizar esto simplemente ejecuta la partición y calcula las predicciones para cada columna.


Ejemplo de *Multi-Output Decision Tree* en ScikitLearn: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression_multioutput

# **Criterios de parada y poda del árbol**

A estas alturas ya sabréis que estamos ante un modelo de aprendizaje supervisado. Y como buen modelo supervisado siempre estará el peligro de sobreajustar con un árbol excesivamente complejo, con demasiadas ramificaciones y nodos. Sin ningun criterio de parada, el algoritmo del árbol continúa haciendo particiones hasta obtener clases totalmente homogéneas, resultado que casi nunca es deseable de cara a generalizar el aprendizaje. Es por eso que son necesarios criterios de parada para no aumentar excesivamente la complejidad del árbol.

Algunos **criterios de parada** pueden ser limitar la profundidad del árbol (entendiendo profundidad como particiones anidadas), exigir un número mínimo de muestras en un subconjunto para ejecutar una partición o limitar las particiones a nodos que consigan una disminución de impureza superior a un umbral, por debajo del cual no consideramos necesaria realizar la partición.

Además de criterios de parada pueden aplicarse **criterios de poda** (*post pruning*). Esto es, una vez que el algoritmo del Árbol de Decisión este completo, podemos podar algunas ramas para reducir su complejidad. El criterio más conocido es el de Poda de Mínimo Coste-Complejidad (*Minimal Cost-Complexity Pruning*), definido formalmente siguiente la siguiente fórmula:

$$C_{\alpha}(T) = R(T) + \alpha\left | T \right |$$

siendo $C$ la llamada medida de Coste-Complejidad, $R$ la medida de error del modelo del árbol $T$ (también definida como la impureza promedio de las particiones finales) y $\left | T \right |$ el número de nodos. Esta fórmula se encuentra parametrizada por $\alpha$ que controla el balanceo entre el error de predicción y la complejidad del árbol. Cuanto mayor $\alpha$ mayor la penalización del número de nodos, al elevar la medida de Coste-Complejidad y siendo esta una métrica que buscamos minimizar. Así, podría darse el caso de que dos árboles alternativos, aun teniendo uno de ellos un $R$ o error mayor, su métrica $C$ fuese más baja al tener un número menor de nodos, siendo por tanto preferible al segundo.

Ejemplo de Poda de Coste-Complejidad en ScikitLearn: https://scikit-learn.org/stable/auto_examples/tree/plot_cost_complexity_pruning

# **Guía de uso de Árboles de Decisión**

El algoritmo de *Decision Tree* es realmente muy versátil, capaz de realizar tareas tanto de clasificación como regresión. Acepta valores tanto categóricos codificados como numéricos, sin necesidad de estandarización. Permite además reconocer estructuras no lineales en los datos. Sin embargo, su característica más destacable es su interpretabilidad. Se trata de un método de "caja blanca": en todo momento podemos saber la ruta de decisiones booleanas que ha tomado para realizar cualquier clasificación.

Algunas limitaciones son su tendencia hacia el sobreajuste. Pequeñas modificaciones en el dataset pueden dar lugar a árboles significativamente distintos. Sin embargo, existen versiones algo más complejas de los Árboles de Decisión que permiten solventar mayormente estos inconvenientes. Veremos más adelante estas alternativas.

Es posible que, al menos para tareas de clasificación, el principal tratamiento previo de los datos sea el de crear clases objetivo balanceadas, es decir, que los datos de entrada contengan un número similar de muestras para cada clase.

En ScikitLearn podremos encontrarnos con varios meta-parámetros con los que afinar nuestros modelos:
- `min_samples_split`: número mínimo de muestras necesarias para dividir un nodo. Un valor más alto puede evitar el sobreajuste. Valores más bajos implican el desarrollo total del árbol.
- `max_depth`: profundidad máxima del árbol. Controla la profundidad del árbol ayuda a prevenir el sobreajuste. Los árboles se desarrollan hasta que cada hoja contenga menos de `min_samples_split` muestras. Se recomienda un valor `None` para que el parámetro sea controlado por `min_samples_split`.
- `min_samples_leaf`: número mínimo de muestras para que se considere un nodo. Normalmente se utiliza como versión alternativa al metaparámetro `min_samples_leaf`.
- `min_impurity_decrease`: se realizará una partición si esta induce una disminución de la impureza mayor o igual a este valor.
- `ccp_alpha`: parámetro $\alpha$ para la Poda por Coste-Complejidad. Cuanto mayor es este parámetro, la penalización por número de nodos es mayor y ayuda a reducir el sobreajuste.

# **Análsis del DataFrame**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import math
from typing import List, Tuple, Dict
import seaborn as sns

url='https://drive.google.com/file/d/1btCzqdC5EHUdpJbICCdouOUAJQukx3mM/view?usp=sharing'
file_id=url.split('/')[-2]
dwn_url='https://drive.google.com/uc?id=' + file_id
data = pd.read_csv(dwn_url)

data.head(6)

In [None]:
data.shape

In [None]:
list_columns = data.columns.tolist()

num_columns = data.select_dtypes(include=["int64","float64"]).columns.tolist()
print("Columnas numéricas: ", num_columns)

cat_columns = data.select_dtypes(include=["object"]).columns.tolist()
print("Columnas categóricas: ", cat_columns)

In [None]:
target_column = "class"

pred_columns = [col for col in list_columns if col != target_column]
num_pred_columns = [col for col in list_columns if col in num_columns]
cat_pred_columns = [col for col in list_columns if col in cat_columns]
print("Columnas predictoras: ", pred_columns)
print("Columnas numéricas predictoras: ", num_pred_columns)
print("Columnas categóricas predictoras: ", cat_pred_columns)

In [None]:
data.describe().T

In [None]:
target_classes = data[target_column].unique().tolist()

In [None]:
data.isnull().sum()

In [None]:
class_counts = data[target_column].value_counts()
plt.figure(figsize=(4, 2))
plt.bar(class_counts.index, class_counts.values, color=['orange', 'purple'])
plt.xlabel('Clase')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de clases objetivo')
plt.xticks([0, 1], ['Clase 0', 'Clase 1'])
plt.show()

# **Clasificación binaria con Árbol de Decisión**

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.compose import ColumnTransformer

# CREACIÓN DEL PIPELINE CON ÁRBOL DE DECISIÓN
model = Pipeline([
    ('classifier', DecisionTreeClassifier())  # Árbol de Decisión para tareas de clasificaición.
])

In [None]:
# DIVISIÓN ENTRE COLUMNAS PREDICTIVAS Y OBJETIVO
# Separar colunas predictoras de columna objetivo
X = data.drop(columns=target_column)
y = data[target_column]

In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, KFold

# DIVISIÓN ENTRE DATOS DE ENTRENAMIENTO Y DATOS DE TESTEO
# Seleccionamos una proporción de 80% de los datos para entrenamiento y 20% para el testeo.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

print("Tamaño datos de entrenamiento:", X_train.shape)
print("Tamaño datos de testeo:", X_test.shape)

In [None]:
# CONFIGURACIÓN DE LA BÚSQUEDA DE HIPERPARÁMETROS
# Configurar la búsqueda por validación cruzada para encontrar el mejor valor de alpha
metaparameter_list = ['classifier__max_depth', 'classifier__min_samples_split', 'classifier__criterion']
param_grid = {
    metaparameter_list[0]: [3, 6, 10, 20],
    metaparameter_list[1]: [2, 5, 10],
    metaparameter_list[2]: ["gini", "entropy"]
}

# Configurar el GridSearchCV
grid_search = GridSearchCV(model, param_grid, cv=5, verbose = 1, scoring='f1_weighted')

In [None]:
from scipy.stats import mode

# BÚSQUEDA DE HIPERPARÁMETROS CON VALIDACIÓN ANIDADA.
# Este paso es independiente del entrenamiento posterior, pero es recomendable para evaluar la variabilidad de los modelos en cuanto a evaluación y selección de hiperparámetros.
n_splits = 5
outer_cv = KFold(n_splits=n_splits, shuffle=True, random_state=42)
best_params_list = []
best_scores = []

# Aquí estamos haciendo una Validación Cruzada manualmente. En cada iteración (tantas como número de folds indicados) se calculará un GridSearchCV
# con el conjunto de entrenamiento seleccionado en ese fold.
for train_index, test_index in outer_cv.split(X_train):
    X_train_fold = X_train.iloc[train_index]
    X_test_fold = X_train.iloc[test_index]
    y_train_fold = y_train.iloc[train_index]
    y_test_fold = y_train.iloc[test_index]

    # Ejecutar GridSearchCV
    grid_search.fit(X_train_fold, y_train_fold)

    # Almacenar los mejores parámetros y los mejores resultados en cada split
    best_params_list.append(grid_search.best_params_)
    best_scores.append(grid_search.best_score_)

# Un bucle por fold, indicando el hiperparámetro óptimo y la mejor métrica de error de esa iteración.
for split in range(n_splits):
  for metaparameter in metaparameter_list:
    value = best_params_list[split][metaparameter]
    if isinstance(value, (int, float)):
        print(f'Mejor valor en el fold {split} del {metaparameter} en VC anidada: {round(value, 3)}')
    else:
        print(f'Mejor valor en el fold {split} del {metaparameter} en VC anidada: {value}')
  print(f"Mejor f1-Score ponderada en el fold {split}: {np.round(best_scores[split],2)}\n")

# Un bucle para los estadísticos de cada hiperparámetro
for metaparameter in metaparameter_list:
  values = [value[metaparameter] for value in best_params_list] # Recogemos los diferentes valores que nos devuelve cada fold
  if isinstance(values[0], (int, float)):
    mean = sum(values) / len(values) # Calculamos la media
    std = np.sqrt(sum((value - mean) ** 2 for value in values) / len(values)) # Calculamos la Desviación Típica
    print(f'Promedio de las puntuaciones {metaparameter} en VC anidada: {round(mean,3)}')
    print(f'Desviación Típica de las puntuaciones {metaparameter} en VC anidada: {round(std,3)}\n')
  else:
    unique_values, counts = np.unique(values, return_counts=True) # Valores y su frecuencia en values
    max_index = np.argmax(counts) # Índice del valor con mayor frecuencia
    mode = unique_values[max_index]
    count = counts[max_index]
    print(f'Moda de las puntuaciones {metaparameter} en VC anidada: {mode}')
    print(f'Frecuencia de la moda de las puntuaciones {metaparameter} en VC anidada: {count}')

In [None]:
# BÚSQUEDA DE HIPERPARÁMETROS SIN VALIDACIÓN ANIDADA
# Entrenamos ahora con GridSearchCV sin anidar.
grid_search.fit(X_train, y_train)

# Mostrar mejor puntuación y los mejores parámetros. Podemos compararlo a aquellos valores obtenidos en la validación cruzada anidada.
for metaparameter in metaparameter_list:
  value = grid_search.best_params_[metaparameter]
  if isinstance(value, (int, float)):
    print(f'Mejor puntuación del {metaparameter} en VC anidada: {round(grid_search.best_params_[metaparameter],3)}')
  else:
    print(f'Mejor valor del {metaparameter} en VC anidada: {value}')
print("Mejor F1-Score:", np.round(grid_search.best_score_,2))

In [None]:
# TESTEO DEL MODELO
# Recoger el modelo con los mejores hiperparámetros
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, roc_curve

# EVALUACIÓN DEL MODELO
accuracy = round(accuracy_score(y_test, y_pred), 2)
# Para la precisión, recall, y f1, especificamos 'weighted'. Esto es útil pues pondera las clases, permitiéndonos hacer una idea de la calidad de la clasificación para clases desbalanceadas.
precision = round(precision_score(y_test, y_pred), 2)
recall = round(recall_score(y_test, y_pred), 2)
f1 = round(f1_score(y_test, y_pred), 2)
conf_matrix = confusion_matrix(y_test, y_pred)

print("Exactitud:", accuracy)
print("Precisión ponderada:", precision)
print("Sensibilidad ponderada:", recall)
print("F1 Score ponderada:", f1)
print("Matriz de Confusión:\n", conf_matrix)

In [None]:
# Extracción del Árbol de Decisión del pipeline
tree_model = best_model.named_steps['classifier']
path = tree_model.cost_complexity_pruning_path(X_train, y_train) #  Recogemos los coeficientes alfa y las correspondientes impurezas totales en cada paso del proceso de poda.
ccp_alphas, impurities = path.ccp_alphas, path.impurities

fig, ax = plt.subplots()
ax.plot(ccp_alphas[:-1], impurities[:-1], marker="o", drawstyle="steps-post")
ax.set_xlabel("Coeficiente alpha")
ax.set_ylabel("Impureza total del árbol")
ax.set_title("Impureza total vs Coeficiente alpha")

In [None]:
!apt-get install -qq graphviz
!pip install -q graphviz pydotplus

In [None]:
import graphviz
from IPython.display import Image
import pydotplus

# INTERPRETACIÓN DEL MODELO
# Crear un archivo DOT
dot_data = export_graphviz(tree_model,
                           out_file = None,
                           feature_names = pred_columns, # Nombres de las columnas predictivas
                           class_names = [str(x) for x in target_classes],  # Nombres de las clases a predecir. Es necesario asegurarse que sean strings.
                           filled = True,
                           rounded = True,
                           special_characters = True)

# Visualizar el árbol usando graphviz y pydotplus en Colab
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())