<span style="color:lightgreen; font-size:30px">**PG201 - Aprendizaje supervisado**</span>
***
<span style="color:gold; font-size:30px">**Árboles de decisión (DT)**</span>
***

<span style="font-size:20px"> **Autor: Kevin Alexander Gómez** </span>

<span style="font-size:16px"> **Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)** </span>
***

Bienvenido al curso PG201 - Aprendizaje supervisado!!!

Vamos a revisar las bases del <span style="color:gold">aprendizaje supervisado</span> y su aplicación en Geología usando código en Python.\
Es necesario que tengas un conocimiento previo en programación con Python, álgebra lineal, estadística y geología.

<span style="color:lightgreen"> Este notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología. </span>

En el siguiente índice, encontrarás los temas que componen este notebook:

## **Índice**
***
- [¿Qué es un árbol de decisión?](#parte-1)
- [Árboles de decisión en Python](#parte-2)
- [¿Podemos visualizar un árbol de decisión?](#parte-3)
- [En conclusión...](#parte-4)

***

<a id="parte1"></a>

Antes de empezar tu camino en programación geológica...\
Recuerda que puedes ejecutar un bloque de código usando `Shift` + `Enter`:

In [None]:
2 + 2

Si por error haces doble clic sobre un bloque de texto (como el que estás leyendo ahora mismo), puedes arreglarlo usando también `Shift` + `Enter`.

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es un árbol de decisión?**</span>
***

De acuerdo con [IBM](https://www.ibm.com/es-es/topics/decision-trees#:~:text=Un%20%C3%A1rbol%20de%20decisi%C3%B3n%20es,nodos%20internos%20y%20nodos%20hoja.), un árbol de decisión se define como un <span style="color:gold">**algoritmo de aprendizaje supervisado no paramétrico**</span>, empleado en la solución de problemas de clasificación y regresión.

Este algoritmo destaca por su estructura jerárquica en forma de árbol, compuesta por un nodo raíz desde el cual se extienden las ramas hacia los nodos internos, culminando en los nodos hoja. La eficacia y simplicidad de su estructura lo hacen una herramienta valiosa tanto para interpretar cómo se toman las decisiones como para predecir nuevos datos.

<img src="resources/decision_tree.png" alt="Árbol de decisión" width="700"/>

El proceso de aprendizaje en los árboles de decisión implementa una estrategia de **divide y vencerás**, ejecutando una búsqueda codiciosa para determinar los mejores puntos de división dentro de un árbol. Este mecanismo de partición se aplica de manera recursiva, de arriba hacia abajo, hasta que se logra clasificar todos o la mayoría de los registros bajo categorías específicas.

La capacidad del árbol para clasificar los datos en grupos homogéneos está directamente relacionada con su complejidad.

Los árboles más compactos suelen producir nodos hoja homogéneos, donde los datos pertenecen a una única categoría.\
Sin embargo, conforme el árbol se expande, mantener esta homogeneidad se torna más complicado, resultando a menudo en la presencia de muy pocos datos dentro de un subárbol específico.\
Este fenómeno, conocido como fragmentación de datos, puede llevar a un **overfitting o sobreajuste** del modelo, donde este se ajusta excesivamente a los datos de entrenamiento, perdiendo capacidad de generalización.

<img src="resources/decision_tree_geology.png" alt="Árbol de decisión geológico" width="700"/>

Como resultado, los árboles de decisión muestran una tendencia a favorecer estructuras más compactas, lo cual resuena con el principio de parsimonia, comúnmente asociado a la Navaja de Occam. Este principio sostiene que "no se deben multiplicar las entidades más allá de lo necesario". En términos de árboles de decisión, esto implica que solo se debería incrementar la complejidad del modelo cuando es estrictamente necesario, ya que, generalmente, las explicaciones más sencillas resultan ser las más adecuadas.

Para limitar la complejidad y prevenir el sobreajuste, se recurre a menudo a la técnica de **poda (pruning)**.\
La poda es un proceso que se encarga de eliminar aquellas ramas del árbol que se basan en atributos de importancia menor. Posteriormente, la eficacia del modelo ajustado puede ser evaluada a través de la validación cruzada.

<span style="color:gold">**¿Qué ocurriría si empleáramos múltiples árboles de decisión para realizar una predicción?**</span>

Una manera de mejorar la precisión de los árboles de decisión es mediante la creación de un conjunto de estos a través del algoritmo de <span style="color:gold">Random Forest</span>. Este enfoque permite obtener predicciones más exactas, especialmente cuando los árboles que componen el bosque no están correlacionados entre sí.

<a id="parte-2"></a>

### <span style="color:lightgreen">**Árboles de decisión en Python**</span>
***

Empezaremos importando `pandas` para cargar el archivo `rocas.csv`.\
También importaremos algunas funciones de Sci-Kit Learn:
> **Sci-Kit Learn** es una librería utilizada para construir algoritmos de machine learning, la referenciamos dentro de Python como `sklearn`.

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier      # Modelo de Árbol de Decisión para clasificación
from sklearn.model_selection import train_test_split # Función para dividir los datos de entrenamiento y prueba
from sklearn.metrics import accuracy_score           # Función para medir la precisión del modelo

Cargamos el archivo `rocas.csv` ubicado en la carpeta `files`:

In [None]:
rocas = pd.read_csv("files/rocas.csv")
rocas.sample(6)

Ahora, seleccionaremos las litologías de `Basalto` y `Riolita`:
> Usaremos el método `isin`, filtrando aquellas filas que pertenezcan a las clases `basalt` o `rhyolite`.

In [None]:
data = rocas[rocas["Nombre"].isin(["basalt", "rhyolite"])].reset_index(drop=True)
data.sample(6)

Crearemos una nueva columna llamada `target` y asignaremos un valor numérico a cada tipo de litología:
> Los valores serán 0 para `basalt` y 1 para `rhyolite`.

In [None]:
# Creamos una columna llamada target de valor 0
data["target"] = 0   

# Los datos de riolito en esta columna van a valer 1
data.loc[data[data["Nombre"] == "rhyolite"].index, "target"] = 1

# Mostramos la tabla
data.sample(6)

Luego de hacer la transformación de datos, separamos las columnas de la siguiente forma:
- `X` : contiene la información numérica de concentraciones geoquímicas, usada para entrenar y probar el modelo.
- `y` : contiene la información de la columna `target`, la variable a predecir.

Usaremos el atributo `values` del DataFrame para convertir la información en arreglos de Numpy:

In [None]:
X = data.iloc[:, 1:-1]   # Columnas de features
y = data["target"]       # Columna objetivo

In [None]:
# Mostramos los features del modelo
print("Features:")
print("----------")
print(X.values)
print("")

# Mostramos el target del modelo
print("Target:")
print("----------")
print(y.values)

Una vez separado los datos, procedemos a separar la data de entrenamiento y de prueba usando la función `train_test_split`:
> El parámetro `test_size=0.25` representa la fracción de la data que será asignada al conjunto de prueba.\
> También asignaremos un valor a `random_state` para que el resultado sea reproducible.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print(f"Tamaño de X_train: {X_train.shape}")
print(f"Tamaño de X_test: {X_test.shape}")
print(f"Tamaño de y_train: {y_train.shape}")
print(f"Tamaño de y_test: {y_test.shape}")

Ahora, crearemos el modelo y lo entrenaremos usando la data de entrenamiento:
> El parámetro `criterion="gini"` hace referencia a la impureza de Gini que establece el criterio de división de los nodos y `max_depth=2` establece la profundidad del árbol de decisión.

In [None]:
model = DecisionTreeClassifier(criterion="gini", max_depth=2)

> <span style="color:gold">**¿Qué es la impureza de Gini?**</span>
>
> La impureza de Gini es un criterio utilizado para evaluar la calidad de una división en los nodos de un árbol de decisión dentro del contexto de los **árboles de clasificación y regresión (CART)**, un modelo introducido por Leo Breiman.
> 
> Este índice mide qué tan a menudo un elemento seleccionado al azar sería identificado incorrectamente si se le etiquetase de acuerdo con la distribución de etiquetas en el conjunto. En otras palabras, evalúa la probabilidad de que un atributo sea clasificado erróneamente si se escoge al azar según la distribución observada en el subconjunto.
> 
> Un valor de impureza de Gini de 0 indica la pureza perfecta, es decir, todos los casos en el nodo pertenecen a una sola clase, mientras que valores más altos indican mayor mezcla de clases dentro del nodo. En la práctica, al construir un árbol de decisión CART, el objetivo es minimizar la impureza de Gini al elegir el mejor atributo para dividir los datos en cada paso, buscando aquellos puntos de división que resulten en subconjuntos lo más homogéneos posible respecto a la variable objetivo.

Procederemos ahora a entrenar el modelo:

In [None]:
# Entrenar el modelo de árbol de decisión
model.fit(X_train, y_train)

Una vez entrenado el modelo, evaluaremos su precisión usando la función `accuracy_score`:
> La **precisión (accuracy)** representa la cantidad de predicciones que fueron correctas.\
> El parámetro `y_true` representa la data que se busca obtener y `y_pred` es la predicción realizada por el modelo.\
> Para predecir valores con el modelo, tenemos que usar el método `predict`.

In [None]:
y_train_pred = model.predict(X_train) # Predicción del modelo con X_train
y_test_pred = model.predict(X_test)   # Predicción del modelo con X_test

In [None]:
print(f"Accuracy Score - Entrenamiento: {accuracy_score(y_true=y_train, y_pred=y_train_pred):.1%}")
print(f"Accuracy Score - Prueba: {accuracy_score(y_true=y_test, y_pred=y_test_pred):.1%}")

El modelo de arbol de decisión ha obtenido una alta precisión (más del 99%) para discriminar muestras de basalto y riolita.\
Al tener precisión alta tanto en el entrenamiento como en la prueba, podemos concluir que no existe sobreajuste.

<a id="parte-3"></a>

### <span style="color:lightgreen">**¿Podemos visualizar un árbol de decisión?**</span>
***

La respuesta es sí, y para esto, utilizaremos las funciones `export_text` y `plot_tree` del módulo `sklearn.tree`:

In [None]:
import matplotlib.pyplot as plt
from sklearn.tree import export_text, plot_tree   # Funciones para graficar el árbol de decisión

Crearemos una variable llamada `x_cols` para almacenar los nombres de las columnas de X:
> Seleccionamos las columnas a partir de la segunda posición (1) hasta antes del último (-1).

In [None]:
# Almacenamos los nombres de las columnas de X
x_cols = list(X.columns)
print(x_cols)

Exportamos los parámetros del árbol de decisión usando la función `export_text`:

In [None]:
text_representation = export_text(model)

Ahora, procedemos a graficar el árbol de decisión usando la función `plot_tree`:

In [None]:
fig = plt.figure(figsize=(10, 6))

plot_tree(model, feature_names=x_cols, class_names=["Basalto", "Riolita"], filled=True)

plt.show()

Por último, observaremos la importancia de cada columna usando el atributo `feature_importances_`:

In [None]:
print("Importancia de atributos")
for col, imp in zip(x_cols, model.feature_importances_):
    print(f"{col}: {imp:.1%}")

La **importancia de atributos** nos ayuda a determinar qué variables son las más importantes para entrenar el modelo.\
Observamos que la columna `SiO2` tiene una importancia muy alta (más del 99%) comparada con el resto de columnas.\
Algunas columnas son irrelevantes para el entrenamiento del modelo.
***

<a id="parte-4"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

- La naturaleza jerárquica de un árbol de decisión facilita ver qué atributos son los más importantes, por lo que son **más fáciles de interpretar** que otros modelos de aprendizaje automático.
- Los árboles de decisión tienen una serie de características que los hacen más flexibles que otros clasificadores.
- Los árboles de decisión se pueden aprovechar para tareas de clasificación y regresión, lo que los hace más flexibles que otros algoritmos.
- Los árboles de decisión complejos tienden a sobreajustarse y no se generalizan bien a los nuevos datos. Este escenario se puede evitar mediante el proceso de poda (pruning).
- Pequeñas variaciones dentro de los datos pueden producir un árbol de decisión muy diferente.

***