<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG201 - Aprendizaje supervisado**</span>

Bienvenido al curso!!!

Vamos a revisar diferentes algoritmos de <span style="color:gold">aprendizaje supervisado</span> y su aplicación en Geología. <br>
Es necesario que tengas un conocimiento previo en programación con Python, álgebra lineal, estadística y geología.


<span style="color:gold; font-size:20px">**Árboles de decisión (DT)**</span>

***
- [¿Qué es un árbol de decisión?](#parte-1)
- [Árboles de decisión en Python](#parte-2)
- [¿Podemos visualizar un árbol de decisión?](#parte-3)
- [Evaluación del modelo](#parte-4)
- [Entropía y ganancia de la información](#parte-5)
- [En conclusión...](#parte-6)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es un árbol de decisión?**</span>
***

Un árbol de decisión es un modelo predictivo utilizado tanto para clasificación como para regresión. Se basa en dividir el espacio de características en subconjuntos homogéneos mediante la aplicación de reglas de decisión, lo que resulta en una estructura de árbol. Cada nodo interno del árbol representa una prueba en una característica, cada rama representa el resultado de la prueba, y cada hoja representa una decisión final o una predicción.

<center>
    <img src="resources/decision_tree.png" alt="Árbol de decisión" width="700"/>
</center>

El árbol de decisión se construye de manera recursiva, dividiendo el conjunto de datos en función de una característica y un umbral que maximicen la "pureza" de los subconjuntos resultantes. La métrica de pureza más común es la impureza de Gini o la entropía para problemas de clasificación, y el error cuadrático medio para problemas de regresión.

En cada nodo, se evalúan todas las características y se selecciona la división (característica y umbral) que minimice la impureza en los subconjuntos hijos. Esto se hace utilizando una métrica como la ganancia de información o la reducción de impureza de Gini.

> <span style="color:gold">**¿Qué es la impureza de Gini?**</span>
>
> La impureza de Gini es un criterio utilizado para evaluar la calidad de una división en los nodos de un árbol de decisión dentro del contexto de los **árboles de clasificación y regresión (CART)**, un modelo introducido por Leo Breiman.
> 
> Este índice mide qué tan a menudo un elemento seleccionado al azar sería identificado incorrectamente si se le etiquetase de acuerdo con la distribución de etiquetas en el conjunto. En otras palabras, evalúa la probabilidad de que un atributo sea clasificado erróneamente si se escoge al azar según la distribución observada en el subconjunto.
> 
> Un valor de impureza de Gini de 0 indica la pureza perfecta, es decir, todos los casos en el nodo pertenecen a una sola clase, mientras que valores más altos indican mayor mezcla de clases dentro del nodo. En la práctica, al construir un árbol de decisión CART, el objetivo es minimizar la impureza de Gini al elegir el mejor atributo para dividir los datos en cada paso, buscando aquellos puntos de división que resulten en subconjuntos lo más homogéneos posible respecto a la variable objetivo.
> 
> La fórmula de la impureza de Gini para un nodo es:
>
> <center>
    $$
    \Large Gini = 1 - \sum_{i=1}^{c} p_i^2
    $$
> </center>
> 
> Donde:
> - $p_{i}$ es la proporción de elementos de clase $i$ en el nodo
> - $c$ es el número de clases

Este proceso de división continúa hasta que se cumpla una condición de parada, como alcanzar un número mínimo de muestras en un nodo, o que las divisiones ya no aporten mejora significativa en la pureza.

Para realizar una predicción, se toma una nueva observación y se la pasa a través del árbol, comenzando desde la raíz y siguiendo las ramas según las reglas de decisión en cada nodo, hasta llegar a una hoja. El valor de la hoja es la predicción final.

<center>
    <img src="resources/decision_tree_geology.png" alt="Árbol de decisión geológico" width="700"/>
</center>


Los árboles de decisión suelen preferir estructuras más simples, lo que está en línea con el principio de la Navaja de Occam. Este principio dice que "la solución más simple suele ser la correcta". En el caso de los árboles de decisión, esto implica que debemos evitar hacer el modelo más complejo de lo necesario, ya que las soluciones más sencillas suelen ser las más efectivas.

Para limitar la complejidad y evitar el sobreajuste en los árboles de decisión, se utiliza una técnica llamada <span style="color:#43c6ac">poda (pruning)</span>. Esta técnica elimina las ramas del árbol que dependen de atributos menos importantes. Después de podar el árbol, se puede evaluar la eficacia del modelo utilizando validación cruzada.

***
<span style="color:gold">**Ventajas y limitaciones del modelo Decision Tree** </span>

- <span style="color:lightgreen">**Interpretabilidad:** </span> <br>
Uno de los mayores beneficios de los árboles de decisión es que son fáciles de entender e interpretar. La estructura de árbol permite visualizar cómo se toman las decisiones, lo que los hace útiles en situaciones donde la explicabilidad es importante.

- <span style="color:lightgreen">**No linealidad:** </span> <br>
Los árboles de decisión no requieren que las relaciones entre características sean lineales, lo que los hace adecuados para modelar relaciones complejas en los datos.

- <span style="color:lightgreen">**Manejo de diferentes tipos de datos:** </span> <br>
Pueden manejar tanto variables numéricas como categóricas sin la necesidad de transformar previamente los datos, a diferencia de otros algoritmos que solo operan sobre variables numéricas.

- <span style="color:lightgreen">**No requiere escalamiento de características:** </span> <br>
A diferencia de modelos como las redes neuronales y los modelos de soporte vectorial, los árboles de decisión no requieren que las características sean escaladas o normalizadas.

- <span style="color:lightgreen">**Eficiente con grandes datasets:** </span> <br>
Los árboles pueden manejar grandes volúmenes de datos con una configuración computacional razonablemente buena.

- <span style="color:orange">**Sobreajuste:** </span> <br>
Los árboles de decisión son propensos al sobreajuste, especialmente si el árbol es muy profundo. Esto ocurre porque el modelo puede terminar aprendiendo demasiado específicamente los detalles y el ruido del conjunto de datos de entrenamiento.

- <span style="color:orange">**Estabilidad:** </span> <br>
Pequeñas variaciones en los datos pueden resultar en un árbol de decisión completamente diferente. Esto es debido a la naturaleza jerárquica del aprendizaje en los árboles de decisión, donde cada decisión tomada al principio afecta a los resultados subsecuentes de manera significativa.

- <span style="color:orange">**Problemas con datos desbalanceados:** </span> <br>
Los árboles de decisión pueden crear árboles sesgados si algunas clases dominan. Esto es especialmente cierto sin técnicas adecuadas de preprocesamiento o ajuste de parámetros para manejar el desbalance.

- <span style="color:orange">**Dificultades con tareas de regresión que requieren extrapolación:** </span> <br>
Los árboles de decisión no son efectivos en predecir resultados fuera del rango de los datos de entrenamiento, lo que limita su utilidad en algunos tipos de tareas de regresión.

- <span style="color:orange">**Heurísticas para divisiones pueden ser ineficientes para algunas tareas:** </span> <br>
Las reglas de división están basadas en heurísticas como la maximización de la ganancia de información o la reducción de la impureza y no siempre resultan en la división óptima, especialmente en espacios de características complejas o correlacionadas.


> <span style="color:gold">**¿Es posible emplear múltiples árboles de decisión para realizar una predicción?** </span> <br>
> Una manera de mejorar la exactitud de los árboles de decisión es mediante la creación de un conjunto de estos a través del algoritmo de [Random Forest](pg201c_randomforest.ipynb). Este enfoque permite obtener predicciones más exactas, especialmente cuando los árboles que componen el bosque no están correlacionados entre sí.
***

<a id="parte-2"></a>

### <span style="color:lightgreen">**Árboles de decisión en Python**</span>
***

Empezaremos importando `pandas` para cargar el archivo `rocas.csv`. También importaremos algunas funciones de Sci-Kit Learn:
> **Sci-Kit Learn** es una librería utilizada para construir algoritmos de machine learning, la referenciamos dentro de Python como `sklearn`.

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier      # Modelo de Árbol de Decisión para clasificación
from sklearn.model_selection import train_test_split # Función para dividir los datos de entrenamiento y prueba
from sklearn.metrics import accuracy_score           # Función para medir la exactitud del modelo

Cargamos el archivo `rocas.csv` ubicado en la carpeta `files`:

In [None]:
data = pd.read_csv("files/rocas.csv")
data.info()

Tenemos 22437 muestras de rocas volcánicas, con data geoquímica para diferentes elementos:

In [None]:
data.sample(6)

También tenemos una columna categórica con 4 clases de rocas volcánicas:

In [None]:
print(data["Nombre"].unique())

Una de las ventajas de usar el modelo Decision Tree, es que no tenemos que transformar los datos.

Separaremos directamente las columnas de la siguiente forma:

- `X (features)` : contiene la información numérica de concentraciones geoquímicas, usada para entrenar y probar el modelo.
- `y (target)` : contiene la información de la columna objetivo, es decir, la variable a predecir.

Usaremos el atributo `values` del DataFrame para convertir la información en arreglos de Numpy:

In [None]:
X = data.drop("Nombre", axis=1)   # Features
y = data["Nombre"]                # Target

In [None]:
# Mostramos las columnas de features
print("Features:")
print("----------")
print(X.values)
print("")

# Mostramos la columna objetivo
print("Target:")
print("----------")
print(y.values)

Una vez separado los datos, procedemos a separar la data de entrenamiento y de prueba usando la función `train_test_split`:
> El parámetro `test_size=0.25` representa la fracción de la data que será asignada al conjunto de prueba. <br>
> También asignaremos un valor a `random_state` para que el resultado sea reproducible.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print(f"Tamaño de X_train: {X_train.shape}")
print(f"Tamaño de X_test: {X_test.shape}")
print(f"Tamaño de y_train: {y_train.shape}")
print(f"Tamaño de y_test: {y_test.shape}")

Ahora, inicializaremos el modelo `DecisionTreeClassifier` y estableceremos los siguientes hiperparámetros:
- `criterion`: hace referencia al criterio de división de los nodos, en este caso usaremos el criterio de impureza de Gini.
- `max_depth`: establece la profundidad del árbol de decisión, en este caso será igual a 5.

Para explicar algunos conceptos importantes, empezaremos usando diferentes valores de `max_depth`, y evaluaremos en cada caso los resultados de exactitud.

Primero, crearemos un modelo `low_model` con un `max_depth` de 1:

In [None]:
# Crear el modelo de Random Forest
low_model = DecisionTreeClassifier(criterion="gini", max_depth=1, random_state=2)

# Entrenar el modelo
low_model.fit(X_train, y_train)

In [None]:
# Resultados del modelo
acc_train = accuracy_score(y_true=y_train, y_pred=low_model.predict(X_train))
acc_test = accuracy_score(y_true=y_test, y_pred=low_model.predict(X_test))

# Mostrar resultados
print("Decision Tree - Low Model")
print("-------------------------")
print(f"Accuracy Score - Entrenamiento: {acc_train:.1%}")
print(f"Accuracy Score - Prueba: {acc_test:.1%}")

Notamos una exactitud de tan solo el 54% tanto para el entrenamiento como para la prueba: nos encontramos ante un caso de subajuste (Underfitting).

> <span style="color:gold">**¿Qué es el subajuste o Underfitting?**</span>
> 
> El underfitting ocurre cuando un modelo es demasiado simple para aprender la estructura subyacente de los datos.
>
> Como resultado, el modelo puede no captar las tendencias adecuadas en los datos, lo que lleva a:
>
> - <span style="color:orange">Pobre rendimiento tanto en el conjunto de entrenamiento como en el de prueba:</span> <br>
> Esto indica que el modelo no ha aprendido suficientemente los datos y, por lo tanto, no puede realizar predicciones precisas ni siquiera en los datos sobre los que fue entrenado.
>
> - <span style="color:orange">Falta de adaptación a los datos:</span> <br>
> Generalmente, esto es resultado de un modelo demasiado simple con muy pocos parámetros o características consideradas, que no captura la complejidad de los datos.

Ahora, usaremos otro modelo `high_model` con `max_depth` de 12:

In [None]:
# Crear el modelo de Random Forest
high_model = DecisionTreeClassifier(criterion="gini", max_depth=12, random_state=2)

# Entrenar el modelo
high_model.fit(X_train, y_train)

# Resultados del modelo
acc_train = accuracy_score(y_true=y_train, y_pred=high_model.predict(X_train))
acc_test = accuracy_score(y_true=y_test, y_pred=high_model.predict(X_test))

# Mostrar resultados
print("Decision Tree - Low Model")
print("-------------------------")
print(f"Accuracy Score - Entrenamiento: {acc_train:.1%}")
print(f"Accuracy Score - Prueba: {acc_test:.1%}")

En este caso, nos encontramos ante un sobreajuste (Overfitting), debido a que la exactitud en el entrenamiento (95%) es mayor comparado a la exactitud de la prueba (88%).

> <span style="color:gold">**¿Qué es el sobreajuste o Overfitting?**</span>
> 
> El overfitting ocurre cuando un modelo de aprendizaje automático está demasiado ajustado a los datos de entrenamiento, es decir, cuando aprende los detalles y el ruido del conjunto de entrenamiento hasta tal punto que impacta negativamente su rendimiento en datos nuevos o no vistos.
>
> Un modelo sobreajustado tiene las siguientes características:
> - <span style="color:orange">Alta exactitud en el conjunto de entrenamiento:</span> <br>
> El modelo funciona excepcionalmente bien en el conjunto de entrenamiento, pero...
>
> - <span style="color:orange">Pobre generalización a nuevos datos:</span> <br>
> Su rendimiento decae significativamente cuando se enfrenta a datos no vistos, lo cual es un indicativo de que ha aprendido a responder a las peculiaridades y al ruido de los datos de entrenamiento en lugar de captar tendencias generalizables.

Vamos a entrenar un modelo intermedio entre estos casos, uno que se ajuste al modelo de manera correcta:
> Seleccionaremos `max_depth` igual a 3.

In [None]:
model = DecisionTreeClassifier(criterion="gini", max_depth=3, random_state=3)

Procederemos ahora a entrenar el modelo:

In [None]:
# Entrenar el modelo de árbol de decisión
model.fit(X_train, y_train)

Una vez entrenado el modelo, evaluaremos su exactitud usando la función `accuracy_score`:

> La <span style="color:#43c6ac">exactitud (accuracy)</span> representa el porcentaje de predicciones que fueron correctas. <br>
> El parámetro `y_true` representa la data que se busca obtener y `y_pred` es la predicción realizada por el modelo. <br>
> Para predecir valores con el modelo, tenemos que usar el método `predict`.

In [None]:
y_train_pred = model.predict(X_train) # Predicción del modelo con X_train
y_test_pred = model.predict(X_test)   # Predicción del modelo con X_test

print(f"Accuracy Score - Entrenamiento: {accuracy_score(y_true=y_train, y_pred=y_train_pred):.1%}")
print(f"Accuracy Score - Prueba: {accuracy_score(y_true=y_test, y_pred=y_test_pred):.1%}")

El modelo de arbol de decisión ha obtenido una alta exactitud (aprox. 87%) para discriminar diferentes clases de rocas volcánicas. <br>
Al tener una exactitud alta en el entrenamiento y de manera similar para la prueba, podemos concluir que no existe sobreajuste.

Ahora, observaremos la importancia de cada columna usando el atributo `feature_importances_`:

In [None]:
x_cols = X.columns # Nombres de cada feature

print("Importancia de atributos")
for col, imp in zip(x_cols, model.feature_importances_):
    print(f"{col}: {imp:.1%}")

La <span style="color:#43c6ac">importancia de atributos</span> nos ayuda a determinar qué variables son las más importantes para entrenar el modelo:
- Observamos que la columna `SiO2` tiene una importancia muy alta (95%) comparada con el resto.
- Las demás columnas, a excepción de `TiO2`(4%) y `FeOT` (<1%), son irrelevantes para el entrenamiento del modelo.

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**¿Podemos visualizar un árbol de decisión?**</span>
***

La respuesta es sí, y para esto, utilizaremos las funciones `export_text` y `plot_tree` del módulo `sklearn.tree`:

In [None]:
import matplotlib.pyplot as plt
from sklearn.tree import export_text, plot_tree   # Funciones para graficar el árbol de decisión

Crearemos una variable llamada `x_cols` para almacenar los nombres de las columnas de X:

In [None]:
# Almacenamos los nombres de las columnas de X
x_cols = list(X.columns)
print(x_cols)

Exportamos los parámetros del árbol de decisión usando la función `export_text`:

In [None]:
text_representation = export_text(model)

Ahora, procedemos a graficar el árbol de decisión usando la función `plot_tree`:

In [None]:
fig = plt.figure(figsize=(16, 6))

plot_tree(model, feature_names=x_cols, class_names=["Basalto", "Andesita", "Dacita", "Riolita"],
          fontsize=7, filled=True, proportion=True, node_ids=True)

plt.tight_layout()

In [None]:
# Guardamos la figura
fig.savefig("files/decision_tree.png", dpi=300, bbox_inches="tight")

Observando la estructura del Árbol de Decisión, notamos lo siguiente:

- La sílice (SiO2) domina como variable inicial en el nodo raíz con un umbral de `SiO2 <= 52.195`, subrayando su rol clave en la determinación del tipo de roca. Su recurrencia en nodos sucesivos refuerza su predominio. Mientras tanto, `TiO2` y `FeOT` emergen como criterios secundarios, señalando una influencia comparativamente menor.

- El modelo exhibe nodos con una pureza Gini notable y una alta proporción de muestras asignadas:
    - `Nodo #4`: pureza Gini de 0.047, clasifica el 25.1% de las muestras como Andesita.
    - `Nodo #10`: pureza Gini de 0.271, clasifica el 28.2% de las muestras como Basalto.
    - `Nodo #13`: pureza Gini de 0.306, clasifica el 16.5% de las muestras como Dacita.
    - `Nodo #14`: pureza Gini de 0.192, clasifica el 22.1% de las muestras como Riolita.

> Esto es un indicador de que el modelo realiza una clasificación confiable en estas categorías.

- Se identifican nodos con una menor cantidad de muestras y una mayor impureza Gini:
    - `Nodo #3`: pureza Gini de 0.359, clasifica el 2.0% de las muestras como Andesita.
    - `Nodo #6`: pureza Gini de 0.481, clasifica el 0.5% de las muestras como Basalto.
    - `Nodo #7`: pureza Gini de 0.352, clasifica el 1.2% de las muestras como Andesita.
    - `Nodo #11`, pureza Gini de 0.466, clasifica el 4.2% de las muestras como Andesita.

> Esto es un indicador de áreas donde el modelo podría mejorar.



***

<a id="parte-4"></a>

### <span style="color:lightgreen">**Evaluación del modelo**</span>
***

Ahora que hemos entrenado un modelo de Árbol de Decisión, usaremos un gráfico que nos permita evaluar la clasificación de rocas volcánicas de acuerdo a la predicción del modelo.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

Para facilitar la interpretación del gráfico y reducir la carga visual, seleccionaremos un subconjunto de muestras de nuestro conjunto de datos original:

In [None]:
# Subconjunto de muestras
sample = data.sample(2000, random_state=42)

X_sample = sample.drop(columns=["Nombre"])  # Columnas de features
y_sample = sample["Nombre"]                 # Columna target
pred_sample = model.predict(X_sample)       # Predicción del modelo

Utilizaremos un mapa de colores específico para los gráficos. Esto facilitará la visualización y diferenciación de las distintas clases de rocas.

> El parámetro `palette` es usado en Seaborn para asignar un mapa de colores para columnas categóricas.

In [None]:
# Mapa de colores
palette = {"basalt": "blue",
           "andesite": "green",
           "dacite": "orange",
           "rhyolite": "red"}

Ahora, visualizaremos el resultado usando las dos variables importantes del modelo, `SiO2` y `TiO2`:

In [None]:
# Figura principal
fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(9, 5), sharey=True)

# Diagrama de dispersión
sns.scatterplot(ax=axs[0], data=X_sample, x="SiO2", y="TiO2", hue=y_sample,
                edgecolor="k", s=10, palette=palette, alpha=0.6)
sns.scatterplot(ax=axs[1], data=X_sample, x="SiO2", y="TiO2", hue=pred_sample,
                edgecolor="k", s=10, palette=palette, alpha=0.6)

# Título
axs[0].set_title("Datos originales")
axs[1].set_title("Predicción del modelo")
fig.suptitle("Decision Tree - Clasificación de Rocas Volcánicas")

# Grilla y leyenda
for ax in axs:
    ax.grid(lw=0.5, c="k", alpha=0.5)
    ax.legend(title="Clases", markerscale=2, edgecolor="k")
    ax.set_ylim(0, None)

plt.tight_layout()

En el gráfico podemos observar lo siguiente:

- El modelo ha logrado una exactitud aproximada del 87%, lo cual indica que la mayoría de los puntos han sido clasificados correctamente.

- La predicción del modelo ha demarcado claramente los límites entre las diferentes clases. Estos límites, definidos por los nodos del árbol de decisión, se manifiestan como líneas de separación en el gráfico.

Para una comprensión más profunda de cómo el modelo estructura los datos, podemos examinar otro gráfico que detalle específicamente estas líneas de separación. Este análisis adicional nos ayudará a entender mejor la distribución espacial de las clases y la lógica de clasificación del modelo.

Empezaremos entrenando un nuevo modelo de Árbol de Decisión usando las dos variables importantes definidas por el modelo anterior: `SiO2` y `TiO2`.

In [None]:
# Seleccionamos los dos features más importantes
features = ["SiO2", "TiO2"]

# Entrenamos un árbol de decisión usando ambos features
new_model = DecisionTreeClassifier(criterion="gini", max_depth=3)
new_model.fit(X[features].values, y.values)

Ahora, crearemos una grilla de puntos que servirá como input para el gráfico:

> La variable `Z` contendrá las predicciones del modelo sobre toda el área del gráfico.

In [None]:
# Crearemos una grilla de puntos para cubrir el espacio de datos
x_min, x_max = X.SiO2.min(), X.SiO2.max()
y_min, y_max = X.TiO2.min(), X.TiO2.max()
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
                     np.arange(y_min, y_max, 0.1))

# Predicción del modelo sobre cada punto de la grilla
Z = new_model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

In [None]:
# Mostramos el resultado
print("Grilla de puntos - Predicción del modelo:")
print("-----------------------------------------")
print(Z)

Para graficar esta grilla, necesitaremos un nuevo mapa de colores:

> Asignaremos un valor numérico a cada clase, y luego usaremos este valor como input para el mapa de colores.

In [None]:
from matplotlib.colors import ListedColormap

# Creamos el mapa de colores (ordenado para cada clase)
colors = ["blue", "green", "orange", "red"]  # Colores asignados
cmap = ListedColormap(colors)

> La función `vectorize` de Numpy permite que una función se pueda aplicar a todos los elementos en un arreglo.

In [None]:
# Diccionario que asigna a cada clase un número entero
category_to_number = {"basalt": 0,
                      "andesite": 1,
                      "dacite": 2,
                      "rhyolite": 3}

# Vectorización del diccionario
Z_numerical = np.vectorize(category_to_number.get)(Z)

La variable `Z_numerical` ahora contiene las predicciones del modelo transformadas a valores numéricos:

In [None]:
# Mostramos el resultado
print("Grilla de puntos - Transformado a valores numéricos:")
print("-----------------------------------------")
print(Z_numerical)

Por último, desarrollaremos el gráfico:

> Mostraremos las áreas de decisión definidas por el modelo. <br>
> Para esto usaremos la función `contourf` de Matplotlib que pinta áreas en un espacio de puntos. <br>
> También usaremos el subconjunto `sample` creado anteriormente para mostrar un diagrama de dispersión.

In [None]:
fig, ax = plt.subplots(figsize=(6, 6))

# Usar contourf para plotear las áreas de decisión
ax.contourf(xx, yy, Z_numerical, cmap=cmap, alpha=0.4)

# Diagrama de dispersión
sns.scatterplot(ax=ax, data=sample, x="SiO2", y="TiO2", hue=y_sample,
                palette=palette, alpha=0.7, s=6, edgecolor="k")

# Texto y leyenda
ax.set_title("Decision Tree - Áreas de decisión")
ax.set_xlabel("SiO2")
ax.set_ylabel("TiO2")
ax.legend(edgecolor="k", markerscale=3, title="Clases")

# Grilla y límites
ax.grid(lw=0.5, alpha=0.5, c="k", ls="--")
ax.set_axisbelow(True)
ax.set_ylim(0, 6)

plt.show()

Una vez más, observamos que la mayoría de las muestras han sido clasificadas correctamente. Sin embargo, ahora es más evidente que algunas muestras están ubicadas en zonas incorrectas, es decir, están mal clasificadas.

Esto se puede atribuir a la naturaleza de los límites de decisión impuestos por el modelo de Árbol de Decisión, los cuales son típicamente rectos y a menudo demasiado simplificados para capturar la complejidad real de los datos.

> Para abordar este problema, se podrían explorar modelos más flexibles que permitan límites de decisión más irregulares y adaptativos, como las Máquinas de Soporte Vectorial (SVM) o los modelos basados en ensamblajes de árboles, como Random Forest o Gradient Boosting. <br>
>
> Estos modelos no solo ofrecen la posibilidad de ajustarse mejor a la distribución subyacente de los datos, sino que también pueden mejorar significativamente la exactitud de la clasificación en casos donde los patrones de los datos son más intrincados.

***

<a id="parte-5"></a>

### <span style="color:lightgreen">**Entropía y ganancia de información**</span>
***

Ahora que hemos explorado prácticamente cómo funcionan los árboles de decisión, es crucial profundizar en los conceptos fundamentales de entropía y ganancia de información. Estos principios son clave para comprender la mecánica subyacente de este modelo y cómo contribuyen a su eficacia:

***
<span style="color:gold">**¿Qué es la entropía?**</span>

La entropía se utiliza para cuantificar la impureza o incertidumbre presente en un conjunto de datos.

La entropía alcanza su valor máximo cuando las clases en el conjunto de datos están perfectamente equilibradas (es decir, hay igual número de muestras de cada clase), lo que indica el mayor grado de incertidumbre o desorden. La entropía de un conjunto `𝑆` con `𝑘` clases diferentes se calcula como:

$$
\text{Entropía}(S) = -\sum_{i=1}^k p_i \log_2(p_i)
$$

Donde `𝑝ᵢ` es la proporción de la clase `𝑖` en el conjunto `𝑆`.

***
<span style="color:gold">**¿Qué es la ganancia de información?**</span>

La ganancia de información es una medida que se deriva de la entropía y se utiliza para determinar cuál es el mejor atributo para dividir el conjunto de datos en cada paso de la construcción del árbol de decisión.

Específicamente, <span style="color:#43c6ac">indica cuánto "mejora" una división en términos de reducción de la impureza o incertidumbre.</span>

La ganancia de información se calcula como la diferencia entre la entropía antes de la división y la suma ponderada de las entropías de cada subconjunto creado por la división, según el atributo seleccionado. Esto se puede expresar como:

$$
\text{Ganancia de Información} = \text{Entropía}(S) - \sum_{v \in \text{Valores}} \frac{|S_v|}{|S|} \text{Entropía}(S_v)
$$

Donde `𝑆𝑣` es el subconjunto de `𝑆` para un valor específico `𝑣` del atributo, y `∣𝑆𝑣∣` y `∣𝑆∣` son las cantidades de muestras en los subconjuntos y en el conjunto original, respectivamente.

En la construcción de un árbol de decisión, estos conceptos se aplican de la siguiente manera:

- <span style="color:lightgreen">**Calculando la entropía del conjunto actual:**</span> <br>
Se evalúa cuán desordenado o impuro es el conjunto de datos antes de cualquier división.

- <span style="color:lightgreen">**Evaluando ganancia de información para cada atributo:**</span> <br>
Se calcula la ganancia de información para cada atributo disponible para determinar cuál de ellos proporciona la mayor reducción en la entropía, es decir, la mayor claridad en la clasificación después de la división.

- <span style="color:lightgreen">**Selección del mejor atributo:**</span> <br>
El atributo que ofrece la máxima ganancia de información es seleccionado para realizar la división en ese nivel del árbol.

- <span style="color:lightgreen">**Repetición del proceso:**</span> <br>
Este proceso se repite recursivamente para cada nuevo subconjunto hasta que los nodos contienen muestras suficientemente homogéneas o se alcanza una condición de parada predefinida.

Estos principios garantizan que el árbol de decisión construido sea eficiente y efectivo, minimizando el número de divisiones necesarias para clasificar correctamente las muestras, lo que a su vez mejora la capacidad de generalización y eficiencia del modelo en tareas de predicción.

***

<a id="parte-6"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

- **Interpretación Basada en la Jerarquía:** <br>
La estructura jerárquica de un árbol de decisión facilita la visualización de qué atributos son los más importantes, lo que los hace más fáciles de interpretar que otros modelos de aprendizaje automático. Gracias a la ganancia de información, podemos identificar de manera precisa y cuantitativa cuáles son los atributos más influyentes en la toma de decisiones.

- **Flexibilidad en Aplicaciones:** <br>
Los árboles de decisión no solo se limitan a la clasificación, sino que también se adaptan eficazmente a tareas de regresión. Esta versatilidad se debe en parte a cómo la entropía y la ganancia de información permiten manejar diferentes tipos de datos y estructuras de problema, haciendo que los árboles sean aplicables a una amplia gama de escenarios.

- **Riesgo de Sobreajuste:** <br>
Aunque los árboles de decisión pueden modelar complejidades detalladas en los datos, tienden a sobreajustarse, especialmente en árboles muy profundos. Este fenómeno ocurre cuando un árbol es demasiado específico a los datos de entrenamiento y no generaliza bien. La ganancia de información es crucial aquí; sin embargo, debe equilibrarse con técnicas como la poda para prevenir este sobreajuste.

- **Sensibilidad a Variaciones en los Datos:** <br>
Los árboles de decisión pueden ser altamente sensibles a pequeñas variaciones en los datos de entrenamiento. Cambios mínimos pueden resultar en árboles significativamente diferentes. Este es un reflejo de cómo las decisiones de división basadas en la entropía y la ganancia de información pueden alterarse con diferentes muestras de entrenamiento.

- **Eficiencia en el Manejo de Datos:** <br>
La capacidad de los árboles de decisión para manejar tanto atributos numéricos como categóricos directamente (sin la necesidad de transformaciones previas como el one-hot encoding) es una ventaja significativa. La entropía ayuda a manejar estas características al evaluar la impureza en las divisiones sin importar el tipo de dato.


***