# 1. Introducción a los Árboles de Decisión

Los árboles de decisión son una técnica de aprendizaje supervisado que se utiliza tanto en problemas de clasificación como de regresión. Son parte de una clase de algoritmos llamados modelos de caja blanca, lo que significa que son fáciles de entender e interpretar ya que reflejan claramente el proceso de toma de decisiones.

La idea central detrás de un árbol de decisión es dividir los datos en múltiples conjuntos basados en diferentes condiciones hasta alcanzar un conjunto que tenga la mayor pureza posible, es decir, que contenga la mayor cantidad posible de elementos de una misma clase.

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree

# Cargar el conjunto de datos Iris
iris = load_iris()
X, y = iris.data, iris.target

# Crear y entrenar el modelo de árbol de decisión
clf = DecisionTreeClassifier()
clf.fit(X, y)

# Visualizar el árbol de decisión
plt.figure(figsize=(15,10))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.title("Árbol de Decisión - Ejemplo con el Conjunto de Datos Iris")
plt.show()

# 2. Componentes de un Árbol de Decisión

Un árbol de decisión se compone de los siguientes elementos:

## 2.1 Nodos de decisión
Estos son los nodos que contienen una pregunta o una condición que divide los datos. A partir de cada nodo de decisión, se extienden dos o más ramas, cada una representando posibles respuestas a la pregunta o condiciones.

## 2.2 Ramas
Las ramas representan el resultado de una prueba en un nodo de decisión. En otras palabras, son las "respuestas" a la pregunta o condición en el nodo de decisión. Cada rama conecta dos nodos: un nodo de decisión y otro nodo de decisión o un nodo de hoja.

## 2.3 Nodos de hoja
Los nodos de hoja, también conocidos como nodos terminales, son los nodos donde termina el camino y no hay más preguntas. Representan la decisión final o el resultado de la clasificación o regresión.


## 2.4 Ejemplo

Veamos un ejemplo sencillo. Imaginemos que tenemos un árbol de decisión con la siguiente pregunta en el nodo de decisión inicial: "¿Está lloviendo?" Esta es una condición que divide nuestros datos en dos: los días en que está lloviendo y los días en que no lo está.

Las ramas que se extienden desde este nodo representan las posibles respuestas: una rama para "Sí" y otra para "No".

Si seguimos la rama "Sí", podríamos llegar a un nodo de hoja que dice "Llevar paraguas". No hay más preguntas después de esto, así que este es nuestro resultado final. Del mismo modo, si seguimos la rama "No", podríamos llegar a un nodo de hoja que dice "No llevar paraguas".

Por supuesto, en la práctica, los árboles de decisión pueden ser mucho más complicados que esto, con muchos más nodos de decisión y nodos de hoja, dependiendo de cuántas características estés considerando y cuán detalladas sean tus decisiones.

# 3. Cómo se crea un árbol de decisión: Algoritmo ID3

Para construir un árbol de decisión, necesitamos un proceso sistemático para determinar qué preguntas hacer y en qué orden. Uno de los algoritmos más conocidos para hacer esto es el algoritmo ID3.

El algoritmo ID3, que significa Iterative Dichotomiser 3, fue desarrollado por Ross Quinlan. Se utiliza para generar un árbol de decisión a partir de un conjunto de datos. El algoritmo ID3 sigue un enfoque de tipo 'codicioso' en el sentido de que hace la elección óptima local en cada nodo con la esperanza de que estas elecciones locales lleven a una solución global óptima. El algoritmo hace esto de la siguiente manera:

1. Comienza con el conjunto de datos original como la raíz del árbol.
2. Si todas las instancias en el conjunto de datos son de la misma clase, entonces este nodo se convierte en un nodo hoja y se etiqueta con esa clase.
3. Si no, calcula la entropía del conjunto de datos.
4. Para cada característica en el conjunto de datos, calcula la ganancia de información de dividir el conjunto de datos en subconjuntos según esa característica.
5. Elige la característica que tiene la mayor ganancia de información.
6. Divide el conjunto de datos en subconjuntos según la característica seleccionada.
7. Repite el proceso para cada subconjunto, creando un nuevo nodo de decisión para cada uno.


## 3.1 Cálculo de la Entropía y la Ganancia de Información

### Entropía

La entropía es una medida de la impureza o el desorden. En el contexto de los árboles de decisión, la entropía se utiliza para medir la impureza de una entrada de datos.

Para calcular la entropía de un conjunto de datos, usamos la fórmula:

$Entropía(S) = - \sum_{i} p_i \cdot log_2(p_i)$

Donde:
- $S$ es el conjunto total de ejemplos
- $p_i$ es la proporción de ejemplos que pertenecen a la etiqueta $i$ en el conjunto $S$.

La entropía será 0 cuando todos los ejemplos en $S$ son de la misma clase, y será 1 cuando los ejemplos están igualmente divididos entre todas las clases.

### Ganancia de Información

La ganancia de información es una métrica que nos ayuda a decidir cuál característica es la mejor para dividir un nodo en un árbol de decisión.

Para calcular la ganancia de información de una característica, usamos la fórmula:

$Ganancia(S, A) = Entropía(S) - \sum_{v \in Valores(A)} \left( \frac{|S_v|}{|S|} \cdot Entropía(S_v) \right)$

Donde:
- $S$ es el conjunto total de ejemplos
- $A$ es la característica que estamos considerando para dividir
- $Valores(A)$ son todos los posibles valores de la característica $A$
- $S_v$ es el subconjunto de ejemplos en $S$ donde la característica $A$ tiene el valor $v$
- $|S_v|$ y $|S|$ son las cantidades de ejemplos en los conjuntos $S_v$ y $S$ respectivamente.

La idea es que queremos dividir por la característica que más reduzca la impureza (según la entropía) de nuestros conjuntos resultantes. Por lo tanto, buscamos la característica que nos dé la mayor ganancia de información.



## 3.2 Ejemplo manual de cómo se divide una variable en ramas usando entropía y ganancia de información

Consideremos un conjunto de datos muy sencillo sobre jugar al tenis, que incluye características como el pronóstico del clima (soleado, nublado, lluvioso), el viento (débil, fuerte) y si jugamos al tenis o no en esas condiciones.

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# Crear el conjunto de datos
data = pd.DataFrame({
    'Clima': ['Soleado', 'Nublado', 'Lluvioso', 'Soleado', 'Nublado', 'Soleado', 'Lluvioso', 'Soleado'],
    'Viento': ['Fuerte', 'Débil', 'Fuerte', 'Fuerte', 'Débil', 'Débil', 'Fuerte', 'Débil'],
    'Jugar': ['No', 'Si', 'No', 'Si', 'Si', 'No', 'No', 'Si']
})
data

Después, calcularemos la entropía del conjunto de datos completo.

In [None]:
import math

# Calcular la entropía del conjunto de datos completo
total = len(data)
jugar_counts = data['Jugar'].value_counts()
jugar_counts

In [None]:
total

In [None]:
entropia_total = -sum([(count/total)*math.log2(count/total) for count in jugar_counts])
print("Entropía total:", entropia_total)

A continuación, vamos a calcular la ganancia de información para las variables `Clima` y `Viento`

In [None]:
var_values = data['Clima'].unique()
var_values

In [None]:
data[data['Clima'] == 'Soleado']

In [None]:
# Calcular la ganancia de información para las variables
variables = ['Clima', 'Viento']

for var in variables:
    var_values = data[var].unique()
    entropias_var = []

    for value in var_values:
        subdata = data[data[var] == value]
        subdata_total = len(subdata)
        jugar_counts = subdata['Jugar'].value_counts()
        entropia_subdata = -sum([ (count/subdata_total)*math.log2(count/subdata_total) for count in jugar_counts ])
        entropias_var.append((subdata_total/total)*entropia_subdata)

    ganancia_var = entropia_total - sum(entropias_var)
    print(f"Ganancia de información para '{var}':", ganancia_var)

Después de calcular la ganancia de información para las variables `Clima` y `Viento`, podemos ver que la variable `Clima` tiene la mayor ganancia de información. Por lo tanto, `Clima` es la variable que deberíamos seleccionar para dividir nuestro conjunto de datos en este punto.

Esto significa que el primer nodo en nuestro árbol de decisión debería ser una división basada en la variable `Clima`. Los siguientes nodos del árbol se crean siguiendo el mismo proceso para los subconjuntos de datos resultantes.

Es importante recordar que este es un proceso iterativo. Después de dividir por `Clima`, tendríamos que calcular de nuevo la ganancia de información para todas las variables en cada uno de los subconjuntos de datos y seleccionar la variable con mayor ganancia de información para la siguiente división. Este proceso se repite hasta que todos los elementos dentro de un subconjunto pertenezcan a la misma clase, o hasta que no nos queden más variables por las cuales dividir.

# 4. Implementación de un árbol de decisión simple en Python

Vamos a implementar un árbol de decisión utilizando la biblioteca `sklearn` y el conjunto de datos `Iris`.

Primero, importamos las librerías necesarias y cargamos el conjunto de datos.

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
import matplotlib.pyplot as plt

# Cargamos el conjunto de datos Iris
iris = load_iris()

In [None]:
iris.data.shape

In [None]:
iris.target.shape

In [None]:
iris.feature_names

A continuación, dividimos los datos en un conjunto de entrenamiento y otro de prueba.

In [None]:
# Dividimos los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    test_size=0.2,
                                                    random_state=1)

In [None]:
X_train.shape

Luego, entrenamos un árbol de decisión con el conjunto de entrenamiento.

In [None]:
# Entrenamos el árbol de decisión
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

Después, podemos visualizar el árbol de decisión que hemos entrenado.

In [None]:
# Visualizamos el árbol de decisión
plt.figure(figsize=(15,10))
tree.plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()
# sepal_length=2.4, sepal_width=3.5, petal_length=3.4, petal_width=2.0

In [None]:
import numpy as np

clf.predict(np.array([[2.4,3.5,3.4,2.0]]))

In [None]:
iris.target_names

Por último, podemos usar nuestro árbol de decisión para hacer predicciones en el conjunto de prueba y evaluar su rendimiento.

# 5. Métricas de evaluación de rendimiento

## Matriz de Confusión: Verdaderos Positivos, Verdaderos Negativos, Falsos Positivos y Falsos Negativos

Para comprender completamente las métricas de precisión, recall y accuracy, es útil primero entender la matriz de confusión. Una matriz de confusión es una tabla que se utiliza para describir el rendimiento de un modelo de clasificación en un conjunto de datos para los cuales los valores verdaderos son conocidos. Se llama así porque hace muy fácil ver si el sistema está confundiendo dos clases.

En esta matriz:

- **Verdaderos Positivos (TP):** Son aquellos casos en los que el modelo predijo 'positivo' y la clase verdadera también es 'positiva'.

- **Verdaderos Negativos (TN):** Son aquellos casos en los que el modelo predijo 'negativo' y la clase verdadera también es 'negativa'.

- **Falsos Positivos (FP):** Son aquellos casos en los que el modelo predijo 'positivo' pero la clase verdadera es 'negativa'. También se conocen como "Errores de Tipo I".

- **Falsos Negativos (FN):** Son aquellos casos en los que el modelo predijo 'negativo' pero la clase verdadera es 'positiva'. También se conocen como "Errores de Tipo II".

Estos cuatro números forman la matriz de confusión y son la base para varias métricas importantes para evaluar el rendimiento de los modelos de clasificación.


### Precisión (Precision)

La precisión se calcula como el número de Verdaderos Positivos (TP) dividido por la suma de Verdaderos Positivos (TP) y Falsos Positivos (FP). Es una indicación de cuántas de las clasificaciones positivas del modelo son realmente correctas.

$Precisión = \frac{TP}{TP+FP}$

### Recall (Sensibilidad)

El recall, también conocido como sensibilidad, se calcula como el número de Verdaderos Positivos (TP) dividido por la suma de Verdaderos Positivos (TP) y Falsos Negativos (FN). Es una indicación de cuántos de los positivos reales el modelo es capaz de identificar.

$Recall = \frac{TP}{TP+FN}$

### F1-Score

El F1-Score es la media armónica de la precisión y el recall, y proporciona una medida única que equilibra ambas métricas. Un F1-Score perfecto sería 1, lo que indica precisión y recall perfectos, y el peor sería 0.

$F1-Score = 2 \cdot \frac{Precisión \cdot Recall}{Precisión + Recall}$

### Support

El support es simplemente el número de ocurrencias de la clase verdadera en el conjunto de datos. En el caso de un conjunto de datos equilibrado, este número debería ser el mismo para cada clase.

### Accuracy (Exactitud)

La accuracy es quizás la métrica más intuitiva. Se calcula como el número de predicciones correctas (Verdaderos Positivos y Verdaderos Negativos) dividido por el número total de observaciones. En otras palabras, es la proporción de predicciones correctas que hizo nuestro modelo.

$Accuracy = \frac{TP+TN}{TP+FP+TN+FN}$

Es importante señalar que aunque la accuracy puede ser una medida útil en muchos casos, puede ser engañosa si las clases están muy desequilibradas. Por ejemplo, si el 95% de tus datos son de la clase A y sólo el 5% son de la clase B, un modelo que siempre predice la clase A tendrá una accuracy del 95%, pero no será un buen modelo ya que es incapaz de identificar correctamente los ejemplos de la clase B.

In [None]:
# Hacemos predicciones en el conjunto de prueba
y_pred = clf.predict(X_test)

# Evaluamos el rendimiento del árbol
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred, target_names=iris.target_names))

# 6. Ejemplo de Árbol de Decisión con otro Dataset

En esta sección, realizaremos un análisis utilizando el conjunto de datos Titanic. Este conjunto de datos contiene información sobre los pasajeros del Titanic, como si sobrevivieron o no, la clase en la que viajaban, su sexo, edad, entre otros.

## 6.1 Descripción del Dataset Titanic

El conjunto de datos Titanic contiene las siguientes variables:

- `survived`: Indica si el pasajero sobrevivió (1) o no (0).
- `pclass`: Clase del pasajero (1 = Primera, 2 = Segunda, 3 = Tercera).
- `sex`: Sexo del pasajero (male o female).
- `age`: Edad del pasajero.
- `sibsp`: Número de hermanos/esposos a bordo.
- `parch`: Número de padres/hijos a bordo.
- `fare`: Tarifa pagada por el pasajero.
- `embarked`: Puerto de embarque (C = Cherbourg, Q = Queenstown, S = Southampton).
- `class`: Clase del pasajero (First, Second, Third), derivada de `pclass`.
- `who`: Descripción de la persona (man, woman, child).
- `adult_male`: Indica si el pasajero es un hombre adulto.
- `deck`: Cubierta en la que se encontraba el pasajero.
- `embark_town`: Nombre del puerto de embarque.
- `alive`: Indica si el pasajero sobrevivió (yes) o no (no), derivada de `survived`.
- `alone`: Indica si el pasajero viajaba solo.

## 6.2 Manejo de Valores Nulos

Para manejar los valores nulos en el dataset Titanic, realizamos las siguientes acciones:

- Rellenamos los valores nulos en la columna `age` con la media de la columna.
- Rellenamos los valores nulos en las columnas `embarked` y `embark_town` con la moda de cada columna.
- Añadimos la categoría 'Unknown' a la columna `deck` y rellenamos sus valores nulos con esta nueva categoría.

## 6.3 Aplicación de One-Hot Encoding

One-Hot Encoding es una técnica utilizada para convertir variables categóricas en una forma que pueda ser proporcionada a algoritmos de aprendizaje automático. La mayoría de los algoritmos no pueden manejar variables categóricas directamente, ya que se basan en operaciones matemáticas que no pueden ser realizadas en datos categóricos. One-Hot Encoding permite representar estas variables de una manera que puede ser interpretada por los algoritmos.

### ¿Cómo funciona One-Hot Encoding?

Supongamos que tenemos una variable categórica `embarked` con tres categorías: `C`, `Q` y `S`. One-Hot Encoding convertirá esta variable en tres columnas binarias (0 o 1), una para cada categoría:

| embarked_C | embarked_Q | embarked_S |
|------------|------------|------------|
|      1     |      0     |      0     |
|      0     |      1     |      0     |
|      0     |      0     |      1     |

Esto asegura que el algoritmo no asuma una relación ordinal entre las categorías.

A continuación, aplicamos One-Hot Encoding a todas las variables categóricas relevantes del conjunto de datos Titanic, excluyendo las derivadas repetidas.

In [None]:
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

# Cargar el conjunto de datos Titanic
titanic = sns.load_dataset('titanic')

# Seleccionar características y etiqueta
X = titanic[['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alone']]
y = titanic['survived']

# Manejar valores nulos
# Rellenar valores nulos en 'age' con la media
X['age'].fillna(X['age'].mean(), inplace=True)

# Rellenar valores nulos en 'embarked' y 'embark_town' con la moda
X['embarked'].fillna(X['embarked'].mode()[0], inplace=True)
X['embark_town'].fillna(X['embark_town'].mode()[0], inplace=True)

# Añadir la categoría 'Unknown' a la columna 'deck'
X['deck'] = X['deck'].cat.add_categories(['Unknown'])
# Rellenar valores nulos en 'deck' con la categoría 'Unknown'
X['deck'].fillna('Unknown', inplace=True)

# Aplicar One-Hot Encoding a las variables categóricas
X_encoded = pd.get_dummies(X, columns=['pclass', 'sex', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alone'],
                           drop_first=True)

# Mostrar las primeras filas del DataFrame transformado
X_encoded.head()

In [None]:
# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.3, random_state=42)

## 6.4 Parámetros Importantes de un Árbol de Decisión

Al construir un modelo de árbol de decisión, hay varios parámetros importantes que pueden influir en el rendimiento del modelo. Aquí se describen algunos de los más relevantes:

- **criterion**: La función que se utiliza para medir la calidad de una división. Las opciones son "gini" para el índice de Gini y "entropy" para la ganancia de información.
- **splitter**: La estrategia utilizada para elegir la división en cada nodo. Las opciones son "best" para elegir la mejor división y "random" para elegir la mejor división aleatoria.
- **max_depth**: La profundidad máxima del árbol. Limitar la profundidad del árbol puede ayudar a prevenir el sobreajuste (overfitting).
- **min_samples_split**: El número mínimo de muestras necesarias para dividir un nodo.
- **min_samples_leaf**: El número mínimo de muestras que debe tener un nodo hoja.
- **max_features**: El número máximo de características que se consideran para dividir un nodo.

A continuación, ajustamos el modelo utilizando el parámetro `max_depth` para controlar el tamaño del árbol.

## 6.5 Creación y Visualización del Modelo con Parámetros Ajustados

In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

# Crear y entrenar el modelo de árbol de decisión con varios parámetros ajustados
clf = DecisionTreeClassifier(
    criterion='entropy',        # Usar la ganancia de información
    splitter='best',            # Elegir la mejor división
    max_depth=4,                # Profundidad máxima del árbol
    min_samples_split=10,       # Número mínimo de muestras para dividir un nodo
    min_samples_leaf=5,         # Número mínimo de muestras que debe tener un nodo hoja
    max_features=None           # Considerar todas las características para dividir un nodo
)
clf.fit(X_train, y_train)

# Visualizar el árbol de decisión
plt.figure(figsize=(15,10))
plot_tree(clf, filled=True, feature_names=X_encoded.columns, class_names=['Not Survived', 'Survived'])
plt.title("Árbol de Decisión - Ejemplo con el Conjunto de Datos Titanic")
plt.show()

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Predecir en el conjunto de prueba
y_pred = clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

# Mostrar los resultados de la evaluación
print(f"Exactitud: {accuracy}")
print("Matriz de Confusión:")
print(conf_matrix)
print("Reporte de Clasificación:")
print(class_report)

## 7. Conclusión

En esta libreta, hemos explorado los árboles de decisión como una técnica de aprendizaje supervisado, tanto para problemas de clasificación como de regresión. Comenzamos con una introducción teórica a los árboles de decisión, sus componentes y su funcionamiento básico. Posteriormente, aplicamos este conocimiento en un ejemplo práctico utilizando el conjunto de datos Titanic.

Realizamos los siguientes pasos:

1. **Carga y Preparación de Datos**: Seleccionamos las características relevantes, manejamos valores nulos y aplicamos One-Hot Encoding a las variables categóricas para que puedan ser utilizadas por el modelo.
2. **Creación y Entrenamiento del Modelo**: Utilizamos `DecisionTreeClassifier` de `scikit-learn` para construir un modelo de árbol de decisión, ajustando varios parámetros importantes para mejorar su rendimiento.
3. **Visualización y Evaluación del Modelo**: Visualizamos el árbol de decisión resultante y evaluamos su rendimiento utilizando métricas como la exactitud, la matriz de confusión y el reporte de clasificación.

Al ajustar los parámetros del árbol de decisión, logramos controlar su complejidad y mejorar su capacidad para generalizar a nuevos datos. Este proceso demostró cómo los árboles de decisión pueden ser una herramienta poderosa y fácilmente interpretable para resolver problemas de clasificación.

En resumen, los árboles de decisión son modelos flexibles y efectivos que, con el ajuste adecuado de sus parámetros, pueden proporcionar resultados precisos y comprensibles en una variedad de aplicaciones. Esperamos que esta libreta haya proporcionado una comprensión clara de cómo funcionan los árboles de decisión y cómo pueden aplicarse en análisis de datos reales.