# Árboles de Decisión

Este notebook explica el algoritmo de Árboles de Decisión, uno de los algoritmos más intuitivos y versátiles en Machine Learning.

## ¿Qué es un Árbol de Decisión?

Un árbol de decisión es un modelo de aprendizaje supervisado que utiliza una estructura de árbol para tomar decisiones. Cada nodo interno representa una prueba sobre un atributo, cada rama representa el resultado de la prueba, y cada hoja (nodo terminal) representa una clase o valor.

## Ventajas y Desventajas

**Ventajas:**
- Fácil de entender e interpretar
- Requiere poca preparación de datos
- Puede manejar datos numéricos y categóricos
- No requiere normalización de datos

**Desventajas:**
- Puede sobreajustarse fácilmente (overfitting)
- Puede ser inestable (pequeños cambios en datos pueden generar árboles muy diferentes)
- Sesgo hacia características con más niveles


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns


## Conceptos Fundamentales

### 1. Entropía
La entropía mide la impureza o desorden en un conjunto de datos. Se calcula como:

$$H(S) = -\sum_{i=1}^{c} p_i \log_2(p_i)$$

donde $p_i$ es la proporción de ejemplos de la clase $i$ en el conjunto $S$.

### 2. Ganancia de Información
La ganancia de información mide la reducción en entropía después de dividir un conjunto según un atributo:

$$IG(S, A) = H(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|} H(S_v)$$

### 3. Índice Gini
El índice Gini es otra medida de impureza:

$$Gini(S) = 1 - \sum_{i=1}^{c} p_i^2$$


In [None]:
# Ejemplo de cálculo de entropía
def entropia(y):
    """Calcula la entropía de un conjunto de etiquetas"""
    if len(y) == 0:
        return 0
    # Contar frecuencias de cada clase
    counts = np.bincount(y)
    # Calcular proporciones
    proportions = counts / len(y)
    # Eliminar ceros para evitar log(0)
    proportions = proportions[proportions > 0]
    # Calcular entropía
    return -np.sum(proportions * np.log2(proportions))

# Ejemplo de cálculo de índice Gini
def gini(y):
    """Calcula el índice Gini de un conjunto de etiquetas"""
    if len(y) == 0:
        return 0
    counts = np.bincount(y)
    proportions = counts / len(y)
    return 1 - np.sum(proportions ** 2)

# Ejemplo
y_ejemplo = np.array([0, 0, 0, 1, 1, 1, 1, 1])
print(f"Entropía: {entropia(y_ejemplo):.4f}")
print(f"Gini: {gini(y_ejemplo):.4f}")

# Conjunto más puro
y_puro = np.array([0, 0, 0, 0, 0, 0])
print(f"\nConjunto puro - Entropía: {entropia(y_puro):.4f}, Gini: {gini(y_puro):.4f}")

# Conjunto más impuro (50-50)
y_impuro = np.array([0, 0, 0, 1, 1, 1])
print(f"Conjunto impuro - Entropía: {entropia(y_impuro):.4f}, Gini: {gini(y_impuro):.4f}")


## Árbol de Decisión para Clasificación


In [None]:
# Cargar dataset de iris
iris = datasets.load_iris()
X, y = iris.data, iris.target

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Crear y entrenar el árbol de decisión
dt_clf = DecisionTreeClassifier(
    criterion='gini',        # Criterio de división: 'gini' o 'entropy'
    max_depth=3,             # Profundidad máxima del árbol
    min_samples_split=2,     # Mínimo de muestras para dividir un nodo
    min_samples_leaf=1,      # Mínimo de muestras en una hoja
    random_state=42
)

dt_clf.fit(X_train, y_train)

# Hacer predicciones
y_pred = dt_clf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión: {accuracy:.4f}")
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))


In [None]:
# Visualizar el árbol de decisión
plt.figure(figsize=(20, 10))
plot_tree(dt_clf, 
          feature_names=iris.feature_names,
          class_names=iris.target_names,
          filled=True,
          rounded=True,
          fontsize=10)
plt.title("Árbol de Decisión - Dataset Iris", fontsize=16)
plt.show()
