# Árboles de decisión y el algoritmo CART

## 1. Introducción

Los **árboles de decisión** constituyen uno de los métodos más interpretables y ampliamente utilizados en el aprendizaje automático supervisado.  
Su estructura jerárquica permite dividir progresivamente el espacio de atributos en regiones homogéneas respecto a la variable de salida, generando reglas de decisión de fácil comprensión.  

Cada división (o *split*) en el árbol se selecciona con el objetivo de reducir al máximo la heterogeneidad de las clases en los nodos hijos.  
Para lograrlo, se emplean métricas de **impureza**, como la **entropía** o el **índice de Gini**.  



## 2. Medidas de impureza: Entropía vs. Gini

- **Entropía** (usada en ID3/C4.5):
  $$
  H(t) = -\sum_{j=1}^K p(j\mid t)\,\log_2 p(j\mid t)
  $$

  mide el desorden en el nodo. Valores altos indican una distribución equilibrada de clases.

- **Índice de Gini** (usado en CART):  
  $$
  H(t) = -\sum_{j=1}^K p(j\mid t)\,\log_2 p(j\mid t)
  $$

  mide la probabilidad de clasificación errónea al asignar etiquetas al azar según la distribución de clases.  

Ambas métricas son coherentes y producen resultados similares en la práctica.  
Sin embargo, el índice de Gini es **computacionalmente más eficiente**, al no requerir el cálculo de logaritmos, y tiende a generar divisiones algo más equilibradas en cuanto al tamaño de los nodos.  
Por estas razones, **CART adopta Gini como medida por defecto**.


## 3. De binario a multiclase

En sus orígenes, los árboles de decisión se aplicaron principalmente a problemas de **clasificación binaria**.  
No obstante, la definición del índice de Gini es lo suficientemente general para extenderse de manera inmediata al caso de **múltiples clases**:

$$
\text{Gini}(t) = 1 - \sum_{j=1}^K p(j \mid t)^2, \quad K \geq 2
$$


De esta forma, la estructura binaria del árbol (dos nodos hijos por división) se mantiene, pero los nodos pueden contener observaciones de varias clases simultáneamente.  
El criterio de división sigue siendo válido en cualquier escenario: minimizar la impureza ponderada de los nodos hijos.




## Criterio de división

Cuando un nodo se divide en dos hijos \(t_L\) y \(t_R\), CART calcula la **impureza ponderada** de los hijos.  
El objetivo es **minimizar esta cantidad**, de manera que los nodos hijos sean lo más puros posible.

$$
\text{Impureza ponderada}(s, t) =
\frac{n_L}{n}\,\text{Gini}(t_L) +
\frac{n_R}{n}\,\text{Gini}(t_R)
$$

- \(s\): split propuesto.  
- \(n_L, n_R\): número de observaciones en los nodos izquierdo y derecho.  
- \(n = n_L + n_R\).  
CART selecciona el split \(s^*\) que **minimiza** esta impureza ponderada.


## Búsqueda de umbral en variables continuas

Para variables numéricas, CART **ordena los valores de la característica** y evalúa cortes posibles entre observaciones consecutivas distintas.  
Cada corte se coloca en el **punto medio** entre dos valores distintos.

$$
c = \frac{x_{(i)} + x_{(i+1)}}{2}, 
\quad \text{con } n-1 \text{ posibles cortes entre valores consecutivos}
$$

- Si los valores son iguales, no se prueba un corte (no aporta nada).  
- Si los valores difieren, el corte se evalúa justo en el medio.  



## Resumen del procedimiento CART

1. Elegir un nodo actual con datos.  
2. Para cada característica:
   - Ordenar los valores.  
   - Evaluar todos los cortes posibles entre valores consecutivos distintos.  
   - Calcular la impureza ponderada.  
3. Seleccionar el split con **menor impureza**.  
4. Repetir el proceso recursivamente en cada nodo hijo.  
5. Parar cuando se alcance un nodo puro o un criterio de detención (profundidad máxima, número mínimo de muestras, etc.).
