### Árboles de decisiones 

Es una estructura de árbol en la que cada nodo interno representa una decisión basada en el valor de una característica, cada rama representa el resultado de una prueba y cada hoja representa una clase.

Lo árboles de decisión son útiles en:

- **Conjuntos de datos complejos.**
- **No hay suposiciones sobre distribución de datos.**

![image.png](attachment:image.png)

**Ventajas y desventajas**

**Ventajas**

1. **Interpretabilidad:** Fácil de entender y visualizar, permitiendo la interpretación de resultados.
2. **Manejo de datos mixtos:** Puede manejar datos categóricos y numéricos.
3. No requiere normalización de los datos.

**Desventajas**

1. **Sobreajuste:** Puede ser propenso al sobreajuste.
2. **Inestabilidad:** Pequeñas variaciones en los datos pueden resultar en árboles diferentes, lo que los hace inestables.
3. **Sensible a datos ruidosos.**

### Entropia 
La **entropía** en los árboles de decisión es una medida de la **impureza** o **incertidumbre** de un conjunto de datos. Se utiliza para determinar cómo dividir los datos en los nodos del árbol, eligiendo la mejor característica en cada paso.

En teoría de la información, la entropía mide la cantidad de **incertidumbre** o **desorden** en un sistema. En el contexto de los árboles de decisión, se aplica para medir la mezcla de clases (por ejemplo, "Sí" y "No") en un conjunto de datos. Si un conjunto de datos está perfectamente ordenado (es decir, todas las etiquetas son iguales), la entropía es baja (o cero). Si está muy mezclado, la entropía es alta.

### Fórmula de la Entropía

La entropía se calcula con la siguiente fórmula:

$$
\text{Entropía}(S) = - \sum_{i=1}^{c} p_i \log_2(p_i)
$$

Donde:
- \( S \) es el conjunto de datos.
- \( c \) es el número de clases (por ejemplo, si hay dos clases, \( c = 2 \)).
- \( p_i \) es la proporción de ejemplos de la clase \( i \) en el conjunto de datos.

### Interpretación

- **Entropía baja (cerca de 0)**: El conjunto de datos es puro (todos los ejemplos pertenecen a una sola clase), lo que indica que no hay incertidumbre.
- **Entropía alta (máximo 1 en el caso binario)**: El conjunto de datos está completamente mezclado, con clases distribuidas de manera equitativa, lo que implica máxima incertidumbre.

### Ejemplo de Cálculo de Entropía

Supongamos que tienes un conjunto de datos con 10 ejemplos: 8 son de la clase "Sí" y 2 de la clase "No". La entropía se calcularía de la siguiente manera:

1. **Probabilidades**:
   - \( p(\text{Sí}) = \frac{8}{10} = 0.8 \)
   - \( p(\text{No}) = \frac{2}{10} = 0.2 \)

2. **Cálculo de la Entropía**:

$$
\text{Entropía} = -[0.8 \log_2(0.8) + 0.2 \log_2(0.2)]
$$

$$
\text{Entropía} = -[0.8 \times (-0.3219) + 0.2 \times (-2.3219)]
$$

$$
\text{Entropía} = 0.7219
$$

Este valor indica que hay una mezcla moderada, pero no completamente desordenada (lo cual sería 1).

### Entropía en Árboles de Decisión

En los árboles de decisión, la entropía se utiliza para seleccionar la mejor característica (atributo) en cada nodo. Se calcula la entropía del conjunto antes y después de dividirlo en función de una característica. Luego, se elige la característica que **reduce más la entropía** del sistema, es decir, la que crea subconjuntos más puros.

El cambio en la entropía se llama **ganancia de información**:

$$
\text{Ganancia de Información} = \text{Entropía antes de la división} - \text{Entropía ponderada después de la división}
$$

### Resumen

- **Entropía** mide la incertidumbre o desorden en un conjunto de datos.
- En los **árboles de decisión**, se utiliza para encontrar divisiones que mejor separen los datos en clases puras.
- La **ganancia de información** mide la reducción de la entropía tras una división.