# ¿Qué es un Árbol de Decisión?

Un árbol de decisión es un modelo supervisado que puede usarse tanto para problemas de **clasificación** como de **regresión**. En esencia, funciona haciendo preguntas sucesivas sobre las características (features) de los datos, dividiendo el conjunto de datos en ramas hasta llegar a decisiones finales.

* Las **ramas internas** del árbol representan condiciones sobre features (por ejemplo, “¿Kilometraje < 50000?”).
* Cada división (“split”) divide los datos en subgrupos más homogéneos respecto de la variable objetivo.
* Las **hojas** del árbol son las predicciones finales: pueden ser una clase en clasificación, o un valor continuo en regresión.

---

## ¿Cómo funciona internamente?

1. **Selección de la característica para dividir**:
   Se buscan las características que mejor separan los datos con respecto al objetivo. Esto se mide por criterios como **gini impurity**, **entropía** o **ganancia de información**.

2. **Punto de corte**:
   Para variables numéricas, se busca un valor numérico tal que al dividir allí los datos, las partes resultantes sean lo más “puras” posibles.

3. **Recursividad**:
   Una vez que haces una división, ese proceso se repite para cada rama, usando los datos que quedaron en ella, hasta que se cumpla algún criterio de parada (por ejemplo, profundidad máxima, número mínimo de ejemplos en una hoja, pureza completa, etc.).

4. **Predicción**:
   Para clasificar o predecir una nueva observación, se comienza en la raíz del árbol, se evalúa la característica solicitada, se “camina” por la rama correspondiente, y se sigue hasta llegar a una hoja. Esa hoja indica la clase o valor asignado.

---

## Ventajas de los Árboles de Decisión

* Son fáciles de entender e interpretar. Las reglas lógicas que usa el árbol son explícitas (“si esto y esto, entonces aquello”).
* No necesitan mucha preparación de los datos (por ejemplo, no requieren normalización de features).
* Pueden manejar tanto variables numéricas como categóricas.
* Visualmente fáciles de representar, lo que facilita explicar los resultados a terceros.

---

## Desventajas o limitaciones

* **Sobreajuste**: Los árboles que crecen demasiado pueden ajustar demasiado el ruido de los datos, en vez de capturar sólo la señal.
* **Inestabilidad**: Pequeñas variaciones en los datos pueden generar árboles bastante diferentes.
* Falta de suavidad en la predicción: el modelo produce saltos, porque las decisiones son en base a condiciones rígidas.
* No suelen tener la mejor performance sin ajustes o sin combinarse con otros métodos (por ejemplo, Random Forests, boosting).

---

## ¿Por qué es importante aprender Árboles de Decisión?

* Porque es un modelo intuitivo que permite comprender reglas de decisión de forma clara. En muchos ámbitos, no basta con una predicción, sino que también se necesita **entender qué variables influyen** y cómo.
* Son la base de muchos métodos más complejos: Random Forest, Gradient Boosting, XGBoost, etc. Para entender esos métodos híbridos, es útil partir de los árboles de decisión simples.
* En problemas reales, pueden ser muy útiles si se busca transparencia o interpretabilidad, por ejemplo en decisiones financieras, médicas o de políticas.
* Permiten hacer tanto clasificación como regresión, lo que los hace versátiles.


En los **árboles de decisión**, los **outliers tienen un impacto relativamente menor** que en modelos lineales, y esto es por varias razones:

---

## 1. **División basada en reglas de corte**

* Los árboles deciden en cada nodo un **umbral** para dividir los datos (por ejemplo, “Kilometraje < 50.000”).
* Un valor extremo solo afecta el nodo si cambia el punto de corte óptimo.
* Si el outlier está lejos del rango mayoritario, normalmente termina en una hoja aparte y **no distorsiona toda la estructura del árbol**, como sí pasa en una regresión lineal.

---

## 2. **Robustez relativa**

* En modelos lineales, un solo outlier puede “tirar” la recta de ajuste hacia él.
* En un árbol de decisión, los outliers suelen ser **aislados en hojas individuales**, por lo que no afectan tanto los splits del resto de los datos.

---

## 3. **Limitaciones**

* Aunque los árboles son robustos, **outliers extremos pueden generar hojas con muy pocos datos**, lo que puede llevar a **sobreajuste local**.
* En datasets muy pequeños, incluso unos pocos outliers pueden cambiar la selección de un split.
* En regresión de árboles (Decision Tree Regressor), los outliers pueden afectar la **predicción promedio** de una hoja si esa hoja contiene pocos datos.

---

##  Resumen práctico

| Característica          | Árbol de Decisión                                       | Regresión Lineal                            |
| ----------------------- | ------------------------------------------------------- | ------------------------------------------- |
| Sensibilidad a outliers | Relativamente baja                                      | Alta, un outlier puede desviar la recta     |
| Cómo afecta             | Puede crear hojas separadas                             | Cambia coeficientes y predicciones globales |
| Precaución              | Outliers extremos en hojas pequeñas pueden sobreajustar | Necesario remover o transformar outliers    |

---

En conclusión:

* Los árboles **no son inmunes**, pero manejan mejor los outliers que los modelos lineales clásicos.
* Si los outliers son muy extremos o frecuentes, conviene revisar los datos o combinar con técnicas como **ensembles** (Random Forest o Gradient Boosting), que suavizan aún más su efecto.



In [1]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # data visualization
import seaborn as sns # statistical data visualization

In [3]:
df = pd.read_csv(r"./datasets/car_evaluation.csv", header=None)

In [4]:
col_names = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']

df.columns = col_names

In [5]:
df.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc
