# ¿Qué es un Árbol de Decisión?

Un árbol de decisión es un modelo supervisado que puede usarse tanto para problemas de **clasificación** como de **regresión**. En esencia, funciona haciendo preguntas sucesivas sobre las características (features) de los datos, dividiendo el conjunto de datos en ramas hasta llegar a decisiones finales.

* Las **ramas internas** del árbol representan condiciones sobre features (por ejemplo, “¿Kilometraje < 50000?”).
* Cada división (“split”) divide los datos en subgrupos más homogéneos respecto de la variable objetivo.
* Las **hojas** del árbol son las predicciones finales: pueden ser una clase en clasificación, o un valor continuo en regresión.

---

## ¿Cómo funciona internamente?

1. **Selección de la característica para dividir**:
   Se buscan las características que mejor separan los datos con respecto al objetivo. Esto se mide por criterios como **gini impurity**, **entropía** o **ganancia de información**.

2. **Punto de corte**:
   Para variables numéricas, se busca un valor numérico tal que al dividir allí los datos, las partes resultantes sean lo más “puras” posibles.

3. **Recursividad**:
   Una vez que haces una división, ese proceso se repite para cada rama, usando los datos que quedaron en ella, hasta que se cumpla algún criterio de parada (por ejemplo, profundidad máxima, número mínimo de ejemplos en una hoja, pureza completa, etc.).

4. **Predicción**:
   Para clasificar o predecir una nueva observación, se comienza en la raíz del árbol, se evalúa la característica solicitada, se “camina” por la rama correspondiente, y se sigue hasta llegar a una hoja. Esa hoja indica la clase o valor asignado.

---

## Ventajas de los Árboles de Decisión

* Son fáciles de entender e interpretar. Las reglas lógicas que usa el árbol son explícitas (“si esto y esto, entonces aquello”).
* No necesitan mucha preparación de los datos (por ejemplo, no requieren normalización de features).
* Pueden manejar tanto variables numéricas como categóricas.
* Visualmente fáciles de representar, lo que facilita explicar los resultados a terceros.

---

## Desventajas o limitaciones

* **Sobreajuste**: Los árboles que crecen demasiado pueden ajustar demasiado el ruido de los datos, en vez de capturar sólo la señal.
* **Inestabilidad**: Pequeñas variaciones en los datos pueden generar árboles bastante diferentes.
* Falta de suavidad en la predicción: el modelo produce saltos, porque las decisiones son en base a condiciones rígidas.
* No suelen tener la mejor performance sin ajustes o sin combinarse con otros métodos (por ejemplo, Random Forests, boosting).

---

## ¿Por qué es importante aprender Árboles de Decisión?

* Porque es un modelo intuitivo que permite comprender reglas de decisión de forma clara. En muchos ámbitos, no basta con una predicción, sino que también se necesita **entender qué variables influyen** y cómo.
* Son la base de muchos métodos más complejos: Random Forest, Gradient Boosting, XGBoost, etc. Para entender esos métodos híbridos, es útil partir de los árboles de decisión simples.
* En problemas reales, pueden ser muy útiles si se busca transparencia o interpretabilidad, por ejemplo en decisiones financieras, médicas o de políticas.
* Permiten hacer tanto clasificación como regresión, lo que los hace versátiles.


En los **árboles de decisión**, los **outliers tienen un impacto relativamente menor** que en modelos lineales, y esto es por varias razones:

---

## 1. **División basada en reglas de corte**

* Los árboles deciden en cada nodo un **umbral** para dividir los datos (por ejemplo, “Kilometraje < 50.000”).
* Un valor extremo solo afecta el nodo si cambia el punto de corte óptimo.
* Si el outlier está lejos del rango mayoritario, normalmente termina en una hoja aparte y **no distorsiona toda la estructura del árbol**, como sí pasa en una regresión lineal.

---

## 2. **Robustez relativa**

* En modelos lineales, un solo outlier puede “tirar” la recta de ajuste hacia él.
* En un árbol de decisión, los outliers suelen ser **aislados en hojas individuales**, por lo que no afectan tanto los splits del resto de los datos.

---

## 3. **Limitaciones**

* Aunque los árboles son robustos, **outliers extremos pueden generar hojas con muy pocos datos**, lo que puede llevar a **sobreajuste local**.
* En datasets muy pequeños, incluso unos pocos outliers pueden cambiar la selección de un split.
* En regresión de árboles (Decision Tree Regressor), los outliers pueden afectar la **predicción promedio** de una hoja si esa hoja contiene pocos datos.

---

##  Resumen práctico

| Característica          | Árbol de Decisión                                       | Regresión Lineal                            |
| ----------------------- | ------------------------------------------------------- | ------------------------------------------- |
| Sensibilidad a outliers | Relativamente baja                                      | Alta, un outlier puede desviar la recta     |
| Cómo afecta             | Puede crear hojas separadas                             | Cambia coeficientes y predicciones globales |
| Precaución              | Outliers extremos en hojas pequeñas pueden sobreajustar | Necesario remover o transformar outliers    |

---

En conclusión:

* Los árboles **no son inmunes**, pero manejan mejor los outliers que los modelos lineales clásicos.
* Si los outliers son muy extremos o frecuentes, conviene revisar los datos o combinar con técnicas como **ensembles** (Random Forest o Gradient Boosting), que suavizan aún más su efecto.



### Nombres

1.  **buying** → **precio_compra**
    *   *Explicación:* Representa el precio de compra del vehículo.
    *   *Valores típicos:* `vhigh` (muy alto), `high` (alto), `med` (medio), `low` (bajo).

2.  **maint** → **costo_mantenimiento**
    *   *Explicación:* Representa el costo estimado del mantenimiento del vehículo.
    *   *Valores típicos:* `vhigh` (muy alto), `high` (alto), `med` (medio), `low` (bajo).

3.  **doors** → **numero_puertas**
    *   *Explicación:* Indica el número de puertas del coche.
    *   *Valores típicos:* `2`, `3`, `4`, `5more` (5 o más).

4.  **persons** → **capacidad_pasajeros**
    *   *Explicación:* Indica la capacidad de personas que el coche puede transportar.
    *   *Valores típicos:* `2`, `4`, `more` (más de 4, típicamente 5 o 6).

5.  **lug_boot** → **tamaño_maletero**
    *   *Explicación:* Describe el tamaño del maletero o espacio de carga.
    *   *Valores típicos:* `small` (pequeño), `med` (mediano), `big` (grande).

6.  **safety** → **nivel_seguridad**
    *   *Explicación:* Evalúa el nivel de seguridad estimado del vehículo.
    *   *Valores típicos:* `low` (bajo), `med` (medio), `high` (alto).

7.  **class** → **evaluacion_final** o **clase**
    *   *Explicación:* Es la evaluación final o clasificación de aceptabilidad del coche.
    *   *Valores típicos:* `unacc` (inaceptable), `acc` (aceptable), `good` (bueno), `vgood` (muy bueno).


In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # data visualization
import seaborn as sns # statistical data visualization

In [None]:
df = pd.read_csv(r"./datasets/car_evaluation.csv", header=None)

In [None]:
def normalizar_datos_car(df:pd.DataFrame, mapping:dict[str,dict]) -> pd. DataFrame:
    # Crear copia del dataframe
    df_normalizado = df.copy()
    
    for columna, mapeo in mapping.items():
        if columna in df_normalizado.columns:
            df_normalizado[columna] = df_normalizado[columna].map(mapeo)
            
    return df_normalizado

In [None]:
mapeo_categorias = {
    # Precio de compra
    'buying': {
        'vhigh': 'muy_alto',
        'high': 'alto', 
        'med': 'medio',
        'low': 'bajo'
    },
    
    # Costo de mantenimiento
    'maint': {
        'vhigh': 'muy_alto',
        'high': 'alto',
        'med': 'medio', 
        'low': 'bajo'
    },
    
    # Número de puertas
    'doors': {
        '2': '2_puertas',
        '3': '3_puertas',
        '4': '4_puertas',
        '5more': '5_o_mas_puertas'
    },
    
    # Capacidad de pasajeros
    'persons': {
        '2': '2_pasajeros',
        '4': '4_pasajeros',
        'more': 'mas_de_4_pasajeros'
    },
    
    # Tamaño del maletero
    'lug_boot': {
        'small': 'pequeno',
        'med': 'mediano',
        'big': 'grande'
    },
    
    # Nivel de seguridad
    'safety': {
        'low': 'bajo',
        'med': 'medio',
        'high': 'alto'
    },
    
    # Evaluación final
    'class': {
        'unacc': 'inaceptable',
        'acc': 'aceptable',
        'good': 'bueno',
        'vgood': 'muy_bueno'
    }
}

In [None]:
df.columns = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']

In [None]:
df.sample(10)

In [None]:
df_normalizado = normalizar_datos_car(df=df,mapping=mapeo_categorias)
df_normalizado

In [None]:
columnas_especificas = {
    'buying': 'precio',
    'maint': 'mantenimiento',
    'doors': 'num_puertas',
    'persons': 'num_pasajeros',
    'lug_boot': 'tamano_maletero',
    'safety': 'seguridad',
    'class': 'clase'
}

df = df_normalizado.rename(columns=columnas_especificas)

In [None]:
df.info()

In [None]:
df.sample()

In [None]:
df.describe(include=object).T

In [None]:
df = df.drop_duplicates(keep='first')

In [None]:
# Preparar datos para FacetGrid
df_melted = df.melt(var_name='variable', value_name='valor')

# Crear FacetGrid
g = sns.FacetGrid(
    df_melted,
    col='variable',
    col_wrap=3, 
    sharex=False,
    sharey=False,
    height=4,
    aspect=1.5
)

g.map_dataframe(sns.countplot, x='valor', palette='viridis', hue='valor')
g.set_titles('{col_name}')
g.set_xticklabels(rotation=45)

# Ajustar layout
plt.tight_layout()
plt.show()

In [None]:
import altair as alt

# Crear gráficos individuales y combinarlos
charts = []

for columna in df.columns:
    chart = alt.Chart(df).mark_bar().encode(
        x=alt.X(columna, title=columna, axis=alt.Axis(labelAngle=-45)),
        y=alt.Y('count()', title='Frecuencia'),
        tooltip=[columna, 'count()']
    ).properties(
        width=200,
        height=200,
        title=columna
    )
    charts.append(chart)

# Combinar todos los gráficos
final_chart = alt.vconcat(
    alt.hconcat(*charts[0:3]),
    alt.hconcat(*charts[3:6]),
    alt.hconcat(charts[6], alt.Chart().mark_text(), alt.Chart().mark_text())  # Ajustar para 7 elementos
)

final_chart

## Separacion de variables


In [None]:
X = df.drop(['clase'], axis=1)
y = df['clase']

In [None]:
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder
from sklearn.model_selection import train_test_split

# Codificar X
encoder_X = OrdinalEncoder()
X_encoded = encoder_X.fit_transform(X)

# Codificar y (si es categórico)
encoder_y = LabelEncoder()
y_encoded = encoder_y.fit_transform(y)

# Dividir
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y_encoded, test_size=0.2, random_state=42
)

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, f1_score, precision_score, recall_score
import seaborn as sns
import matplotlib.pyplot as plt

# Parámetros estándar buenos para empezar
dt_params = {
    'criterion': 'gini',        # o 'entropy'
    'max_depth': 5,             # controla sobreajuste
    'min_samples_split': 20,    # mínimo muestras para dividir nodo
    'min_samples_leaf': 10,     # mínimo muestras en hoja
    'max_features': 'sqrt',     # características consideradas por split
    'random_state': 42          # reproducibilidad
}

# Crear y entrenar modelo
dt_model = DecisionTreeClassifier(**dt_params)
dt_model.fit(X_train, y_train)

# Predecir
y_pred = dt_model.predict(X_test)
y_pred_proba = dt_model.predict_proba(X_test)  # Probabilidades

In [None]:
def evaluar_modelo(model, X_test, y_test, y_pred, encoder_y=None):
    """
    Evalúa el modelo con todas las métricas importantes
    """
    print("EVALUACIÓN DEL MODELO")
    print("=" * 50)
    
    # 1. Accuracy básico
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Accuracy: {accuracy:.4f}")
    
    # 2. Métricas detalladas por clase
    print("\nClassification Report:")
    print(classification_report(y_test, y_pred, 
                              target_names=encoder_y.classes_ if encoder_y else None,
                              zero_division=0))
    
    # 3. Métricas macro (promedio no ponderado)
    precision = precision_score(y_test, y_pred, average='macro', zero_division=0)
    recall = recall_score(y_test, y_pred, average='macro', zero_division=0)
    f1 = f1_score(y_test, y_pred, average='macro', zero_division=0)
    
    print(f"Precision (macro): {precision:.4f}")
    print(f" Recall (macro): {recall:.4f}")
    print(f"F1-Score (macro): {f1:.4f}")
    
    # 4. Matriz de confusión visual
    plt.figure(figsize=(10, 8))
    cm = confusion_matrix(y_test, y_pred)
    
    # Crear heatmap
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=encoder_y.classes_ if encoder_y else None,
                yticklabels=encoder_y.classes_ if encoder_y else None)
    
    plt.title('Matriz de Confusión')
    plt.ylabel('Valor Real')
    plt.xlabel('Predicción')
    plt.xticks(rotation=45)
    plt.yticks(rotation=0)
    plt.tight_layout()
    plt.show()
    
    return {
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'confusion_matrix': cm
    }


In [None]:

# Usar la función
metricas = evaluar_modelo(dt_model, X_test, y_test, y_pred, encoder_y)

In [None]:
importancias = dt_model.feature_importances_

# Obtener nombres de características
if hasattr(X, 'columns'):
    caracteristicas = X.columns
else:
    caracteristicas = [f'Feature_{i}' for i in range(len(importancias))]

# Crear DataFrame y ordenar por importancia
df_importancias = pd.DataFrame({
    'caracteristica': caracteristicas,
    'importancia': importancias
}).sort_values('importancia', ascending=True)  # Ordenar de menor a mayor para mejor visualización

# Gráfico ordenado
plt.figure(figsize=(10, 6))
sns.barplot(data=df_importancias, x='importancia', y='caracteristica')
plt.title('Importancia de Características (Ordenado por Importancia)')
plt.xlabel('Importancia')
plt.tight_layout()
plt.show()

# Mostrar valores numéricos
print("📊 IMPORTANCIA DE CARACTERÍSTICAS:")
print(df_importancias.sort_values('importancia', ascending=False))

##  **Importancia de Características**

**Ayuda a:**
* [x] **Entender** qué variables realmente importan para predecir la calidad del auto
* [x] **Simplificar** el modelo eliminando variables irrelevantes  
* [x] **Comunicar** resultados a no-técnicos ("La seguridad es el factor más importante")
* [x] **Optimizar** la recolección de datos futuros


In [None]:
from sklearn import tree

plt.figure(figsize=(16,9))

tree.plot_tree(
    dt_model.fit(X_train, y_train),
    feature_names=X.columns,
    class_names=y.unique(),
    filled=True
    ) 

plt.show()

In [None]:
import graphviz

dot_data = tree.export_graphviz(
    dt_model,  # No necesitas .fit() again, el modelo ya está entrenado
    out_file=None, 
    feature_names=X.columns, 
    class_names=encoder_y.classes_,  # Mejor usar encoder_y en lugar de y.unique()
    filled=True,
    rounded=True,  # Agregar para mejor apariencia
    proportion=True  # Mostrar proporciones
)

# Draw graph con tamaño personalizado
graph = graphviz.Source(dot_data, format="png") 
graph.graph_attr = {
    'size': '16,9',  # Tamaño 16x9 pulgadas
    'dpi': '150'     # Resolución para mejor calidad
}
graph

In [None]:
import warnings
import matplotlib
from matplotlib import font_manager

# Suprimir advertencias de fuentes
warnings.filterwarnings('ignore', category=UserWarning)

# Configurar fuentes del sistema
matplotlib.rcParams['font.family'] = 'sans-serif'
matplotlib.rcParams['font.sans-serif'] = ['DejaVu Sans', 'Liberation Sans', 'Bitstream Vera Sans']

from dtreeviz import model

# Crear la visualización con parámetros CORRECTOS
viz = model(dt_model,
            X_train=X_train,
            y_train=y_train,
            feature_names=list(X.columns),
            target_name='clase',
            class_names=list(encoder_y.classes_))

# Visualizar
viz.view()