# ¬øQu√© es un √Årbol de Decisi√≥n?

Un √°rbol de decisi√≥n es un modelo supervisado que puede usarse tanto para problemas de **clasificaci√≥n** como de **regresi√≥n**. En esencia, funciona haciendo preguntas sucesivas sobre las caracter√≠sticas (features) de los datos, dividiendo el conjunto de datos en ramas hasta llegar a decisiones finales.

* Las **ramas internas** del √°rbol representan condiciones sobre features (por ejemplo, ‚Äú¬øKilometraje < 50000?‚Äù).
* Cada divisi√≥n (‚Äúsplit‚Äù) divide los datos en subgrupos m√°s homog√©neos respecto de la variable objetivo.
* Las **hojas** del √°rbol son las predicciones finales: pueden ser una clase en clasificaci√≥n, o un valor continuo en regresi√≥n.

---

## ¬øC√≥mo funciona internamente?

1. **Selecci√≥n de la caracter√≠stica para dividir**:
   Se buscan las caracter√≠sticas que mejor separan los datos con respecto al objetivo. Esto se mide por criterios como **gini impurity**, **entrop√≠a** o **ganancia de informaci√≥n**.

2. **Punto de corte**:
   Para variables num√©ricas, se busca un valor num√©rico tal que al dividir all√≠ los datos, las partes resultantes sean lo m√°s ‚Äúpuras‚Äù posibles.

3. **Recursividad**:
   Una vez que haces una divisi√≥n, ese proceso se repite para cada rama, usando los datos que quedaron en ella, hasta que se cumpla alg√∫n criterio de parada (por ejemplo, profundidad m√°xima, n√∫mero m√≠nimo de ejemplos en una hoja, pureza completa, etc.).

4. **Predicci√≥n**:
   Para clasificar o predecir una nueva observaci√≥n, se comienza en la ra√≠z del √°rbol, se eval√∫a la caracter√≠stica solicitada, se ‚Äúcamina‚Äù por la rama correspondiente, y se sigue hasta llegar a una hoja. Esa hoja indica la clase o valor asignado.

---

## Ventajas de los √Årboles de Decisi√≥n

* Son f√°ciles de entender e interpretar. Las reglas l√≥gicas que usa el √°rbol son expl√≠citas (‚Äúsi esto y esto, entonces aquello‚Äù).
* No necesitan mucha preparaci√≥n de los datos (por ejemplo, no requieren normalizaci√≥n de features).
* Pueden manejar tanto variables num√©ricas como categ√≥ricas.
* Visualmente f√°ciles de representar, lo que facilita explicar los resultados a terceros.

---

## Desventajas o limitaciones

* **Sobreajuste**: Los √°rboles que crecen demasiado pueden ajustar demasiado el ruido de los datos, en vez de capturar s√≥lo la se√±al.
* **Inestabilidad**: Peque√±as variaciones en los datos pueden generar √°rboles bastante diferentes.
* Falta de suavidad en la predicci√≥n: el modelo produce saltos, porque las decisiones son en base a condiciones r√≠gidas.
* No suelen tener la mejor performance sin ajustes o sin combinarse con otros m√©todos (por ejemplo, Random Forests, boosting).

---

## ¬øPor qu√© es importante aprender √Årboles de Decisi√≥n?

* Porque es un modelo intuitivo que permite comprender reglas de decisi√≥n de forma clara. En muchos √°mbitos, no basta con una predicci√≥n, sino que tambi√©n se necesita **entender qu√© variables influyen** y c√≥mo.
* Son la base de muchos m√©todos m√°s complejos: Random Forest, Gradient Boosting, XGBoost, etc. Para entender esos m√©todos h√≠bridos, es √∫til partir de los √°rboles de decisi√≥n simples.
* En problemas reales, pueden ser muy √∫tiles si se busca transparencia o interpretabilidad, por ejemplo en decisiones financieras, m√©dicas o de pol√≠ticas.
* Permiten hacer tanto clasificaci√≥n como regresi√≥n, lo que los hace vers√°tiles.


En los **√°rboles de decisi√≥n**, los **outliers tienen un impacto relativamente menor** que en modelos lineales, y esto es por varias razones:

---

## 1. **Divisi√≥n basada en reglas de corte**

* Los √°rboles deciden en cada nodo un **umbral** para dividir los datos (por ejemplo, ‚ÄúKilometraje < 50.000‚Äù).
* Un valor extremo solo afecta el nodo si cambia el punto de corte √≥ptimo.
* Si el outlier est√° lejos del rango mayoritario, normalmente termina en una hoja aparte y **no distorsiona toda la estructura del √°rbol**, como s√≠ pasa en una regresi√≥n lineal.

---

## 2. **Robustez relativa**

* En modelos lineales, un solo outlier puede ‚Äútirar‚Äù la recta de ajuste hacia √©l.
* En un √°rbol de decisi√≥n, los outliers suelen ser **aislados en hojas individuales**, por lo que no afectan tanto los splits del resto de los datos.

---

## 3. **Limitaciones**

* Aunque los √°rboles son robustos, **outliers extremos pueden generar hojas con muy pocos datos**, lo que puede llevar a **sobreajuste local**.
* En datasets muy peque√±os, incluso unos pocos outliers pueden cambiar la selecci√≥n de un split.
* En regresi√≥n de √°rboles (Decision Tree Regressor), los outliers pueden afectar la **predicci√≥n promedio** de una hoja si esa hoja contiene pocos datos.

---

##  Resumen pr√°ctico

| Caracter√≠stica          | √Årbol de Decisi√≥n                                       | Regresi√≥n Lineal                            |
| ----------------------- | ------------------------------------------------------- | ------------------------------------------- |
| Sensibilidad a outliers | Relativamente baja                                      | Alta, un outlier puede desviar la recta     |
| C√≥mo afecta             | Puede crear hojas separadas                             | Cambia coeficientes y predicciones globales |
| Precauci√≥n              | Outliers extremos en hojas peque√±as pueden sobreajustar | Necesario remover o transformar outliers    |

---

En conclusi√≥n:

* Los √°rboles **no son inmunes**, pero manejan mejor los outliers que los modelos lineales cl√°sicos.
* Si los outliers son muy extremos o frecuentes, conviene revisar los datos o combinar con t√©cnicas como **ensembles** (Random Forest o Gradient Boosting), que suavizan a√∫n m√°s su efecto.



### Nombres

1.  **buying** ‚Üí **precio_compra**
    *   *Explicaci√≥n:* Representa el precio de compra del veh√≠culo.
    *   *Valores t√≠picos:* `vhigh` (muy alto), `high` (alto), `med` (medio), `low` (bajo).

2.  **maint** ‚Üí **costo_mantenimiento**
    *   *Explicaci√≥n:* Representa el costo estimado del mantenimiento del veh√≠culo.
    *   *Valores t√≠picos:* `vhigh` (muy alto), `high` (alto), `med` (medio), `low` (bajo).

3.  **doors** ‚Üí **numero_puertas**
    *   *Explicaci√≥n:* Indica el n√∫mero de puertas del coche.
    *   *Valores t√≠picos:* `2`, `3`, `4`, `5more` (5 o m√°s).

4.  **persons** ‚Üí **capacidad_pasajeros**
    *   *Explicaci√≥n:* Indica la capacidad de personas que el coche puede transportar.
    *   *Valores t√≠picos:* `2`, `4`, `more` (m√°s de 4, t√≠picamente 5 o 6).

5.  **lug_boot** ‚Üí **tama√±o_maletero**
    *   *Explicaci√≥n:* Describe el tama√±o del maletero o espacio de carga.
    *   *Valores t√≠picos:* `small` (peque√±o), `med` (mediano), `big` (grande).

6.  **safety** ‚Üí **nivel_seguridad**
    *   *Explicaci√≥n:* Eval√∫a el nivel de seguridad estimado del veh√≠culo.
    *   *Valores t√≠picos:* `low` (bajo), `med` (medio), `high` (alto).

7.  **class** ‚Üí **evaluacion_final** o **clase**
    *   *Explicaci√≥n:* Es la evaluaci√≥n final o clasificaci√≥n de aceptabilidad del coche.
    *   *Valores t√≠picos:* `unacc` (inaceptable), `acc` (aceptable), `good` (bueno), `vgood` (muy bueno).


In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # data visualization
import seaborn as sns # statistical data visualization

In [None]:
df = pd.read_csv(r"./datasets/car_evaluation.csv", header=None)

In [None]:
def normalizar_datos_car(df:pd.DataFrame, mapping:dict[str,dict]) -> pd. DataFrame:
    # Crear copia del dataframe
    df_normalizado = df.copy()
    
    for columna, mapeo in mapping.items():
        if columna in df_normalizado.columns:
            df_normalizado[columna] = df_normalizado[columna].map(mapeo)
            
    return df_normalizado

In [None]:
mapeo_categorias = {
    # Precio de compra
    'buying': {
        'vhigh': 'muy_alto',
        'high': 'alto', 
        'med': 'medio',
        'low': 'bajo'
    },
    
    # Costo de mantenimiento
    'maint': {
        'vhigh': 'muy_alto',
        'high': 'alto',
        'med': 'medio', 
        'low': 'bajo'
    },
    
    # N√∫mero de puertas
    'doors': {
        '2': '2_puertas',
        '3': '3_puertas',
        '4': '4_puertas',
        '5more': '5_o_mas_puertas'
    },
    
    # Capacidad de pasajeros
    'persons': {
        '2': '2_pasajeros',
        '4': '4_pasajeros',
        'more': 'mas_de_4_pasajeros'
    },
    
    # Tama√±o del maletero
    'lug_boot': {
        'small': 'pequeno',
        'med': 'mediano',
        'big': 'grande'
    },
    
    # Nivel de seguridad
    'safety': {
        'low': 'bajo',
        'med': 'medio',
        'high': 'alto'
    },
    
    # Evaluaci√≥n final
    'class': {
        'unacc': 'inaceptable',
        'acc': 'aceptable',
        'good': 'bueno',
        'vgood': 'muy_bueno'
    }
}

In [None]:
df.columns = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']

In [None]:
df.sample(10)

In [None]:
df_normalizado = normalizar_datos_car(df=df,mapping=mapeo_categorias)
df_normalizado

In [None]:
columnas_especificas = {
    'buying': 'precio',
    'maint': 'mantenimiento',
    'doors': 'num_puertas',
    'persons': 'num_pasajeros',
    'lug_boot': 'tamano_maletero',
    'safety': 'seguridad',
    'class': 'clase'
}

df = df_normalizado.rename(columns=columnas_especificas)

In [None]:
df.info()

In [None]:
df.sample()

In [None]:
df.describe(include=object).T

In [None]:
df = df.drop_duplicates(keep='first')

In [None]:
# Preparar datos para FacetGrid
df_melted = df.melt(var_name='variable', value_name='valor')

# Crear FacetGrid
g = sns.FacetGrid(
    df_melted,
    col='variable',
    col_wrap=3, 
    sharex=False,
    sharey=False,
    height=4,
    aspect=1.5
)

g.map_dataframe(sns.countplot, x='valor', palette='viridis', hue='valor')
g.set_titles('{col_name}')
g.set_xticklabels(rotation=45)

# Ajustar layout
plt.tight_layout()
plt.show()

In [None]:
import altair as alt

# Crear gr√°ficos individuales y combinarlos
charts = []

for columna in df.columns:
    chart = alt.Chart(df).mark_bar().encode(
        x=alt.X(columna, title=columna, axis=alt.Axis(labelAngle=-45)),
        y=alt.Y('count()', title='Frecuencia'),
        tooltip=[columna, 'count()']
    ).properties(
        width=200,
        height=200,
        title=columna
    )
    charts.append(chart)

# Combinar todos los gr√°ficos
final_chart = alt.vconcat(
    alt.hconcat(*charts[0:3]),
    alt.hconcat(*charts[3:6]),
    alt.hconcat(charts[6], alt.Chart().mark_text(), alt.Chart().mark_text())  # Ajustar para 7 elementos
)

final_chart

## Separacion de variables


In [None]:
X = df.drop(['clase'], axis=1)
y = df['clase']

In [None]:
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder
from sklearn.model_selection import train_test_split

# Codificar X
encoder_X = OrdinalEncoder()
X_encoded = encoder_X.fit_transform(X)

# Codificar y (si es categ√≥rico)
encoder_y = LabelEncoder()
y_encoded = encoder_y.fit_transform(y)

# Dividir
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y_encoded, test_size=0.2, random_state=42
)

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, f1_score, precision_score, recall_score
import seaborn as sns
import matplotlib.pyplot as plt

# Par√°metros est√°ndar buenos para empezar
dt_params = {
    'criterion': 'gini',        # o 'entropy'
    'max_depth': 5,             # controla sobreajuste
    'min_samples_split': 20,    # m√≠nimo muestras para dividir nodo
    'min_samples_leaf': 10,     # m√≠nimo muestras en hoja
    'max_features': 'sqrt',     # caracter√≠sticas consideradas por split
    'random_state': 42          # reproducibilidad
}

# Crear y entrenar modelo
dt_model = DecisionTreeClassifier(**dt_params)
dt_model.fit(X_train, y_train)

# Predecir
y_pred = dt_model.predict(X_test)
y_pred_proba = dt_model.predict_proba(X_test)  # Probabilidades

In [None]:
def evaluar_modelo(model, X_test, y_test, y_pred, encoder_y=None):
    """
    Eval√∫a el modelo con todas las m√©tricas importantes
    """
    print("EVALUACI√ìN DEL MODELO")
    print("=" * 50)
    
    # 1. Accuracy b√°sico
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Accuracy: {accuracy:.4f}")
    
    # 2. M√©tricas detalladas por clase
    print("\nClassification Report:")
    print(classification_report(y_test, y_pred, 
                              target_names=encoder_y.classes_ if encoder_y else None,
                              zero_division=0))
    
    # 3. M√©tricas macro (promedio no ponderado)
    precision = precision_score(y_test, y_pred, average='macro', zero_division=0)
    recall = recall_score(y_test, y_pred, average='macro', zero_division=0)
    f1 = f1_score(y_test, y_pred, average='macro', zero_division=0)
    
    print(f"Precision (macro): {precision:.4f}")
    print(f" Recall (macro): {recall:.4f}")
    print(f"F1-Score (macro): {f1:.4f}")
    
    # 4. Matriz de confusi√≥n visual
    plt.figure(figsize=(10, 8))
    cm = confusion_matrix(y_test, y_pred)
    
    # Crear heatmap
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=encoder_y.classes_ if encoder_y else None,
                yticklabels=encoder_y.classes_ if encoder_y else None)
    
    plt.title('Matriz de Confusi√≥n')
    plt.ylabel('Valor Real')
    plt.xlabel('Predicci√≥n')
    plt.xticks(rotation=45)
    plt.yticks(rotation=0)
    plt.tight_layout()
    plt.show()
    
    return {
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'confusion_matrix': cm
    }


In [None]:

# Usar la funci√≥n
metricas = evaluar_modelo(dt_model, X_test, y_test, y_pred, encoder_y)

In [None]:
importancias = dt_model.feature_importances_

# Obtener nombres de caracter√≠sticas
if hasattr(X, 'columns'):
    caracteristicas = X.columns
else:
    caracteristicas = [f'Feature_{i}' for i in range(len(importancias))]

# Crear DataFrame y ordenar por importancia
df_importancias = pd.DataFrame({
    'caracteristica': caracteristicas,
    'importancia': importancias
}).sort_values('importancia', ascending=True)  # Ordenar de menor a mayor para mejor visualizaci√≥n

# Gr√°fico ordenado
plt.figure(figsize=(10, 6))
sns.barplot(data=df_importancias, x='importancia', y='caracteristica')
plt.title('Importancia de Caracter√≠sticas (Ordenado por Importancia)')
plt.xlabel('Importancia')
plt.tight_layout()
plt.show()

# Mostrar valores num√©ricos
print("üìä IMPORTANCIA DE CARACTER√çSTICAS:")
print(df_importancias.sort_values('importancia', ascending=False))

##  **Importancia de Caracter√≠sticas**

**Ayuda a:**
* [x] **Entender** qu√© variables realmente importan para predecir la calidad del auto
* [x] **Simplificar** el modelo eliminando variables irrelevantes  
* [x] **Comunicar** resultados a no-t√©cnicos ("La seguridad es el factor m√°s importante")
* [x] **Optimizar** la recolecci√≥n de datos futuros


In [None]:
from sklearn import tree

plt.figure(figsize=(16,9))

tree.plot_tree(
    dt_model.fit(X_train, y_train),
    feature_names=X.columns,
    class_names=y.unique(),
    filled=True
    ) 

plt.show()

In [None]:
import graphviz

dot_data = tree.export_graphviz(
    dt_model,  # No necesitas .fit() again, el modelo ya est√° entrenado
    out_file=None, 
    feature_names=X.columns, 
    class_names=encoder_y.classes_,  # Mejor usar encoder_y en lugar de y.unique()
    filled=True,
    rounded=True,  # Agregar para mejor apariencia
    proportion=True  # Mostrar proporciones
)

# Draw graph con tama√±o personalizado
graph = graphviz.Source(dot_data, format="png") 
graph.graph_attr = {
    'size': '16,9',  # Tama√±o 16x9 pulgadas
    'dpi': '150'     # Resoluci√≥n para mejor calidad
}
graph

In [None]:
import warnings
import matplotlib
from matplotlib import font_manager

# Suprimir advertencias de fuentes
warnings.filterwarnings('ignore', category=UserWarning)

# Configurar fuentes del sistema
matplotlib.rcParams['font.family'] = 'sans-serif'
matplotlib.rcParams['font.sans-serif'] = ['DejaVu Sans', 'Liberation Sans', 'Bitstream Vera Sans']

from dtreeviz import model

# Crear la visualizaci√≥n con par√°metros CORRECTOS
viz = model(dt_model,
            X_train=X_train,
            y_train=y_train,
            feature_names=list(X.columns),
            target_name='clase',
            class_names=list(encoder_y.classes_))

# Visualizar
viz.view()