# Comparación de Árboles de Decisión: 2 vs 3 Características

Este notebook compara árboles de decisión entrenados con diferentes números de características para analizar cómo afecta la complejidad y estructura del árbol.

## Objetivos del Análisis

1. **Comparar complejidad**: Ver cómo cambia la estructura del árbol con más características
2. **Visualizar nodos**: Mostrar la estructura interna de cada árbol
3. **Analizar rendimiento**: Comparar precisión y generalización
4. **Entender trade-offs**: Balance entre complejidad y capacidad predictiva

## ¿Por qué es importante esta comparación?

- **Simplicidad vs Precisión**: Más características pueden mejorar la precisión pero aumentar la complejidad
- **Interpretabilidad**: Árboles más simples son más fáciles de interpretar
- **Overfitting**: Más características pueden llevar a sobreajuste
- **Tiempo de entrenamiento**: Más características aumentan el tiempo computacional


In [None]:
# Importar las librerías necesarias
import numpy as np  # Para operaciones numéricas y arrays
import pandas as pd  # Para manipulación de datos estructurados
import matplotlib.pyplot as plt  # Para crear gráficos y visualizaciones
import seaborn as sns  # Para gráficos estadísticos más avanzados
from sklearn.datasets import make_classification  # Para generar datos sintéticos
from sklearn.tree import DecisionTreeClassifier, plot_tree  # Para árboles de decisión y visualización
from sklearn.model_selection import train_test_split  # Para dividir datos
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix  # Métricas de evaluación
from sklearn.metrics import precision_score, recall_score, f1_score  # Métricas adicionales
import warnings  # Para manejar advertencias
warnings.filterwarnings('ignore')  # Ignorar advertencias para limpiar la salida

# Configurar el estilo de los gráficos
plt.style.use('seaborn-v0_8')  # Usar estilo seaborn para gráficos más atractivos
sns.set_palette("husl")  # Configurar paleta de colores
plt.rcParams['figure.figsize'] = (12, 8)  # Tamaño por defecto de las figuras

print("✅ Librerías importadas correctamente")
print("📊 Configuración de gráficos aplicada")


In [None]:
# Generar dataset sintético para la comparación
print("🔧 Generando dataset sintético...")

# Crear dataset con características controladas para la comparación
X_full, y = make_classification(
    n_samples=500,        # 500 muestras totales
    n_features=5,         # 5 características disponibles
    n_informative=3,      # 3 características realmente informativas
    n_redundant=2,        # 2 características redundantes
    n_classes=2,          # Problema de clasificación binaria
    random_state=42       # Semilla para reproducibilidad
)

# Crear DataFrame para mejor visualización
df_full = pd.DataFrame(X_full, columns=[f'Feature_{i+1}' for i in range(X_full.shape[1])])
df_full['target'] = y  # Agregar variable objetivo

print("📊 Información del dataset completo:")
print(f"   Forma del dataset: {X_full.shape}")
print(f"   Número de clases: {len(np.unique(y))}")
print(f"   Distribución de clases: {np.bincount(y)}")

# Mostrar estadísticas básicas
print(f"\n📈 Estadísticas de las características:")
print(df_full.describe().round(3))

# Mostrar primeras filas
print(f"\n🔍 Primeras 5 filas del dataset:")
print(df_full.head())


In [None]:
# Preparar datasets con diferentes números de características
print("🔧 Preparando datasets para comparación...")

# Dataset con 2 características (las más informativas)
X_2_features = X_full[:, :2]  # Tomar solo las primeras 2 características
feature_names_2 = ['Feature_1', 'Feature_2']  # Nombres de las características

# Dataset con 3 características (las más informativas)
X_3_features = X_full[:, :3]  # Tomar las primeras 3 características
feature_names_3 = ['Feature_1', 'Feature_2', 'Feature_3']  # Nombres de las características

# Dividir datos en entrenamiento y prueba (usar la misma división para ambos)
X_train_2, X_test_2, y_train, y_test = train_test_split(
    X_2_features, y, test_size=0.3, random_state=42, stratify=y
)

X_train_3, X_test_3, _, _ = train_test_split(
    X_3_features, y, test_size=0.3, random_state=42, stratify=y
)

print("📊 Información de los datasets preparados:")
print(f"   Dataset con 2 características:")
print(f"     - Entrenamiento: {X_train_2.shape}")
print(f"     - Prueba: {X_test_2.shape}")
print(f"     - Características: {feature_names_2}")

print(f"\n   Dataset con 3 características:")
print(f"     - Entrenamiento: {X_train_3.shape}")
print(f"     - Prueba: {X_test_3.shape}")
print(f"     - Características: {feature_names_3}")

# Verificar que las distribuciones de clases son iguales
print(f"\n✅ Verificación de distribuciones:")
print(f"   Clases en entrenamiento: {np.bincount(y_train)}")
print(f"   Clases en prueba: {np.bincount(y_test)}")


In [None]:
# Entrenar árboles de decisión con diferentes números de características
print("🌲 Entrenando árboles de decisión...")

# Árbol con 2 características
print("\n📊 Entrenando árbol con 2 características...")
tree_2_features = DecisionTreeClassifier(
    random_state=42,      # Semilla para reproducibilidad
    max_depth=None,       # Sin límite de profundidad para ver estructura completa
    min_samples_split=2,  # Mínimo de muestras para dividir
    min_samples_leaf=1    # Mínimo de muestras en hoja
)

# Entrenar el árbol con 2 características
tree_2_features.fit(X_train_2, y_train)

# Hacer predicciones
y_pred_2 = tree_2_features.predict(X_test_2)

# Calcular métricas
accuracy_2 = accuracy_score(y_test, y_pred_2)
precision_2 = precision_score(y_test, y_pred_2)
recall_2 = recall_score(y_test, y_pred_2)
f1_2 = f1_score(y_test, y_pred_2)

print(f"✅ Árbol con 2 características entrenado")
print(f"   Accuracy: {accuracy_2:.4f}")
print(f"   Precision: {precision_2:.4f}")
print(f"   Recall: {recall_2:.4f}")
print(f"   F1-Score: {f1_2:.4f}")

# Árbol con 3 características
print("\n📊 Entrenando árbol con 3 características...")
tree_3_features = DecisionTreeClassifier(
    random_state=42,      # Misma semilla para comparación justa
    max_depth=None,       # Sin límite de profundidad
    min_samples_split=2,  # Mismos parámetros que el árbol anterior
    min_samples_leaf=1
)

# Entrenar el árbol con 3 características
tree_3_features.fit(X_train_3, y_train)

# Hacer predicciones
y_pred_3 = tree_3_features.predict(X_test_3)

# Calcular métricas
accuracy_3 = accuracy_score(y_test, y_pred_3)
precision_3 = precision_score(y_test, y_pred_3)
recall_3 = recall_score(y_test, y_pred_3)
f1_3 = f1_score(y_test, y_pred_3)

print(f"✅ Árbol con 3 características entrenado")
print(f"   Accuracy: {accuracy_3:.4f}")
print(f"   Precision: {precision_3:.4f}")
print(f"   Recall: {recall_3:.4f}")
print(f"   F1-Score: {f1_3:.4f}")

# Comparación rápida
print(f"\n📈 Comparación rápida:")
print(f"   Mejora en Accuracy: {accuracy_3 - accuracy_2:.4f}")
print(f"   Mejora en F1-Score: {f1_3 - f1_2:.4f}")


In [None]:
# Análisis de la estructura de los árboles
print("🔍 ANÁLISIS DE LA ESTRUCTURA DE LOS ÁRBOLES")
print("=" * 50)

# Obtener información sobre la estructura del árbol con 2 características
depth_2 = tree_2_features.get_depth()  # Profundidad máxima del árbol
n_leaves_2 = tree_2_features.get_n_leaves()  # Número de hojas
n_nodes_2 = tree_2_features.tree_.node_count  # Número total de nodos

print(f"🌲 Árbol con 2 características:")
print(f"   Profundidad máxima: {depth_2}")
print(f"   Número de hojas: {n_leaves_2}")
print(f"   Número total de nodos: {n_nodes_2}")

# Obtener información sobre la estructura del árbol con 3 características
depth_3 = tree_3_features.get_depth()  # Profundidad máxima del árbol
n_leaves_3 = tree_3_features.get_n_leaves()  # Número de hojas
n_nodes_3 = tree_3_features.tree_.node_count  # Número total de nodos

print(f"\n🌲 Árbol con 3 características:")
print(f"   Profundidad máxima: {depth_3}")
print(f"   Número de hojas: {n_leaves_3}")
print(f"   Número total de nodos: {n_nodes_3}")

# Comparación de complejidad
print(f"\n📊 Comparación de complejidad:")
print(f"   Diferencia en profundidad: {depth_3 - depth_2}")
print(f"   Diferencia en hojas: {n_leaves_3 - n_leaves_2}")
print(f"   Diferencia en nodos: {n_nodes_3 - n_nodes_2}")

# Calcular complejidad relativa
complexity_ratio_depth = depth_3 / depth_2 if depth_2 > 0 else float('inf')
complexity_ratio_leaves = n_leaves_3 / n_leaves_2 if n_leaves_2 > 0 else float('inf')
complexity_ratio_nodes = n_nodes_3 / n_nodes_2 if n_nodes_2 > 0 else float('inf')

print(f"\n📈 Ratios de complejidad (3 features / 2 features):")
print(f"   Profundidad: {complexity_ratio_depth:.2f}x")
print(f"   Hojas: {complexity_ratio_leaves:.2f}x")
print(f"   Nodos: {complexity_ratio_nodes:.2f}x")

# Análisis de características utilizadas
print(f"\n🔍 Características utilizadas:")
print(f"   Árbol con 2 características: {feature_names_2}")
print(f"   Árbol con 3 características: {feature_names_3}")

# Obtener importancia de características
importance_2 = tree_2_features.feature_importances_
importance_3 = tree_3_features.feature_importances_

print(f"\n📊 Importancia de características:")
print(f"   Árbol con 2 características:")
for i, (name, imp) in enumerate(zip(feature_names_2, importance_2)):
    print(f"     {name}: {imp:.4f}")

print(f"   Árbol con 3 características:")
for i, (name, imp) in enumerate(zip(feature_names_3, importance_3)):
    print(f"     {name}: {imp:.4f}")


In [None]:
# Visualización de los árboles de decisión
print("🎨 VISUALIZACIÓN DE LOS ÁRBOLES DE DECISIÓN")
print("=" * 50)

# Crear figura con dos subplots lado a lado
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))  # Figura más grande para mejor visualización

# Visualizar árbol con 2 características
print("🌲 Visualizando árbol con 2 características...")
plot_tree(tree_2_features, 
          feature_names=feature_names_2,  # Nombres de las características
          class_names=['Clase 0', 'Clase 1'],  # Nombres de las clases
          filled=True,  # Rellenar nodos con colores
          rounded=True,  # Bordes redondeados
          fontsize=10,  # Tamaño de fuente
          ax=ax1)  # Usar el primer subplot

ax1.set_title('Árbol de Decisión - 2 Características', fontsize=14, fontweight='bold')

# Visualizar árbol con 3 características
print("🌲 Visualizando árbol con 3 características...")
plot_tree(tree_3_features, 
          feature_names=feature_names_3,  # Nombres de las características
          class_names=['Clase 0', 'Clase 1'],  # Nombres de las clases
          filled=True,  # Rellenar nodos con colores
          rounded=True,  # Bordes redondeados
          fontsize=10,  # Tamaño de fuente
          ax=ax2)  # Usar el segundo subplot

ax2.set_title('Árbol de Decisión - 3 Características', fontsize=14, fontweight='bold')

# Ajustar el espaciado entre subplots
plt.tight_layout()
plt.show()  # Mostrar la visualización

print("✅ Visualizaciones completadas")
print("\n💡 Interpretación de los gráficos:")
print("   • Los nodos muestran la condición de división")
print("   • Los colores indican la clase predominante")
print("   • La intensidad del color indica la pureza del nodo")
print("   • Las hojas muestran la predicción final")


In [None]:
# Comparación detallada de rendimiento
print("📊 COMPARACIÓN DETALLADA DE RENDIMIENTO")
print("=" * 50)

# Crear DataFrame con los resultados
comparison_results = pd.DataFrame({
    'Métrica': ['Accuracy', 'Precision', 'Recall', 'F1-Score'],
    '2 Características': [accuracy_2, precision_2, recall_2, f1_2],
    '3 Características': [accuracy_3, precision_3, recall_3, f1_3]
})

# Calcular diferencias
comparison_results['Diferencia'] = comparison_results['3 Características'] - comparison_results['2 Características']
comparison_results['Mejora %'] = (comparison_results['Diferencia'] / comparison_results['2 Características'] * 100).round(2)

print("📈 Tabla comparativa de métricas:")
print(comparison_results.round(4))

# Visualización de la comparación
fig, axes = plt.subplots(2, 2, figsize=(15, 12))  # Crear figura con 4 subplots
fig.suptitle('Comparación de Rendimiento: 2 vs 3 Características', fontsize=16, fontweight='bold')

# Gráfico 1: Comparación de métricas principales
metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
x_pos = np.arange(len(metrics))  # Posiciones en el eje x
width = 0.35  # Ancho de las barras

axes[0, 0].bar(x_pos - width/2, comparison_results['2 Características'], width, 
               label='2 Características', alpha=0.7, color='skyblue')
axes[0, 0].bar(x_pos + width/2, comparison_results['3 Características'], width, 
               label='3 Características', alpha=0.7, color='lightcoral')
axes[0, 0].set_title('Comparación de Métricas', fontweight='bold')
axes[0, 0].set_ylabel('Score')
axes[0, 0].set_xticks(x_pos)
axes[0, 0].set_xticklabels(metrics, rotation=45)
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Gráfico 2: Mejoras porcentuales
axes[0, 1].bar(metrics, comparison_results['Mejora %'], alpha=0.7, color='green')
axes[0, 1].set_title('Mejora Porcentual (3 vs 2 Características)', fontweight='bold')
axes[0, 1].set_ylabel('Mejora (%)')
axes[0, 1].tick_params(axis='x', rotation=45)
axes[0, 1].grid(True, alpha=0.3)
axes[0, 1].axhline(y=0, color='red', linestyle='--', alpha=0.5)  # Línea de referencia en 0%

# Gráfico 3: Comparación de complejidad
complexity_metrics = ['Profundidad', 'Hojas', 'Nodos']
complexity_2 = [depth_2, n_leaves_2, n_nodes_2]
complexity_3 = [depth_3, n_leaves_3, n_nodes_3]

x_pos_complexity = np.arange(len(complexity_metrics))
axes[1, 0].bar(x_pos_complexity - width/2, complexity_2, width, 
               label='2 Características', alpha=0.7, color='lightgreen')
axes[1, 0].bar(x_pos_complexity + width/2, complexity_3, width, 
               label='3 Características', alpha=0.7, color='orange')
axes[1, 0].set_title('Comparación de Complejidad', fontweight='bold')
axes[1, 0].set_ylabel('Cantidad')
axes[1, 0].set_xticks(x_pos_complexity)
axes[1, 0].set_xticklabels(complexity_metrics)
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Gráfico 4: Importancia de características
axes[1, 1].bar(feature_names_2, importance_2, alpha=0.7, color='purple', label='2 Características')
axes[1, 1].bar(feature_names_3, importance_3, alpha=0.7, color='brown', label='3 Características')
axes[1, 1].set_title('Importancia de Características', fontweight='bold')
axes[1, 1].set_ylabel('Importancia')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()  # Ajustar espaciado
plt.show()  # Mostrar gráficos

print("✅ Análisis de rendimiento completado")


In [None]:
# Análisis de matrices de confusión
print("📊 ANÁLISIS DE MATRICES DE CONFUSIÓN")
print("=" * 50)

# Calcular matrices de confusión
cm_2 = confusion_matrix(y_test, y_pred_2)  # Matriz de confusión para 2 características
cm_3 = confusion_matrix(y_test, y_pred_3)  # Matriz de confusión para 3 características

# Crear visualización de matrices de confusión
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))  # Crear figura con 2 subplots

# Matriz de confusión para 2 características
sns.heatmap(cm_2, annot=True, fmt='d', cmap='Blues',  # Crear heatmap con anotaciones
            xticklabels=['Pred 0', 'Pred 1'],  # Etiquetas del eje x
            yticklabels=['Real 0', 'Real 1'],  # Etiquetas del eje y
            ax=ax1)  # Usar el primer subplot
ax1.set_title('Matriz de Confusión - 2 Características', fontweight='bold')
ax1.set_xlabel('Predicción')
ax1.set_ylabel('Valor Real')

# Matriz de confusión para 3 características
sns.heatmap(cm_3, annot=True, fmt='d', cmap='Reds',  # Crear heatmap con anotaciones
            xticklabels=['Pred 0', 'Pred 1'],  # Etiquetas del eje x
            yticklabels=['Real 0', 'Real 1'],  # Etiquetas del eje y
            ax=ax2)  # Usar el segundo subplot
ax2.set_title('Matriz de Confusión - 3 Características', fontweight='bold')
ax2.set_xlabel('Predicción')
ax2.set_ylabel('Valor Real')

plt.tight_layout()  # Ajustar espaciado
plt.show()  # Mostrar gráficos

# Análisis detallado de las matrices de confusión
print("\n🔍 Análisis detallado de matrices de confusión:")

# Para el árbol con 2 características
tn_2, fp_2, fn_2, tp_2 = cm_2.ravel()  # Descomponer la matriz de confusión
print(f"\n🌲 Árbol con 2 características:")
print(f"   Verdaderos Negativos (TN): {tn_2}")
print(f"   Falsos Positivos (FP): {fp_2}")
print(f"   Falsos Negativos (FN): {fn_2}")
print(f"   Verdaderos Positivos (TP): {tp_2}")

# Para el árbol con 3 características
tn_3, fp_3, fn_3, tp_3 = cm_3.ravel()  # Descomponer la matriz de confusión
print(f"\n🌲 Árbol con 3 características:")
print(f"   Verdaderos Negativos (TN): {tn_3}")
print(f"   Falsos Positivos (FP): {fp_3}")
print(f"   Falsos Negativos (FN): {fn_3}")
print(f"   Verdaderos Positivos (TP): {tp_3}")

# Comparación de errores
print(f"\n📈 Comparación de errores:")
print(f"   Diferencia en Falsos Positivos: {fp_3 - fp_2}")
print(f"   Diferencia en Falsos Negativos: {fn_3 - fn_2}")
print(f"   Total de errores (2 características): {fp_2 + fn_2}")
print(f"   Total de errores (3 características): {fp_3 + fn_3}")
print(f"   Diferencia en total de errores: {(fp_3 + fn_3) - (fp_2 + fn_2)}")

# Calcular métricas adicionales
specificity_2 = tn_2 / (tn_2 + fp_2) if (tn_2 + fp_2) > 0 else 0  # Especificidad para 2 características
specificity_3 = tn_3 / (tn_3 + fp_3) if (tn_3 + fp_3) > 0 else 0  # Especificidad para 3 características

print(f"\n📊 Métricas adicionales:")
print(f"   Especificidad (2 características): {specificity_2:.4f}")
print(f"   Especificidad (3 características): {specificity_3:.4f}")
print(f"   Diferencia en especificidad: {specificity_3 - specificity_2:.4f}")


## Conclusiones y Análisis Final

### 📊 Resumen de la Comparación

En esta comparación hemos analizado cómo el número de características afecta la estructura y rendimiento de los árboles de decisión:

#### 🌲 **Estructura de los Árboles:**
- **Árbol con 2 características**: Estructura más simple, menos nodos y menor profundidad
- **Árbol con 3 características**: Estructura más compleja, más nodos y mayor profundidad

#### 📈 **Rendimiento:**
- **Precisión**: El árbol con 3 características generalmente muestra mejor precisión
- **Complejidad**: Mayor número de características aumenta la complejidad del modelo
- **Interpretabilidad**: Menos características hacen el modelo más fácil de interpretar

### 🎯 **Trade-offs Identificados:**

#### ✅ **Ventajas de más características:**
- Mayor capacidad predictiva
- Mejor precisión en muchos casos
- Más información disponible para las decisiones

#### ⚠️ **Desventajas de más características:**
- Mayor complejidad computacional
- Riesgo de overfitting
- Menor interpretabilidad
- Mayor tiempo de entrenamiento

### 💡 **Recomendaciones Prácticas:**

#### Para **Simplicidad e Interpretabilidad**:
- Usar 2 características principales
- Priorizar características más importantes
- Aceptar ligera pérdida de precisión por simplicidad

#### Para **Máxima Precisión**:
- Usar 3 o más características relevantes
- Monitorear overfitting con validación cruzada
- Considerar regularización si es necesario

#### Para **Balance Óptimo**:
- Empezar con 2 características principales
- Agregar características gradualmente
- Evaluar mejora marginal vs complejidad adicional
