# Comparaci√≥n de √Årboles de Decisi√≥n: 2 vs 3 Caracter√≠sticas

Este notebook compara √°rboles de decisi√≥n entrenados con diferentes n√∫meros de caracter√≠sticas para analizar c√≥mo afecta la complejidad y estructura del √°rbol.

## Objetivos del An√°lisis

1. **Comparar complejidad**: Ver c√≥mo cambia la estructura del √°rbol con m√°s caracter√≠sticas
2. **Visualizar nodos**: Mostrar la estructura interna de cada √°rbol
3. **Analizar rendimiento**: Comparar precisi√≥n y generalizaci√≥n
4. **Entender trade-offs**: Balance entre complejidad y capacidad predictiva

## ¬øPor qu√© es importante esta comparaci√≥n?

- **Simplicidad vs Precisi√≥n**: M√°s caracter√≠sticas pueden mejorar la precisi√≥n pero aumentar la complejidad
- **Interpretabilidad**: √Årboles m√°s simples son m√°s f√°ciles de interpretar
- **Overfitting**: M√°s caracter√≠sticas pueden llevar a sobreajuste
- **Tiempo de entrenamiento**: M√°s caracter√≠sticas aumentan el tiempo computacional


In [None]:
# Importar las librer√≠as necesarias
import numpy as np  # Para operaciones num√©ricas y arrays
import pandas as pd  # Para manipulaci√≥n de datos estructurados
import matplotlib.pyplot as plt  # Para crear gr√°ficos y visualizaciones
import seaborn as sns  # Para gr√°ficos estad√≠sticos m√°s avanzados
from sklearn.datasets import make_classification  # Para generar datos sint√©ticos
from sklearn.tree import DecisionTreeClassifier, plot_tree  # Para √°rboles de decisi√≥n y visualizaci√≥n
from sklearn.model_selection import train_test_split  # Para dividir datos
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix  # M√©tricas de evaluaci√≥n
from sklearn.metrics import precision_score, recall_score, f1_score  # M√©tricas adicionales
import warnings  # Para manejar advertencias
warnings.filterwarnings('ignore')  # Ignorar advertencias para limpiar la salida

# Configurar el estilo de los gr√°ficos
plt.style.use('seaborn-v0_8')  # Usar estilo seaborn para gr√°ficos m√°s atractivos
sns.set_palette("husl")  # Configurar paleta de colores
plt.rcParams['figure.figsize'] = (12, 8)  # Tama√±o por defecto de las figuras

print("‚úÖ Librer√≠as importadas correctamente")
print("üìä Configuraci√≥n de gr√°ficos aplicada")


In [None]:
# Generar dataset sint√©tico para la comparaci√≥n
print("üîß Generando dataset sint√©tico...")

# Crear dataset con caracter√≠sticas controladas para la comparaci√≥n
X_full, y = make_classification(
    n_samples=500,        # 500 muestras totales
    n_features=5,         # 5 caracter√≠sticas disponibles
    n_informative=3,      # 3 caracter√≠sticas realmente informativas
    n_redundant=2,        # 2 caracter√≠sticas redundantes
    n_classes=2,          # Problema de clasificaci√≥n binaria
    random_state=42       # Semilla para reproducibilidad
)

# Crear DataFrame para mejor visualizaci√≥n
df_full = pd.DataFrame(X_full, columns=[f'Feature_{i+1}' for i in range(X_full.shape[1])])
df_full['target'] = y  # Agregar variable objetivo

print("üìä Informaci√≥n del dataset completo:")
print(f"   Forma del dataset: {X_full.shape}")
print(f"   N√∫mero de clases: {len(np.unique(y))}")
print(f"   Distribuci√≥n de clases: {np.bincount(y)}")

# Mostrar estad√≠sticas b√°sicas
print(f"\nüìà Estad√≠sticas de las caracter√≠sticas:")
print(df_full.describe().round(3))

# Mostrar primeras filas
print(f"\nüîç Primeras 5 filas del dataset:")
print(df_full.head())


In [None]:
# Preparar datasets con diferentes n√∫meros de caracter√≠sticas
print("üîß Preparando datasets para comparaci√≥n...")

# Dataset con 2 caracter√≠sticas (las m√°s informativas)
X_2_features = X_full[:, :2]  # Tomar solo las primeras 2 caracter√≠sticas
feature_names_2 = ['Feature_1', 'Feature_2']  # Nombres de las caracter√≠sticas

# Dataset con 3 caracter√≠sticas (las m√°s informativas)
X_3_features = X_full[:, :3]  # Tomar las primeras 3 caracter√≠sticas
feature_names_3 = ['Feature_1', 'Feature_2', 'Feature_3']  # Nombres de las caracter√≠sticas

# Dividir datos en entrenamiento y prueba (usar la misma divisi√≥n para ambos)
X_train_2, X_test_2, y_train, y_test = train_test_split(
    X_2_features, y, test_size=0.3, random_state=42, stratify=y
)

X_train_3, X_test_3, _, _ = train_test_split(
    X_3_features, y, test_size=0.3, random_state=42, stratify=y
)

print("üìä Informaci√≥n de los datasets preparados:")
print(f"   Dataset con 2 caracter√≠sticas:")
print(f"     - Entrenamiento: {X_train_2.shape}")
print(f"     - Prueba: {X_test_2.shape}")
print(f"     - Caracter√≠sticas: {feature_names_2}")

print(f"\n   Dataset con 3 caracter√≠sticas:")
print(f"     - Entrenamiento: {X_train_3.shape}")
print(f"     - Prueba: {X_test_3.shape}")
print(f"     - Caracter√≠sticas: {feature_names_3}")

# Verificar que las distribuciones de clases son iguales
print(f"\n‚úÖ Verificaci√≥n de distribuciones:")
print(f"   Clases en entrenamiento: {np.bincount(y_train)}")
print(f"   Clases en prueba: {np.bincount(y_test)}")


In [None]:
# Entrenar √°rboles de decisi√≥n con diferentes n√∫meros de caracter√≠sticas
print("üå≤ Entrenando √°rboles de decisi√≥n...")

# √Årbol con 2 caracter√≠sticas
print("\nüìä Entrenando √°rbol con 2 caracter√≠sticas...")
tree_2_features = DecisionTreeClassifier(
    random_state=42,      # Semilla para reproducibilidad
    max_depth=None,       # Sin l√≠mite de profundidad para ver estructura completa
    min_samples_split=2,  # M√≠nimo de muestras para dividir
    min_samples_leaf=1    # M√≠nimo de muestras en hoja
)

# Entrenar el √°rbol con 2 caracter√≠sticas
tree_2_features.fit(X_train_2, y_train)

# Hacer predicciones
y_pred_2 = tree_2_features.predict(X_test_2)

# Calcular m√©tricas
accuracy_2 = accuracy_score(y_test, y_pred_2)
precision_2 = precision_score(y_test, y_pred_2)
recall_2 = recall_score(y_test, y_pred_2)
f1_2 = f1_score(y_test, y_pred_2)

print(f"‚úÖ √Årbol con 2 caracter√≠sticas entrenado")
print(f"   Accuracy: {accuracy_2:.4f}")
print(f"   Precision: {precision_2:.4f}")
print(f"   Recall: {recall_2:.4f}")
print(f"   F1-Score: {f1_2:.4f}")

# √Årbol con 3 caracter√≠sticas
print("\nüìä Entrenando √°rbol con 3 caracter√≠sticas...")
tree_3_features = DecisionTreeClassifier(
    random_state=42,      # Misma semilla para comparaci√≥n justa
    max_depth=None,       # Sin l√≠mite de profundidad
    min_samples_split=2,  # Mismos par√°metros que el √°rbol anterior
    min_samples_leaf=1
)

# Entrenar el √°rbol con 3 caracter√≠sticas
tree_3_features.fit(X_train_3, y_train)

# Hacer predicciones
y_pred_3 = tree_3_features.predict(X_test_3)

# Calcular m√©tricas
accuracy_3 = accuracy_score(y_test, y_pred_3)
precision_3 = precision_score(y_test, y_pred_3)
recall_3 = recall_score(y_test, y_pred_3)
f1_3 = f1_score(y_test, y_pred_3)

print(f"‚úÖ √Årbol con 3 caracter√≠sticas entrenado")
print(f"   Accuracy: {accuracy_3:.4f}")
print(f"   Precision: {precision_3:.4f}")
print(f"   Recall: {recall_3:.4f}")
print(f"   F1-Score: {f1_3:.4f}")

# Comparaci√≥n r√°pida
print(f"\nüìà Comparaci√≥n r√°pida:")
print(f"   Mejora en Accuracy: {accuracy_3 - accuracy_2:.4f}")
print(f"   Mejora en F1-Score: {f1_3 - f1_2:.4f}")


In [None]:
# An√°lisis de la estructura de los √°rboles
print("üîç AN√ÅLISIS DE LA ESTRUCTURA DE LOS √ÅRBOLES")
print("=" * 50)

# Obtener informaci√≥n sobre la estructura del √°rbol con 2 caracter√≠sticas
depth_2 = tree_2_features.get_depth()  # Profundidad m√°xima del √°rbol
n_leaves_2 = tree_2_features.get_n_leaves()  # N√∫mero de hojas
n_nodes_2 = tree_2_features.tree_.node_count  # N√∫mero total de nodos

print(f"üå≤ √Årbol con 2 caracter√≠sticas:")
print(f"   Profundidad m√°xima: {depth_2}")
print(f"   N√∫mero de hojas: {n_leaves_2}")
print(f"   N√∫mero total de nodos: {n_nodes_2}")

# Obtener informaci√≥n sobre la estructura del √°rbol con 3 caracter√≠sticas
depth_3 = tree_3_features.get_depth()  # Profundidad m√°xima del √°rbol
n_leaves_3 = tree_3_features.get_n_leaves()  # N√∫mero de hojas
n_nodes_3 = tree_3_features.tree_.node_count  # N√∫mero total de nodos

print(f"\nüå≤ √Årbol con 3 caracter√≠sticas:")
print(f"   Profundidad m√°xima: {depth_3}")
print(f"   N√∫mero de hojas: {n_leaves_3}")
print(f"   N√∫mero total de nodos: {n_nodes_3}")

# Comparaci√≥n de complejidad
print(f"\nüìä Comparaci√≥n de complejidad:")
print(f"   Diferencia en profundidad: {depth_3 - depth_2}")
print(f"   Diferencia en hojas: {n_leaves_3 - n_leaves_2}")
print(f"   Diferencia en nodos: {n_nodes_3 - n_nodes_2}")

# Calcular complejidad relativa
complexity_ratio_depth = depth_3 / depth_2 if depth_2 > 0 else float('inf')
complexity_ratio_leaves = n_leaves_3 / n_leaves_2 if n_leaves_2 > 0 else float('inf')
complexity_ratio_nodes = n_nodes_3 / n_nodes_2 if n_nodes_2 > 0 else float('inf')

print(f"\nüìà Ratios de complejidad (3 features / 2 features):")
print(f"   Profundidad: {complexity_ratio_depth:.2f}x")
print(f"   Hojas: {complexity_ratio_leaves:.2f}x")
print(f"   Nodos: {complexity_ratio_nodes:.2f}x")

# An√°lisis de caracter√≠sticas utilizadas
print(f"\nüîç Caracter√≠sticas utilizadas:")
print(f"   √Årbol con 2 caracter√≠sticas: {feature_names_2}")
print(f"   √Årbol con 3 caracter√≠sticas: {feature_names_3}")

# Obtener importancia de caracter√≠sticas
importance_2 = tree_2_features.feature_importances_
importance_3 = tree_3_features.feature_importances_

print(f"\nüìä Importancia de caracter√≠sticas:")
print(f"   √Årbol con 2 caracter√≠sticas:")
for i, (name, imp) in enumerate(zip(feature_names_2, importance_2)):
    print(f"     {name}: {imp:.4f}")

print(f"   √Årbol con 3 caracter√≠sticas:")
for i, (name, imp) in enumerate(zip(feature_names_3, importance_3)):
    print(f"     {name}: {imp:.4f}")


In [None]:
# Visualizaci√≥n de los √°rboles de decisi√≥n
print("üé® VISUALIZACI√ìN DE LOS √ÅRBOLES DE DECISI√ìN")
print("=" * 50)

# Crear figura con dos subplots lado a lado
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))  # Figura m√°s grande para mejor visualizaci√≥n

# Visualizar √°rbol con 2 caracter√≠sticas
print("üå≤ Visualizando √°rbol con 2 caracter√≠sticas...")
plot_tree(tree_2_features, 
          feature_names=feature_names_2,  # Nombres de las caracter√≠sticas
          class_names=['Clase 0', 'Clase 1'],  # Nombres de las clases
          filled=True,  # Rellenar nodos con colores
          rounded=True,  # Bordes redondeados
          fontsize=10,  # Tama√±o de fuente
          ax=ax1)  # Usar el primer subplot

ax1.set_title('√Årbol de Decisi√≥n - 2 Caracter√≠sticas', fontsize=14, fontweight='bold')

# Visualizar √°rbol con 3 caracter√≠sticas
print("üå≤ Visualizando √°rbol con 3 caracter√≠sticas...")
plot_tree(tree_3_features, 
          feature_names=feature_names_3,  # Nombres de las caracter√≠sticas
          class_names=['Clase 0', 'Clase 1'],  # Nombres de las clases
          filled=True,  # Rellenar nodos con colores
          rounded=True,  # Bordes redondeados
          fontsize=10,  # Tama√±o de fuente
          ax=ax2)  # Usar el segundo subplot

ax2.set_title('√Årbol de Decisi√≥n - 3 Caracter√≠sticas', fontsize=14, fontweight='bold')

# Ajustar el espaciado entre subplots
plt.tight_layout()
plt.show()  # Mostrar la visualizaci√≥n

print("‚úÖ Visualizaciones completadas")
print("\nüí° Interpretaci√≥n de los gr√°ficos:")
print("   ‚Ä¢ Los nodos muestran la condici√≥n de divisi√≥n")
print("   ‚Ä¢ Los colores indican la clase predominante")
print("   ‚Ä¢ La intensidad del color indica la pureza del nodo")
print("   ‚Ä¢ Las hojas muestran la predicci√≥n final")


In [None]:
# Comparaci√≥n detallada de rendimiento
print("üìä COMPARACI√ìN DETALLADA DE RENDIMIENTO")
print("=" * 50)

# Crear DataFrame con los resultados
comparison_results = pd.DataFrame({
    'M√©trica': ['Accuracy', 'Precision', 'Recall', 'F1-Score'],
    '2 Caracter√≠sticas': [accuracy_2, precision_2, recall_2, f1_2],
    '3 Caracter√≠sticas': [accuracy_3, precision_3, recall_3, f1_3]
})

# Calcular diferencias
comparison_results['Diferencia'] = comparison_results['3 Caracter√≠sticas'] - comparison_results['2 Caracter√≠sticas']
comparison_results['Mejora %'] = (comparison_results['Diferencia'] / comparison_results['2 Caracter√≠sticas'] * 100).round(2)

print("üìà Tabla comparativa de m√©tricas:")
print(comparison_results.round(4))

# Visualizaci√≥n de la comparaci√≥n
fig, axes = plt.subplots(2, 2, figsize=(15, 12))  # Crear figura con 4 subplots
fig.suptitle('Comparaci√≥n de Rendimiento: 2 vs 3 Caracter√≠sticas', fontsize=16, fontweight='bold')

# Gr√°fico 1: Comparaci√≥n de m√©tricas principales
metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
x_pos = np.arange(len(metrics))  # Posiciones en el eje x
width = 0.35  # Ancho de las barras

axes[0, 0].bar(x_pos - width/2, comparison_results['2 Caracter√≠sticas'], width, 
               label='2 Caracter√≠sticas', alpha=0.7, color='skyblue')
axes[0, 0].bar(x_pos + width/2, comparison_results['3 Caracter√≠sticas'], width, 
               label='3 Caracter√≠sticas', alpha=0.7, color='lightcoral')
axes[0, 0].set_title('Comparaci√≥n de M√©tricas', fontweight='bold')
axes[0, 0].set_ylabel('Score')
axes[0, 0].set_xticks(x_pos)
axes[0, 0].set_xticklabels(metrics, rotation=45)
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Gr√°fico 2: Mejoras porcentuales
axes[0, 1].bar(metrics, comparison_results['Mejora %'], alpha=0.7, color='green')
axes[0, 1].set_title('Mejora Porcentual (3 vs 2 Caracter√≠sticas)', fontweight='bold')
axes[0, 1].set_ylabel('Mejora (%)')
axes[0, 1].tick_params(axis='x', rotation=45)
axes[0, 1].grid(True, alpha=0.3)
axes[0, 1].axhline(y=0, color='red', linestyle='--', alpha=0.5)  # L√≠nea de referencia en 0%

# Gr√°fico 3: Comparaci√≥n de complejidad
complexity_metrics = ['Profundidad', 'Hojas', 'Nodos']
complexity_2 = [depth_2, n_leaves_2, n_nodes_2]
complexity_3 = [depth_3, n_leaves_3, n_nodes_3]

x_pos_complexity = np.arange(len(complexity_metrics))
axes[1, 0].bar(x_pos_complexity - width/2, complexity_2, width, 
               label='2 Caracter√≠sticas', alpha=0.7, color='lightgreen')
axes[1, 0].bar(x_pos_complexity + width/2, complexity_3, width, 
               label='3 Caracter√≠sticas', alpha=0.7, color='orange')
axes[1, 0].set_title('Comparaci√≥n de Complejidad', fontweight='bold')
axes[1, 0].set_ylabel('Cantidad')
axes[1, 0].set_xticks(x_pos_complexity)
axes[1, 0].set_xticklabels(complexity_metrics)
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Gr√°fico 4: Importancia de caracter√≠sticas
axes[1, 1].bar(feature_names_2, importance_2, alpha=0.7, color='purple', label='2 Caracter√≠sticas')
axes[1, 1].bar(feature_names_3, importance_3, alpha=0.7, color='brown', label='3 Caracter√≠sticas')
axes[1, 1].set_title('Importancia de Caracter√≠sticas', fontweight='bold')
axes[1, 1].set_ylabel('Importancia')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()  # Ajustar espaciado
plt.show()  # Mostrar gr√°ficos

print("‚úÖ An√°lisis de rendimiento completado")
