# Comparación Simple: Árboles 2 vs 3 Características

Este notebook muestra de forma simple cómo cambia la estructura de un árbol de decisión cuando usamos 2 características vs 3 características.

## Objetivo
- Ver la diferencia en estructura de nodos
- Comparar complejidad visualmente
- Entender el trade-off simplicidad vs precisión


In [None]:
# Importar librerías básicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split

print("✅ Librerías importadas")


In [None]:
# Crear dataset simple
X, y = make_classification(
    n_samples=200,    # Solo 200 muestras
    n_features=4,     # 4 características disponibles
    n_informative=3,  # 3 características útiles
    n_redundant=1,    # 1 característica redundante
    n_classes=2,      # Clasificación binaria
    random_state=42
)

print(f"Dataset creado: {X.shape[0]} muestras, {X.shape[1]} características")
print(f"Clases: {np.bincount(y)}")


In [None]:
# Preparar datos para comparación
# Dataset con 2 características
X_2 = X[:, :2]  # Solo las primeras 2 características
feature_names_2 = ['Feature_1', 'Feature_2']

# Dataset con 3 características  
X_3 = X[:, :3]  # Las primeras 3 características
feature_names_3 = ['Feature_1', 'Feature_2', 'Feature_3']

# Dividir datos
X_train_2, X_test_2, y_train, y_test = train_test_split(X_2, y, test_size=0.3, random_state=42)
X_train_3, X_test_3, _, _ = train_test_split(X_3, y, test_size=0.3, random_state=42)

print(f"Dataset 2 características: {X_train_2.shape[0]} entrenamiento, {X_test_2.shape[0]} prueba")
print(f"Dataset 3 características: {X_train_3.shape[0]} entrenamiento, {X_test_3.shape[0]} prueba")


In [None]:
# Entrenar árboles
# Árbol con 2 características
tree_2 = DecisionTreeClassifier(random_state=42)
tree_2.fit(X_train_2, y_train)

# Árbol con 3 características
tree_3 = DecisionTreeClassifier(random_state=42)
tree_3.fit(X_train_3, y_train)

print("✅ Árboles entrenados")
print(f"Árbol 2 características: {tree_2.get_depth()} niveles, {tree_2.get_n_leaves()} hojas")
print(f"Árbol 3 características: {tree_3.get_depth()} niveles, {tree_3.get_n_leaves()} hojas")


In [None]:
# Visualizar ambos árboles lado a lado
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 8))

# Árbol con 2 características
plot_tree(tree_2, 
          feature_names=feature_names_2,
          class_names=['Clase 0', 'Clase 1'],
          filled=True,
          ax=ax1)
ax1.set_title('Árbol con 2 Características', fontsize=14, fontweight='bold')

# Árbol con 3 características
plot_tree(tree_3, 
          feature_names=feature_names_3,
          class_names=['Clase 0', 'Clase 1'],
          filled=True,
          ax=ax2)
ax2.set_title('Árbol con 3 Características', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("🎨 Visualización completada")


In [None]:
# Comparación simple de rendimiento
from sklearn.metrics import accuracy_score

# Predecir y calcular accuracy
acc_2 = accuracy_score(y_test, tree_2.predict(X_test_2))
acc_3 = accuracy_score(y_test, tree_3.predict(X_test_3))

print("📊 Comparación de rendimiento:")
print(f"Accuracy con 2 características: {acc_2:.3f}")
print(f"Accuracy con 3 características: {acc_3:.3f}")
print(f"Diferencia: {acc_3 - acc_2:.3f}")

print(f"\n🌲 Comparación de complejidad:")
print(f"Profundidad: {tree_2.get_depth()} vs {tree_3.get_depth()}")
print(f"Hojas: {tree_2.get_n_leaves()} vs {tree_3.get_n_leaves()}")
print(f"Nodos totales: {tree_2.tree_.node_count} vs {tree_3.tree_.node_count}")


## Conclusión Simple

### Lo que vemos:

1. **Árbol con 2 características**: Más simple, menos nodos, más fácil de entender
2. **Árbol con 3 características**: Más complejo, más nodos, puede ser más preciso

### Trade-off:
- **Más características** = Mayor complejidad pero posiblemente mejor precisión
- **Menos características** = Mayor simplicidad pero posiblemente menor precisión

### Decisión:
- Si necesitas **simplicidad**: usa 2 características
- Si necesitas **precisión**: usa 3 características
- El balance depende de tu problema específico
