# Comparaci√≥n Simple: √Årboles 2 vs 3 Caracter√≠sticas

Este notebook muestra de forma simple c√≥mo cambia la estructura de un √°rbol de decisi√≥n cuando usamos 2 caracter√≠sticas vs 3 caracter√≠sticas.

## Objetivo
- Ver la diferencia en estructura de nodos
- Comparar complejidad visualmente
- Entender el trade-off simplicidad vs precisi√≥n


In [None]:
# Importar librer√≠as b√°sicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split

print("‚úÖ Librer√≠as importadas")


In [None]:
# Crear dataset simple
X, y = make_classification(
    n_samples=200,    # Solo 200 muestras
    n_features=4,     # 4 caracter√≠sticas disponibles
    n_informative=3,  # 3 caracter√≠sticas √∫tiles
    n_redundant=1,    # 1 caracter√≠stica redundante
    n_classes=2,      # Clasificaci√≥n binaria
    random_state=42
)

print(f"Dataset creado: {X.shape[0]} muestras, {X.shape[1]} caracter√≠sticas")
print(f"Clases: {np.bincount(y)}")


In [None]:
# Preparar datos para comparaci√≥n
# Dataset con 2 caracter√≠sticas
X_2 = X[:, :2]  # Solo las primeras 2 caracter√≠sticas
feature_names_2 = ['Feature_1', 'Feature_2']

# Dataset con 3 caracter√≠sticas  
X_3 = X[:, :3]  # Las primeras 3 caracter√≠sticas
feature_names_3 = ['Feature_1', 'Feature_2', 'Feature_3']

# Dividir datos
X_train_2, X_test_2, y_train, y_test = train_test_split(X_2, y, test_size=0.3, random_state=42)
X_train_3, X_test_3, _, _ = train_test_split(X_3, y, test_size=0.3, random_state=42)

print(f"Dataset 2 caracter√≠sticas: {X_train_2.shape[0]} entrenamiento, {X_test_2.shape[0]} prueba")
print(f"Dataset 3 caracter√≠sticas: {X_train_3.shape[0]} entrenamiento, {X_test_3.shape[0]} prueba")


In [None]:
# Entrenar √°rboles
# √Årbol con 2 caracter√≠sticas
tree_2 = DecisionTreeClassifier(random_state=42)
tree_2.fit(X_train_2, y_train)

# √Årbol con 3 caracter√≠sticas
tree_3 = DecisionTreeClassifier(random_state=42)
tree_3.fit(X_train_3, y_train)

print("‚úÖ √Årboles entrenados")
print(f"√Årbol 2 caracter√≠sticas: {tree_2.get_depth()} niveles, {tree_2.get_n_leaves()} hojas")
print(f"√Årbol 3 caracter√≠sticas: {tree_3.get_depth()} niveles, {tree_3.get_n_leaves()} hojas")


In [None]:
# Visualizar ambos √°rboles lado a lado
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 8))

# √Årbol con 2 caracter√≠sticas
plot_tree(tree_2, 
          feature_names=feature_names_2,
          class_names=['Clase 0', 'Clase 1'],
          filled=True,
          ax=ax1)
ax1.set_title('√Årbol con 2 Caracter√≠sticas', fontsize=14, fontweight='bold')

# √Årbol con 3 caracter√≠sticas
plot_tree(tree_3, 
          feature_names=feature_names_3,
          class_names=['Clase 0', 'Clase 1'],
          filled=True,
          ax=ax2)
ax2.set_title('√Årbol con 3 Caracter√≠sticas', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("üé® Visualizaci√≥n completada")


In [None]:
# Comparaci√≥n simple de rendimiento
from sklearn.metrics import accuracy_score

# Predecir y calcular accuracy
acc_2 = accuracy_score(y_test, tree_2.predict(X_test_2))
acc_3 = accuracy_score(y_test, tree_3.predict(X_test_3))

print("üìä Comparaci√≥n de rendimiento:")
print(f"Accuracy con 2 caracter√≠sticas: {acc_2:.3f}")
print(f"Accuracy con 3 caracter√≠sticas: {acc_3:.3f}")
print(f"Diferencia: {acc_3 - acc_2:.3f}")

print(f"\nüå≤ Comparaci√≥n de complejidad:")
print(f"Profundidad: {tree_2.get_depth()} vs {tree_3.get_depth()}")
print(f"Hojas: {tree_2.get_n_leaves()} vs {tree_3.get_n_leaves()}")
print(f"Nodos totales: {tree_2.tree_.node_count} vs {tree_3.tree_.node_count}")


## Conclusi√≥n Simple

### Lo que vemos:

1. **√Årbol con 2 caracter√≠sticas**: M√°s simple, menos nodos, m√°s f√°cil de entender
2. **√Årbol con 3 caracter√≠sticas**: M√°s complejo, m√°s nodos, puede ser m√°s preciso

### Trade-off:
- **M√°s caracter√≠sticas** = Mayor complejidad pero posiblemente mejor precisi√≥n
- **Menos caracter√≠sticas** = Mayor simplicidad pero posiblemente menor precisi√≥n

### Decisi√≥n:
- Si necesitas **simplicidad**: usa 2 caracter√≠sticas
- Si necesitas **precisi√≥n**: usa 3 caracter√≠sticas
- El balance depende de tu problema espec√≠fico
