# Árboles de decisión y Ensambles

Este cuaderno implementa los pasos solicitados en el apartado de *Árboles y Ensambles*: se entrena un clasificador de árbol de decisión sencillo y posteriormente un clasificador de bosque aleatorio (RandomForest). Se compara el desempeño de ambos modelos y se muestran las importancias de las características.

In [None]:

import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt

# Cargar conjunto de datos de cáncer de mama (binario)
dataset = load_breast_cancer()
X = dataset.data
y = dataset.target
feature_names = dataset.feature_names

# Crear DataFrame para facilitar manejo y análisis
df = pd.DataFrame(X, columns=feature_names)
df['target'] = y

df.head()
    

In [None]:

# División train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar árbol de decisión
clf_tree = DecisionTreeClassifier(random_state=42)
clf_tree.fit(X_train, y_train)
y_pred_tree = clf_tree.predict(X_test)

# Métricas de árbol
tree_accuracy = accuracy_score(y_test, y_pred_tree)
tree_f1 = f1_score(y_test, y_pred_tree)
tree_cm = confusion_matrix(y_test, y_pred_tree)

print("Rendimiento del Árbol de Decisión")
print("Accuracy:", tree_accuracy)
print("F1-score:", tree_f1)
print("Matriz de Confusión:
", tree_cm)
print("
Reporte de clasificación:
", classification_report(y_test, y_pred_tree))
    

**Árbol de decisión:** el modelo entrenado sobre el conjunto de datos binario produce métricas de precisión y F1-score que muestran su capacidad de separación. Sin embargo, al ser un árbol único tiende a sobreajustarse al conjunto de entrenamiento, lo que suele traducirse en una mayor varianza.

In [None]:

# Entrenar RandomForest
clf_rf = RandomForestClassifier(n_estimators=100, random_state=42)
clf_rf.fit(X_train, y_train)
y_pred_rf = clf_rf.predict(X_test)

# Métricas de Random Forest
rf_accuracy = accuracy_score(y_test, y_pred_rf)
rf_f1 = f1_score(y_test, y_pred_rf)
rf_cm = confusion_matrix(y_test, y_pred_rf)

print("Rendimiento del Random Forest")
print("Accuracy:", rf_accuracy)
print("F1-score:", rf_f1)
print("Matriz de Confusión:
", rf_cm)
print("
Reporte de clasificación:
", classification_report(y_test, y_pred_rf))
    

**Random Forest:** al promediar múltiples árboles de decisión, el bosque aleatorio reduce la varianza del modelo y mejora la capacidad de generalización. En este ejemplo, el random forest muestra un ligero incremento en las métricas respecto al árbol individual.

In [None]:

# Comparación de métricas
table = pd.DataFrame({
    'Modelo': ['Árbol de decisión', 'Random Forest'],
    'Accuracy': [tree_accuracy, rf_accuracy],
    'F1-score': [tree_f1, rf_f1]
})
table
    

In [None]:

# Importancia de características (del Random Forest)
importances = clf_rf.feature_importances_
indices = np.argsort(importances)[::-1]

plt.figure(figsize=(10, 6))
plt.title("Importancia de características - Random Forest")
plt.bar(range(len(importances)), importances[indices], align='center')
plt.xticks(range(len(importances)), feature_names[indices], rotation=90)
plt.tight_layout()
plt.show()
    

La gráfica anterior muestra la importancia relativa de cada característica según el modelo de Random Forest. Las características con barras más altas contribuyen más a la predicción.

## Conclusiones

* El árbol de decisión individual es fácil de interpretar pero tiende a sobreajustar (alta varianza).
* El bosque aleatorio, al combinar muchos árboles, mejora la precisión y estabilidad reduciendo la varianza.
* Ninguno de los modelos presenta alto sesgo en este conjunto de datos, pero el random forest muestra mejor generalización.
* Se recomienda ajustar hiperparámetros (profundidad del árbol, número de árboles) y validar con validación cruzada para optimizar aún más el desempeño.