## Actividad árboles y bosques

En esta práctica aprenderás a:
- Entrenar y afinar un Árbol de Decisión.
- Construir un bosque manual de árboles y combinar sus predicciones mediante voto mayoritario.
- Observar cómo un ensamble de modelos puede superar a un solo árbol.

#### Parte 1

1. Generar datos
    - Crea un dataset en forma de lunas con:
    - make_moons(n_samples=10000, noise=0.4)

2. Dividir los datos
    - Separa en conjunto de entrenamiento y de prueba usando train_test_split().

3. Ajustar el modelo
    - Usa búsqueda en malla (grid search) con validación cruzada (clase GridSearchCV) para encontrar buenos hiperparámetros para un DecisionTreeClassifier.
    - Pista: prueba distintos valores de max_leaf_nodes.

4. Entrenar y evaluar
    - Entrena el árbol con todo el conjunto de entrenamiento usando los hiperparámetros óptimos.
    - Evalúa en el conjunto de prueba.

Deberías obtener aproximadamente 85%–87% de precisión.

In [6]:
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

X, y = make_moons(n_samples=10000, noise=0.4, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

param_grid = {'max_leaf_nodes': [10, 20, 30, 40, 50]}
tree_clf = DecisionTreeClassifier(random_state=42)
grid_search = GridSearchCV(tree_clf, param_grid, cv=5)
grid_search.fit(X_train, y_train)

best_params = grid_search.best_params_
print(f"Mejores hiperparámetros: {best_params}")

final_tree_clf = DecisionTreeClassifier(**best_params, random_state=42)
final_tree_clf.fit(X_train, y_train)

y_pred = final_tree_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"Precisión en el conjunto de prueba: {accuracy:.4f}")

Mejores hiperparámetros: {'max_leaf_nodes': 20}
Precisión en el conjunto de prueba: 0.8700


#### Parte 2 Crecer un bosque



1. Generar subconjuntos
    - Crea 1,000 subconjuntos del conjunto de entrenamiento, cada uno con 100 instancias seleccionadas aleatoriamente.
    - Pista: usa ShuffleSplit de Scikit-Learn.

2. Entrenar múltiples árboles
    - Entrena un DecisionTreeClassifier en cada subconjunto, usando los mejores hiperparámetros encontrados en la Parte 1.
    - Evalúa cada árbol individual en el conjunto de prueba.
    - Como fueron entrenados en conjuntos pequeños, se espera que tengan solo ≈80% de precisión.

3. Combinar predicciones
    - Para cada instancia del conjunto de prueba, recolecta las predicciones de los 1,000 árboles.
    - Conservar únicamente la predicción más frecuente usando mode() de SciPy.
    - Esto implementa un voto mayoritario.

4. Evaluar el bosque
    - Evalúa las predicciones combinadas en el conjunto de prueba.
    - Deberías obtener una precisión ligeramente mayor que la del árbol individual (+0.5% a +1.5%).

🎉 ¡Felicidades, has implementado tu propio Random Forest desde cero!

In [2]:
from sklearn.model_selection import ShuffleSplit
from scipy.stats import mode
import numpy as np

n_trees = 1000
n_instances = 100

shuffle_split = ShuffleSplit(n_splits=n_trees, train_size=n_instances, random_state=42)

# múltiples árboles
individual_accuracies = []
tree_predictions = []

for train_index, test_index in shuffle_split.split(X_train):
    X_subset = X_train[train_index]
    y_subset = y_train[train_index]

    tree_clf = DecisionTreeClassifier(**best_params, random_state=42)
    tree_clf.fit(X_subset, y_subset)

    y_pred_individual = tree_clf.predict(X_test)
    individual_accuracies.append(accuracy_score(y_test, y_pred_individual))
    tree_predictions.append(y_pred_individual)

print(f"Precisión promedio de los árboles individuales: {np.mean(individual_accuracies):.4f}")

tree_predictions = np.array(tree_predictions)
tree_predictions_transposed = tree_predictions.T

y_pred_forest, _ = mode(tree_predictions_transposed, axis=1, keepdims=False)

forest_accuracy = accuracy_score(y_test, y_pred_forest)
print(f"Precisión del bosque (voto mayoritario): {forest_accuracy:.4f}")

Precisión promedio de los árboles individuales: 0.8012
Precisión del bosque (voto mayoritario): 0.8720
