## Actividad √°rboles y bosques

En esta pr√°ctica aprender√°s a:
- Entrenar y afinar un √Årbol de Decisi√≥n.
- Construir un bosque manual de √°rboles y combinar sus predicciones mediante voto mayoritario.
- Observar c√≥mo un ensamble de modelos puede superar a un solo √°rbol.

#### Parte 1

1. Generar datos
    - Crea un dataset en forma de lunas con:
    - make_moons(n_samples=10000, noise=0.4)

2. Dividir los datos
    - Separa en conjunto de entrenamiento y de prueba usando train_test_split().

3. Ajustar el modelo
    - Usa b√∫squeda en malla (grid search) con validaci√≥n cruzada (clase GridSearchCV) para encontrar buenos hiperpar√°metros para un DecisionTreeClassifier.
    - Pista: prueba distintos valores de max_leaf_nodes.

4. Entrenar y evaluar
    - Entrena el √°rbol con todo el conjunto de entrenamiento usando los hiperpar√°metros √≥ptimos.
    - Eval√∫a en el conjunto de prueba.

Deber√≠as obtener aproximadamente 85%‚Äì87% de precisi√≥n.

In [1]:
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

X, y = make_moons(n_samples=10000, noise=0.4, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

param_grid = {'max_leaf_nodes': range(2, 100)}
tree_clf = DecisionTreeClassifier(random_state=42)
grid_search = GridSearchCV(tree_clf, param_grid, cv=5)
grid_search.fit(X_train, y_train)

best_tree_clf = grid_search.best_estimator_

best_tree_clf.fit(X_train, y_train)
y_pred = best_tree_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"Mejores hiperpar√°metros: {grid_search.best_params_}")
print(f"Precisi√≥n en el conjunto de prueba: {accuracy:.4f}")

Mejores hiperpar√°metros: {'max_leaf_nodes': 23}
Precisi√≥n en el conjunto de prueba: 0.8735


#### Parte 2 Crecer un bosque



1. Generar subconjuntos
    - Crea 1,000 subconjuntos del conjunto de entrenamiento, cada uno con 100 instancias seleccionadas aleatoriamente.
    - Pista: usa ShuffleSplit de Scikit-Learn.

2. Entrenar m√∫ltiples √°rboles
    - Entrena un DecisionTreeClassifier en cada subconjunto, usando los mejores hiperpar√°metros encontrados en la Parte 1.
    - Eval√∫a cada √°rbol individual en el conjunto de prueba.
    - Como fueron entrenados en conjuntos peque√±os, se espera que tengan solo ‚âà80% de precisi√≥n.

3. Combinar predicciones
    - Para cada instancia del conjunto de prueba, recolecta las predicciones de los 1,000 √°rboles.
    - Conservar √∫nicamente la predicci√≥n m√°s frecuente usando mode() de SciPy.
    - Esto implementa un voto mayoritario.

4. Evaluar el bosque
    - Eval√∫a las predicciones combinadas en el conjunto de prueba.
    - Deber√≠as obtener una precisi√≥n ligeramente mayor que la del √°rbol individual (+0.5% a +1.5%).

üéâ ¬°Felicidades, has implementado tu propio Random Forest desde cero!

In [3]:
from sklearn.model_selection import ShuffleSplit
from scipy.stats import mode
import numpy as np

n_trees = 1000
n_instances = 100
shuffle_split = ShuffleSplit(n_splits=n_trees, test_size=len(X_train) - n_instances, random_state=42)

trees = []
accuracy_scores = []

for train_index, test_index in shuffle_split.split(X_train):
    X_subset = X_train[train_index]
    y_subset = y_train[train_index]

    tree_clf = DecisionTreeClassifier(max_leaf_nodes=grid_search.best_params_['max_leaf_nodes'], random_state=42)
    tree_clf.fit(X_subset, y_subset)
    trees.append(tree_clf)

    y_pred_individual = tree_clf.predict(X_test)
    accuracy_scores.append(accuracy_score(y_test, y_pred_individual))

print(f"Precisi√≥n promedio de los √°rboles individuales: {np.mean(accuracy_scores):.4f}")

y_pred_ensemble = np.empty([len(X_test), n_trees], dtype=np.int64)

for i, tree in enumerate(trees):
    y_pred_ensemble[:, i] = tree.predict(X_test)

y_pred_forest, _ = mode(y_pred_ensemble, axis=1)

accuracy_forest = accuracy_score(y_test, y_pred_forest)
print(f"Precisi√≥n del bosque: {accuracy_forest:.4f}")

Precisi√≥n promedio de los √°rboles individuales: 0.7988
Precisi√≥n del bosque: 0.8735
