In [1]:
import numpy as np
from data import X_train, X_test, y_train, y_test
from tree import print_tree
from random_forest import RF


La clase RF implementa bootstraping para construir un Random Forest.Durante el entrenamiento (fit), para cada uno de los árboles del bosque, se genera un subconjunto del dataset original mediante muestreo con reemplazo ootstrap. Esto significa que, para cada árbol, se seleccionan aleatoriamente muestras del conjunto de entrenamiento, permitiendo que algunas se repitan y otras queden fuera. Cada árbol se entrena con su propio subconjunto, lo que introduce diversidad y reduce el sobreajuste.

En la clase CART (definida en tree.py), utilizada por cada árbol del Random Forest, se incorpora la selección aleatoria de variables features en cada nodo. Esto se implementa en el método _grow_tree, donde para cada split se elige aleatoriamente un subconjunto de features para decidir la mejor división.

In [60]:
random_forest = RF(n_estimators=100, max_depth=5, min_samples_split=5, min_samples_leaf=2, max_features=5, bootstrap=True) 
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)
acc = np.mean(y_pred == y_test)
print(f"Test accuracy: {acc}")


Test accuracy: 0.9824561403508771


In [5]:
def k_fold_cross_validation(X, y, k=5, max_depth=None, min_samples_split=2, min_samples_leaf=1, seed=40,n_estimators=100,max_features=30,bootstrap=False):
    n_samples = len(y)
    indices = np.arange(n_samples)
    np.random.seed(seed)
    np.random.shuffle(indices)  # Mezclar datos

    fold_sizes = np.full(k, n_samples // k, dtype=int)
    fold_sizes[: n_samples % k] += 1  # Repartir sobrantes
    current = 0

    scores_val = []
    scores_train = []

    for fold_size in fold_sizes:
        start, stop = current, current + fold_size
        val_idx = indices[start:stop]
        train_idx = np.concatenate((indices[:start], indices[stop:]))

        X_train_fold, y_train_fold = X[train_idx], y[train_idx]
        X_val_fold, y_val_fold = X[val_idx], y[val_idx]


        random_forest = RF(n_estimators, max_depth, min_samples_split, min_samples_leaf, max_features, bootstrap)
        random_forest.fit(X_train, y_train)


        y_pred_train= random_forest.predict(X_train_fold)
        acc_train = np.mean(y_pred_train == y_train_fold)

        y_pred_val = random_forest.predict(X_val_fold)
        acc_val = np.mean(y_pred_val == y_val_fold)
        # Predecir en entrenamiento y validación
        scores_val.append(acc_val)
        scores_train.append(acc_train)

        current = stop

    train = np.mean(scores_train)
    val = np.mean(scores_val)
    desvtrain = np.std(scores_train)
    desvval = np.std(scores_val)

    return train, val, desvtrain, desvval

Para el Random Forest, se entrena el modelo con múltiples árboles y se evalúa la accuracy sobre el conjunto de test y mediante validación cruzada (k_fold_cross_validation). 

Para el random forest obtuvimos: 
Test accuracy: 0.9824561403508771
Train accuracy: 0.9857142857142858 ± 0.004037620455137144
Validation accuracy: 0.9824175824175825 ± 0.011206636293610524

Mientras que para el decision Tree obtuvimos;
Accuracy entrenamiento =  0.982 ± 0.007
Accuracy validación =  0.938 ± 0.019
Accuracy (en test): 0.9649122807017544

Observamos entonces que en todos los casos el random Forest tiene un mejor desempeño que el decisons Tree. Esto se debe a que el Random Forest  muchos árboles, cada uno entrenado con diferentes subconjuntos de datos y variables. Esto reduce el sobreajuste y la variabilidad de las predicciones, y al promediar o votar entre varios árboles, el Random Forest generaliza mejor y es menos sensible al ruido o a particularidades del conjunto de entrenamiento.




In [62]:
score_train, score_val, desv_train, desv_val = k_fold_cross_validation(X_train, y_train, k=5, max_depth=5, min_samples_split=5, min_samples_leaf=2, seed=40,n_estimators=100,max_features=30,bootstrap=True)
print(f"Train accuracy: {score_train} ± {desv_train}")
print(f"Validation accuracy: {score_val} ± {desv_val}")

Train accuracy: 0.9857142857142858 ± 0.004037620455137144
Validation accuracy: 0.9824175824175825 ± 0.011206636293610524
