### Random Forest - Bosque Aleatório

En este notebook se evaluará el algortimo Random Forest, el cual es un algoritmo de aprendizaje supervisado que se puede utilizar tanto para clasificación como para regresión. Es un método de conjunto que se utiliza para mejorar la precisión de los algoritmos de aprendizaje supervisado. La idea principal detrás del método de bosques aleatorios es combinar múltiples árboles de decisión en la construcción de un modelo.

In [None]:
# Instalación de librerías
%pip install -r '../requirements.txt'

In [None]:
# Importación de librerías
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, f1_score, precision_score, recall_score

In [None]:
# Carga de datos
dataset_entrenamiento = pd.read_csv(
    '../5-dataset-final/dist/dataset-train.csv')
dataset_pruebas = pd.read_csv('../5-dataset-final/dist/dataset-test.csv')
dataset_validacion = pd.read_csv(
    '../5-dataset-final/dist/dataset-validation.csv')

In [None]:
# Eliminar valores nulos
dataset_entrenamiento = dataset_entrenamiento.dropna()
dataset_pruebas = dataset_pruebas.dropna()
dataset_validacion = dataset_validacion.dropna()

In [None]:
# Ver cantidad de registros
print(f'Dataset de entrenamiento: {len(dataset_entrenamiento)} registros')
print(f'Dataset de pruebas: {len(dataset_pruebas)} registros')
print(f'Dataset de validación: {len(dataset_validacion)} registros')

In [None]:
# División de datos
# Entrenamiento
X_train = dataset_entrenamiento.drop(columns=['sentiment'])
y_train = dataset_entrenamiento['sentiment']
# Pruebas
X_test = dataset_pruebas.drop(columns=['sentiment'])
y_test = dataset_pruebas['sentiment']
# Validación
X_val = dataset_validacion.drop(columns=['sentiment'])
y_val = dataset_validacion['sentiment']

In [None]:
# Grid para búsqueda de hiperparámetros -> n_estimators
n_estimators = [10, 50, 100, 200, 400]

# Entrenamiento de modelos
resultados = []
for n in n_estimators:
    # Creación de modelo
    modelo = RandomForestClassifier(n_estimators=n, random_state=42)
    # Entrenamiento
    modelo.fit(X_train, y_train)
    # Predicción
    y_pred = modelo.predict(X_test)
    # Métricas
    accuracy = accuracy_score(y_test, y_pred)
    reporte = classification_report(y_test, y_pred)
    matriz = confusion_matrix(y_test, y_pred)
    resultados.append({
        'n_estimators': n,
        'accuracy': accuracy,
        'reporte': reporte,
        'matriz': matriz
    })

# Resultados
resultados = pd.DataFrame(resultados)
print(resultados)

In [None]:
# Entrenar el modelo
modelo = RandomForestClassifier(n_estimators=50, random_state=0)
modelo.fit(X_train, y_train)

In [None]:
# Resultados con el dataset de entrenamiento
y_pred_train = modelo.predict(X_train)

accuracy_train = accuracy_score(y_train, y_pred_train)
print(classification_report(y_train, y_pred_train))
print(confusion_matrix(y_train, y_pred_train))
print(f'Accuracy: {accuracy_train}')
print(f'F1: {f1_score(y_train, y_pred_train, average="macro")}')
print(f'Precision: {precision_score(y_train, y_pred_train, average="macro")}')
print(f'Recall: {recall_score(y_train, y_pred_train, average="macro")}')

In [None]:
# Pruebas
y_pred_test = modelo.predict(X_test)

accuracy_test = accuracy_score(y_test, y_pred_test)
print(classification_report(y_test, y_pred_test))
print(confusion_matrix(y_test, y_pred_test))
print(f'Accuracy: {accuracy_test}')
print(f'F1: {f1_score(y_test, y_pred_test, average="macro")}')
print(f'Precision: {precision_score(y_test, y_pred_test, average="macro")}')
print(f'Recall: {recall_score(y_test, y_pred_test, average="macro")}')

In [None]:
# Validación
y_pred_val = modelo.predict(X_val)

accuracy_val = accuracy_score(y_val, y_pred_val)
print(classification_report(y_val, y_pred_val))
print(confusion_matrix(y_val, y_pred_val))
print(f'Accuracy: {accuracy_val}')
print(f'F1: {f1_score(y_val, y_pred_val, average="macro")}')
print(f'Precision: {precision_score(y_val, y_pred_val, average="macro")}')
print(f'Recall: {recall_score(y_val, y_pred_val, average="macro")}')