## Importar librerías

In [1]:
import os
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, recall_score, f1_score, roc_auc_score

## Carga de los datos

In [2]:
# Ruta de ubicación de los datos
ruta = os.path.abspath('../data/modelos_entrenamiento/')

# Cargar los datos
X_train = pd.read_csv(os.path.join(ruta, 'X_train.csv'))
y_train = pd.read_csv(os.path.join(ruta, 'y_train.csv')).values.ravel()
X_val = pd.read_csv(os.path.join(ruta, 'X_val.csv'))
y_val = pd.read_csv(os.path.join(ruta, 'y_val.csv')).values.ravel()
X_test = pd.read_csv(os.path.join(ruta, 'X_test.csv'))
y_test = pd.read_csv(os.path.join(ruta, 'y_test.csv')).values.ravel()

## Inicializar el modelo de Ramdon Forest Classifier

In [3]:
# Inicializar el modelo RandomForestClassifier
# - n_estimators: número de árboles en el bosque
# - max_depth: profundidad máxima de los árboles
# - random_state: semilla para asegurar la reproducibilidad
model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)

## Entrenar el modelo con los datos de entrenamiento

In [4]:
# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

## Evaluar el modelo en el conjunto de validación

In [5]:
# Evaluar el modelo en el conjunto de validación
val_preds = model.predict(X_val)
val_accuracy = accuracy_score(y_val, val_preds)
val_recall = recall_score(y_val, val_preds)
val_f1 = f1_score(y_val, val_preds)
val_auc = roc_auc_score(y_val, model.predict_proba(X_val)[:, 1])

print(f"Exactitud en Validación: {val_accuracy:.2f}")
print(f"Recall en Validación: {val_recall:.2f}")
print(f"F1 Score en Validación: {val_f1:.2f}")
print(f"AUC en Validación: {val_auc:.2f}")

Exactitud en Validación: 0.94
Recall en Validación: 0.92
F1 Score en Validación: 0.93
AUC en Validación: 0.99


Evaluar el modelo en el conjunto de prueba (test)

In [6]:
# Evaluar el modelo en el conjunto de prueba (test)
test_preds = model.predict(X_test)
test_accuracy = accuracy_score(y_test, test_preds)
test_recall = recall_score(y_test, test_preds)
test_f1 = f1_score(y_test, test_preds)
test_auc = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])

print(f"Exactitud en Prueba: {test_accuracy:.2f}")
print(f"Recall en Prueba: {test_recall:.2f}")
print(f"F1 Score en Prueba: {test_f1:.2f}")
print(f"AUC en Prueba: {test_auc:.2f}")

Exactitud en Prueba: 0.94
Recall en Prueba: 0.92
F1 Score en Prueba: 0.94
AUC en Prueba: 0.99


In [3]:
#from sklearn.ensemble import RandomForestClassifier
#from sklearn.model_selection import train_test_split
#from sklearn.metrics import accuracy_score
#from sklearn.metrics import recall_score, f1_score, roc_auc_score
#import pandas as pd

#df = pd.read_csv('airline_passenger_satisfaction_cleaned.csv')

#X = df.drop('satisfaction', axis=1)

# Definir y (la columna objetivo)
#y = df['satisfaction']
# Dividir los datos en conjunto de entrenamiento (80%) y prueba (20%)
#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar el modelo RandomForestClassifier
#model = RandomForestClassifier(n_estimators=500, max_depth=6, random_state=42)

# Entrenar el modelo
#model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
#y_pred = model.predict(X_test)

# Evaluar el modelo
#accuracy = accuracy_score(y_test, y_pred)
#print(f"Exactitud del modelo Random Forest en el conjunto de prueba: {accuracy:.2f}")

#rf_train_preds = model.predict(X_train)
#rf_test_preds = model.predict(X_test)
#rf_train_proba = model.predict_proba(X_train)[:, 1]
#rf_test_proba = model.predict_proba(X_test)[:, 1]

#rf_train_recall = recall_score(y_train, rf_train_preds)
#rf_test_recall = recall_score(y_test, rf_test_preds)
#rf_train_f1 = f1_score(y_train, rf_train_preds)
#rf_test_f1 = f1_score(y_test, rf_test_preds)
#rf_train_auc = roc_auc_score(y_train, rf_train_proba)
#rf_test_auc = roc_auc_score(y_test, rf_test_proba)

#print(f"RandomForest - Recall en Entrenamiento: {rf_train_recall:.2f}")
#print(f"RandomForest - Recall en Prueba: {rf_test_recall:.2f}")
#print(f"RandomForest - F1 Score en Entrenamiento: {rf_train_f1:.2f}")
#print(f"RandomForest - F1 Score en Prueba: {rf_test_f1:.2f}")
#print(f"RandomForest - AUC en Entrenamiento: {rf_train_auc:.2f}")
#print(f"RandomForest - AUC en Prueba: {rf_test_auc:.2f}")

Exactitud del modelo Random Forest en el conjunto de prueba: 0.93
RandomForest - Recall en Entrenamiento: 0.91
RandomForest - Recall en Prueba: 0.91
RandomForest - F1 Score en Entrenamiento: 0.92
RandomForest - F1 Score en Prueba: 0.92
RandomForest - AUC en Entrenamiento: 0.98
RandomForest - AUC en Prueba: 0.98
