In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.compose import ColumnTransformer
from sklearn.metrics import roc_auc_score, accuracy_score

# Leer los datos de archivo csv, typed_uanl.csv con el URL
url =  "C:/Users/PC/Documents/GitHub/GitFlow-en-Github/ML003/PIA/Practica PIA/prueba.csv"
test_data = pd.read_csv(url)

# Leer los datos de archivo csv, typed_uanl.csv con el URL
url =  "C:/Users/PC/Documents/GitHub/GitFlow-en-Github/ML003/PIA/Practica PIA/entrenamiento.csv"
train_data = pd.read_csv(url)

# Separar características y objetivo en el conjunto de entrenamiento
X = train_data.drop(columns=['id', 'engagement'])
y = train_data['engagement'].astype(int)  # Convertir objetivo a entero

# Dividir los datos de entrenamiento en entrenamiento y validación
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Verificar balance de clases
print("Distribución de clases en y_train:")
print(y_train.value_counts())
print("Distribución de clases en y_val:")
print(y_val.value_counts())

# Definir las columnas numéricas
numeric_features = X_train.columns

# Preprocesamiento: escalado de características numéricas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features)
    ])

# Crear pipeline con un clasificador de bosque aleatorio
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

# Definir el grid de hiperparámetros
param_grid = {
    'classifier__n_estimators': [100, 200, 300],
    'classifier__max_depth': [None, 10, 20, 30],
    'classifier__min_samples_split': [2, 5, 10]
}

# Configurar StratifiedKFold
cv = StratifiedKFold(n_splits=5)

# Configurar GridSearchCV con StratifiedKFold y ROC AUC como criterio de evaluación
grid_search = GridSearchCV(pipeline, param_grid, cv=cv, scoring='roc_auc', n_jobs=-1)

# Entrenar el modelo
grid_search.fit(X_train, y_train)

# Evaluar el mejor modelo en el conjunto de validación
best_model = grid_search.best_estimator_

# Predecir probabilidades en el conjunto de entrenamiento para calcular ROC AUC
train_predictions = best_model.predict_proba(X_train)[:, 1]
train_roc_auc = roc_auc_score(y_train, train_predictions)

# Predecir probabilidades en el conjunto de validación para calcular ROC AUC
val_predictions = best_model.predict_proba(X_val)[:, 1]
val_roc_auc = roc_auc_score(y_val, val_predictions)

# Evaluar la precisión en el conjunto de validación
val_accuracy = accuracy_score(y_val, best_model.predict(X_val))

# Resultados de la búsqueda de hiperparámetros
best_params = grid_search.best_params_

print("Best ROC AUC on training data:", train_roc_auc)
print("Best ROC AUC on validation data:", val_roc_auc)
print("Validation Accuracy:", val_accuracy)
print("Best Parameters:", best_params)

# Usar cross_val_score para obtener el ROC AUC promedio en todo el conjunto de entrenamiento
cv_scores = cross_val_score(best_model, X, y, cv=cv, scoring='roc_auc')

print("Cross-validated ROC AUC:", cv_scores.mean())

# Predicciones finales en el conjunto de prueba
test_predictions = best_model.predict_proba(test_data.drop(columns=['id']))[:, 1]
# test_predictions contiene las probabilidades de pertenencia a la clase positiva para los datos de prueba


Distribución de clases en y_train:
engagement
0    6673
1     718
Name: count, dtype: int64
Distribución de clases en y_val:
engagement
0    1669
1     179
Name: count, dtype: int64
Best ROC AUC on training data: 0.9970258059857063
Best ROC AUC on validation data: 0.910400299915314
Validation Accuracy: 0.9366883116883117
Best Parameters: {'classifier__max_depth': 20, 'classifier__min_samples_split': 10, 'classifier__n_estimators': 300}
Cross-validated ROC AUC: 0.8900992780402486
