In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import *
from xgboost import XGBClassifier
from imblearn.metrics import specificity_score
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
data = pd.read_csv(r"C:\Users\rmace\Repo. Github\Decision-tree-RF\data\clean-data (1).csv")
data.head()

In [None]:
X = data.drop("Outcome", axis = 1)
y = data["Outcome"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [None]:
model = XGBClassifier(n_estimators = 300, learning_rate = 0.005, random_state = 42)
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)
y_pred

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
# Evaluar el primer modelo en entrenamiento y prueba
train_pred = model.predict(X_train)
test_pred = model.predict(X_test)

In [None]:
def get_metrics(y_train, y_test, y_pred_train, y_pred_test):
    # Calcular métricas para el conjunto de entrenamiento
    train_accuracy = accuracy_score(y_train, y_pred_train)
    train_f1 = f1_score(y_train, y_pred_train)
    train_auc = roc_auc_score(y_train, y_pred_train)
    train_precision = precision_score(y_train, y_pred_train)
    train_recall = recall_score(y_train, y_pred_train)
    train_specificity = specificity_score(y_train, y_pred_train)

    # Calcular métricas para el conjunto de prueba
    test_accuracy = accuracy_score(y_test, y_pred_test)
    test_f1 = f1_score(y_test, y_pred_test)
    test_auc = roc_auc_score(y_test, y_pred_test)
    test_precision = precision_score(y_test, y_pred_test)
    test_recall = recall_score(y_test, y_pred_test)
    test_specificity = specificity_score(y_test, y_pred_test)

    # Calcular la diferencia entre métricas de entrenamiento y prueba
    diff_accuracy = train_accuracy - test_accuracy
    diff_f1 = train_f1 - test_f1
    diff_auc = train_auc - test_auc
    diff_precision = train_precision - test_precision
    diff_recall = train_recall - test_recall
    diff_specificity = train_specificity - test_specificity

    # Crear un DataFrame con los resultados
    metrics_df = pd.DataFrame([[train_accuracy, train_f1, train_auc, train_precision, train_recall, train_specificity],[test_accuracy, test_f1, test_auc, test_precision, test_recall, test_specificity],[diff_accuracy, diff_f1, diff_auc, diff_precision, diff_recall, diff_specificity]],
                              columns = ['Accuracy', 'F1', 'AUC', 'Precision', 'Recall', 'Specificity'],
                              index = ['Train','Test', 'Diferencia'])

    return metrics_df

In [None]:
get_metrics(y_train, y_test, train_pred, test_pred)

In [None]:
# Visualización de la matriz de confusión
plt.figure(figsize=(8, 6))
sns.heatmap(pd.crosstab(y_test, y_pred), annot=True, fmt='g', cmap='Blues')
plt.xlabel('Predicciones')
plt.ylabel('Valores verdaderos')
plt.title('Matriz de confusión')
plt.show()

In [None]:
# Optimización de hiperparámetros
param_grid = {
    'n_estimators': np.arange(100, 501, 50),
    'learning_rate': np.linspace(0, 0.01, 6)
}

grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Mejores hiperparámetros
print("Mejores hiperparámetros:", grid_search.best_params_)

In [None]:
# Predicciones
y_pred_opt = grid_search.predict(X_test)

# Evaluación del modelo
opt_accuracy = accuracy_score(y_test, y_pred_opt)
opt_accuracy

In [None]:
# Evaluar el segundo modelo optimizacion en entrenamiento y prueba
test_pred_opt = grid_search.predict(X_test)
train_pred_opt = grid_search.predict(X_train)

In [None]:
get_metrics(y_train, y_test, train_pred_opt, test_pred_opt)

In [None]:
# Validación cruzada estratificada

from sklearn.model_selection import StratifiedKFold, cross_val_score

# Definir el modelo con los hiperparámetros optimizados
model = XGBClassifier(n_estimators=300, learning_rate=0.005, random_state=42)

# Definir la estrategia de validación cruzada estratificada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Calcular la precisión mediante validación cruzada
scores = cross_val_score(model, X, y, cv=cv, scoring='accuracy')

# Imprimir los puntajes de precisión para cada pliegue
print("Precisión por pliegue:", scores)

# Calcular la precisión media y su desviación estándar
print("Precisión media:", scores.mean())
print("Desviación estándar de la precisión:", scores.std())

In [None]:
Los resultados de la validación cruzada estratificada muestran que el modelo tiene una precisión bastante consistente en cada pliegue,
con puntajes que varían entre aproximadamente 0.743 y 0.786. La precisión media obtenida es de aproximadamente 0.768,
lo que indica que el modelo tiene un buen rendimiento en general en la clasificación de los datos.

La desviación estándar de la precisión es relativamente baja, alrededor de 0.014, lo que sugiere que los puntajes de precisión en los
diferentes pliegues no difieren mucho entre sí, lo que indica una buena estabilidad en el rendimiento del modelo.
En resumen, el modelo parece ser consistente y generaliza bien a través de los diferentes pliegues de la validación cruzada.

In [None]:
# Visualización de las características más importantes
feature_importance = pd.Series(grid_search.best_estimator_.feature_importances_, index=X.columns)
feature_importance.nlargest(10).plot(kind='barh')
plt.xlabel('Importancia')
plt.ylabel('Características')
plt.title('Características más importantes')
plt.show()