In [None]:
# ==========================================================
# Maestría en Ciencia y Análisis de Datos
# Universidad Mayor de San Andrés
# ----------------------------------------------------------
#           Machine Learning y Deep Learning
# ----------------------------------------------------------
#        Rolando Gonzales Martinez, Agosto 2024
# ==========================================================
#            Validacion cruzada k-fold 
#                       y 
#         validacion cruzada estratificada
# ==========================================================
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import StratifiedKFold, KFold, cross_val_score
from sklearn.metrics import roc_auc_score, make_scorer
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

In [None]:
# Cargar el conjunto de datos:
url = 'https://raw.githubusercontent.com/rogon666/UMSA/main/AIMLDL/Datos/mortalidad_cochabamba.csv'

# Cargar los datos en un DataFrame
df_mortalidad = pd.read_csv(url)

# Mostrar las primeras filas del DataFrame
print(df_mortalidad.head())

In [None]:
# Preprocesamiento y preparacion de datos:
# Dropear la categoría "Subita" de la columna "causa_muertes"
df_mortalidad = df_mortalidad[df_mortalidad['causa_muertes'] != 'Subita']

# Crear la variable target: 1 si "causa_muertes" es "Suicidio", 0 si es "Natural"
df_mortalidad['target'] = df_mortalidad['causa_muertes'].apply(lambda x: 1 if x == 'Suicidio' else 0)

# Seleccionar las columnas numéricas y convertir las categóricas a variables dummies
numerical_cols = ['edad']
categorical_cols = ['depto_nacimiento', 'lugar_de_fallecimiento', 'estado_civil', 
                    'grado_instruccion', 'tuvo_atencion_medica', 'atendio_el_medico_que_suscribe']

# Convertir las variables categóricas a dummies
df_categorical_dummies = pd.get_dummies(df_mortalidad[categorical_cols], drop_first=True)

# Crear la matriz X con las variables numéricas y categóricas recodificadas binarias
X = pd.concat([df_mortalidad[numerical_cols], df_categorical_dummies], axis=1)

# Mostrar las primeras filas de la matriz X y la variable target
X.head(), df_mortalidad['target'].head()

In [None]:
# Verificar el balance de la variable target
balance_target = df_mortalidad['target'].value_counts(normalize=True)
balance_target

In [None]:
# Verificar el balance de la variable target
balance_target = df_mortalidad['target'].value_counts()
balance_target

In [None]:
# Definir la variable target
y = df_mortalidad['target']

# Definir el modelo de XGBoost
semilla = 
modelo = xgb.XGBClassifier(random_state=semilla)

In [None]:
# Validación cruzada k-fold
particiones_k =  # Particiones de los datos, en este ejemplo: 3 partes

kf = KFold(n_splits=particiones_k, 
           shuffle= , 
           random_state=semilla)

# Definir la métrica de AUC
auc_scorer = make_scorer(roc_auc_score)

# Realizar la validación cruzada k-fold y calcular el AUC para cada fold
cv_auc_scores = cross_val_score(modelo, X, y, cv=kf, scoring=auc_scorer)

# Mostrar los resultados de AUC para cada fold y la media
print(f'AUC en cada fold: {cv_auc_scores}')
print(f'AUC promedio: {cv_auc_scores.mean()}')

# Crear un gráfico de barras con los resultados de AUC en cada fold
mean_auc = cv_auc_scores.mean()
folds = np.arange(1, len(cv_auc_scores) + 1)

plt.figure(figsize=(4, 4))
plt.bar(folds, np.array(cv_auc_scores), color='skyblue', edgecolor='black')
plt.axhline(y=mean_auc, color='r', linestyle='--', label=f'AUC promedio = {mean_auc:.2f}')

# Configurar etiquetas y título
plt.xlabel('Fold')
plt.ylabel('AUC')
plt.title('AUC - Validación cruzada k-fold')
plt.xticks(folds)
plt.ylim(0.2, 1.0)  # Ajustar los límites de y para una mejor visualización
plt.legend(loc='lower right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

In [None]:
# Validación cruzada k-fold estratificada
particiones_k =  # Particiones de los datos, en este ejemplo: 9 partes (maximo)

skf = StratifiedKFold(n_splits=particiones_k, 
                      shuffle=True, 
                      random_state=semilla)

# Definir la métrica de AUC
auc_scorer = make_scorer(roc_auc_score)

# Realizar la validación cruzada k-fold estratificada y calcular el AUC para cada fold
cv_auc_scores = cross_val_score(modelo, X, y, cv=skf, scoring=auc_scorer)

# Mostrar los resultados de AUC para cada fold y la media
print(f'AUC para cada fold: {cv_auc_scores}')
print(f'AUC promedio: {cv_auc_scores.mean()}')

# Crear un gráfico de barras con los resultados de AUC en cada fold
mean_auc = cv_auc_scores.mean()
folds = np.arange(1, len(cv_auc_scores) + 1)

plt.figure(figsize=(4, 4))
plt.bar(folds, np.array(cv_auc_scores), color='skyblue', edgecolor='black')
plt.axhline(y=mean_auc, color='r', linestyle='--', label=f'AUC promedio = {mean_auc:.2f}')

# Configurar etiquetas y título
plt.xlabel('Fold')
plt.ylabel('AUC')
plt.title('AUC - Validación cruzada k-fold estratificada')
plt.xticks(folds)
plt.ylim(0.2, 1.0)  # Ajustar los límites de y para una mejor visualización
plt.legend(loc='lower right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()