In [1]:
import numpy as np 
import pandas as pd 

from sklearn.utils import resample # équilibrage de classes

# Préparation des données pour entrainement
from sklearn.model_selection import train_test_split

# Paramètres du modèle
import optuna
from xgboost import XGBClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report

# sauvegarde des hyperparamètres
import pickle

# Explicabilité
import shap

In [27]:
def load_data(filepath, drop_columns=None):
    """Charge les données depuis un fichier CSV et supprime les colonnes indésirées."""
    df = pd.read_csv(filepath)
    if drop_columns is not None:
        df = df.drop(columns=drop_columns)
    return df

def sort_dataset_by_patient_and_hour(df, patient_id_column='Patient_ID', hour_column='Hour'):
    """
    Trie le DataFrame en fonction des colonnes spécifiées pour Patient_ID et Hour, 
    assurant que les données sont triées d'abord par patient, puis par heure pour chaque patient.

    Args:
    df (DataFrame): Le DataFrame à trier.
    patient_id_column (str): Nom de la colonne contenant les identifiants des patients.
    hour_column (str): Nom de la colonne contenant les heures des prises de mesures.

    Returns:
    DataFrame: Un DataFrame trié selon les identifiants des patients et les heures.
    """
    sorted_df = df.sort_values(by=[patient_id_column, hour_column])
    return sorted_df


def aggregate_sepsis_label(df, patient_id_column='Patient_ID', sepsis_label_column='SepsisLabel'):
    """
    Agrège les données pour chaque patient pour déterminer si le patient a eu un sepsis
    à un moment quelconque et ajoute cette information dans une nouvelle colonne.

    Args:
    df (DataFrame): Le DataFrame contenant les données des patients.
    patient_id_column (str): Le nom de la colonne contenant les identifiants des patients.
    sepsis_label_column (str): Le nom de la colonne contenant les étiquettes de sepsis.

    Returns:
    DataFrame: Un DataFrame enrichi avec une colonne indiquant si le patient a eu un sepsis.
    """
    # Aggrégation des données par patient avec le maximum de SepsisLabel
    aggregated_df = df.groupby(patient_id_column)[sepsis_label_column].max().reset_index()

    # Renommer la colonne pour clarifier qu'il s'agit du résultat de l'aggrégation
    aggregated_df = aggregated_df.rename(columns={sepsis_label_column: 'will_have_sepsis'})

    # Joindre avec les données originales pour obtenir un DataFrame complet par patient
    aggregated_full_df = df.merge(aggregated_df, on=patient_id_column)

    return aggregated_full_df


def display_basic_info(df):
    """Affiche les informations de base sur le DataFrame, y compris sa forme, ses colonnes,
    un résumé descriptif, les valeurs manquantes par colonne et les premières lignes."""
    
    print("Shape of the DataFrame:", df.shape)
    print('\nNumbre of unique patients :', df['Patient_ID'].nunique())
    print("\nLignes classes counts : ", df['SepsisLabel'].value_counts())
    if 'will_have_sepsis' in df.columns:
        print('\nClasses counts : ', df['will_have_sepsis'].value_counts())
    print("\nColumns in the DataFrame:", df.columns)
    print("\nData Types:\n", df.dtypes)
    display("Descriptive Statistics:", df.describe())
    print("\nMissing Values Per Column:\n", df.isna().sum())
    display("First 5 Rows of the DataFrame:", df.head())
    
    


def clean_data(df, interest_columns=None, missing_value_threshold=0.3):
    """Nettoie le DataFrame en supprimant les lignes avec trop de valeurs manquantes.
    Si 'interest_columns' n'est pas spécifié, toutes les colonnes sont prises en compte."""
    
    if interest_columns is None:
        interest_columns = df.columns.tolist()
    seuil = missing_value_threshold * len(interest_columns)
    cleaned_df = df.dropna(subset=interest_columns, thresh=len(interest_columns) - seuil)
    return cleaned_df


def balance_classes(df, target_column, method='undersample', random_state=123):
    """
    Équilibre les classes dans un DataFrame en sous-échantillonnant la classe majoritaire ou 
    en sur-échantillonnant la classe minoritaire selon le paramètre 'method'.

    Args:
    df (DataFrame): Le DataFrame à équilibrer.
    target_column (str): Nom de la colonne contenant les étiquettes de classe.
    method (str): Méthode d'équilibrage, 'undersample' pour sous-échantillonnage ou 'oversample' pour sur-échantillonnage.
    random_state (int): Graine pour la génération de nombres aléatoires pour la reproductibilité.

    Returns:
    DataFrame: Un DataFrame où les classes sont équilibrées.
    """
    # Identifier les classes majoritaire et minoritaire
    class_counts = df[target_column].value_counts()
    major_class_label = class_counts.idxmax()
    minor_class_label = class_counts.idxmin()

    major_class = df[df[target_column] == major_class_label]
    minor_class = df[df[target_column] == minor_class_label]

    if method == 'undersample':
        # Sous-échantillonnage de la classe majoritaire
        resampled_major_class = resample(major_class,
                                         replace=False,
                                         n_samples=len(minor_class),
                                         random_state=random_state)
        balanced_df = pd.concat([resampled_major_class, minor_class])
    elif method == 'oversample':
        # Sur-échantillonnage de la classe minoritaire
        resampled_minor_class = resample(minor_class,
                                         replace=True,
                                         n_samples=len(major_class),
                                         random_state=random_state)
        balanced_df = pd.concat([major_class, resampled_minor_class])

    return balanced_df

def split_train_test_data(df, test_size=0.2, random_seed=42):
    """
    Sépare les données en ensembles d'entraînement et de test, en s'assurant que les patients
    avec et sans sepsis sont correctement répartis sans chevauchement entre les ensembles.

    Args:
    df (DataFrame): Le DataFrame contenant les données des patients.
    test_size (float): La proportion de chaque groupe de patients à utiliser pour le test.
    random_seed (int): La graine pour la génération de nombres aléatoires pour la reproductibilité.

    Returns:
    tuple: Un tuple contenant deux DataFrames, (train_df, test_df).
    """
    np.random.seed(random_seed)  # Pour la reproductibilité

    # Identifier les patients qui ont eu un sepsis
    patients_with_sepsis = df[df['will_have_sepsis'] == 1]['Patient_ID'].unique()

    # Sélectionner une proportion pour le test parmi les patients avec sepsis
    test_patients_with_sepsis = np.random.choice(patients_with_sepsis, size=int(len(patients_with_sepsis) * test_size), replace=False)

    # Identifier et sélectionner une proportion pour le test parmi les patients sans sepsis
    patients_without_sepsis = df[df['will_have_sepsis'] == 0]['Patient_ID'].unique()
    test_patients_without_sepsis = np.random.choice(patients_without_sepsis, size=int(len(patients_without_sepsis) * test_size), replace=False)

    # Combiner les patients de test
    test_patients = np.concatenate((test_patients_with_sepsis, test_patients_without_sepsis))

    # Créer les ensembles de données
    train_df = df[~df['Patient_ID'].isin(test_patients)]
    test_df = df[df['Patient_ID'].isin(test_patients)]

    return train_df, test_df

def add_time_to_sepsis_column(df):
    # Ajouter une colonne initialement remplie de NA
    df['time_to_sepsis'] = pd.NA
    
    # Itérer sur chaque groupe de patients
    for pid, group in df.groupby('Patient_ID'):
        # Trouver le premier indice où SepsisLabel passe à 1
        sepsis_indices = group[group['SepsisLabel'] == 1].index
        if not sepsis_indices.empty:
            first_sepsis_index = sepsis_indices[0]
            sepsis_hour = group.at[first_sepsis_index, 'Hour']
            # Calculer time_to_sepsis pour toutes les lignes du patient
            df.loc[df['Patient_ID'] == pid, 'time_to_sepsis'] = sepsis_hour - df.loc[df['Patient_ID'] == pid, 'Hour']
    
    display(df)
    print(df.shape)
    print(df['Patient_ID'].nunique())
    
    return df

def filter_rows_by_time_to_sepsis(df, min_time=6, max_time=12):
    """
    Filtre les lignes du DataFrame pour conserver uniquement celles où 'time_to_sepsis' est NaN,
    ou entre un minimum et un maximum spécifié (inclus).

    Args:
    df (DataFrame): Le DataFrame contenant les données des patients.
    min_time (int): La valeur minimale de 'time_to_sepsis' pour conserver la ligne.
    max_time (int): La valeur maximale de 'time_to_sepsis' pour conserver la ligne.

    Returns:
    DataFrame: Un DataFrame filtré avec les lignes désirées.
    """
    # Filtrer le DataFrame pour conserver les lignes où 'time_to_sepsis' est NaN ou dans l'intervalle spécifié
    filtered_df = df[(df['time_to_sepsis'].isna()) |
                     ((df['time_to_sepsis'] >= min_time) & (df['time_to_sepsis'] <= max_time))]
    return filtered_df


In [35]:
# Découpage de l'ensemble d'entrainement et de test
def prepare_train_test(df, label_column, test_size=0.2, random_state=None, stratify=True):
    """
    Prépare les ensembles d'entraînement et de test à partir d'un DataFrame donné.

    Args:
    df (DataFrame): Le DataFrame à partir duquel les ensembles doivent être créés.
    label_column (str): Le nom de la colonne qui contient les étiquettes cibles.
    test_size (float): La proportion du dataset à inclure dans l'ensemble de test.
    random_state (int): Contrôle la reproductibilité des résultats en fixant un seed pour le générateur aléatoire.
    stratify (bool): Si True, les données sont divisées de façon à préserver le même pourcentage pour chaque classe cible dans les ensembles de train et de test.

    Returns:
    tuple: Contient les ensembles X_train, X_test, y_train, y_test.
    """
    # Séparation des features et des étiquettes
    X = df.drop(columns=[label_column])
    y = df[label_column]

    # Stratification optionnelle basée sur les étiquettes
    stratify_param = y if stratify else None

    # Répartition des données en ensembles d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size,
                                                        stratify=stratify_param, random_state=random_state)
    
    # Affichage des dimensions des ensembles pour vérification
    print("X_train:", X_train.shape, "X_test:", X_test.shape, "y_train:", y_train.shape, "y_test:", y_test.shape)

    return X_train, X_test, y_train, y_test


def objective(trial, X, y, cv=7):
    """
    Fonction objectif pour l'optimisation d'hyperparamètres avec Optuna.

    Args:
    trial (optuna.trial): Un essai de Optuna pour suggérer les hyperparamètres.
    X (DataFrame): Features du dataset.
    y (Series): Étiquettes cibles du dataset.
    cv (int): Nombre de plis pour la validation croisée.

    Returns:
    float: La moyenne des scores de validation croisée pour les hyperparamètres suggérés.
    """
    # Hyperparamètres suggérés par Optuna
    learning_rate = trial.suggest_uniform('learning_rate', 0.01, 1)
    max_depth = trial.suggest_int('max_depth', 2, 15)
    n_estimators = trial.suggest_int('n_estimators', 50, 250)
    min_child_weight = trial.suggest_int('min_child_weight', 1, 10)
    gamma = trial.suggest_uniform('gamma', 0.01, 5)
    subsample = trial.suggest_uniform('subsample', 0.01, 1)
    
    # Création et évaluation du modèle
    clf = XGBClassifier(learning_rate=learning_rate,
                        max_depth=max_depth,
                        n_estimators=n_estimators,
                        min_child_weight=min_child_weight,
                        gamma=gamma,
                        subsample=subsample,
                        use_label_encoder=False,
                        eval_metric='logloss')
    
    # Calcul du score moyen sur les plis de validation croisée
    score = cross_val_score(clf, X, y, cv=cv)
    
    return np.mean(score)


def perform_hyperparameter_optimization(X, y, objective, n_trials=50, random_state=42):
    """
    Crée une étude Optuna pour optimiser les hyperparamètres d'un modèle de machine learning.

    Args:
    X (DataFrame): Les features d'entrée pour le modèle.
    y (Series): Les étiquettes cibles.
    objective (function): La fonction objective pour Optuna.
    n_trials (int): Le nombre de tentatives d'optimisation.
    random_state (int): Graine pour la génération de nombres aléatoires pour la reproductibilité.

    Returns:
    dict: Meilleurs hyperparamètres trouvés par l'étude Optuna.
    """
    # Création d'un objet study d'Optuna
    study = optuna.create_study(direction='maximize', sampler=optuna.samplers.TPESampler(seed=random_state))
    
    # Lancement de l'optimisation
    study.optimize(lambda trial: objective(trial, X, y), n_trials=n_trials)

    # Retourne les meilleurs paramètres trouvés
    return study.best_params, study

# sauvegarde des meilleurs hyperparamètres
def save_study(study, filename):
    with open(filename, 'wb') as f:
        pickle.dump(study, f)

# chargement des meilleurs hyperparamètres
def load_study(filename):
    with open(filename, 'rb') as f:
        study = pickle.load(f)
    return study

def train_and_save_xgboost_classifier(X_train, y_train, best_params, model_path):
    """
    Crée, entraîne et sauvegarde un modèle XGBoost avec des paramètres spécifiés.

    Args:
    X_train (DataFrame): Les features d'entraînement.
    y_train (Series): Les étiquettes cibles d'entraînement.
    best_params (dict): Dictionnaire contenant les meilleurs paramètres pour le modèle.
    model_path (str): Chemin du fichier où le modèle sera sauvegardé.

    Returns:
    XGBClassifier: Le modèle XGBoost entraîné.
    """
    xgbc = XGBClassifier(
        n_jobs=-1,  # Utiliser tous les processeurs disponible
        tree_method='hist',  # Utiliser 'hist' pour accélérer l'entraînement
        subsample=0.8,       # Sous-échantillonnage pour réduire le temps d'entraînement
        learning_rate=best_params['learning_rate'],
        max_depth=best_params['max_depth'],
        n_estimators=best_params['n_estimators'],
        min_child_weight=best_params['min_child_weight'],
        gamma=best_params['gamma'],
        #subsample=best_params['subsample'],
        use_label_encoder=False,
        eval_metric='logloss'
    )

    # Entraînement du modèle
    xgbc.fit(X_train, y_train)

    # Sauvegarde du modèle
    with open(model_path, 'wb') as file:
        pickle.dump(xgbc, file)

    return xgbc


def predict_and_evaluate(model, X_test, y_test):
    """
    Fait des prédictions avec un modèle donné et évalue les résultats.

    Args:
    model (XGBClassifier): Le modèle entraîné à utiliser pour les prédictions.
    X_test (DataFrame): Les features de test.
    y_test (Series): Les étiquettes cibles de test.

    Returns:
    str: Un rapport d'évaluation imprimable.
    """
    # Prédiction avec le modèle
    y_predicted = model.predict(X_test)

    # Génération du rapport d'évaluation
    evaluation_report = classification_report(y_test, y_predicted)

    return evaluation_report


def explain_model_predictions_with_shap(model, X_train, X_test):
    """
    Explique les prédictions d'un modèle XGBoost en utilisant SHAP.

    Args:
    model (XGBClassifier): Le modèle entraîné.
    X_train (DataFrame): Les données d'entraînement.
    X_test (DataFrame): Les données de test pour lesquelles les explications sont générées.

    Returns:
    None: Affiche les graphiques SHAP.
    """
    # Création d'un explainer SHAP
    explainer = shap.Explainer(model, X_train)

    # Calcul des valeurs SHAP
    shap_values = explainer(X_test)

    # Affichage du summary plot
    shap.summary_plot(shap_values, X_test, plot_type="bar")


def load_xgboost_classifier(model_path):
    """
    Charge un modèle XGBoost sauvegardé à partir d'un fichier.

    Args:
    model_path (str): Chemin du fichier où le modèle est sauvegardé.

    Returns:
    XGBClassifier: Le modèle XGBoost chargé.
    """
    with open(model_path, 'rb') as file:
        xgbc_loaded = pickle.load(file)
    
    return xgbc_loaded

In [3]:
# Chemin du fichier où votre modèle est sauvegardé
model_path = 'xgboost_model_6h.joblib'

# Charger le modèle
xgbc_loaded = load_xgboost_classifier(model_path)

In [13]:
df = pd.read_csv('df_final.csv')
df.head(15)

Unnamed: 0.1,Unnamed: 0,Patient_ID,HospAdmTime,Age,Gender,Hour,HR,O2Sat,Temp,SBP,...,TroponinI,Hct,Hgb,PTT,WBC,Fibrinogen,Platelets,ICULOS,SepsisLabel,will_have_sepsis
0,0,1,-0.03,83.14,0,0,97.0,95.0,36.11,98.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,1,0,0
1,1,1,-0.03,83.14,0,1,97.0,95.0,36.11,98.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,2,0,0
2,2,1,-0.03,83.14,0,2,89.0,99.0,36.11,122.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,3,0,0
3,3,1,-0.03,83.14,0,3,90.0,95.0,36.11,122.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,4,0,0
4,4,1,-0.03,83.14,0,4,103.0,88.5,36.11,122.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,5,0,0
5,5,1,-0.03,83.14,0,5,110.0,91.0,36.11,122.5,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,6,0,0
6,6,1,-0.03,83.14,0,6,108.0,92.0,36.11,123.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,7,0,0
7,7,1,-0.03,83.14,0,7,106.0,90.5,36.375,93.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,8,0,0
8,8,1,-0.03,83.14,0,8,104.0,95.0,36.64,133.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,9,0,0
9,9,1,-0.03,83.14,0,9,102.0,91.0,36.905,134.0,...,0.7,37.2,12.5,30.5,5.7,124.0,317.0,10,0,0


In [15]:
df['will_have_sepsis'].value_counts()

will_have_sepsis
0    1379800
1     158331
Name: count, dtype: int64

In [18]:
# df.drop(columns='Unnamed: 0', inplace=True)
df_balanced = balance_classes(df, 'will_have_sepsis')

In [20]:
df_balanced['will_have_sepsis'].value_counts()

will_have_sepsis
0    158331
1    158331
Name: count, dtype: int64

In [23]:
df_augmented = add_time_to_sepsis_column(df_balanced)
df_augmented

Unnamed: 0,Patient_ID,HospAdmTime,Age,Gender,Hour,HR,O2Sat,Temp,SBP,MAP,...,Hct,Hgb,PTT,WBC,Fibrinogen,Platelets,ICULOS,SepsisLabel,will_have_sepsis,time_to_sepsis
924686,103826,-2.03,57.00,0,26,65.0,99.0,37.107692,98.0,65.0,...,26.400000,7.800,29.8,11.00,235.0,339.00,27,0,0,
385036,10026,-185.19,72.89,0,16,85.0,95.0,37.300000,132.0,72.0,...,26.830769,9.700,28.2,9.00,254.0,117.00,19,0,0,
571105,14912,-2.84,80.33,0,38,73.0,97.0,36.415000,101.0,52.0,...,33.436000,11.348,26.7,16.12,296.0,119.56,39,0,0,
308007,8036,-18.17,62.20,1,33,81.0,93.0,36.833333,102.0,68.0,...,23.300000,8.500,33.3,5.00,173.0,160.00,37,0,0,
650049,16967,-3.53,83.50,1,22,75.0,96.0,36.780000,129.0,68.0,...,29.800000,10.400,27.5,14.20,340.0,187.00,23,0,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1536590,119959,-321.03,56.00,0,36,91.0,96.0,37.000000,127.0,94.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,37,1,1,-5
1536591,119959,-321.03,56.00,0,37,91.0,95.0,36.700000,151.0,103.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,38,1,1,-6
1536592,119959,-321.03,56.00,0,38,95.0,94.0,36.600000,150.0,104.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,39,1,1,-7
1536593,119959,-321.03,56.00,0,39,91.0,95.0,36.700000,131.0,92.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,40,1,1,-8


(316662, 43)
38976


Unnamed: 0,Patient_ID,HospAdmTime,Age,Gender,Hour,HR,O2Sat,Temp,SBP,MAP,...,Hct,Hgb,PTT,WBC,Fibrinogen,Platelets,ICULOS,SepsisLabel,will_have_sepsis,time_to_sepsis
924686,103826,-2.03,57.00,0,26,65.0,99.0,37.107692,98.0,65.0,...,26.400000,7.800,29.8,11.00,235.0,339.00,27,0,0,
385036,10026,-185.19,72.89,0,16,85.0,95.0,37.300000,132.0,72.0,...,26.830769,9.700,28.2,9.00,254.0,117.00,19,0,0,
571105,14912,-2.84,80.33,0,38,73.0,97.0,36.415000,101.0,52.0,...,33.436000,11.348,26.7,16.12,296.0,119.56,39,0,0,
308007,8036,-18.17,62.20,1,33,81.0,93.0,36.833333,102.0,68.0,...,23.300000,8.500,33.3,5.00,173.0,160.00,37,0,0,
650049,16967,-3.53,83.50,1,22,75.0,96.0,36.780000,129.0,68.0,...,29.800000,10.400,27.5,14.20,340.0,187.00,23,0,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1536590,119959,-321.03,56.00,0,36,91.0,96.0,37.000000,127.0,94.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,37,1,1,-5
1536591,119959,-321.03,56.00,0,37,91.0,95.0,36.700000,151.0,103.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,38,1,1,-6
1536592,119959,-321.03,56.00,0,38,95.0,94.0,36.600000,150.0,104.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,39,1,1,-7
1536593,119959,-321.03,56.00,0,39,91.0,95.0,36.700000,131.0,92.0,...,28.000000,8.200,37.0,11.50,250.0,286.00,40,1,1,-8


In [25]:
# df_augmented.to_csv('df_balanced_augmented.csv', index=False)
df_train, df_test = split_train_test_data(df_augmented)
print(df_train.shape)
print(df_train['will_have_sepsis'].value_counts())
print(df_test.shape)
print(df_test['will_have_sepsis'].value_counts())

(251398, 43)
will_have_sepsis
0    126488
1    124910
Name: count, dtype: int64
(65264, 43)
will_have_sepsis
1    33421
0    31843
Name: count, dtype: int64


In [26]:
df_train.to_csv('df_train.csv', index=False)
df_test.to_csv('df_test.csv', index=False)

In [30]:
df_test_12_6h = filter_rows_by_time_to_sepsis(df_test)
# df_test_12_6h.to_csv('df_test_12_6h.csv', index=False)

In [31]:
X_test = df_test_12_6h.drop(columns=['SepsisLabel', 'will_have_sepsis', 'time_to_sepsis'])
y_test = df_test_12_6h['will_have_sepsis']

In [33]:
y_test

650049     0
166391     0
934943     0
1351559    0
531265     0
          ..
1533617    1
1533618    1
1533619    1
1533620    1
1533621    1
Name: will_have_sepsis, Length: 34329, dtype: int64

In [32]:
X_test

Unnamed: 0,Patient_ID,HospAdmTime,Age,Gender,Hour,HR,O2Sat,Temp,SBP,MAP,...,Potassium,Bilirubin_total,TroponinI,Hct,Hgb,PTT,WBC,Fibrinogen,Platelets,ICULOS
650049,16967,-3.53,83.50,1,22,75.0,96.000000,36.780000,129.000000,68.000000,...,4.000000,0.4,3.10,29.800000,10.400000,27.500000,14.200000,340.0,187.000000,23
166391,4332,-0.02,66.50,1,43,99.0,96.000000,37.000000,125.000000,101.000000,...,4.200000,0.9,5.30,35.900000,12.600000,26.100000,11.300000,592.0,326.000000,44
934943,104102,-30.30,70.00,1,7,79.0,96.000000,36.700000,138.000000,89.000000,...,4.275000,0.2,0.01,38.200000,12.437500,40.500000,7.600000,234.0,137.750000,8
1351559,115077,-365.63,76.00,0,3,84.0,100.000000,36.600000,155.000000,94.000000,...,3.300000,1.3,0.06,25.800000,8.300000,28.200000,9.200000,280.0,543.000000,4
531265,13887,-296.69,73.09,1,32,91.0,98.000000,37.055000,119.000000,73.000000,...,3.854545,1.5,12.30,31.236364,10.490909,29.700000,8.727273,417.0,321.090909,33
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1533617,119884,-0.08,47.00,1,219,80.0,98.285714,36.771429,93.571429,73.857143,...,3.634783,1.5,0.11,34.400000,11.326087,37.928571,9.630769,235.0,139.153846,220
1533618,119884,-0.08,47.00,1,220,80.0,98.142857,36.785714,95.285714,77.428571,...,3.586957,1.5,0.11,34.200000,11.265217,37.885714,9.907692,235.0,135.538462,221
1533619,119884,-0.08,47.00,1,221,84.0,98.000000,36.800000,97.000000,81.000000,...,3.539130,1.5,0.11,34.000000,11.204348,37.842857,10.184615,235.0,131.923077,222
1533620,119884,-0.08,47.00,1,222,79.0,98.200000,36.840000,83.000000,72.000000,...,3.491304,1.5,0.11,33.800000,11.143478,37.800000,10.461538,235.0,128.307692,223


In [36]:
# Prédiction et évaluation
evaluation_report = predict_and_evaluate(xgbc_loaded, X_test, y_test)
print(evaluation_report)

              precision    recall  f1-score   support

           0       0.96      0.97      0.97     31843
           1       0.57      0.48      0.52      2486

    accuracy                           0.94     34329
   macro avg       0.77      0.72      0.74     34329
weighted avg       0.93      0.94      0.93     34329



In [37]:
# Filtrer entre 6 et 8h
df_test_8 = filter_rows_by_time_to_sepsis(df_test_12_6h, min_time=6, max_time=8)
df_test_8

Unnamed: 0,Patient_ID,HospAdmTime,Age,Gender,Hour,HR,O2Sat,Temp,SBP,MAP,...,Hct,Hgb,PTT,WBC,Fibrinogen,Platelets,ICULOS,SepsisLabel,will_have_sepsis,time_to_sepsis
650049,16967,-3.53,83.50,1,22,75.0,96.0,36.780000,129.000000,68.000000,...,29.800000,10.400000,27.500000,14.200000,340.0,187.000000,23,0,0,
166391,4332,-0.02,66.50,1,43,99.0,96.0,37.000000,125.000000,101.000000,...,35.900000,12.600000,26.100000,11.300000,592.0,326.000000,44,0,0,
934943,104102,-30.30,70.00,1,7,79.0,96.0,36.700000,138.000000,89.000000,...,38.200000,12.437500,40.500000,7.600000,234.0,137.750000,8,0,0,
1351559,115077,-365.63,76.00,0,3,84.0,100.0,36.600000,155.000000,94.000000,...,25.800000,8.300000,28.200000,9.200000,280.0,543.000000,4,0,0,
531265,13887,-296.69,73.09,1,32,91.0,98.0,37.055000,119.000000,73.000000,...,31.236364,10.490909,29.700000,8.727273,417.0,321.090909,33,0,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1519813,119545,-0.05,61.00,1,294,89.0,95.0,37.628571,115.000000,79.000000,...,37.846154,12.207692,32.100000,15.492308,367.0,301.615385,295,0,1,7
1529728,119791,-68.87,71.00,1,144,92.0,93.0,37.800000,136.000000,77.000000,...,41.942857,12.885714,37.000000,26.400000,406.0,164.142857,145,0,1,8
1529729,119791,-68.87,71.00,1,145,96.0,94.0,38.000000,161.000000,88.000000,...,41.628571,12.757143,37.000000,26.900000,406.0,168.428571,146,0,1,7
1533620,119884,-0.08,47.00,1,222,79.0,98.2,36.840000,83.000000,72.000000,...,33.800000,11.143478,37.800000,10.461538,235.0,128.307692,223,0,1,8


In [38]:
X_test = df_test_12_6h.drop(columns=['SepsisLabel', 'will_have_sepsis', 'time_to_sepsis'])
y_test = df_test_12_6h['will_have_sepsis']

In [39]:
# Prédiction et évaluation
evaluation_report = predict_and_evaluate(xgbc_loaded, X_test, y_test)
print(evaluation_report)

              precision    recall  f1-score   support

           0       0.96      0.97      0.97     31843
           1       0.57      0.48      0.52      2486

    accuracy                           0.94     34329
   macro avg       0.77      0.72      0.74     34329
weighted avg       0.93      0.94      0.93     34329



In [40]:

# Filtrer entre 6 et 8h
df_test_4_8 = filter_rows_by_time_to_sepsis(df_test, min_time=4, max_time=8)
df_test_4_8

Unnamed: 0,Patient_ID,HospAdmTime,Age,Gender,Hour,HR,O2Sat,Temp,SBP,MAP,...,Hct,Hgb,PTT,WBC,Fibrinogen,Platelets,ICULOS,SepsisLabel,will_have_sepsis,time_to_sepsis
650049,16967,-3.53,83.50,1,22,75.0,96.0,36.780000,129.000000,68.000000,...,29.800000,10.400000,27.500000,14.200000,340.0,187.000000,23,0,0,
166391,4332,-0.02,66.50,1,43,99.0,96.0,37.000000,125.000000,101.000000,...,35.900000,12.600000,26.100000,11.300000,592.0,326.000000,44,0,0,
934943,104102,-30.30,70.00,1,7,79.0,96.0,36.700000,138.000000,89.000000,...,38.200000,12.437500,40.500000,7.600000,234.0,137.750000,8,0,0,
1351559,115077,-365.63,76.00,0,3,84.0,100.0,36.600000,155.000000,94.000000,...,25.800000,8.300000,28.200000,9.200000,280.0,543.000000,4,0,0,
531265,13887,-296.69,73.09,1,32,91.0,98.0,37.055000,119.000000,73.000000,...,31.236364,10.490909,29.700000,8.727273,417.0,321.090909,33,0,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1519813,119545,-0.05,61.00,1,294,89.0,95.0,37.628571,115.000000,79.000000,...,37.846154,12.207692,32.100000,15.492308,367.0,301.615385,295,0,1,7
1529728,119791,-68.87,71.00,1,144,92.0,93.0,37.800000,136.000000,77.000000,...,41.942857,12.885714,37.000000,26.400000,406.0,164.142857,145,0,1,8
1529729,119791,-68.87,71.00,1,145,96.0,94.0,38.000000,161.000000,88.000000,...,41.628571,12.757143,37.000000,26.900000,406.0,168.428571,146,0,1,7
1533620,119884,-0.08,47.00,1,222,79.0,98.2,36.840000,83.000000,72.000000,...,33.800000,11.143478,37.800000,10.461538,235.0,128.307692,223,0,1,8


In [41]:
X_test = df_test_12_6h.drop(columns=['SepsisLabel', 'will_have_sepsis', 'time_to_sepsis'])
y_test = df_test_12_6h['will_have_sepsis']

In [42]:
# Prédiction et évaluation
evaluation_report = predict_and_evaluate(xgbc_loaded, X_test, y_test)
print(evaluation_report)

              precision    recall  f1-score   support

           0       0.96      0.97      0.97     31843
           1       0.57      0.48      0.52      2486

    accuracy                           0.94     34329
   macro avg       0.77      0.72      0.74     34329
weighted avg       0.93      0.94      0.93     34329



In [45]:
X_train = df_train.drop(columns=['SepsisLabel', 'will_have_sepsis', 'time_to_sepsis'])
y_train = df_train['will_have_sepsis']

In [46]:
X_train

Unnamed: 0,Patient_ID,HospAdmTime,Age,Gender,Hour,HR,O2Sat,Temp,SBP,MAP,...,Potassium,Bilirubin_total,TroponinI,Hct,Hgb,PTT,WBC,Fibrinogen,Platelets,ICULOS
924686,103826,-2.03,57.00,0,26,65.0,99.0,37.107692,98.0,65.0,...,3.900000,0.4,0.01,26.400000,7.800,29.8,11.000000,235.0,339.000000,27
385036,10026,-185.19,72.89,0,16,85.0,95.0,37.300000,132.0,72.0,...,4.325000,0.3,21.60,26.830769,9.700,28.2,9.000000,254.0,117.000000,19
571105,14912,-2.84,80.33,0,38,73.0,97.0,36.415000,101.0,52.0,...,3.830769,1.7,3.80,33.436000,11.348,26.7,16.120000,296.0,119.560000,39
308007,8036,-18.17,62.20,1,33,81.0,93.0,36.833333,102.0,68.0,...,3.500000,0.5,45.00,23.300000,8.500,33.3,5.000000,173.0,160.000000,37
541605,14145,-0.02,60.77,1,19,71.0,97.0,35.470000,93.0,68.0,...,4.118182,0.8,2.60,37.218182,13.000,51.3,10.681818,328.0,190.090909,20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1536590,119959,-321.03,56.00,0,36,91.0,96.0,37.000000,127.0,94.0,...,4.000000,0.9,0.03,28.000000,8.200,37.0,11.500000,250.0,286.000000,37
1536591,119959,-321.03,56.00,0,37,91.0,95.0,36.700000,151.0,103.0,...,4.000000,0.9,0.03,28.000000,8.200,37.0,11.500000,250.0,286.000000,38
1536592,119959,-321.03,56.00,0,38,95.0,94.0,36.600000,150.0,104.0,...,4.000000,0.9,0.03,28.000000,8.200,37.0,11.500000,250.0,286.000000,39
1536593,119959,-321.03,56.00,0,39,91.0,95.0,36.700000,131.0,92.0,...,4.000000,0.9,0.03,28.000000,8.200,37.0,11.500000,250.0,286.000000,40


In [None]:
# Affichage du résultat de SHAP
explain_model_predictions_with_shap(xgbc_loaded, X_train, X_test)

  1%|                   | 311/34329 [00:24<43:45]       

### 