* Team Name: DSTune +

* Email : malek.Sahlia@ensi-uma.tn
* LinkedIn : https://www.linkedin.com/in/melek-sahlia/
* Challenge: AI Night Challenge 24 -
MLOps pour la Détection des Débuts de Crises Épileptiques

In [16]:
#!git clone https://gitlab.com/eps_mlops/defi_ai_night_mlops.git

In [17]:
# Path to the README.md file
file_path = '/content/defi_ai_night_mlops/README.md'

# Reading the content of the file
with open(file_path, 'r') as file:
    content = file.read()

# Displaying the content as Markdown
from IPython.display import display, Markdown
display(Markdown(content))


# Défi: MLOps pour la Détection des Débuts de Crises Épileptiques

## Description du Défi

Le défi consiste à développer un modèle de détection du début des crises épileptiques en se basant sur l'analyse de signaux physiologiques. Les participants sont appelés à utiliser les meilleures pratiques de MLOps pour développer, déployer et gérer leur modèle de manière efficace et reproductible. La solution proposée devra inclure un processus d'extraction de features à partir des signaux physiologiques, permettant de capturer des informations pertinentes pour la détection des crises. Le modèle devra être capable de classifier les états épileptiques afin de détecter le début des crises avec une précision élevée, tout en minimisant les faux positifs et les faux négatifs. En outre, il est demandé de concevoir une interface utilisateur permettant aux médecins de visualiser les détections.

[Lien original de  la base CHB-MIT Scalp EEG Database.](https://physionet.org/content/chbmit/1.0.0/chb01/#files-panel)

## Description du Pipeline

Pour créer un pipeline de manière efficace et reproductible, les participants doivent utiliser ZenML. Voici les étapes du pipeline:

1. **Initialisation du dépôt ZenML :** Initialisation du référentiel ZenML pour gérer le code et les artefacts du pipeline.
   
2. **Définition de la source de données CSV :** Définition de la source de données pour lire les ensembles de données CSV, telles que la base de données CHB-MIT Scalp EEG déjà préparée.
   
3. **Fractionnement des données :** Division des données en ensembles de formation et de validation pour l'évaluation du modèle.
   
4. **Construction du pipeline ZenML :** Création du pipeline à l'aide de ZenML pour le traitement des données et la construction de modèles.
   
5. **Formation en pipeline :** Entraînement du pipeline pour entraîner le modèle à l’aide de données préparées.
   
6. **Évaluation du modèle :** Validation des performances du modèle sur l’ensemble par rapport à une baseline établie.
   
7. **Exportation du modèle :** Exportation du modèle entraîné pour un déploiement ultérieur sur une interface utilisateur pour la visualisation des détections.

N.B. MLFlow peut également être utilisé avec ou à la place de ZenML. Voici les liens vers les documentations :
- [Documentation de ZenML](https://docs.zenml.io/)
- [Documentation de MLFlow](https://mlflow.org/docs/latest/index.html)

## Description du Dataset

La classification des crises d'épilepsie est une tâche cruciale dans le domaine médical, notamment dans le diagnostic et la prise en charge des patients atteints d'épilepsie. Dans le contexte de l'électroencéphalographie (EEG), la classification des crises d'épilepsie vise à identifier les périodes de l'activité électrique cérébrale qui correspondent à une crise épileptique par rapport aux périodes d'activité électrique normale.

Le CHB-MIT Scalp EEG Database est une ressource précieuse dans le domaine de la recherche sur l'épilepsie. Il s'agit d'une collection d'enregistrements EEG de sujets pédiatriques présentant des crises épileptiques réfractaires. Ces enregistrements ont été effectués dans le cadre d'une surveillance prolongée après l'arrêt de la médication antiépileptique, dans le but de caractériser les crises et d'évaluer l'éligibilité des patients à une intervention chirurgicale. Au total, 182 crises ont été annotées, fournissant une base de données riche en données pour étudier les modèles d'activité cérébrale associés aux crises épileptiques chez les enfants.

Le processus de classification peut être réalisé en utilisant des techniques d'apprentissage automatique, où les caractéristiques extraites des signaux EEG sont utilisées pour distinguer entre les états de crise épileptique et les états normaux.

Les états peuvent être étiquetés comme suit :
- 0 (EEG interictal, cerveau normal) : Cette étiquette est associée aux périodes où l'EEG enregistre une activité électrique cérébrale normale, en dehors des périodes de crises épileptiques. Pendant ces périodes, le patient ne présente pas de symptômes d'épilepsie et son cerveau fonctionne dans des limites normales.
- 1 (Crise d'épilepsie) : Cette étiquette est associée aux périodes où l'EEG enregistre une activité électrique cérébrale caractéristique des crises épileptiques. Ces périodes sont marquées par des modèles d'activité électrique anormaux, tels que des décharges épileptiformes, des pointes ou des ondes lentes.

La classification des crises d'épilepsie a plusieurs implications cliniques importantes :
- Diagnostic précoce et précis
- Suivi de l'évolution de la maladie
- Optimisation du traitement
- Prévention des crises

Le processus d'extraction de caractéristiques revêt une importance cruciale dans la classification des crises d'épilepsie à partir des enregistrements EEG, permettant la réduction de la dimensionnalité des données, la capture de motifs caractéristiques pertinents, l'amélioration de la séparabilité des classes, la robustesse aux artefacts et au bruit, ainsi que la facilitation de l'interprétation des résultats pour mieux comprendre la pathophysiologie de l'épilepsie.

Les participants doivent utiliser les datasets disponibles dans le GitLab du défi pour mener à bien leur travail.

Voici une Description textuelle de chaque caractéristique dans Dataset :
1. DFA (Detrended Fluctuation Analysis) : Analyse des fluctuations détrendues de la série temporelle.
2. Fisher Information : Mesure de l'information de Fisher, une quantité liée à la capacité d'un processus stochastique à transporter des informations sur un paramètre inconnu.
3. HFD (Higuchi Fractal Dimension) : Dimension fractale de Higuchi, une mesure de la complexité fractale d'une série temporelle.
4. PFD (Petrosian Fractal Dimension) : Dimension fractale de Petrosian, une mesure de la rugosité ou de la complexité fractale d'une série temporelle.
5. SVD (Singular Value Decomposition) Entropy : Entropie de la décomposition en valeurs singulières, une mesure de la complexité de la série temporelle basée sur la décomposition en valeurs singulières.
6. Variance : Variance de la série temporelle, mesurant la dispersion des valeurs par rapport à la moyenne.
7. Écart type : Mesure de la dispersion des valeurs par rapport à la moyenne, similaire à la variance mais en unités de la série temporelle.
8. Moyenne : Moyenne arithmétique de la série temporelle, représentant la tendance centrale des données.
9. Variance de la transformée de Fourier (FFT) : Variance des coefficients de la transformée de Fourier rapide (FFT), mesurant la dispersion des fréquences présentes dans le signal.
10. Écart type de la transformée de Fourier (FFT) : Mesure de la dispersion des coefficients de la transformée de Fourier rapide (FFT) par rapport à leur moyenne.
11. Variance de la deuxième transformée de Fourier (FFT2) : Variance des coefficients de la deuxième transformée de Fourier, fournissant des informations supplémentaires sur les fréquences présentes dans le signal.
12. Taux de passage par zéro : Nombre de passages à travers zéro dans la série temporelle, indiquant les changements de direction dans le signal.
13. Complexité : Mesure de la complexité du signal, basée sur des critères tels que l'irrégularité et la variabilité.

--- 

## Edit: Clarification des canaux

- Ch0x fait référence au nom du patient.
- Le channel (canal) 1 ou 2 est la source du signal EEG.

Dans les enregistrements EEG, chaque canal représente un emplacement spécifique d'électrode sur le cuir chevelu. La convention de dénomination des canaux suit généralement un système standardisé, tel que le système 10-20, où la désignation « Ch0x » fait référence au nom du patient et « Canal 1 » ou « Canal 2 » correspond à la source du signal EEG. enregistré à partir des électrodes respectives. Ces canaux fournissent des informations spatiales sur l’activité cérébrale, permettant aux chercheurs d’analyser les signaux électriques provenant de différentes régions du cerveau.

In [18]:
#!pip install shap

In [19]:
#!pip install zenml

In [20]:
import glob
import numpy as np
import pandas as pd
import pickle
import re
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score
from sklearn.metrics.pairwise import cosine_similarity, pairwise_distances
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from typing import Tuple
from xgboost import XGBClassifier
from zenml import pipeline, step
import shap  # Assuming you need to use SHAP analysis later on


In [None]:
%pip install "zenml[server]"
%pip install zenml
!zenml integration install sklearn -y
%pip install pyparsing
import IPython

In [None]:
NGROK_TOKEN = "NGROK_TOKEN" #Once registred at NGROK, You will be provided with an access Token
from zenml.environment import Environment

if Environment.in_google_colab():
  !pip install pyngrok
  !ngrok authtoken {NGROK_TOKEN}

!rm -rf .zen
!zenml init


In [23]:
# Define the pattern to match the files
pattern = '/content/defi_ai_night_mlops/ch??_eeg_features_label.csv'

# Use glob to find all files matching the pattern
file_paths = glob.glob(pattern)

# Initialize a list to hold DataFrames
dfs = []

# Loop through the file paths, reading each file into a DataFrame
for file_path in file_paths:
    df = pd.read_csv(file_path)
    # Use regex to extract the patient number from the filename
    patient_number = re.search(r'ch(\d+)_eeg', file_path)
    if patient_number:
        patient_id = int(patient_number.group(1))
    else:
        patient_id = -1  # Example default value

    # Insert the 'patient' column as the first column
    df.insert(0, 'patient', patient_id)

    dfs.append(df)

# Concatenate all DataFrames into a single DataFrame, if needed
final_df = pd.concat(dfs, ignore_index=True)
final_df.to_csv('final_df.csv')

In [24]:
@step
def import_epilepsy_data() -> pd.DataFrame:
  df=pd.read_csv("final_df.csv")
  df.info()
  nb=df['patient'].nunique()
  print(f"We have {nb}  patients in epilepsy_data.")
  return df



In [25]:
@step
def split_and_balance_data(df: pd.DataFrame, test_size: float = 0.2, valid_size: float = 0.3, random_state: int = 42) -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]:
    """
    Splits the data into train, validation, and test sets, and balances the training set.

    :param df: Input DataFrame.
    :param test_size: Proportion of the dataset to include in the test split.
    :param valid_size: Proportion of the dataset to include in the validation split, from the non-test split.
    :param random_state: Random state for reproducibility.
    :return: A tuple containing balanced training, validation, and test DataFrames.
    """

    # Shuffling and resetting the index of the dataframe
    df_data = df.sample(frac=1, random_state=random_state).reset_index(drop=True)

    # Splitting the data into validation/test and training sets
    df_valid_test = df_data.sample(frac=test_size, random_state=random_state)
    df_train_all = df_data.drop(df_valid_test.index)

    # Further splitting the validation/test set into validation and test sets
    df_test = df_valid_test.sample(frac=0.5, random_state=random_state)
    df_valid = df_valid_test.drop(df_test.index)

    # Balancing the training set
    rows_pos = df_train_all.label == 1
    df_train_pos = df_train_all.loc[rows_pos]
    df_train_neg = df_train_all.loc[~rows_pos]
    n = min(len(df_train_pos), len(df_train_neg))

    df_train_balanced = pd.concat([
        df_train_pos.sample(n=n, random_state=random_state),
        df_train_neg.sample(n=n, random_state=random_state)
    ], ignore_index=True).sample(frac=1, random_state=random_state).reset_index(drop=True)

    # Returning the balanced training set, validation set, and test set
    return df_train_all, df_train_balanced, df_valid, df_test


In [26]:
@step
def prepare_and_scale_data(df_train_all: pd.DataFrame, df_train: pd.DataFrame,df_valid: pd.DataFrame,  random_state: int = 42) -> Tuple[np.ndarray, np.ndarray, np.ndarray, np.ndarray, StandardScaler]:

    cols_input = list(df_train_all.columns)
    cols_input.remove('patient')
    cols_input.remove('label')

    # Create the feature matrices and target vectors
    X_train = df_train[cols_input].values
    X_train_all = df_train_all[cols_input].values
    X_valid = df_valid[cols_input].values

    y_train = df_train['label'].values
    y_valid = df_valid['label'].values

    print('Training All shapes:', X_train_all.shape)
    print('Training shapes:', X_train.shape, y_train.shape)
    print('Validation shapes:', X_valid.shape, y_valid.shape)

    # Scale the feature matrices
    scaler = StandardScaler()
    scaler.fit(X_train_all)  # Fit the scaler using the full training dataset

    # Save the scaler to disk
    scalerfile = 'scaler.sav'
    pickle.dump(scaler, open(scalerfile, 'wb'))

    # Load the scaler from disk (demonstration purposes, typically you would do this in a different part of your workflow)
    scaler = pickle.load(open(scalerfile, 'rb'))

    # Transform the feature matrices using the loaded scaler
    X_train_tf = scaler.transform(X_train)
    X_valid_tf = scaler.transform(X_valid)

    return X_train_tf, X_valid_tf, y_train, y_valid, scaler


In [27]:
@step
def calc_specificity(y_actual: np.ndarray, y_pred: np.ndarray, thresh: float) -> float:
    """
    Calculates the specificity of a classification model.

    Parameters:
    - y_actual: np.ndarray. Array of actual labels.
    - y_pred: np.ndarray. Array of predicted probabilities.
    - thresh: float. Probability threshold for classifying predictions.

    Returns:
    - Specificity score as a float.
    """
    true_negatives = sum((y_pred < thresh) & (y_actual == 0))
    condition_negatives = sum(y_actual == 0)
    specificity = true_negatives / condition_negatives if condition_negatives else 0
    return specificity


In [28]:
@step
def calc_prevalence(y_actual: np.ndarray) -> float:
    """
    Calculates the prevalence of positive cases in a dataset.

    Parameters:
    - y_actual: np.ndarray. Array of actual labels.

    Returns:
    - Prevalence score as a float.
    """
    return np.mean(y_actual)


In [30]:
@step
def print_report(y_actual: np.ndarray, y_pred: np.ndarray, thresh: float = 0.5) -> dict:

    metrics = {
        'AUC': roc_auc_score(y_actual, y_pred),
        'Accuracy': accuracy_score(y_actual, (y_pred > thresh)),
        'Recall': recall_score(y_actual, (y_pred > thresh)),
        'Precision': precision_score(y_actual, (y_pred > thresh)),
        'Specificity': calc_specificity(y_actual, y_pred, thresh),
        'Prevalence': calc_prevalence(y_actual)
    }

    for metric, value in metrics.items():
        print(f'{metric}: {value:.3f}')

    print(' ')
    return metrics

In [31]:
@step
# Corrected function signature with proper type hinting
def train_and_evaluate_xgboost(X_train_tf: np.ndarray, y_train: np.ndarray, X_valid_tf: np.ndarray, y_valid: np.ndarray, thresh: float = 0.5) -> Tuple[XGBClassifier, dict, dict]:
    """
    Trains an XGBoost model and evaluates its performance on both training and validation datasets.
    """
    # Model training
    xgbc = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
    xgbc.fit(X_train_tf, y_train)

    # Predictions
    y_train_preds = xgbc.predict_proba(X_train_tf)[:, 1]
    y_valid_preds = xgbc.predict_proba(X_valid_tf)[:, 1]

    # Evaluation (assuming print_report is a previously defined function that returns metrics)
    print('Xtreme Gradient Boosting Classifier Performance:')
    print('Training:')
    train_metrics = print_report(y_train, y_train_preds, thresh)  # Ensure print_report is defined or imported

    print('Validation:')
    valid_metrics = print_report(y_valid, y_valid_preds, thresh)

    return xgbc, train_metrics, valid_metrics


In [32]:
@step
def explain_model(df_train: np.ndarray, xgbc: XGBClassifier) -> np.ndarray:

    # Define the features matrix X and labels y if necessary
    X = df_train.copy()
    X = pd.DataFrame(X)

    # Initialize SHAP JS visualization
    shap.initjs()

    # Use the provided XGBoost classifier model
    model = xgbc

    # Explain the model's predictions using SHAP values
    explainer = shap.TreeExplainer(model)
    shap_values = explainer.shap_values(X)

    return shap_values

In [None]:
@pipeline
def epilepsy_pipeline():
    epilepsy_data = import_epilepsy_data()
    # Correct expectation of four returned datasets from the split_and_balance_data function
    df_train_all, df_train_balanced, df_valid, df_test = split_and_balance_data(epilepsy_data)

    # Ensure subsequent functions accept and process these datasets correctly
    X_train_tf, X_valid_tf, y_train, y_valid, scaler = prepare_and_scale_data(df_train_all, df_train_balanced, df_valid)
    xgbc, train_metrics, valid_metrics = train_and_evaluate_xgboost(X_train_tf, y_train, X_valid_tf, y_valid)
    explain_model(X_train_tf, xgbc)

epilepsy_pipeline = epilepsy_pipeline()

In [None]:
from zenml.environment import Environment

def start_zenml_dashboard(port=8237):
  if Environment.in_google_colab():
    from pyngrok import ngrok

    public_url = ngrok.connect(port)
    #print(f"\xlb[31mIn Colab, use this url instead: {public_url}!\xlb]0m")
    print(f"\\x1b[31mIn Colab, use this url instead: {public_url}!\\x1b[0m")
    !zenml up --blocking --port {port}

  else:
    !zenml up --port {port}
start_zenml_dashboard()

In [None]:
!zenml down