## Import des librairies

In [1]:
import numpy as np
import pandas as pd
import os
import math
import torch
import pickle
from sklearn import preprocessing

---

<h3> Parametrage des Paths </h3>

In [2]:
data_path = r"./"

In [3]:
path_trainingA=data_path+'training_setA/'
path_trainingB=data_path+'training_setB/'

---

<h3> Implémentation des méthodes utilisées </h3>

In [4]:
def psv_to_dataframe(fname):
        """Transforme un fichier patient en un psv avec un identifiant
        utilisé pour concaténer les données sans perdre la dépendance 
        examen/patient spécifique"""
        df = pd.read_csv(fname, sep='|')
        df['id'] = int(fname.split('.psv')[0].split('p')[-1])

        return df

In [5]:
"""Méthode qui permet de fill les NaN avec une méthode qui s'appel le ForwardFill
et qui fait aussi du Backward fill"""

def impute_missing_vals(df, attributes):
    df_clean = df.copy()
    for att in attributes:
        if df_clean[att].isnull().sum() == len(df_clean):
            df_clean[att] = df_clean[att].fillna(0) # On remplie les cases par des 0
        elif df_clean[att].isnull().sum() == len(df_clean) - 1:
            df_clean[att] = df_clean[att].ffill().bfill() # On remplie les cases à l'aide d'un Forward Fill et d'un Backward Fill
        else:
            df_clean[att] = df_clean[att].interpolate(method='nearest', limit_direction='both') # On utilise une méthode d'interpolation pour remplir avec des valeurs non nulles.
            df_clean[att] = df_clean[att].ffill().bfill()
    
    return df_clean

In [6]:
# on parcours le training set A et on créer la liste des dataframes des patients
#qu'on incorpore dans une liste et on créer un objet sérializer de celui-ci
def createDataframeA():
    patient_individuel_A = []
    for p in patient_id_A:
        df = pd.read_csv(path_trainingA+'/'+p,sep='|')
        attributes = df.columns[:-1]
        df_clean = impute_missing_vals(df,attributes)
        df_clean = df_clean.drop(['Unit1', 'Unit2', 'EtCO2'], axis=1)
        patient_individuel_A.append(df_clean)
    with open("list_individu_A","wb") as outfile: # On créer un objet sérialisé de la liste de chaque patient.
        pickle.dump(patient_individuel_A,outfile)
        return patient_individuel_A

In [7]:
#on parcours le training set B et on créer la liste des dataframes des patients
#qu'on incorpore dans une liste et on créer un objet sérializer de celui-ci
def createDataframeB():
    patient_individuel_B = []
    for p in patient_id_B:
        df = pd.read_csv(path_trainingB+'/'+p,sep='|')
        attributes = df.columns[:-1]
        df_clean = impute_missing_vals(df,attributes)
        df_clean = df_clean.drop(['Unit1', 'Unit2', 'EtCO2'], axis=1)
        patient_individuel_B.append(df_clean)
    with open("list_individu_A","wb") as outfile: # On créer un objet sérialisé de la liste de chaque individu.
        pickle.dump(patient_individuel_A,outfile)

---

<h3> Création des Dataframes </h3>

In [8]:
if os.path.exists(path_trainingA) and os.path.exists(path_trainingB):  # Si le chemin vers les deux training sets existe
    patient_id_A = sorted(os.listdir(path_trainingA)) # on trie le set A
    patient_id_B = sorted(os.listdir(path_trainingB)) # on trie le set B
    patient_individuel_A = createDataframeA() # on créer le dataframe pour le set A
    patient_individuel_B = createDataframeB() # on créer le dataframe pour le set B
elif os.path.exists("./list_individu_B") and os.path.exists("./list_individu_A"):  # Si les fichiers sérialisés existent, on les importe.  
    with open("list_individu_A","rb") as infile:
        list_A = pickle.load(infile)
    with open("list_individu_B","rb") as infile:
        list_B = pickle.load(infile)

Les cellules ci dessous permettent d'avoir une liste des dataframes de l'ensemble des patients individuellement

Les cellules en dessous permettent d'avoir un Dataframe contenant l'intégralité des données patient en 1 seule fois.

In [9]:
if not os.path.exists(data_path+'allA') and os.path.exists(path_trainingA): # On vérifie si le chemin vers le fichier sérialisé existe 
    concat_patientA = [] # on créer une liste qui va servir à contenir les patients.
    for p in patient_id_A:  # Pour chaque patient dans le training set A, on récupère le PSV, rempli les valeurs NaN, enlève la colonne Unit1, Unit 2 et EtCO2.
        df = psv_to_dataframe(path_trainingA+'/'+p)
        attributes = df.columns[:-2]
        df_clean = impute_missing_vals(df,attributes)
        df_clean = df_clean.drop(['Unit1', 'Unit2', 'EtCO2'], axis=1)
        concat_patientA.append(df_clean) # On ajoute le patient clean à la liste des patients.
    df_allA = pd.concat(concat_patientA) # On créer un Dataframe de contenant tous les patients et donc tout leur examens.
    df_allA.to_csv(data_path+'allA') # On créer un fichier de ce dataFrame
elif os.path.exists(data_path+'allA'): # Si le chemin vers le fichier CSV contenant tout les patients existe, on le récupère.
    df_allA = pd.read_csv(data_path+'allA')

In [10]:
if not os.path.exists(data_path+'/allB') and os.path.exists(path_trainingB): # On vérifie si le chemin vers les fichierds de données existe.
    concat_patientB = [] # on créer une liste qui va servir à contenir les patients
    for p in patient_id_B: # On effectue la même manipulation des données qu'auparavant, enlevant Unit1, Unit2, EtCO2.
        df = psv_to_dataframe(path_trainingB+'/'+p)
        attributes = df.columns[:-2]
        df_clean = impute_missing_vals(df,attributes)
        df_clean = df_clean.drop(['Unit1', 'Unit2', 'EtCO2'], axis=1)
        concat_patientB.append(df_clean) # On rajoute le patient clean à la liste des patients.
    df_allB = pd.concat(concat_patientB) # On créer un dataframe
    df_allB.to_csv(data_path+'/allB') # On l'exporte en un CSV
elif os.path.exists(data_path+'allA'): # Si le chemin vers le CSV existe, alors on le récupère.
    df_allB = pd.read_csv(data_path+'/allB')

---

<h3> Normalisation des données </h3>

In [11]:
min_max_scaler = preprocessing.MinMaxScaler() # On instancie un objet pour MinMaxScaler et l'utiliser sur les données plus loin.
list_normalized_A=[]
for p in list_A:
    df_minMax_scaled = min_max_scaler.fit_transform(p.copy()) # On transforme le Dataframe en une numpy Array mais en ayant en même temps normalisé les données.
    list_normalized_A.append(df_minMax_scaled)

list_normalized_B=[]
for p in list_B:
    df_minMax_scaled = min_max_scaler.fit_transform(p.copy()) # On effectue la même manipulation pour le training set B
    list_normalized_B.append(df_minMax_scaled)

---

<h3> Entrainement et test du modèle </h3>