📌 Plan du Travail :
1️⃣ Préparation des Données
✅ Charger et explorer les données du fichier Donnnées_Projet_M2SID2023_2024.xlsx
✅ Vérifier les valeurs manquantes, les doublons et la distribution des variables
✅ Prétraiter les variables (numériques et catégoriques)

2️⃣ Analyse Statistique
✅ Étudier la distribution des patients selon les variables clés
✅ Comparer les caractéristiques entre les survivants et les non-survivants
✅ Tester la significativité des variables

3️⃣ Modélisation (Machine Learning)
✅ Essayer plusieurs modèles :

Régression Logistique
Random Forest
XGBoost
✅ Comparer les performances (AUC, précision, rappel)
✅ Sélectionner le meilleur modèle
4️⃣ Déploiement du Modèle
✅ Enregistrer le modèle avec pickle
✅ Créer une API avec Flask pour faire des prédictions
✅ Tester l'API en local

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

In [2]:
base = "C:/Users/AMADOUBA/Desktop/Master2 SID/Biostatistique/ExamenBiostatistique/Donnnées_Projet_M2SID2023_2024_prep.xlsx"
xls = pd.ExcelFile(base)
# Charger les données de la feuille Feuil1
df = xls.parse("Feuil1")

# Afficher un aperçu des premières lignes
df.head()

Unnamed: 0,AGE,SEXE,Premiers Signe - Admission à l'hopital,Admission à l'hopital - Prise en charge medicale,Hypertension Arterielle,Diabete,Cardiopathie,hémiplégie,Paralysie faciale,Aphasie,Hémiparésie,Engagement Cerebral,Inondation Ventriculaire,Unnamed: 13,Temps de Suivi après traitement (en jours),Evolution
0,34,Homme,23,5,OUI,NON,NON,OUI,NON,NON,OUI,OUI,OUI,Thrombolyse,79,Deces
1,55,Homme,41,12,OUI,OUI,NON,OUI,OUI,OUI,OUI,OUI,OUI,Chirurgie,34,Deces
2,60,Homme,28,19,OUI,NON,NON,OUI,OUI,OUI,OUI,OUI,OUI,Thrombolyse,64,Deces
3,65,Homme,17,15,OUI,OUI,NON,OUI,OUI,NON,OUI,NON,OUI,Chirurgie,62,Deces
4,65,Homme,17,6,NON,NON,NON,OUI,OUI,OUI,OUI,OUI,OUI,Thrombolyse,12,Deces


In [4]:
print(df.columns)

Index(['AGE', 'SEXE', 'Premiers Signe - Admission à l'hopital',
       ' Admission à l'hopital - Prise en charge medicale',
       'Hypertension Arterielle', 'Diabete', 'Cardiopathie', 'hémiplégie',
       'Paralysie faciale', 'Aphasie', 'Hémiparésie', 'Engagement Cerebral',
       'Inondation Ventriculaire', 'Unnamed: 13',
       'Temps de Suivi après traitement (en jours)', 'Evolution'],
      dtype='object')


In [5]:
df.columns = df.columns.str.strip().str.replace(" ", "_")
print(df.columns)  # Vérifier les nouveaux noms


Index(['AGE', 'SEXE', 'Premiers_Signe_-_Admission_à_l'hopital',
       'Admission_à_l'hopital_-_Prise_en_charge_medicale',
       'Hypertension_Arterielle', 'Diabete', 'Cardiopathie', 'hémiplégie',
       'Paralysie_faciale', 'Aphasie', 'Hémiparésie', 'Engagement_Cerebral',
       'Inondation_Ventriculaire', 'Unnamed:_13',
       'Temps_de_Suivi_après_traitement_(en_jours)', 'Evolution'],
      dtype='object')


In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
cols_to_encode = ["SEXE", "Hypertension_Arterielle", "Diabete", "Cardiopathie", 
                  "hémiplégie", "Paralysie_faciale", "Aphasie", "Hémiparésie", 
                  "Engagement_Cerebral", "Inondation_Ventriculaire", "Evolution"]

encoder = LabelEncoder()
for col in cols_to_encode:
    if col in df.columns:  
        df[col] = encoder.fit_transform(df[col])

In [8]:
pd.set_option('display.max_columns', None)
print(df.head())


   AGE  SEXE  Premiers_Signe_-_Admission_à_l'hopital  \
0   34     1                                      23   
1   55     1                                      41   
2   60     1                                      28   
3   65     1                                      17   
4   65     1                                      17   

   Admission_à_l'hopital_-_Prise_en_charge_medicale  Hypertension_Arterielle  \
0                                                 5                        1   
1                                                12                        1   
2                                                19                        1   
3                                                15                        1   
4                                                 6                        0   

   Diabete  Cardiopathie  hémiplégie  Paralysie_faciale  Aphasie  Hémiparésie  \
0        0             0           1                  0        0            1   
1        1          

In [9]:
# Affiche le nombre de valeurs manquantes par colonne
print(df.isnull().sum())


AGE                                                 0
SEXE                                                0
Premiers_Signe_-_Admission_à_l'hopital              0
Admission_à_l'hopital_-_Prise_en_charge_medicale    0
Hypertension_Arterielle                             0
Diabete                                             0
Cardiopathie                                        0
hémiplégie                                          0
Paralysie_faciale                                   0
Aphasie                                             0
Hémiparésie                                         0
Engagement_Cerebral                                 0
Inondation_Ventriculaire                            0
Unnamed:_13                                         0
Temps_de_Suivi_après_traitement_(en_jours)          0
Evolution                                           0
dtype: int64


In [10]:
# Séparation des données
X = df.drop('Evolution', axis=1)  # Variables indépendantes
y = df['Evolution']  # Variable cible


In [11]:
from sklearn.model_selection import train_test_split

# Séparation des données en 80% pour l'entraînement et 20% pour le test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [12]:
import tensorflow as tf

In [13]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# Créer un modèle séquentiel
model = Sequential()

# Ajouter la première couche cachée avec 64 neurones et la fonction d'activation ReLU
model.add(Dense(64, input_dim=X_train.shape[1], activation='relu'))

# Ajouter une autre couche cachée
model.add(Dense(64, activation='relu'))

# Ajouter la couche de sortie avec une activation sigmoid (car c'est un problème de classification binaire)
model.add(Dense(1, activation='sigmoid'))

# Compiler le modèle avec un optimiseur Adam et une fonction de perte binaire
model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy'])

# Afficher un résumé du modèle
model.summary()


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [16]:
print(X_train.dtypes)


AGE                                                  int64
SEXE                                                 int64
Premiers_Signe_-_Admission_à_l'hopital               int64
Admission_à_l'hopital_-_Prise_en_charge_medicale     int64
Hypertension_Arterielle                              int64
Diabete                                              int64
Cardiopathie                                         int64
hémiplégie                                           int64
Paralysie_faciale                                    int64
Aphasie                                              int64
Hémiparésie                                          int64
Engagement_Cerebral                                  int64
Inondation_Ventriculaire                             int64
Unnamed:_13                                         object
Temps_de_Suivi_après_traitement_(en_jours)           int64
dtype: object


In [21]:
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')



In [22]:
print(X_train.dtypes)

AGE                                                 float32
SEXE                                                float32
Premiers_Signe_-_Admission_à_l'hopital              float32
Admission_à_l'hopital_-_Prise_en_charge_medicale    float32
Hypertension_Arterielle                             float32
Diabete                                             float32
Cardiopathie                                        float32
hémiplégie                                          float32
Paralysie_faciale                                   float32
Aphasie                                             float32
Hémiparésie                                         float32
Engagement_Cerebral                                 float32
Inondation_Ventriculaire                            float32
Temps_de_Suivi_après_traitement_(en_jours)          float32
dtype: object


In [24]:
print(X_train.shape)
print(X_test.shape)


(842, 14)
(211, 14)


In [26]:
print(y_train.shape)
print(y_test.shape)


(842,)
(211,)


In [27]:
print(y_train.dtype)
print(y_test.dtype)

int64
int64


In [28]:
y_train = y_train.astype('float32')
y_test = y_test.astype('float32')

In [29]:
# Étape 1: Conversion des types de données
y_train = y_train.astype('float32')
y_test = y_test.astype('float32')

# Étape 2: Définition du modèle
model = Sequential([
    Dense(64, activation='relu', input_dim=X_train.shape[1]),
    Dense(64, activation='relu'),
    Dense(1, activation='sigmoid')  # Sortie pour classification binaire
])

# Étape 3: Compilation du modèle
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Étape 4: Entraînement du modèle
history = model.fit(X_train, y_train, epochs=50, batch_size=32, validation_data=(X_test, y_test))


Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m27/27[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 32ms/step - accuracy: 0.5753 - loss: 1.8152 - val_accuracy: 0.9526 - val_loss: 0.1403
Epoch 2/50
[1m27/27[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 9ms/step - accuracy: 0.9252 - loss: 0.1902 - val_accuracy: 0.9858 - val_loss: 0.0664
Epoch 3/50
[1m27/27[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.9857 - loss: 0.0666 - val_accuracy: 0.9858 - val_loss: 0.0471
Epoch 4/50
[1m27/27[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.9849 - loss: 0.0513 - val_accuracy: 0.9953 - val_loss: 0.0407
Epoch 5/50
[1m27/27[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.9800 - loss: 0.0536 - val_accuracy: 0.9858 - val_loss: 0.0354
Epoch 6/50
[1m27/27[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - accuracy: 0.9872 - loss: 0.0372 - val_accuracy: 0.9905 - val_loss: 0.0384
Epoch 7/50
[1m27/27[0m [32m━━━━━━━━━━━━━━━━━━━━

Voici un résumé des résultats de l'entraînement sur les 50 époques :

Précision sur les données d'entraînement (accuracy) : Elle commence autour de 57,5% (époque 1) et monte progressivement pour atteindre 99,7% à la fin de l'entraînement.
Précision sur les données de validation (val_accuracy) : Elle reste assez élevée tout au long de l'entraînement, atteignant environ 99,5% à la fin, ce qui suggère que le modèle généralise bien sur les données de validation.
Perte sur les données d'entraînement (loss) : La perte a diminué au fil des époques, passant de 1,815 à 0,011, indiquant que le modèle est bien optimisé.
Perte sur les données de validation (val_loss) : La perte sur la validation a également diminué et s'est stabilisée vers 0,03, ce qui montre une bonne capacité de généralisation.

In [30]:
test_loss, test_accuracy = model.evaluate(X_test, y_test)
print(f"Test Accuracy: {test_accuracy}")
print(f"Test Loss: {test_loss}")


[1m7/7[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - accuracy: 0.9974 - loss: 0.0233
Test Accuracy: 0.9952606558799744
Test Loss: 0.027966227382421494


Test Accuracy : 99,53% : Le modèle a une précision très élevée sur le jeu de test, ce qui est un excellent résultat. Cela signifie qu'il fait une prédiction correcte dans presque 100% des cas sur les nouvelles données qu'il n'a jamais vues.
Test Loss : 0,028 : La perte sur le jeu de test est faible, ce qui montre que le modèle a bien généralisé et que ses prédictions sont proches des valeurs réelles.
Cela suggère que votre modèle est bien entraîné et capable de faire des prédictions de qualité. Si vous souhaitez aller plus loin, vous pouvez essayer des techniques comme l'optimisation des hyperparamètres, ou même l'explication des prédictions avec des méthodes comme SHAP ou LIME pour comprendre comment le modèle prend ses décisions.

In [31]:
predictions = model.predict(X_test)
# Si vous souhaitez obtenir des résultats binaires (0 ou 1), vous pouvez arrondir les résultats
predictions = (predictions > 0.5).astype(int)

[1m7/7[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step


In [32]:
# Sauvegarde du modèle
model.save(r'C:\Users\AMADOUBA\Desktop\Master2 SID\Biostatistique\ExamenBiostatistique\modele.h5')




In [33]:
model.save('modele.keras')  # Sauvegarde du modèle avec l'extension .keras


In [35]:
from tensorflow.keras.models import load_model
model = load_model('modele.keras')  # Charger le modèle avec l'extension .keras


  saveable.load_own_variables(weights_store.get(inner_path))


In [36]:
from tensorflow.keras.optimizers import Adam

# Chargement du modèle
loaded_model = load_model('modele.keras')

# Recompilation du modèle avec un optimiseur souhaité
loaded_model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy'])
