## Approche ML pour Parkinson
---

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Charger le fichier Excel
excel_file = "Demographics_age_sex.xlsx"
excel_df = pd.read_excel(excel_file, sheet_name=None)

In [None]:
# Séparer chaque fenetre dans des DataFrames différents²
df_parselmouth = excel_df['Parselmouth']

df_lpcmeans = excel_df['LPC_means']
df_larmeans = excel_df['LAR_means']
df_cepmeans = excel_df['Cep_means']
df_mfccmeans = excel_df['MFCC_means']

df_lpcvars = excel_df['LPC_vars']
df_larvars = excel_df['LAR_vars']
df_cepvars = excel_df['Cep_vars']
df_mfccvars = excel_df['MFCC_vars']

In [None]:
# Renommer les colonnes avec un préfixe pour éviter les répétitions (à voir sur l'excel)
df_lpcmeans.columns = ['LPC_means_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_lpcmeans.columns]
df_larmeans.columns = ['LAR_means_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_larmeans.columns]
df_cepmeans.columns = ['Cep_means_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_cepmeans.columns]
df_mfccmeans.columns = ['MFCC_means_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_mfccmeans.columns]

df_lpcvars.columns = ['LPC_var_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_lpcvars.columns]
df_larvars.columns = ['LAR_var_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_larvars.columns]
df_cepvars.columns = ['Cep_var_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_cepvars.columns]
df_mfccvars.columns = ['MFCC_var_' + col if col not in ['Sample', 'Label', 'Sex'] else col for col in df_mfccvars.columns]

# Combiner les dataframes
combined_df1 = pd.concat([df_parselmouth, df_lpcmeans, df_larmeans, df_cepmeans, df_mfccmeans], axis=1)
combined_df2 = pd.concat([df_parselmouth, df_lpcvars, df_larvars, df_cepvars, df_mfccvars], axis=1)

# Supprimer des colonnes en doublon
combined_df1 = combined_df1.loc[:, ~combined_df1.columns.duplicated()]
combined_df2 = combined_df2.loc[:, ~combined_df2.columns.duplicated()]

print(combined_df1.info())
print(combined_df2.info())


In [None]:
# Distribution des classes
sns.countplot(data=combined_df1, x='Label')
plt.title("Répartition des classes")
plt.show()

In [None]:
# Distribution en fonction de l'âge
sns.boxplot(data=combined_df1, x='Label', y='Age')
plt.title("Distribution de l'âge en fonction de la classe")
plt.show()

In [None]:
# Distribution Parkinson en fonction du MFCC_means_MFCC1 à MFCC_means_MFCC10 dans un seul graphique

for i in range(1, 11):
    sns.boxplot(data=combined_df1, x='Label', y=f'MFCC_means_MFCC{i}')
    plt.title(f"Distribution de MFCC{i} en fonction de la classe")
    plt.show()

In [None]:
for i in range(1, 11):
    sns.boxplot(data=combined_df1, x='Label', y=f'LAR_means_LAR{i}')
    plt.title(f"Distribution de LAR{i} en fonction de la classe")
    plt.show()

In [None]:
for i in range(1, 11):
    sns.boxplot(data=combined_df1, x='Label', y=f'Cep_means_Cep{i}')
    plt.title(f"Distribution de Cep{i} en fonction de la classe")
    plt.show()

In [None]:
for i in range(1, 11):
    sns.boxplot(data=combined_df1, x='Label', y=f'LPC_means_LPC{i}')
    plt.title(f"Distribution de LPC{i} en fonction de la classe")
    plt.show()

In [None]:
for i in range(1, 11):
    sns.boxplot(data=combined_df2, x='Label', y=f'MFCC_var_MFCC{i}')
    plt.title(f"Distribution de MFCC{i} en fonction de la classe")
    plt.show()

In [None]:
for i in range(1, 11):
    sns.boxplot(data=combined_df2, x='Label', y=f'LAR_var_LAR{i}')
    plt.title(f"Distribution de LAR{i} en fonction de la classe")
    plt.show()

In [None]:
for i in range(1, 11):
    sns.boxplot(data=combined_df2, x='Label', y=f'LPC_var_LPC{i}')
    plt.title(f"Distribution de LPC{i} en fonction de la classe")
    plt.show()

In [None]:
for i in range(1, 11):
    sns.boxplot(data=combined_df2, x='Label', y=f'Cep_var_Cep{i}')
    plt.title(f"Distribution de Cep{i} en fonction de la classe")
    plt.show()

In [None]:
# Statistiques descriptives
print(combined_df1.describe())

In [None]:
from sklearn.preprocessing import LabelEncoder

# Encoder les variables catégorielles
encoder = LabelEncoder()

# Sex: F = 0, M = 1
combined_df1['Sex'] = encoder.fit_transform(combined_df1['Sex'])
combined_df2['Sex'] = encoder.fit_transform(combined_df2['Sex'])

# HC = 0, PD = 1
combined_df1['Label'] = encoder.fit_transform(combined_df1['Label'])
combined_df2['Label'] = encoder.fit_transform(combined_df2['Label'])

combined_df1.head()

In [None]:
# Sélectionner les colonnes numériques dont Label
numeric_df = combined_df1.select_dtypes(include='number')
numeric_df.info()

# Heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(numeric_df.corr(), cmap='coolwarm', annot=False)
plt.title("Corrélations des caractéristiques audio")
plt.show()

In [None]:
# Sélectionner les colonnes numériques seulement
numeric_df2 = combined_df2.select_dtypes(include=["number"])
numeric_df2.info()

# Heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(numeric_df2.corr(), cmap='coolwarm', annot=False)
plt.title("Corrélations des caractéristiques audio")
plt.show()

---

Découpage du Jeu de Données

In [None]:
# Découpage du JDD correctement (Train/Valid/Test) en fonction de la colonne Label pour le dataset combined_df1
from sklearn.model_selection import train_test_split

X = combined_df1.drop(columns=['Sample', 'Label'])
y = combined_df1['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.2, stratify=y_train, random_state=42)

print(X_train.shape, X_valid.shape, X_test.shape)
print(y.value_counts(normalize=True))

In [None]:
# Découpage du JDD correctement (Train/Valid/Test) en fonction de la colonne Label pour le dataset combined_df2

X2 = combined_df2.drop(columns=['Sample', 'Label'])
y2 = combined_df2['Label']

X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, stratify=y2, random_state=42)
X2_train, X2_valid, y2_train, y2_valid = train_test_split(X2_train, y2_train, test_size=0.2, stratify=y2_train, random_state=42)

print(X2_train.shape, X2_valid.shape, X2_test.shape)
print(y2.value_counts(normalize=True))

---

Entrainement des modèles de Machine Learning sur les datasets séparés

In [None]:
# Modèle ML simple de régression logistique sur le dataset combined_df1
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)
y_pred = model.predict(X_valid)

print(accuracy_score(y_valid, y_pred))

In [None]:
# Modèle ML simple de régression logistique sur le dataset combined_df2
model2 = LogisticRegression(max_iter=1000)
model2.fit(X2_train, y2_train)
y2_pred = model2.predict(X2_valid)

print(accuracy_score(y2_valid, y2_pred))

In [None]:
# Modèle ML simple de random forest sur combined_df1
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_valid)

print(accuracy_score(y_valid, y_pred))

# Modèle ML simple de random forest sur combined_df2
model2 = RandomForestClassifier()
model2.fit(X2_train, y2_train)
y2_pred = model2.predict(X2_valid)

print(accuracy_score(y2_valid, y2_pred))

---

Evaluation des métriques

In [None]:
# Analyse des résultats (RoC, tableau Faux positif etcs) pour le modèle de régression logistique sur le dataset combined_df1
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve

y_pred_probabilite = model.predict_proba(X_valid)[:, 1]
fpr, tpr, thresholds = roc_curve(y_valid, y_pred_probabilite)

plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title('Courbe ROC')
plt.show()

print("ROC AUC Score", roc_auc_score(y_valid, y_pred_probabilite))
print(confusion_matrix(y_valid, y_pred))
print(classification_report(y_valid, y_pred))


In [None]:
# Analyse des résultats pour le modèle de régression logistique sur combined_df2
y2_pred_probabilite = model2.predict_proba(X2_valid)[:, 1]
fpr, tpr, thresholds = roc_curve(y2_valid, y2_pred_probabilite)

plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title('Courbe ROC')
plt.show()

print("ROC AUC Score", roc_auc_score(y2_valid, y2_pred_probabilite))
print(confusion_matrix(y2_valid, y2_pred))
print(classification_report(y2_valid, y2_pred))

In [None]:
# Analyse des résultats pour le modèle de random forest sur combined_df1
y_pred_probabilite = model.predict_proba(X_valid)[:, 1]
fpr, tpr, thresholds = roc_curve(y_valid, y_pred_probabilite)

plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title('Courbe ROC')
plt.show()

print("ROC AUC Score", roc_auc_score(y_valid, y_pred_probabilite))
print(confusion_matrix(y_valid, y_pred))
print(classification_report(y_valid, y_pred))

In [None]:
# Analyse des résultats pour le modèle de random forest sur combined_df2
y2_pred_probabilite = model2.predict_proba(X2_valid)[:, 1]
fpr, tpr, thresholds = roc_curve(y2_valid, y2_pred_probabilite)

plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title('Courbe ROC')
plt.show()

print("ROC AUC Score", roc_auc_score(y2_valid, y2_pred_probabilite))
print(confusion_matrix(y2_valid, y2_pred))
print(classification_report(y2_valid, y2_pred))

---

Approche en combinant toutes les colonnes

In [None]:
# Combiner les deux Dataframes
combined_df = pd.concat([combined_df1, combined_df2.drop(columns=['Sample', 'Label', 'Sex'])], axis=1)

# Supprimer les colonnes en doublons si nécecessité
combined_df = combined_df.loc[:, ~combined_df.columns.duplicated()]

# Info du Dataframe
print(combined_df.info())

mutual_info_classif
sklearn.feature_selection.mutual_info_classif(X, y, *, discrete_features='auto', n_neighbors=3, copy=True, random_state=None, n_jobs=None)[source]
Estimate mutual information for a discrete target variable.

Mutual information (MI) [1] between two random variables is a non-negative value, which measures the dependency between the variables. It is equal to zero if and only if two random variables are independent, and higher values mean higher dependency.

In [None]:
# Sélectionner les colonnes numériques
numeric_df_comb = combined_df.select_dtypes(include='number')
numeric_df_comb.info()

# Heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(numeric_df_comb.corr(), cmap='coolwarm', annot=False)
plt.title("Corrélations des caractéristiques audio")
plt.show()

Sélectionner les features les plus importantes

In [None]:
from sklearn.feature_selection import mutual_info_classif

X = combined_df.drop(columns=['Sample', 'Label'])
y = combined_df['Label']

# Calculer le mutual info score
mi_scores = mutual_info_classif(X, y)

# Créer un tableau pour visualiser les scores de chaque feature
mi_tab = pd.Series(mi_scores, index=X.columns)
mi_tab.sort_values(ascending=False, inplace=True)

# 20 features les plus importantes
top_20_mi = mi_tab.head(20)
print("20 classes/features les plus importantes :\n", top_20_mi)

# Afficher
plt.figure(figsize=(10, 6))
top_20_mi.plot(kind='barh')
plt.title("20 features les plus importantes avec Mutual Information Score")
plt.xlabel("Mutual Information Score")
plt.ylabel("Features")
plt.show()

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Initialisation du RFC
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X, y)

# Importance des features
rf_feature_importances = pd.Series(rf.feature_importances_, index=X.columns)
rf_feature_importances.sort_values(ascending=False, inplace=True)

# Afficher les 20 features les plus importantes
top_20_rf = rf_feature_importances.head(20)
print("20 classes/features les plus importantes :\n", top_20_rf)
print(top_20_rf.values)

# Afficher
plt.figure(figsize=(10, 6))
top_20_rf.plot(kind='barh')
plt.title("20 features les plus importantes selon le Random Forest Feature Importance")
plt.xlabel("Score de Feature Importance")
plt.ylabel("Features")
plt.show()


In [None]:
# Normaliser les scores pour éviter qu'une méthode domine l'autre
mi_tab_norm = mi_tab / mi_tab.max()
rf_feature_importances_norm = rf_feature_importances / rf_feature_importances.max()

# Fusionner les scores pour les features sélectionnées
selected_features = list(set(top_20_mi.index) | set(top_20_rf.index))
combined_scores = pd.DataFrame({
    'MI_Score': mi_tab_norm[selected_features],
    'RF_Score': rf_feature_importances_norm[selected_features]
})

# Calcul d'un score moyen
combined_scores['Avg_Score'] = combined_scores.mean(axis=1)

# Trier et récupérer les 20 meilleures features
top_20_final = combined_scores.sort_values(by='Avg_Score', ascending=False).head(20)

# Liste des features finales
selected_features_final = list(top_20_final.index)

# Sélectionner ces features dans le dataset
X_selected = X[selected_features_final]

print("20 meilleures features sélectionnées :", selected_features_final)

# Afficher les 20 meilleures features avec leur score moyen
plt.figure(figsize=(10, 6))
top_20_final['Avg_Score'].plot(kind='barh')
plt.title("20 meilleures features sélectionnées")
plt.xlabel("Score moyen")
plt.ylabel("Features")
plt.show()


---

Découpage du jeu de données

In [None]:
# Découpage du JDD correctement
y3 = combined_df['Label']

X3_train, X3_valid, y3_train, y3_valid = train_test_split(X_selected, y3, test_size=0.3, stratify=y3, random_state=42)

print(X3_train.shape, X3_valid.shape)
print(y3.value_counts(normalize=True))

---

Hyperparamètres

In [None]:
from sklearn.model_selection import GridSearchCV

# Définition des paramètres à tester
param_grid_rf = {'n_estimators': [50, 100, 200],'max_depth': [None, 10, 20],'min_samples_split': [2, 5, 10]}

# Grid Search
grid_search_rf = GridSearchCV(RandomForestClassifier(random_state=42), param_grid_rf, cv=5, scoring='accuracy', n_jobs=-1)
grid_search_rf.fit(X_selected, y3)

# Meilleurs paramètres
print("Meilleurs paramètres pour Random Forest : ", grid_search_rf.best_params_)
best_estimators_rf = grid_search_rf.best_estimator_


In [None]:
from sklearn.linear_model import LogisticRegression

# Définition des paramètres à tester pour le LR
param_grid_lr = {'C': [0.01, 0.1, 1, 10, 100],'penalty': ['l1', 'l2'],'solver': ['liblinear']} # uniquement liblinear car petit dataset et pas un probleme multiclasse

# Grid search cv
grid_search_lr = GridSearchCV(LogisticRegression(random_state=42), param_grid_lr, cv=5, scoring='accuracy', n_jobs=-1)
grid_search_lr.fit(X_selected, y3)

# Meilleurs paramètres
print("Meilleurs paramètres pour Regression Logistique : ", grid_search_lr.best_params_)
best_estimators_lr = grid_search_lr.best_estimator_

---

Résultat des optimisations

In [None]:
#  modèle avec les meilleurs paramètres trouvés
rf_optimise = best_estimators_rf

# training
rf_optimise.fit(X3_train, y3_train)

# prediction
y_pred_rf = rf_optimise.predict(X3_valid)

# evaluation
print("Précision du random forest : ", accuracy_score(y3_valid, y_pred_rf))
print(classification_report(y3_valid, y_pred_rf))

In [None]:
# Courbe ROC avec AUC
y_pred_probabilite_rf = rf_optimise.predict_proba(X3_valid)[:, 1]
fpr_rf, tpr_rf, thresholds_rf = roc_curve(y3_valid, y_pred_probabilite_rf)
roc_auc = roc_auc_score(y3_valid, y_pred_probabilite_rf)

plt.plot(fpr_rf, tpr_rf, color='blue', label=f'ROC curve (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title("Courbe ROC de l'approche 2 avec Random Forest")
plt.legend(loc="lower right")
plt.show()

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Calcul de la matrice de confusion
disp = ConfusionMatrixDisplay.from_estimator(rf_optimise, X3_valid, y3_valid, display_labels=['HC', 'PD'])
plt.title("Matrice de confusion")
plt.show()


In [None]:
from sklearn.linear_model import LogisticRegression

# modèle avec les meilleurs paramètres trouvés
lr_optimized = best_estimators_lr

# training
lr_optimized.fit(X3_train, y3_train)

# Prediction
y_pred_lr = lr_optimized.predict(X3_valid)

# valuation
print("Précision de la Regression logistique :", accuracy_score(y3_valid, y_pred_lr))
print(classification_report(y3_valid, y_pred_lr))


In [None]:
# Courbe ROC avec AUC
y_pred_probabilite_lr = lr_optimized.predict_proba(X3_valid)[:, 1]
fpr_lr, tpr_lr, thresholds_lr = roc_curve(y3_valid, y_pred_probabilite_lr)
roc_auc_lr = roc_auc_score(y3_valid, y_pred_probabilite_lr)

plt.plot(fpr_lr, tpr_lr, color='blue', label=f'ROC curve (AUC = {roc_auc_lr:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title("Courbe ROC de l'approche 2 avec une Regression Logistique")
plt.legend(loc="lower right")
plt.show()

In [None]:
# Matrice de confusion
disp = ConfusionMatrixDisplay.from_estimator(lr_optimized, X3_valid, y3_valid, display_labels=['HC', 'PD'])
plt.title("Matrice de confusion")
plt.show()

---

In [None]:
# On va essayer de faire toutes les combinaisons possibles manuellement
param_grid = {'n_estimators': [50, 100, 200],'max_depth': [None, 5, 10, 20, 30],'min_samples_split': [2, 5, 10, 20],'min_samples_leaf': [1, 2, 4],'max_features': ['sqrt', 'log2']}

results = []

# parcourir toutes les combinaisons de parametres
for n_estim in param_grid['n_estimators']:
    for max_depth in param_grid['max_depth']:
        for min_samples_split in param_grid['min_samples_split']:
            for min_samples_leaf in param_grid['min_samples_leaf']:
                for max_features in param_grid['max_features']:
                    model = RandomForestClassifier(n_estimators=n_estim,max_depth=max_depth,min_samples_split=min_samples_split,min_samples_leaf=min_samples_leaf,max_features=max_features,random_state=42)
                    
                    # Entrainement du modele
                    model.fit(X3_train, y3_train)
                    
                    # predictions sur validation set
                    y_pred = model.predict(X3_valid)
                    
                    # accuracy score
                    accuracy = accuracy_score(y3_valid, y_pred)
                    
                    # ajouter les resultats à la liste results
                    results.append({'n_estimators': n_estim,'max_depth': max_depth,'min_samples_split': min_samples_split,'min_samples_leaf': min_samples_leaf,'max_features': max_features,'accuracy': accuracy})


results_df = pd.DataFrame(results)

# Resultats triés par accuracy
results_df_trie = results_df.sort_values(by='accuracy', ascending=False)
print(results_df_trie)

# Afficher la meilleure combinaison
best_combination = results_df_trie.iloc[0]
print("\n\nMeilleure combinaison de paramètres pour le random forest: ")
print(best_combination)

In [None]:
# Entrainement du meilleur modèle de RF
best_rf_modele = RandomForestClassifier(n_estimators=int(best_combination['n_estimators']),max_depth=int(best_combination['max_depth']),min_samples_split=int(best_combination['min_samples_split']),min_samples_leaf=int(best_combination['min_samples_leaf']),max_features=best_combination['max_features'],random_state=42)

best_rf_modele.fit(X3_train, y3_train)
y_pred_best_rf = best_rf_modele.predict(X3_valid)

print("Accuracy score du meilleure modèle de RF : ", accuracy_score(y3_valid, y_pred_best_rf))
print(classification_report(y3_valid, y_pred_best_rf))

In [None]:
# Courbe ROC avec AUC
y_pred_probabilite_best_rf = best_rf_modele.predict_proba(X3_valid)[:, 1]
fpr_best_rf, tpr_best_rf, thresholds_best_rf = roc_curve(y3_valid, y_pred_probabilite_best_rf)
roc_auc_best_rf = roc_auc_score(y3_valid, y_pred_probabilite_best_rf)

plt.plot(fpr_best_rf, tpr_best_rf, color='blue', label=f'ROC curve (AUC = {roc_auc_best_rf:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title("Courbe ROC du meilleur modèle de Random Forest")
plt.legend(loc="lower right")
plt.show()

In [None]:
# Plot de la matrice de confusion
disp = ConfusionMatrixDisplay.from_estimator(best_rf_modele, X3_valid, y3_valid, display_labels=['HC', 'PD'])
plt.title("Matrice de confusion")
plt.show()

---

Optimisation bayésienne

In [None]:
!pip install scikit-optimize

In [None]:
print(best_combination)

In [None]:
# librairie sci-kit optimize pour utiliser la fonction BayesSearchCV
from skopt import BayesSearchCV
from skopt.space import Real, Categorical, Integer

search_spaces_bayes_rf = {'n_estimators': Integer(50, 200),'max_depth': Integer(5, 50),'min_samples_split': Integer(2, 20),'min_samples_leaf': Integer(1, 10),'max_features': Categorical(['sqrt', 'log2'])}

# BayesSearchCV
bayes_search_rf = BayesSearchCV(RandomForestClassifier(random_state=42), search_spaces_bayes_rf, n_iter=50, cv=5, scoring='accuracy')

# Entrainement
bayes_search_rf.fit(X3_train, y3_train)

# Meilleurs paramètres
print("Meilleurs paramètres pour Random Forest avec BayesSearchCV : ", bayes_search_rf.best_params_)
best_rf_bayes = bayes_search_rf.best_estimator_

# Prediction
y_pred_rf_bayes = best_rf_bayes.predict(X3_valid)

# Evaluation
print("Précision du random forest avec BayesSearchCV : ", accuracy_score(y3_valid, y_pred_rf_bayes))
print(classification_report(y3_valid, y_pred_rf_bayes))

In [None]:
# Courbe ROC avec AUC
y_pred_probabilite_rf_bayes = best_rf_bayes.predict_proba(X3_valid)[:, 1]
fpr_rf_bayes, tpr_rf_bayes, thresholds_rf_bayes = roc_curve(y3_valid, y_pred_probabilite_rf_bayes)
roc_auc_rf_bayes = roc_auc_score(y3_valid, y_pred_probabilite_rf_bayes)

plt.plot(fpr_rf_bayes, tpr_rf_bayes, color='blue', label=f'ROC curve (AUC = {roc_auc_rf_bayes:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title("Courbe ROC de l'approche 2 avec une recherche Bayesienne pour le Random Forest")
plt.legend(loc="lower right")
plt.show()

In [None]:
# Plot de la matrice de confusion
disp = ConfusionMatrixDisplay.from_estimator(best_rf_bayes, X3_valid, y3_valid, display_labels=['HC', 'PD'])
plt.title("Matrice de confusion")
plt.show()

In [None]:
print(best_combination)

---

XGBoost

In [None]:
!pip install --upgrade xgboost

On rencontre une erreur a cause de la version de scikit learn. On va entrainer manuellement xgb comme pour random forest

In [None]:
from xgboost import XGBClassifier

# grille de paramètres pour XGBoost
param_grid_xgb = {'n_estimators': [200, 300, 400],'max_depth': [10, 20, 30],'learning_rate': [0.01, 0.1, 0.3],'subsample': [0.5, 0.7, 1],'colsample_bytree': [0.5, 0.7, 1]}

results_xgb = []

# Parcourir toutes les combinaisons de parametres xgboost
for n_estimators in param_grid_xgb['n_estimators']:
    for max_depth in param_grid_xgb['max_depth']:
        for learning_rate in param_grid_xgb['learning_rate']:
            for subsample in param_grid_xgb['subsample']:
                for colsample_bytree in param_grid_xgb['colsample_bytree']:
                    
                    # Initialiser le model
                    model = XGBClassifier(n_estimators=n_estimators,max_depth=max_depth,learning_rate=learning_rate,subsample=subsample,colsample_bytree=colsample_bytree,random_state=42)
                    
                    # Entrainement
                    model.fit(X3_train, y3_train)
                    
                    # Predictions sur le validation set
                    y_pred = model.predict(X3_valid)
                    
                    # Accuracy score
                    accuracy = accuracy_score(y3_valid, y_pred)
                    
                    # Stocker les resultats dans la liste results_xgb
                    results_xgb.append({'n_estimators': n_estimators,'max_depth': max_depth,'learning_rate': learning_rate,'subsample': subsample,'colsample_bytree': colsample_bytree,'accuracy': accuracy})

results_xgb_df = pd.DataFrame(results_xgb)

# résultats triés par accuracy
results_xgb_df_trie = results_xgb_df.sort_values(by='accuracy', ascending=False)
print(results_xgb_df_trie)

# meilleure combinaison
best_combination_xgb = results_xgb_df_trie.iloc[0]
print("\nMeilleure combinaison de paramètres pour XGBoost :")
print(best_combination_xgb)

In [None]:
# Initialisation du modele avec la meilleure combinaison
best_xgb_model = XGBClassifier(n_estimators=int(best_combination_xgb['n_estimators']),max_depth=int(best_combination_xgb['max_depth']),learning_rate=best_combination_xgb['learning_rate'],subsample=best_combination_xgb['subsample'],colsample_bytree=best_combination_xgb['colsample_bytree'],random_state=42)

# Entrainement
best_xgb_model.fit(X3_train, y3_train)

# Prediction
y_pred_xgb = best_xgb_model.predict(X3_valid)

# Evaluation
print("Accuracy de XGBoost : ", accuracy_score(y3_valid, y_pred_xgb))
print("Classification Report :\n", classification_report(y3_valid, y_pred_xgb))

In [None]:
# Courbe ROC avec AUC
y_pred_probabilite_xgb = best_xgb_model.predict_proba(X3_valid)[:, 1]
fpr_xgb, tpr_xgb, thresholds_xgb = roc_curve(y3_valid, y_pred_probabilite_xgb)
roc_auc_xgb = roc_auc_score(y3_valid, y_pred_probabilite_xgb)

plt.plot(fpr_xgb, tpr_xgb, color='blue', label=f'ROC curve (AUC = {roc_auc_xgb:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title("Courbe ROC de l'approche 2 avec XGBoost")
plt.legend(loc="lower right")
plt.show()

In [None]:
# Plot de la matrice de confusion
disp = ConfusionMatrixDisplay.from_estimator(best_xgb_model, X3_valid, y3_valid, display_labels=['HC', 'PD'])
plt.title("Matrice de confusion")
plt.show()

---

LightGBM

In [None]:
!pip install lightgbm

In [None]:
from lightgbm import LGBMClassifier

# grille de paramètres pour LightGBM
param_grid_lgb = {'n_estimators': [100, 200, 300],'max_depth': [3, 5, 7],'learning_rate': [0.01, 0.1, 0.2],'subsample': [0.8, 0.9, 1.0],'colsample_bytree': [0.8, 0.9, 1.0]}

# GridSearchCV pour LightGBM
grid_search_lgb = GridSearchCV(LGBMClassifier(random_state=42),param_grid_lgb,cv=5,scoring='accuracy',n_jobs=-1)

# Entrainement
grid_search_lgb.fit(X3_train, y3_train)

# Meilleurs parametres
print("Meilleurs paramètres pour LightGBM : ", grid_search_lgb.best_params_)
best_lgb = grid_search_lgb.best_estimator_

# Prediction
y_pred_lgb = best_lgb.predict(X3_valid)

# Evaluation
print("Accuracy SCORE de LightGBM : ", accuracy_score(y3_valid, y_pred_lgb))
print("Classification Report :\n", classification_report(y3_valid, y_pred_lgb))

In [None]:
# Courbe ROC avec AUC
y_pred_probabilite_lgb = best_lgb.predict_proba(X3_valid)[:, 1]
fpr_lgb, tpr_lgb, thresholds_lgb = roc_curve(y3_valid, y_pred_probabilite_lgb)
roc_auc_lgb = roc_auc_score(y3_valid, y_pred_probabilite_lgb)

plt.plot(fpr_lgb, tpr_lgb, color='blue', label=f'ROC curve (AUC = {roc_auc_lgb:.2f})')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Taux de Faux Positif')
plt.ylabel('Taux de Vrai Positif')
plt.title("Courbe ROC de l'approche 2 avec LightGBM")
plt.legend(loc="lower right")
plt.show()

In [None]:
# Plot de la matrice de confusion
disp = ConfusionMatrixDisplay.from_estimator(best_lgb, X3_valid, y3_valid, display_labels=['HC', 'PD'])
plt.title("Matrice de confusion")
plt.show()

---

Shapley Additive Explanations (SHAP)

In [None]:
!pip install shap

In [None]:
import shap
import numpy as np

# Expliquer le modèle Random Forest
explainer = shap.TreeExplainer(best_rf_modele)

# Calculer les valeurs SHAP pour l'ensemble d'entraînement
shap_values = explainer.shap_values(X3_train)

# Vérifier la structure de shap_values
print("Shape de shap_values :", np.array(shap_values).shape) 

# Extraire les valeurs SHAP pour la classe 1
shap_values_class1 = np.array([shap_values[i][:, 1] for i in range(len(shap_values))])

# Vérifier les dimensions de shap_values_class1
print("Shape de shap_values_class1 :", shap_values_class1.shape)

In [None]:
# Visualiser l'importance des features pour la classe 1
shap.summary_plot(shap_values_class1, X3_train, plot_type="bar")

# Visualiser l'impact des features sur une prédiction individuelle (classe 1)
shap.initjs()

# Choisir une instance spécifique
instance_index = 0
shap.force_plot(
    explainer.expected_value[1],  # Valeur attendue pour la classe 1
    shap_values_class1[instance_index, :],  # Valeurs SHAP pour la classe 1
    X3_train.iloc[instance_index, :],  # Features de l'instance
    matplotlib=True  # Afficher dans un notebook
)