# ML 

In [60]:
import pandas as pd
import os

# Liste des pays
pays = ['VN', 'PH', 'SA', 'IN', 'UG', 'TZ', 'MG']
# Chemin vers le dossier Metrics
dossier_metrics = 'Metrics'

# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Parcourir chaque pays
for pays in pays:
    # Chemin vers les deux fichiers possibles
    chemin_fichier_1 = os.path.join(dossier_metrics, pays, 'ML', 'best_Fold_Model.csv')
    chemin_fichier_2 = os.path.join(dossier_metrics, pays, 'ML', 'Best_Fold_Model.csv')

    # Vérifier si le fichier existe et le lire
    if os.path.exists(chemin_fichier_1):
        df = pd.read_csv(chemin_fichier_1)
        df['Country'] = pays  # Ajouter une colonne pour le pays
        dataframes.append(df)
    elif os.path.exists(chemin_fichier_2):
        df = pd.read_csv(chemin_fichier_2)
        df['Country'] = pays
        dataframes.append(df)

# Combiner tous les DataFrames en un seul
if dataframes:
    resultat_combined = pd.concat(dataframes, ignore_index=True)

    # Réorganiser les colonnes comme demandé
    colonnes_d_interet = ['Country', 'Best Model', 'Test Accuracy', 'Test Sensitivity', 'Test Specificity', 'Test F1 Score', 'Test AUC']

    # Filtrer les colonnes existantes
    colonnes_existantes = [col for col in colonnes_d_interet if col in resultat_combined.columns]
    resultat_combined = resultat_combined[colonnes_existantes]

    # Arrondir les métriques souhaitées (ajuste les colonnes selon tes besoins)
    métriques = ['Test Accuracy', 'Test Sensitivity', 'Test Specificity', 'Test F1 Score', 'Test AUC']
    resultat_combined[métriques] = resultat_combined[métriques].round(2)  # Arrondir à 2 décimales

    # Enregistrer le résultat combiné dans un nouveau fichier CSV
    resultat_combined.to_csv('Metrics/Combined_ML.csv', index=False)

    print("Les fichiers ont été combinés avec succès.")
else:
    print("Aucun fichier trouvé.")


Les fichiers ont été combinés avec succès.


In [61]:
# Chemin vers le fichier combiné
chemin_fichier_combined = 'Metrics/Combined_ML.csv'

# Lire le fichier CSV
df_combined = pd.read_csv(chemin_fichier_combined)

# Afficher les premières lignes du DataFrame
df_combined

Unnamed: 0,Country,Best Model,Test Accuracy,Test Sensitivity,Test Specificity,Test F1 Score,Test AUC
0,VN,KNeighborsClassifier,0.36,0.08,0.55,0.09,0.34
1,PH,RandomForestClassifier,0.9,0.0,1.0,0.0,0.73
2,SA,LogisticRegression,0.46,0.5,0.45,0.29,0.45
3,IN,LogisticRegression,0.75,0.0,0.86,0.0,0.52
4,UG,RandomForestClassifier,0.66,0.06,0.97,0.11,0.46
5,TZ,SVC,0.28,0.33,0.27,0.13,0.87
6,MG,LogisticRegression,0.59,0.53,0.65,0.55,0.64


# CNN

In [70]:
import pandas as pd
import os

# Liste des pays
pays = ['VN', 'PH', 'SA', 'IN', 'UG', 'TZ', 'MG']
# Chemin vers le dossier Metrics
dossier_metrics = 'Metrics'

# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Parcourir chaque pays
for pays in pays:
    # Chemin vers le dossier CNN
    dossier_cnn = os.path.join(dossier_metrics, pays, 'CNN')

    # Lister tous les fichiers dans le dossier
    for fichier in os.listdir(dossier_cnn):
        # Vérifier si le fichier commence par "Predictions"
        if fichier.startswith('Predictions'):
            chemin_fichier = os.path.join(dossier_cnn, fichier)
            df = pd.read_csv(chemin_fichier)

            # Vérifier que les colonnes attendues sont présentes
            if 'Metric' in df.columns and 'Value' in df.columns:
                # Ajouter une colonne pour le pays
                df['Country'] = pays
                
                # Réorganiser le DataFrame pour correspondre à la structure désirée
                df = df.rename(columns={'Metric': 'Metric', 'Value': 'Value'})
                df['Model'] = df['Metric'].apply(lambda x: 'CNN' if x == 'Model' else None)

                # Remplacer les NaN par des valeurs appropriées
                df['Model'] = df['Model'].ffill()

                # Filtrer pour garder uniquement les lignes avec des métriques
                df = df[df['Metric'] != 'Model']
                
                # Ajouter le DataFrame à la liste
                dataframes.append(df)

# Combiner tous les DataFrames en un seul
if dataframes:
    resultat_combined = pd.concat(dataframes, ignore_index=True)

    # Réorganiser les colonnes comme demandé
    colonnes_d_interet = ['Country', 'Model', 'Metric', 'Value']

    # Filtrer les colonnes existantes
    colonnes_existantes = [col for col in colonnes_d_interet if col in resultat_combined.columns]
    resultat_combined = resultat_combined[colonnes_existantes]

    # Convertir la colonne 'Value' en numérique
    resultat_combined['Value'] = pd.to_numeric(resultat_combined['Value'], errors='coerce')

    # Arrondir les valeurs à 2 décimales
    resultat_combined['Value'] = resultat_combined['Value'].round(2)

    # Enregistrer le résultat combiné dans un nouveau fichier CSV
    resultat_combined.to_csv('Metrics/Combined_CNN.csv', index=False)

    print("Les fichiers ont été combinés avec succès.")
else:
    print("Aucun fichier trouvé.")


Les fichiers ont été combinés avec succès.


In [71]:
# Chemin vers le fichier combiné
chemin_fichier_combined = 'Metrics/Combined_CNN.csv'

# Lire le fichier CSV
df_combined = pd.read_csv(chemin_fichier_combined)

# Afficher les premières lignes du DataFrame
df_combined

Unnamed: 0,Country,Model,Metric,Value
0,VN,CNN,Accuracy,0.7
1,VN,CNN,Recall,0.31
2,VN,CNN,F1 Score,0.44
3,VN,CNN,Specificity,0.95
4,VN,CNN,AUC-ROC,0.72
5,PH,CNN,Accuracy,0.74
6,PH,CNN,Recall,0.5
7,PH,CNN,F1 Score,0.29
8,PH,CNN,Specificity,0.77
9,PH,CNN,AUC-ROC,0.71


In [72]:
import pandas as pd
import os

# Liste des pays
pays = ['VN', 'PH', 'SA', 'IN', 'UG', 'TZ', 'MG']
# Chemin vers le dossier Metrics
dossier_metrics = 'Metrics'

# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Parcourir chaque pays
for pays in pays:
    # Chemin vers le dossier CNN
    dossier_cnn = os.path.join(dossier_metrics, pays, 'CNN')

    # Lister tous les fichiers dans le dossier
    for fichier in os.listdir(dossier_cnn):
        # Vérifier si le fichier commence par "Predictions"
        if fichier.startswith('Predictions'):
            chemin_fichier = os.path.join(dossier_cnn, fichier)
            df = pd.read_csv(chemin_fichier)

            # Vérifier que les colonnes attendues sont présentes
            if 'Metric' in df.columns and 'Value' in df.columns:
                # Ajouter une colonne pour le pays
                df['Country'] = pays
                
                # Réorganiser le DataFrame pour correspondre à la structure désirée
                df = df.rename(columns={'Metric': 'Metric', 'Value': 'Value'})
                df['Model'] = df['Metric'].apply(lambda x: 'CNN' if x == 'Model' else None)

                # Remplacer les NaN par des valeurs appropriées
                df['Model'] = df['Model'].ffill()

                # Filtrer pour garder uniquement les lignes avec des métriques
                df = df[df['Metric'] != 'Model']
                
                # Ajouter le DataFrame à la liste
                dataframes.append(df)

# Combiner tous les DataFrames en un seul
if dataframes:
    resultat_combined = pd.concat(dataframes, ignore_index=True)

    # Réorganiser les colonnes comme demandé
    colonnes_d_interet = ['Country', 'Model', 'Metric', 'Value']

    # Filtrer les colonnes existantes
    colonnes_existantes = [col for col in colonnes_d_interet if col in resultat_combined.columns]
    resultat_combined = resultat_combined[colonnes_existantes]

    # Convertir la colonne 'Value' en numérique
    resultat_combined['Value'] = pd.to_numeric(resultat_combined['Value'], errors='coerce')

    # Arrondir les valeurs à 2 décimales
    resultat_combined['Value'] = resultat_combined['Value'].round(2)

    # Optionnel : Convertir les valeurs arrondies en chaînes formatées
    resultat_combined['Value'] = resultat_combined['Value'].apply(lambda x: f"{x:.2f}")

    # Enregistrer le résultat combiné dans un nouveau fichier CSV
    resultat_combined.to_csv('Metrics/Combined_CNN.csv', index=False)

    print("Les fichiers ont été combinés avec succès.")
else:
    print("Aucun fichier trouvé.")


Les fichiers ont été combinés avec succès.


In [73]:
# Chemin vers le fichier combiné
chemin_fichier_combined = 'Metrics/Combined_CNN.csv'

# Lire le fichier CSV
df_combined = pd.read_csv(chemin_fichier_combined)

# Afficher les premières lignes du DataFrame
df_combined

Unnamed: 0,Country,Model,Metric,Value
0,VN,CNN,Accuracy,0.7
1,VN,CNN,Recall,0.31
2,VN,CNN,F1 Score,0.44
3,VN,CNN,Specificity,0.95
4,VN,CNN,AUC-ROC,0.72
5,PH,CNN,Accuracy,0.74
6,PH,CNN,Recall,0.5
7,PH,CNN,F1 Score,0.29
8,PH,CNN,Specificity,0.77
9,PH,CNN,AUC-ROC,0.71


In [74]:
import pandas as pd
import os

# Liste des pays
pays = ['VN', 'PH', 'SA', 'IN', 'UG', 'TZ', 'MG']
# Chemin vers le dossier Metrics
dossier_metrics = 'Metrics'

# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Parcourir chaque pays
for pays in pays:
    # Chemin vers le dossier CNN
    dossier_cnn = os.path.join(dossier_metrics, pays, 'CNN_LSTM')

    # Lister tous les fichiers dans le dossier
    for fichier in os.listdir(dossier_cnn):
        # Vérifier si le fichier commence par "Predictions"
        if fichier.startswith('Predictions'):
            chemin_fichier = os.path.join(dossier_cnn, fichier)
            df = pd.read_csv(chemin_fichier)

            # Vérifier que les colonnes attendues sont présentes
            if 'Metric' in df.columns and 'Value' in df.columns:
                # Ajouter une colonne pour le pays
                df['Country'] = pays
                df['Model'] = 'CNN_LSTM'  # Ajouter le nom du modèle
                
                # Convertir la colonne Value en numérique
                df['Value'] = pd.to_numeric(df['Value'], errors='coerce')

                # Arrondir les valeurs à 2 décimales
                df['Value'] = df['Value'].round(2)

                # Ajouter le DataFrame à la liste
                dataframes.append(df)

# Combiner tous les DataFrames en un seul
if dataframes:
    resultat_combined = pd.concat(dataframes, ignore_index=True)

    # Pivot des données pour afficher les métriques en colonnes
    resultat_pivot = resultat_combined.pivot_table(index=['Country', 'Model'], columns='Metric', values='Value', aggfunc='first').reset_index()

    # Enregistrer le résultat combiné dans un nouveau fichier CSV
    resultat_pivot.to_csv('Metrics/Combined_CNN_LSTM.csv', index=False)

    print("Les fichiers ont été combinés et les métriques affichées en colonnes avec succès.")
else:
    print("Aucun fichier trouvé.")


Les fichiers ont été combinés et les métriques affichées en colonnes avec succès.


In [75]:
# Chemin vers le fichier combiné
chemin_fichier_combined = 'Metrics/Combined_CNN_LSTM.csv'

# Lire le fichier CSV
df_combined = pd.read_csv(chemin_fichier_combined)

# Afficher les premières lignes du DataFrame
df_combined

Unnamed: 0,Country,Model,AUC-ROC,Accuracy,F1 Score,Recall,Specificity
0,IN,CNN_LSTM,0.38,0.88,0.0,0.0,1.0
1,MG,CNN_LSTM,0.58,0.53,0.21,0.13,0.88
2,PH,CNN_LSTM,0.34,0.87,0.0,0.0,0.97
3,SA,CNN_LSTM,0.44,0.71,0.33,0.33,0.82
4,TZ,CNN_LSTM,0.4,0.83,0.0,0.0,1.0
5,UG,CNN_LSTM,0.53,0.55,0.4,0.44,0.61
6,VN,CNN_LSTM,0.61,0.55,0.48,0.54,0.55


# RNN_LSTM

In [76]:
import pandas as pd
import os

# Liste des pays
pays = ['VN', 'PH', 'SA', 'IN', 'UG', 'TZ', 'MG']
# Chemin vers le dossier Metrics
dossier_metrics = 'Metrics'

# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Parcourir chaque pays
for pays in pays:
    # Chemin vers le dossier RNN
    dossier_cnn = os.path.join(dossier_metrics, pays, 'RNN_LSTM')

    # Lister tous les fichiers dans le dossier
    for fichier in os.listdir(dossier_cnn):
        # Vérifier si le fichier commence par "Predictions"
        if fichier.startswith('Predictions'):
            chemin_fichier = os.path.join(dossier_cnn, fichier)
            df = pd.read_csv(chemin_fichier)

            # Vérifier que les colonnes attendues sont présentes
            if 'Metric' in df.columns and 'Value' in df.columns:
                # Ajouter une colonne pour le pays
                df['Country'] = pays
                df['Model'] = 'RNN_LSTM'  # Ajouter le nom du modèle
                
                # Convertir la colonne Value en numérique
                df['Value'] = pd.to_numeric(df['Value'], errors='coerce')

                # Arrondir les valeurs à 2 décimales
                df['Value'] = df['Value'].round(2)

                # Ajouter le DataFrame à la liste
                dataframes.append(df)

# Combiner tous les DataFrames en un seul
if dataframes:
    resultat_combined = pd.concat(dataframes, ignore_index=True)

    # Pivot des données pour afficher les métriques en colonnes
    resultat_pivot = resultat_combined.pivot_table(index=['Country', 'Model'], columns='Metric', values='Value', aggfunc='first').reset_index()

    # Enregistrer le résultat combiné dans un nouveau fichier CSV
    resultat_pivot.to_csv('Metrics/Combined_RNN_LSTM.csv', index=False)

    print("Les fichiers ont été combinés et les métriques affichées en colonnes avec succès.")
else:
    print("Aucun fichier trouvé.")


Les fichiers ont été combinés et les métriques affichées en colonnes avec succès.


In [77]:
# Chemin vers le fichier combiné
chemin_fichier_combined = 'Metrics/Combined_RNN_LSTM.csv'

# Lire le fichier CSV
df_combined = pd.read_csv(chemin_fichier_combined)

# Afficher les premières lignes du DataFrame
df_combined

Unnamed: 0,Country,Model,AUC-ROC,Accuracy,F1 Score,Recall,Specificity
0,IN,RNN_LSTM,0.35,0.75,0.0,0.0,0.86
1,MG,RNN_LSTM,0.48,0.5,0.38,0.33,0.65
2,PH,RNN_LSTM,0.49,0.28,0.22,1.0,0.2
3,SA,RNN_LSTM,0.51,0.64,0.17,0.17,0.77
4,TZ,RNN_LSTM,0.38,0.44,0.17,0.33,0.47
5,UG,RNN_LSTM,0.45,0.4,0.26,0.31,0.45
6,VN,RNN_LSTM,0.72,0.7,0.44,0.31,0.95


# Combine les 4 fichiers combinés

In [93]:
import pandas as pd
import os

# Liste des fichiers à combiner
fichiers = [
    'Metrics/Combined_ML.csv',
    'Metrics/Combined_CNN.csv',
    'Metrics/Combined_CNN_LSTM.csv',
    'Metrics/Combined_RNN_LSTM.csv'
]

# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Lire chaque fichier et ajuster les noms de colonnes
for fichier in fichiers:
    if os.path.exists(fichier):
        df = pd.read_csv(fichier)

        print(f"Traitement du fichier : {fichier}")
        print("Aperçu des données avant traitement :")
        print(df.head())

        # Traitement spécifique pour le fichier Combined_CNN
        if 'Metric' in df.columns and 'Value' in df.columns:
            # Pivot du DataFrame pour obtenir les métriques en colonnes
            df_pivot = df.pivot(index='Country', columns='Metric', values='Value').reset_index()
            df_pivot['Best Model'] = 'CNN'  # Ajout d'une colonne pour le modèle
            df_pivot.rename(columns={
                'AUC-ROC': 'Test AUC',
                'Accuracy': 'Test Accuracy',
                'F1 Score': 'Test F1 Score',
                'Recall': 'Test Sensitivity',
                'Specificity': 'Test Specificity'
            }, inplace=True)
            dataframes.append(df_pivot[['Country', 'Best Model', 'Test Accuracy', 'Test Sensitivity', 'Test Specificity', 'Test F1 Score', 'Test AUC']])
        else:
            # Renommer les colonnes pour les autres fichiers
            df.rename(columns={
                'Model': 'Best Model',
                'AUC-ROC': 'Test AUC',
                'Accuracy': 'Test Accuracy',
                'F1 Score': 'Test F1 Score',
                'Recall': 'Test Sensitivity',
                'Specificity': 'Test Specificity'
            }, inplace=True)
            dataframes.append(df[['Country', 'Best Model', 'Test Accuracy', 'Test Sensitivity', 'Test Specificity', 'Test F1 Score', 'Test AUC']])

        # Vérifier la présence des colonnes avant d'arrondir
        metrics_to_round = ['Test Accuracy', 'Test Sensitivity', 'Test Specificity', 'Test F1 Score', 'Test AUC']
        existing_metrics = [metric for metric in metrics_to_round if metric in df.columns]

        # Arrondir les valeurs des métriques à 2 décimales si elles existent
        if existing_metrics:
            df[existing_metrics] = df[existing_metrics].fillna(0).round(2)

    else:
        print(f"Le fichier {fichier} n'existe pas.")

# Combiner tous les DataFrames en un seul
if dataframes:
    resultat_combined = pd.concat(dataframes, ignore_index=True)

    # Enregistrer le résultat combiné dans un nouveau fichier CSV
    resultat_combined.to_csv('Metrics/Combined_All_Models.csv', index=False)

    print("Les fichiers ont été combinés avec succès.")
else:
    print("Aucun fichier trouvé pour la combinaison.")


Traitement du fichier : Metrics/Combined_ML.csv
Aperçu des données avant traitement :
  Country              Best Model  Test Accuracy  Test Sensitivity  \
0      VN    KNeighborsClassifier           0.36              0.08   
1      PH  RandomForestClassifier           0.90              0.00   
2      SA      LogisticRegression           0.46              0.50   
3      IN      LogisticRegression           0.75              0.00   
4      UG  RandomForestClassifier           0.66              0.06   

   Test Specificity  Test F1 Score  Test AUC  
0              0.55           0.09      0.34  
1              1.00           0.00      0.73  
2              0.45           0.29      0.45  
3              0.86           0.00      0.52  
4              0.97           0.11      0.46  
Traitement du fichier : Metrics/Combined_CNN.csv
Aperçu des données avant traitement :
  Country Model       Metric  Value
0      VN   CNN     Accuracy   0.70
1      VN   CNN       Recall   0.31
2      VN   CNN 

In [94]:
# Chemin vers le fichier combiné
chemin_fichier_combined = 'Metrics/Combined_All_Models.csv'

# Lire le fichier CSV
df_combined = pd.read_csv(chemin_fichier_combined)

# Afficher les premières lignes du DataFrame
df_combined

Unnamed: 0,Country,Best Model,Test Accuracy,Test Sensitivity,Test Specificity,Test F1 Score,Test AUC
0,VN,KNeighborsClassifier,0.36,0.08,0.55,0.09,0.34
1,PH,RandomForestClassifier,0.9,0.0,1.0,0.0,0.73
2,SA,LogisticRegression,0.46,0.5,0.45,0.29,0.45
3,IN,LogisticRegression,0.75,0.0,0.86,0.0,0.52
4,UG,RandomForestClassifier,0.66,0.06,0.97,0.11,0.46
5,TZ,SVC,0.28,0.33,0.27,0.13,0.87
6,MG,LogisticRegression,0.59,0.53,0.65,0.55,0.64
7,IN,CNN,0.5,1.0,0.43,0.33,0.78
8,MG,CNN,0.59,0.47,0.71,0.52,0.65
9,PH,CNN,0.74,0.5,0.77,0.29,0.71


In [95]:
import pandas as pd
import os

# Liste des fichiers à combiner
fichiers = [
    'Metrics/Combined_ML.csv',
    'Metrics/Combined_CNN.csv',
    'Metrics/Combined_CNN_LSTM.csv',
    'Metrics/Combined_RNN_LSTM.csv'
]

# Initialiser une liste pour stocker les DataFrames
dataframes = []

# Lire chaque fichier et ajuster les noms de colonnes
for fichier in fichiers:
    if os.path.exists(fichier):
        df = pd.read_csv(fichier)

        # Renommer les colonnes pour correspondre à la structure souhaitée
        df.rename(columns={
            'Model': 'Best Model',
            'AUC-ROC': 'Test AUC',
            'Accuracy': 'Test Accuracy',
            'F1 Score': 'Test F1 Score',
            'Recall': 'Test Sensitivity',
            'Specificity': 'Test Specificity'
        }, inplace=True)

        # Vérifier que les colonnes nécessaires existent
        required_columns = ['Country', 'Best Model', 'Test Accuracy', 'Test Sensitivity', 'Test Specificity', 'Test F1 Score', 'Test AUC']
        if all(col in df.columns for col in required_columns):
            dataframes.append(df[required_columns])
        else:
            print(f"Les colonnes requises ne sont pas toutes présentes dans le fichier {fichier}.")
    else:
        print(f"Le fichier {fichier} n'existe pas.")

# Combiner tous les DataFrames en un seul
if dataframes:
    resultat_combined = pd.concat(dataframes, ignore_index=True)

    # Garder le modèle avec le AUC le plus élevé pour chaque pays
    resultat_final = resultat_combined.loc[resultat_combined.groupby('Country')['Test AUC'].idxmax()]

    # Enregistrer le résultat final dans un nouveau fichier CSV
    resultat_final.to_csv('Metrics/Best_Model_Per_Country.csv', index=False)

    print("Les meilleurs modèles ont été extraits avec succès.")
else:
    print("Aucun fichier trouvé pour la combinaison.")


Les colonnes requises ne sont pas toutes présentes dans le fichier Metrics/Combined_CNN.csv.
Les meilleurs modèles ont été extraits avec succès.


In [96]:
# Chemin vers le fichier combiné
chemin_fichier_combined = 'Metrics/Best_Model_Per_Country.csv'

# Lire le fichier CSV
df_combined = pd.read_csv(chemin_fichier_combined)

# Afficher les premières lignes du DataFrame
df_combined

Unnamed: 0,Country,Best Model,Test Accuracy,Test Sensitivity,Test Specificity,Test F1 Score,Test AUC
0,IN,LogisticRegression,0.75,0.0,0.86,0.0,0.52
1,MG,LogisticRegression,0.59,0.53,0.65,0.55,0.64
2,PH,RandomForestClassifier,0.9,0.0,1.0,0.0,0.73
3,SA,RNN_LSTM,0.64,0.17,0.77,0.17,0.51
4,TZ,SVC,0.28,0.33,0.27,0.13,0.87
5,UG,CNN_LSTM,0.55,0.44,0.61,0.4,0.53
6,VN,RNN_LSTM,0.7,0.31,0.95,0.44,0.72
