In [None]:
# Traitement sur les données du monde entier
import pandas as pd
import json

# Charger le fichier CSV avec une bonne gestion du séparateur
df = pd.read_csv("donnees_worldbank_tous_pays.csv", sep=",", engine='python')

# Fonction pour extraire une clé spécifique depuis une chaîne JSON-like
def extraire_valeur(champ, cle):
    try:
        # Remplace les apostrophes par des guillemets pour avoir du JSON valide
        obj = json.loads(champ.replace("'", '"').replace("`", '"'))
        return obj.get(cle, champ)  # Retourne la valeur si trouvée, sinon le champ original
    except (json.JSONDecodeError, TypeError):
        return champ  # En cas d'erreur, renvoyer le champ original

# Appliquer le nettoyage sur la colonne 'indicator' pour extraire la clé 'id'
df['indicator_id'] = df['indicator'].apply(lambda x: extraire_valeur(x, 'id'))

# Appliquer le nettoyage sur la colonne 'country' pour extraire la clé 'value'
df['country_name'] = df['country'].apply(lambda x: extraire_valeur(x, 'value'))

# Supprimer les colonnes originales 'indicator' et 'country'
df = df.drop(columns=['indicator', 'country'])

# Réorganiser les colonnes pour avoir un DataFrame plus clair
df = df[['indicator_id', 'country_name', 'date', 'value']]

# Afficher un aperçu des données nettoyées
print(df.head())

# Sauvegarder les données nettoyées dans un nouveau fichier CSV
df.to_csv("donnees_worldbank_tous_pays_nettoyees.csv", index=False)
print(df.columns)

print("Fichier nettoyé et exporté avec succès.")


In [None]:
# Renommons les indicateurs du monde entier
import pandas as pd

# Charger le fichier CSV contenant les indicateurs
df = pd.read_csv("donnees_worldbank_tous_pays_nettoyees.csv")

# Dictionnaire de correspondance : code de l'indicateur -> description complète
mapping_indicateurs = {
    "SP.POP.TOTL": "Population totale",
    "EN.POP.DNST": "Densité de population",
    "SP.POP.GROW": "Taux de croissance de la population",
    "SP.URB.TOTL.IN.ZS": "Pourcentage de population urbaine",
    "SP.POP.0014.TO": "Nombre de jeunes (0-14 ans) dans la population",
    "SP.POP.65UP.TO": "Nombre de personnes âgées (65 ans et plus)",
    "SP.URB.TOTL": "Population urbaine totale",
    "SH.MED.BEDS.ZS": "Nombre de lits d'hôpitaux pour 1 000 habitants",
    "SH.MED.NUMW.P3": "Nombre de médecins pour 1 000 habitants",
    "SP.DYN.LE00.IN": "Espérance de vie à la naissance",
    "SP.DYN.IMRT.IN": "Taux de mortalité infantile (pour 1 000 naissances vivantes)",
    "SH.STA.MMRT": "Taux de mortalité maternelle (pour 100 000 naissances vivantes)",
    "SH.DYN.NMRT": "Taux de mortalité néonatale",
    "SH.DYN.AIDS.ZS": "Incidence du VIH (pourcentage de la population âgée de 15 à 49 ans)",
    "SH.XPD.PCAP": "Dépenses de santé par habitant (USD constants)",
    "SH.XPD.CHEX.GD.ZS": "Dépenses totales de santé (pourcentage du PIB)",
    "SN.ITK.DEFC.ZS": "Prévalence de la sous-alimentation (pourcentage de la population)",
    "SH.STA.OB18.ZS": "Prévalence de l'obésité chez les adultes",
    "SH.XPD.GHED.GE.ZS": "Dépenses de santé publiques (pourcentage des dépenses totales)",
    "SH.XPD.OOPC.CH.ZS": "Part des dépenses de santé supportées par les ménages",
    "SH.XPD.PVTD.CH.ZS": "Dépenses de santé privées (pourcentage des dépenses totales)",
    "SH.XPD.PVTD.PC.ZS": "Dépenses en soins préventifs (pourcentage des dépenses de santé)",
    "GC.DOD.TOTL.GD.ZS": "Ratio dette publique/PIB",
    "SH.IMM.MEAS": "Couverture vaccinale Rougeole (pourcentage enfants 12-23 mois)",
    "SH.IMM.POL3": "Couverture vaccinale Polio (pourcentage enfants 12-23 mois)",
    "SH.IMM.IDPT": "Couverture vaccinale - Diphtérie, Tétanos, Coqueluche (DTC)",
    "SH.STA.ACSN": "Accès à des installations sanitaires améliorées (pourcentage de la population)",
    "SH.H2O.SAFE.ZS": "Accès à une eau potable de qualité (pourcentage de la population)",
    "SH.HOSP.TOTL": "Nombre d'hôpitaux par pays",
    "SH.MED.EMER.NUM": "Personnel médical spécialisé pour les urgences",
    "SH.HOSP.CTT.SPZ": "Nombre de centres de traitement spécialisés",
    "SH.SYS.NATL.PRG": "Existence de programmes nationaux de lutte contre les épidémies",
    "SH.TBS.INCD": "Incidence de la tuberculose (pour 100 000 personnes)",
    "SP.POP.65UP.TO.ZS": "Proportion de la population âgée de plus de 65 ans",
    "SH.XPD.GHED.PC.ZS": "Proportion des dépenses publiques allouées à la santé",
    "SH.SYS.ACSN": "Accès à des soins essentiels de santé"
}

# Remplacer les codes d'indicateurs par les descriptions complètes
df['indicator_id'] = df['indicator_id'].replace(mapping_indicateurs)

# Aperçu du DataFrame après remplacement
print(df.head())

# Enregistrer le DataFrame modifié dans un nouveau fichier CSV
df.to_csv("donnees_worldbank_tous_pays_nettoyees_renommees.csv", index=False)

print("Les indicateurs ont été renommés et le fichier a été sauvegardé avec succès.")


In [None]:
#---------------- Suppression des caractères concernant la CI

import pandas as pd
import re

# Charger le fichier CSV
df = pd.read_csv("donnees_worldbank_tous_pays_nettoyees_renommees.csv", sep=",", engine='python')

# Fonction pour supprimer des caractères spécifiques dans la colonne 'country_name'
def nettoyer_champ(champ):
    if isinstance(champ, str):
        champ = re.sub(r"\{'id': 'CI', 'value': \"|\"\}", "", champ)
    return champ

# Appliquer la fonction uniquement sur la colonne 'country_name'
df['country_name'] = df['country_name'].apply(nettoyer_champ)

# Afficher un aperçu des données nettoyées
print(df.head())

# Sauvegarder les données nettoyées dans un nouveau fichier CSV
df.to_csv("donnees_worldbank_tous_pays_nettoyees_renommees.csv", index=False)
print("Fichier nettoyé et exporté avec succès.")


In [None]:
#---------------- Suppression des caractères concernant la Korea

import pandas as pd
import re

# Charger le fichier CSV
df = pd.read_csv("donnees_worldbank_tous_pays_nettoyees_renommees.csv", sep=",", engine='python')

# Fonction pour supprimer des caractères spécifiques dans la colonne 'country_name'
def nettoyer_champ(champ):
    if isinstance(champ, str):
        champ = re.sub(r"\{'id': 'KP', 'value': \"|\"\}", "", champ)
    return champ

# Appliquer la fonction uniquement sur la colonne 'country_name'
df['country_name'] = df['country_name'].apply(nettoyer_champ)

# Afficher un aperçu des données nettoyées
print(df.head())

# Sauvegarder les données nettoyées dans un nouveau fichier CSV
df.to_csv("donnees_worldbank_tous_pays_nettoyees_renommees.csv", index=False)
print("Fichier nettoyé et exporté avec succès.")


In [13]:
# Transposée des differentes Indicateurs pour les avoir en Colonnes
import pandas as pd

# Charger le fichier CSV contenant les données
df = pd.read_csv("donnees_worldbank_tous_pays_nettoyees_renommees.csv")

# Obtenir la liste des pays uniques
pays_uniques = df['country_name'].unique()

# Créer un fichier Excel avec une feuille par pays
with pd.ExcelWriter("donnees_worldbank_tous_pays_nettoyees_renommees_transposees.xlsx", engine='xlsxwriter') as writer:
    # Créer une feuille par pays
    for pays in pays_uniques:
        df_pays = df[df['country_name'] == pays]
        
        # Supprimer la colonne 'country_name'
        df_pays = df_pays.drop(columns=['country_name'])
        
        # Transposer les indicateurs en colonnes et les dates en lignes
        df_pays = df_pays.pivot(index='date', columns='indicator_id', values='value')
        
        # Ajouter une feuille avec le nom du pays
        df_pays.to_excel(writer, sheet_name=pays[:31], index=True)

print("Fichier Excel avec plusieurs feuilles créé avec succès.")


Fichier Excel avec plusieurs feuilles créé avec succès.


In [14]:
import pandas as pd

# Charger le fichier Excel
file_path = "donnees_worldbank_tous_pays_nettoyees_renommees_transposees.xlsx"

# Liste des indicateurs à conserver
indicateurs_a_conserver = [
    "date",
    "Espérance de vie à la naissance",
    "Taux de mortalité infantile (pour 1 000 naissances vivantes)",
    "Dépenses de santé publiques (pourcentage des dépenses totales)",
    "Densité de population",
    "Population urbaine totale",
    "Nombre de médecins pour 1 000 habitants",
    "Couverture vaccinale Rougeole (pourcentage enfants 12-23 mois)",
    "Couverture vaccinale Polio (pourcentage enfants 12-23 mois)",
    "Couverture vaccinale - Diphtérie, Tétanos, Coqueluche (DTC)",
    "Dépenses totales de santé (pourcentage du PIB)",
    "Dépenses de santé publiques (pourcentage des dépenses totales)",
    "Part des dépenses de santé supportées par les ménages",
    "Dépenses de santé privées (pourcentage des dépenses totales)"
]

# Lire le fichier Excel
xls = pd.ExcelFile(file_path)

# Dictionnaire pour stocker les DataFrames filtrés
df_dict = {}

# Parcourir chaque feuille
for sheet_name in xls.sheet_names:
    print(f"\nTraitement de la feuille: {sheet_name}")
    df = pd.read_excel(xls, sheet_name=sheet_name)

    # Vérifier les colonnes disponibles
    colonnes_disponibles = df.columns
    print(f"Colonnes disponibles : {list(colonnes_disponibles)}")

    # Filtrer uniquement les colonnes présentes
    colonnes_a_utiliser = [col for col in indicateurs_a_conserver if col in colonnes_disponibles]
    if not colonnes_a_utiliser:
        print(f"Aucune des colonnes à conserver n'est présente dans {sheet_name}.")
        continue  # Passer à la feuille suivante

    # Filtrer les colonnes à conserver
    df_filtered = df[colonnes_a_utiliser]

    # Filtrer les lignes pour ne conserver que les années 2000 à 2023
    if 'date' in df_filtered.columns:
        df_filtered = df_filtered[(df_filtered['date'] >= 2000) & (df_filtered['date'] <= 2023)]
    else:
        print(f"La colonne 'date' est manquante dans {sheet_name}, saut de cette feuille.")
        continue

    # Ajouter le DataFrame filtré au dictionnaire
    df_dict[sheet_name] = df_filtered

# Sauvegarder les feuilles filtrées dans un nouveau fichier Excel
with pd.ExcelWriter("donnees_filtrees_mondial.xlsx") as writer:
    for sheet_name, df_filtered in df_dict.items():
        df_filtered.to_excel(writer, sheet_name=sheet_name, index=False)

print("Fichier filtré et exporté avec succès.")



Traitement de la feuille: Aruba
Colonnes disponibles : ['date', 'Couverture vaccinale - Diphtérie, Tétanos, Coqueluche (DTC)', 'Couverture vaccinale Polio (pourcentage enfants 12-23 mois)', 'Couverture vaccinale Rougeole (pourcentage enfants 12-23 mois)', 'Densité de population', 'Dépenses de santé privées (pourcentage des dépenses totales)', 'Dépenses de santé publiques (pourcentage des dépenses totales)', 'Dépenses totales de santé (pourcentage du PIB)', 'Espérance de vie à la naissance', 'Incidence de la tuberculose (pour 100 000 personnes)', 'Incidence du VIH (pourcentage de la population âgée de 15 à 49 ans)', 'Nombre de jeunes (0-14 ans) dans la population', "Nombre de lits d'hôpitaux pour 1 000 habitants", 'Nombre de médecins pour 1 000 habitants', 'Nombre de personnes âgées (65 ans et plus)', 'Part des dépenses de santé supportées par les ménages', 'Population totale', 'Population urbaine totale', 'Pourcentage de population urbaine', 'Proportion de la population âgée de plus d

In [None]:
import pandas as pd  # Importation de pandas pour la gestion des données

# Fonction de nettoyage des noms de colonnes
def clean_column_name(name):
    """Nettoie un nom de colonne : supprime les espaces et caractères inutiles."""
    return (
        name.strip()           # Supprime les espaces au début et à la fin
        .replace('.1', '')     # Supprime le suffixe `.1` des colonnes dupliquées
        .replace('  ', ' ')    # Remplace les doubles espaces par un simple espace
        .replace(',', '')      # Supprime les virgules si présentes
        .lower()               # Met tout en minuscules pour uniformiser
    )

# Chemin du fichier Excel contenant plusieurs feuilles
file_path = "donnees_filtrees_mondial.xlsx"

# Charger toutes les feuilles du fichier Excel
xls = pd.ExcelFile(file_path)  # Lecture du fichier

# Dictionnaire pour stocker les DataFrames après nettoyage
df_dict = {}

# Parcourir chaque feuille du fichier Excel
for sheet_name in xls.sheet_names:
    print(f"Traitement de la feuille : {sheet_name}")  # Log du traitement en cours
    
    # Charger la feuille dans un DataFrame
    df = pd.read_excel(file_path, sheet_name=sheet_name)
    
    # Vérification : Le DataFrame est-il vide ?
    if df.empty:
        print(f"La feuille '{sheet_name}' est vide, passage à la suivante.")
        continue  # Passer à la feuille suivante si vide

    # Nettoyer les noms de colonnes
    df.columns = [clean_column_name(col) for col in df.columns]
    
    # Ajouter le DataFrame nettoyé au dictionnaire
    df_dict[sheet_name] = df

# Sauvegarder toutes les feuilles nettoyées dans un nouveau fichier Excel
new_file_path = "donnees_filtrees_mondial_nettoye.xlsx"
with pd.ExcelWriter(new_file_path) as writer:
    for sheet_name, df in df_dict.items():
        df.to_excel(writer, sheet_name=sheet_name, index=False)  # Exporter sans l’index

print(f"Toutes les feuilles ont été nettoyées et sauvegardées sous : {new_file_path}")


In [None]:
import pandas as pd
from sklearn.impute import KNNImputer

# Charger le fichier Excel contenant les données
file_path = "donnees_filtrees_mondial_nettoye.xlsx"
xls = pd.ExcelFile(file_path)

# Dictionnaire pour stocker les DataFrames après imputation
df_dict = {}

# Parcourir chaque feuille du fichier Excel
for sheet_name in xls.sheet_names:
    print(f"\nTraitement de la feuille: {sheet_name}")
    df = pd.read_excel(xls, sheet_name=sheet_name)
    
    # Séparer les colonnes non numériques et numériques
    non_numeric_cols = df.select_dtypes(exclude=[float, int]).columns
    numeric_cols = df.select_dtypes(include=[float, int]).columns

    print(f"Colonnes non numériques: {non_numeric_cols}")
    print(f"Colonnes numériques: {numeric_cols}")

    # Extraire les colonnes séparément
    df_non_numeric = df[non_numeric_cols]
    df_numeric = df[numeric_cols]

    # Convertir les valeurs en numérique (force les erreurs à NaN)
    df_numeric = df_numeric.apply(pd.to_numeric, errors='coerce')

    # Vérification des colonnes avant imputation
    print("Colonnes numériques avant imputation :")
    print(df_numeric.head())

    # Vérification des valeurs manquantes avant imputation
    print("Valeurs manquantes par colonne avant imputation :")
    print(df_numeric.isnull().sum())

    # Vérifier si toutes les colonnes sont entièrement NaN
    if df_numeric.isnull().all().all():
        print(f"Feuille {sheet_name} ignorée : toutes les colonnes numériques sont vides.")
        continue  # Passer à la feuille suivante

    # Configurer et appliquer le KNN Imputer
    imputer = KNNImputer(n_neighbors=5, weights="uniform", metric="nan_euclidean")
    try:
        df_numeric_imputed = pd.DataFrame(
            imputer.fit_transform(df_numeric), columns=df_numeric.columns
        )
    except ValueError as e:
        print(f"Erreur lors de l'imputation de la feuille {sheet_name} : {e}")
        continue

    # Vérification des colonnes après imputation
    print("Colonnes numériques après imputation :")
    print(df_numeric_imputed.head())

    # Réintégrer les colonnes non numériques
    df_imputed = pd.concat([df_non_numeric.reset_index(drop=True), 
                            df_numeric_imputed.reset_index(drop=True)], axis=1)

    # Ajouter le DataFrame imputé au dictionnaire
    df_dict[sheet_name] = df_imputed

# Sauvegarder toutes les feuilles imputées dans un nouveau fichier Excel
output_file = "donnees_imputees_knn_mondial.xlsx"
with pd.ExcelWriter(output_file) as writer:
    for sheet_name, df_imputed in df_dict.items():
        df_imputed.to_excel(writer, sheet_name=sheet_name, index=False)

print(f"\nFichier '{output_file}' créé avec succès.")


In [None]:
#python -m streamlit run /C:/Users/user/Desktop/ISE2/Mously/projet/Streamlit_Final.py
#git remote add origin https://github.com/COMPAORE-Mohamadi-Bassirou/streamlit-dashboard.git 
#C:/Users/user/AppData/Roaming/Python/Python312/Scripts/streamlit run "C:/Users/user/Desktop/ISE2/Mously/Projet_Final/Streamlit_Final.py"
