In [2]:
import pandas as pd

# Charger le fichier Excel contenant plusieurs feuilles
fichier_excel = 'donnees_imputees_knn_mondial.xlsx'

# Lire toutes les feuilles du fichier
feuilles = pd.read_excel(fichier_excel, sheet_name=None)

# Initialiser un dictionnaire pour stocker les résultats de chaque pays
statistiques_globales = {}

# Liste des variables à analyser
variables = [
    "espérance de vie à la naissance",
    "taux de mortalité infantile (pour 1 000 naissances vivantes)",
    "dépenses de santé publiques (pourcentage des dépenses totales)",
    "densité de population",
    "population urbaine totale",
    "nombre de médecins pour 1 000 habitants",
    "couverture vaccinale rougeole (pourcentage enfants 12-23 mois)",
    "couverture vaccinale polio (pourcentage enfants 12-23 mois)",
    "couverture vaccinale - diphtérie tétanos coqueluche (dtc)"
]

# Parcourir chaque feuille (chaque pays)
for nom_pays, data in feuilles.items():
    print(f"Traitement des statistiques pour {nom_pays}...")

    # Vérifier que toutes les variables existent dans le DataFrame
    colonnes_disponibles = [col for col in variables if col in data.columns]
    
    if not colonnes_disponibles:
        print(f"Aucune colonne disponible pour {nom_pays}.")
        continue  # Passer à la feuille suivante si aucune colonne n'est disponible

    # Filtrer les colonnes disponibles dans chaque feuille
    data_filtree = data[colonnes_disponibles].dropna(how='all', axis=1)  # Supprimer les colonnes entièrement vides

    if data_filtree.empty:
        print(f"Aucune donnée disponible après filtrage pour {nom_pays}.")
        continue  # Passer à la feuille suivante si le DataFrame est vide

    # Calculer les statistiques descriptives
    stats = data_filtree.describe()

    # Ajouter les résultats au dictionnaire
    statistiques_globales[nom_pays] = stats

# Convertir le dictionnaire en un DataFrame multi-feuilles pour Excel
with pd.ExcelWriter('statistiques_descriptives.xlsx', engine='openpyxl') as writer:
    for pays, stats in statistiques_globales.items():
        stats.to_excel(writer, sheet_name=pays)

print("Les statistiques descriptives ont été extraites et enregistrées dans 'statistiques_descriptives.xlsx'.")


Traitement des statistiques pour Afghanistan...
Traitement des statistiques pour Angola...
Traitement des statistiques pour Albania...
Traitement des statistiques pour United Arab Emirates...
Traitement des statistiques pour Argentina...
Traitement des statistiques pour Armenia...
Traitement des statistiques pour Antigua and Barbuda...
Traitement des statistiques pour Australia...
Traitement des statistiques pour Austria...
Traitement des statistiques pour Azerbaijan...
Traitement des statistiques pour Burundi...
Traitement des statistiques pour Belgium...
Traitement des statistiques pour Benin...
Traitement des statistiques pour Burkina Faso...
Traitement des statistiques pour Bangladesh...
Traitement des statistiques pour Bulgaria...
Traitement des statistiques pour Bahrain...
Traitement des statistiques pour Bahamas, The...
Traitement des statistiques pour Bosnia and Herzegovina...
Traitement des statistiques pour Belarus...
Traitement des statistiques pour Belize...
Traitement des 

In [3]:
# Etude de la coreelation entre 'Taux de mortalité infantile (pour 1 000 naissances vivantes)' et 'Dépenses de santé publiques (% des dépenses totales)'
# Pour chaque Pays
import pandas as pd

# Charger le fichier Excel contenant plusieurs feuilles
fichier_excel = 'donnees_imputees_knn_mondial.xlsx'

# Lire toutes les feuilles du fichier
feuilles = pd.read_excel(fichier_excel, sheet_name=None)

# Initialiser un dictionnaire pour stocker les résultats des corrélations
correlations_globales = {}

# Parcourir chaque feuille (chaque pays)
for nom_pays, data in feuilles.items():
    # Sélection des colonnes pertinentes (ajuster selon vos noms de colonnes)
    variables = [
        'taux de mortalité infantile (pour 1 000 naissances vivantes)', 
        'dépenses de santé publiques (pourcentage des dépenses totales)'
    ]

    # Vérifier si les colonnes nécessaires sont présentes
    if all(var in data.columns for var in variables):
        # Filtrer les colonnes et supprimer les lignes contenant des valeurs manquantes
        data_filtree = data[variables].dropna()

        # Calculer la corrélation si des données valides existent
        if not data_filtree.empty:
            correlation = data_filtree.corr().iloc[0, 1]  # Extraire la corrélation
        else:
            correlation = None  # Pas assez de données pour calculer la corrélation
    else:
        correlation = None  # Variables non disponibles

    # Stocker le résultat de la corrélation
    correlations_globales[nom_pays] = {'Corrélation': correlation}

# Convertir les résultats en DataFrame pour l'export Excel
df_resultats = pd.DataFrame.from_dict(correlations_globales, orient='index')

# Exporter les résultats dans un fichier Excel
with pd.ExcelWriter('correlations_par_pays.xlsx', engine='openpyxl') as writer:
    df_resultats.to_excel(writer, sheet_name='Corrélations')

print("Les corrélations ont été calculées et enregistrées dans 'correlations_par_pays.xlsx'.")


Les corrélations ont été calculées et enregistrées dans 'correlations_par_pays.xlsx'.


In [5]:
# Correlation Globale

import pandas as pd

# Charger le fichier Excel contenant plusieurs feuilles
fichier_excel = 'donnees_imputees_knn_mondial.xlsx'

# Lire toutes les feuilles du fichier
feuilles = pd.read_excel(fichier_excel, sheet_name=None)

# Initialiser une liste pour stocker les données de chaque pays
data_corr = []

# Parcourir chaque feuille (chaque pays)
for nom_pays, data in feuilles.items():
    # Sélection des colonnes pertinentes (ajuster selon vos noms de colonnes)
    variables = [
        'taux de mortalité infantile (pour 1 000 naissances vivantes)',
        'dépenses de santé publiques (pourcentage des dépenses totales)'
    ]

    # Filtrer les colonnes disponibles et supprimer les lignes contenant des NaN
    data_filtree = data[variables].dropna()

    # Ajouter les données filtrées à la liste globale si des données existent
    if not data_filtree.empty:
        data_corr.append(data_filtree)

# Fusionner les données de tous les pays en un seul DataFrame
data_finale = pd.concat(data_corr, ignore_index=True)

# Calculer la corrélation entre les deux variables


correlation = data_finale.corr().loc[
    'taux de mortalité infantile (pour 1 000 naissances vivantes)', 
    'dépenses de santé publiques (pourcentage des dépenses totales)'
]

print(f"Corrélation entre le taux de mortalité infantile et les dépenses de santé publiques : {correlation:.4f}")


Corrélation entre le taux de mortalité infantile et les dépenses de santé publiques : -0.5562


In [6]:
# Matrice de Corrélation des indicateurs de tous les Pays
# Etude de la coreelation entre pour tous les indicateurs
import pandas as pd

# Charger le fichier Excel contenant plusieurs feuilles
fichier_excel = 'donnees_imputees_knn_mondial.xlsx'

# Lire toutes les feuilles du fichier
feuilles = pd.read_excel(fichier_excel, sheet_name=None)

# Initialiser un dictionnaire pour stocker les résultats des matrices de corrélations
correlations_globales = {}

# Parcourir chaque feuille (chaque pays)
for nom_pays, data in feuilles.items():
    # Sélection des colonnes pertinentes (ajuster selon vos noms exacts de colonnes)
    variables = [
        'taux de mortalité infantile (pour 1 000 naissances vivantes)', 
        'espérance de vie à la naissance',
        'dépenses de santé publiques (pourcentage des dépenses totales)',
        'densité de population',
        'population urbaine totale',
        'nombre de médecins pour 1 000 habitants'
    ]

    # Vérifier si toutes les variables sont présentes dans la feuille actuelle
    colonnes_disponibles = [var for var in variables if var in data.columns]
    
    # Filtrer les colonnes disponibles et supprimer les lignes avec des valeurs manquantes
    data_filtree = data[colonnes_disponibles].dropna()

    # Calculer la matrice de corrélation si des données valides existent
    if not data_filtree.empty:
        matrice_corr = data_filtree.corr()
        correlations_globales[nom_pays] = matrice_corr  # Stocker la matrice
    else:
        correlations_globales[nom_pays] = pd.DataFrame()  # Matrice vide si pas assez de données

# Exporter les matrices de corrélation dans un fichier Excel
with pd.ExcelWriter('correlations_par_pays_tous_les_indicateurs.xlsx', engine='openpyxl') as writer:
    for pays, matrice in correlations_globales.items():
        if not matrice.empty:
            matrice.to_excel(writer, sheet_name=pays)
        else:
            # Si la matrice est vide, ajouter une feuille indiquant l'absence de données valides
            pd.DataFrame({'Message': ['Pas assez de données pour calculer la corrélation']}).to_excel(writer, sheet_name=pays)

print("Les matrices de corrélation ont été calculées et enregistrées dans 'correlations_par_pays_tous_les_indicateurs.xlsx'.")


Les matrices de corrélation ont été calculées et enregistrées dans 'correlations_par_pays_tous_les_indicateurs.xlsx'.


In [7]:
# Modélisation Regression
import pandas as pd
import statsmodels.api as sm

# Charger le fichier Excel contenant plusieurs feuilles
fichier_excel = 'donnees_imputees_knn_mondial.xlsx'

# Lire toutes les feuilles du fichier
feuilles = pd.read_excel(fichier_excel, sheet_name=None)

# Initialiser un dictionnaire pour stocker les résultats des régressions
resultats_regression = {}

# Parcourir chaque feuille (chaque pays)
for nom_pays, data in feuilles.items():
    # Sélection des colonnes pertinentes (ajuster selon vos noms de colonnes)
    y_var = 'taux de mortalité infantile (pour 1 000 naissances vivantes)'
    x_vars = [
        'espérance de vie à la naissance',
        'dépenses de santé publiques (pourcentage des dépenses totales)',
        'densité de population',
        'population urbaine totale',
        'nombre de médecins pour 1 000 habitants'
    ]

    # Vérifier si les colonnes nécessaires sont présentes
    if y_var in data.columns and all(var in data.columns for var in x_vars):
        # Filtrer les colonnes et supprimer les lignes contenant des NaN
        data_filtree = data[[y_var] + x_vars].dropna()

        # Si des données valides existent, effectuer la régression
        if not data_filtree.empty:
            # Définir la variable dépendante (y) et les variables explicatives (X)
            y = data_filtree[y_var]
            X = data_filtree[x_vars]

            # Ajouter une constante (intercept) aux variables explicatives
            X = sm.add_constant(X)

            # Effectuer la régression multiple
            modele = sm.OLS(y, X).fit()

            # Extraire les résultats sous forme de DataFrame
            df_resultat = pd.DataFrame({
                'Coefficients': modele.params,
                'Erreur standard': modele.bse,
                'T-statistique': modele.tvalues,
                'P-valeur': modele.pvalues,
                'IC 2.5%': modele.conf_int()[0],
                'IC 97.5%': modele.conf_int()[1]
            })
        else:
            df_resultat = pd.DataFrame(
                {"Message": ["Pas assez de données pour effectuer la régression."]}
            )
    else:
        df_resultat = pd.DataFrame(
            {"Message": ["Variables manquantes."]}
        )

    # Stocker le DataFrame dans le dictionnaire des résultats
    resultats_regression[nom_pays] = df_resultat

# Exporter les résultats dans un fichier Excel
with pd.ExcelWriter('resultats_regression.xlsx', engine='openpyxl') as writer:
    for pays, resultat in resultats_regression.items():
        resultat.to_excel(writer, sheet_name=pays)

print("Les régressions ont été effectuées et enregistrées dans 'resultats_regression.xlsx'.")


Les régressions ont été effectuées et enregistrées dans 'resultats_regression.xlsx'.


In [8]:
# Nous allons appliqué une regression multiple avancée afin d'identifier les interractions entre les differents indicateurs
import pandas as pd
import statsmodels.api as sm
import itertools  # Pour créer des combinaisons de variables

# Charger le fichier Excel contenant plusieurs feuilles
fichier_excel = 'donnees_imputees_knn_mondial.xlsx'
feuilles = pd.read_excel(fichier_excel, sheet_name=None)

# Initialiser un dictionnaire pour stocker les résultats des régressions
resultats_regression = {}

# Parcourir chaque feuille (chaque pays)
for nom_pays, data in feuilles.items():
    # Sélection des colonnes pertinentes
    y_var = 'taux de mortalité infantile (pour 1 000 naissances vivantes)'
    x_vars = [
        'espérance de vie à la naissance',
        'dépenses de santé publiques (pourcentage des dépenses totales)',
        'densité de population',
        'population urbaine totale',
        'nombre de médecins pour 1 000 habitants'
    ]

    # Vérifier si les colonnes nécessaires sont présentes
    if y_var in data.columns and all(var in data.columns for var in x_vars):
        # Filtrer les colonnes et supprimer les lignes contenant des NaN
        data_filtree = data[[y_var] + x_vars].dropna()

        # Si des données valides existent, effectuer la régression
        if not data_filtree.empty:
            # Créer les termes d'interaction pour toutes les combinaisons de variables
            for var1, var2 in itertools.combinations(x_vars, 2):
                interaction_name = f'Interaction_{var1}_{var2}'
                data_filtree[interaction_name] = data_filtree[var1] * data_filtree[var2]

            # Définir la variable dépendante (y) et les variables explicatives (X)
            y = data_filtree[y_var]
            X = data_filtree[x_vars + [f'Interaction_{var1}_{var2}' for var1, var2 in itertools.combinations(x_vars, 2)]]

            # Ajouter une constante (intercept) aux variables explicatives
            X = sm.add_constant(X)

            # Effectuer la régression multiple
            modele = sm.OLS(y, X).fit()

            # Extraire les résultats sous forme de DataFrame
            df_resultat = pd.DataFrame({
                'Coefficients': modele.params,
                'Erreur standard': modele.bse,
                'T-statistique': modele.tvalues,
                'P-valeur': modele.pvalues,
                'IC 2.5%': modele.conf_int()[0],
                'IC 97.5%': modele.conf_int()[1]
            })
        else:
            df_resultat = pd.DataFrame(
                {"Message": ["Pas assez de données pour effectuer la régression."]}
            )
    else:
        df_resultat = pd.DataFrame(
            {"Message": ["Variables manquantes."]}
        )

    # Stocker le DataFrame dans le dictionnaire des résultats
    resultats_regression[nom_pays] = df_resultat

# Exporter les résultats dans un fichier Excel
with pd.ExcelWriter('resultats_regression_avancee.xlsx', engine='openpyxl') as writer:
    for pays, resultat in resultats_regression.items():
        resultat.to_excel(writer, sheet_name=pays)

print("Les régressions avancées ont été effectuées et enregistrées dans 'resultats_regression_avancee.xlsx'.")

Les régressions avancées ont été effectuées et enregistrées dans 'resultats_regression_avancee.xlsx'.


In [None]:
# Classement des Pays
import pandas as pd

# Charger le fichier Excel contenant plusieurs feuilles
fichier_excel = 'donnees_imputees_knn_mondial.xlsx'
feuilles = pd.read_excel(fichier_excel, sheet_name=None)

# Initialiser une liste pour stocker les résultats
resultats = []

# Parcourir chaque feuille (chaque pays)
for nom_pays, data in feuilles.items():
    # Calculer les moyennes
    taux_mortalite_moyen = data['taux de mortalité infantile (pour 1 000 naissances vivantes)'].mean()
    depenses_publiques_moyenne = data['dépenses de santé publiques (pourcentage des dépenses totales)'].mean()

    # Ajouter les résultats dans la liste sous forme de dictionnaire
    resultats.append({
        'Pays': nom_pays,
        'Taux de mortalité infantile': taux_mortalite_moyen,
        'Dépenses publiques': depenses_publiques_moyenne
    })

# Convertir la liste en DataFrame
data_classement = pd.DataFrame(resultats)

# Classer par taux de mortalité infantile (ordre décroissant pour les pays à risque)
data_classement = data_classement.sort_values(by='Taux de mortalité infantile', ascending=True)

# Afficher le DataFrame final trié
print(data_classement)