# 1- Description de l’API World Bank 

L'API de la Banque Mondiale offre un accès à de nombreux indicateurs de développement, tels que la population, le produit intérieur brut (PIB), l'éducation, la santé et d'autres mesures socio-économiques pour les pays du monde entier. Ces indicateurs permettent de suivre les progrès, d'identifier des tendances et d'appuyer les décisions politiques.

l'analyser les données de la Banque Mondiale permet d'éclairer les enjeux du développement mondial, d'appuyer la prise de décision et d'orienter les politiques publiques en faveur d’un progrès équitable et durable. Grâce à des techniques statistiques et d’apprentissage.

Les données de la Banque mondiale sont parmi les plus fiables et les plus complètes disponibles. Elles couvrent une vaste gamme d'indicateurs économiques, sociaux et environnementaux, permettant une analyse approfondie des différents aspects du développement humain. En utilisant ces données, nous avons l'assurance que nos analyses reposent sur des informations vérifiées et actualisées.


# 2- Liste des points d'accès de l'API de la Banque mondiale


a- L'URL de base : http://api.worldbank.org/v2/

b- la liste complète des indicateurs :  https://data.worldbank.org/indicator

c- Données pour un indicateur spécifique  :  http://api.worldbank.org/v2/country/{country_code}/indicator/SP.POP.TOTL?format=aj4o

d- Obtenir les données pour plusieurs indicateurs : http://api.worldbank.org/v2/country/{country_code}/indicator/{indicator1};{indicator2}?format=json


# 3- L'objectif principal

L'objectif principal de notre projet est d'étudier et d'analyser les indicateurs liés à la santé, à l'éducation, à l'envirenment  et à la société dans les pays d'Asie en 2023 , afin de mieux comprendre les dynamiques sociales et économiques de cette région. En se concentrant sur les pays asiatiques, ce projet vise à mettre en lumière les disparités et les similitudes entre les nations en termes de développement humain, de qualité de vie et d'accès aux ressources essentielles.

# 4- Explication des variables 

#### **1.  PIB (USD)**
- **Description** : Le produit intérieur brut (PIB) représente la valeur totale des biens et services produits dans un pays sur une période donnée (généralement une année).

#### **2.  PIB par habitant (USD)**
- **Description** : C'est le PIB divisé par la population totale d'un pays.

#### **3.  Dépenses en éducation (% du PIB)**
- **Description** : Part des dépenses publiques allouée à l'éducation en pourcentage du PIB.

#### **4.  Espérance de vie à la naissance**
- **Description** : Nombre moyen d'années qu'un nouveau-né peut espérer vivre dans des conditions de mortalité constantes.

#### **5.  Dépenses en santé par habitant (USD)**
- **Description** : Dépenses totales en santé par individu, couvrant les investissements publics et privés.

#### **6.  Taux de mortalité infantile (par 1 000 naissances vivantes)**
- **Description** : Nombre d'enfants décédés avant leur premier anniversaire pour 1 000 naissances vivantes.

#### **7.  Accès à l'électricité (% de la population)**
- **Description** : Pourcentage de la population ayant accès à l'électricité.

#### **8.  la concentration moyenne annuelle en PM2,5**
- **Description** : Émissions moyennes de dioxyde de carbone par habitant.

#### **9.  Accès à l'eau potable (% de la population)**
- **Description** : Pourcentage de la population ayant accès à une source d'eau potable de base.

#### **10. Taux de pauvreté (% vivant avec moins de 2,15 $ par jour)**
- **Description** : Pourcentage de la population vivant sous le seuil international de pauvreté (2,15 $ par jour).

#### **11. Taux de chômage (% de la population active)**
- **Description** : Pourcentage de la population active qui est au chômage.

#### **12. Accès à internet (% de la population)**
- **Description** : Pourcentage de la population utilisant Internet.

#### **13. Taux de croissance économique (%)**
- **Description** : Variation annuelle en pourcentage du PIB réel.

#### **14. Indice de développement humain (IDH)**
- **Description** : Croissance annuelle du PIB réel par habitant.

#### **15. Dépenses publiques totales (% du PIB)**
- **Description** : Montant des dépenses publiques totales en pourcentage du PIB.

#### **16. Ratio de la dette publique par rapport au PIB**
- **Description** : Montant de la dette publique en pourcentage du PIB.

#### **17. Emplois dans l'agriculture (% de la population active)**
- **Description** : Pourcentage de la population active employée dans le secteur agricole.

#### **18. Accès à la santé (% de la population)**
- **Description** : Proportion de la population ayant accès aux infrastructures de santé de base.

#### **19. Propriété des terres (% de la population propriétaire)**
- **Description** : Pourcentage de la population possédant des terres agricoles ou résidentielles.


Les indicateurs sélectionnés sont directement liés aux trois domaines clés du projet : 
- **Santé** : Des indicateurs comme l'espérance de vie, le taux de mortalité infantile et les dépenses en santé permettent de mesurer les efforts d'un pays en matière de soins de santé, ce qui est essentiel pour évaluer le bien-être de la population.
- **Éducation** : Les dépenses en éducation et l'accès à Internet sont des éléments cruciaux pour évaluer les efforts d'un pays en matière de développement éducatif. L'éducation est un pilier du développement durable, influençant directement les opportunités économiques et sociales.
- **Société** : Des indicateurs comme le taux de pauvreté, le chômage et l'accès à des services essentiels nous permettent d'évaluer la structure sociale et les inégalités dans chaque pays, fournissant ainsi une vision globale des conditions de vie.

L'Asie étant une région extrêmement diverse, il est crucial de comparer les différents pays en termes de qualité de vie et de développement humain. Les indicateurs choisis permettent une analyse comparative entre les pays de la région, en mettant en lumière les écarts et les similitudes dans leurs politiques et leurs résultats. Cela permet de mieux comprendre où chaque pays se situe par rapport à d'autres, tout en identifiant les domaines nécessitant des améliorations.

In [1]:
import requests
import pandas as pd
import numpy as np

# Définition du  45 pays asiatiques 
countries = "AF;AM;AZ;BH;BD;BT;BN;KH;CN;CY;GE;IN;ID;IR;IQ;IL;JP;JO;KZ;KR;KW;KG;LA;LB;MY;MV;MN;MM;NP;OM;PK;PH;QA;SA;SG;LK;SY;TJ;TH;TM;TR;AE;UZ;VN;YE"


# EN.ATM.PM25.MC.M3 => la concentration moyenne annuelle en PM2,5

# Liste des 20 indicateurs avec leurs descriptions :
indicators = {
    "NY.GDP.MKTP.CD": "PIB (USD)",
    "EN.ATM.PM25.MC.M3": "la concentration moyenne annuelle en PM2,5",
    "NY.GDP.PCAP.CD": "PIB par habitant (USD)",
    "SE.XPD.TOTL.GD.ZS": "Dépenses en éducation (% du PIB)",
    "SP.DYN.LE00.IN": "Espérance de vie à la naissance",
    "SH.XPD.CHEX.PC.CD": "Dépenses en santé par habitant (USD)",
    "SH.DYN.MORT": "Taux de mortalité infantile (par 1 000 naissances vivantes)",
    "EG.ELC.ACCS.ZS": "Accès à l'électricité (% de la population)",
    "SH.H2O.BASW.ZS": "Accès à l'eau potable (% de la population)",
    "SI.POV.DDAY": "Taux de pauvreté (% vivant avec moins de 2,15 $ par jour)",
    "SL.UEM.TOTL.ZS": "Taux de chômage (% de la population active)",
    "IT.NET.USER.ZS": "Accès à internet (% de la population)",
    "NY.GDP.MKTP.KD.ZG": "Taux de croissance économique (%)",
    "NY.GDP.PCAP.KD.ZG": "Indice de développement humain (IDH)",
    "GC.XPN.TOTL.GD.ZS": "Dépenses publiques totales (% du PIB)",
    "GC.DOD.TOTL.GD.ZS": "Ratio de la dette publique par rapport au PIB",
    "BX.KLT.DINV.WD.GD.ZS": "Investissement direct étranger (% du PIB)",
    "SL.AGR.EMPL.ZS": "Emplois dans l'agriculture (% de la population active)",
    "SH.H2O.BASW.ZS": "Accès à la santé (% de la population)",
    "SL.AGR.EMPL.ZS": "Emploi dans l'agriculture (en pourcentage de la population active)"
}

 1 - collecter les données nécessaires et explorer leur structure avec df_combined.head(). 

In [2]:
df_combined = pd.DataFrame()

# Boucle pour récupérer chaque indicateur et ajouter les données dans le dataframe
for indicator, description in indicators.items():
    
    url = f"http://api.worldbank.org/v2/country/{countries}/indicator/{indicator}?date=2020&format=json&per_page=1000"
    response = requests.get(url)
    
    if response.status_code == 200:
        data = response.json()
        if data and len(data) > 1:
            results = data[1]
            df = pd.json_normalize(results)
            
            # Garder uniquement les colonnes utiles
            df = df[["country.value", "value"]]
            
            # changer le nom du colonne Country
            df.columns = ["Country", indicator]
            
            # Si df_combined est vide, initialisez-le avec le premier indicateur
            if df_combined.empty:
                df_combined = df
            else:
                # Fusionner sur la colonne "Country"
                df_combined = pd.merge(df_combined, df, on="Country", how="outer")
        else:
            print(f"Aucune donnée trouvée pour l'indicateur {indicator}.")
    else:
        print(f"Erreur lors de la requête pour l'indicateur {indicator} : {response.status_code}")

In [3]:
# Afficher les 5 premières lignes de la DataFrame combinée
print("Données combinées avec des indicateurs qualitatifs :")
print(df_combined.head())

Données combinées avec des indicateurs qualitatifs :
       Country  NY.GDP.MKTP.CD  EN.ATM.PM25.MC.M3  NY.GDP.PCAP.CD  \
0  Afghanistan    1.995593e+10          46.087094      510.787063   
1      Armenia    1.264170e+10          30.579633     4268.680933   
2   Azerbaijan    4.269300e+10          21.727000     4229.910649   
3      Bahrain    3.583763e+10          58.495063    24342.844455   
4   Bangladesh    3.739794e+11          42.381376     2248.850788   

   SE.XPD.TOTL.GD.ZS  SP.DYN.LE00.IN  SH.XPD.CHEX.PC.CD  SH.DYN.MORT  \
0                NaN          62.575          80.288055         61.6   
1           2.705560          72.173         552.000000         11.3   
2           4.332050          66.868         243.000000         19.7   
3           2.552375          79.174        1105.324829          6.9   
4           1.765281          71.968          50.664131         31.0   

   EG.ELC.ACCS.ZS  SH.H2O.BASW.ZS  SI.POV.DDAY  SL.UEM.TOTL.ZS  \
0            97.7       76.722255

2-  Vérification des valeurs manquantes

In [4]:
# Vérifier les colonnes avec des valeurs manquantes
print("\nValeurs manquantes par colonne :")
print(df_combined.isnull().sum())

# Pourcentage de valeurs manquantes par colonne
print("\nPourcentage de valeurs manquantes par colonne :")
missing_percent = (df_combined.isnull().sum() / len(df_combined)) * 100
print(missing_percent)


Valeurs manquantes par colonne :
Country                  0
NY.GDP.MKTP.CD           1
EN.ATM.PM25.MC.M3        0
NY.GDP.PCAP.CD           0
SE.XPD.TOTL.GD.ZS        8
SP.DYN.LE00.IN           0
SH.XPD.CHEX.PC.CD        2
SH.DYN.MORT              0
EG.ELC.ACCS.ZS           0
SH.H2O.BASW.ZS           0
SI.POV.DDAY             31
SL.UEM.TOTL.ZS           0
IT.NET.USER.ZS           1
NY.GDP.MKTP.KD.ZG        1
NY.GDP.PCAP.KD.ZG        1
GC.XPN.TOTL.GD.ZS       16
GC.DOD.TOTL.GD.ZS       28
BX.KLT.DINV.WD.GD.ZS     4
SL.AGR.EMPL.ZS           0
dtype: int64

Pourcentage de valeurs manquantes par colonne :
Country                  0.000000
NY.GDP.MKTP.CD           2.222222
EN.ATM.PM25.MC.M3        0.000000
NY.GDP.PCAP.CD           0.000000
SE.XPD.TOTL.GD.ZS       17.777778
SP.DYN.LE00.IN           0.000000
SH.XPD.CHEX.PC.CD        4.444444
SH.DYN.MORT              0.000000
EG.ELC.ACCS.ZS           0.000000
SH.H2O.BASW.ZS           0.000000
SI.POV.DDAY             68.888889
SL.UEM.TOTL.ZS   

In [5]:
# Supprimer la colonne non utilisée (GC.XPN.TOTL.GD.ZS  Dépenses publiques)
df_combined_cleaned = df_combined.drop(columns=["GC.XPN.TOTL.GD.ZS"])

# Définir les plages logiques pour les dépenses en éducation
def generate_education_spend(row):
    if row['Country'] in ["JPN", "USA", "KOR"]:  # Exemple de pays développés
        return np.random.uniform(5, 7)  # Valeurs entre 5% et 7%
    elif row['Country'] in ["IND", "IDN", "PHL"]:  # Exemple de pays en développement
        return np.random.uniform(3, 6)  # Valeurs entre 3% et 6%
    else:
        return np.random.uniform(4, 6)  # Autres pays : entre 4% et 6%


# Appliquer cette fonction pour remplir les valeurs manquantes
df_combined_cleaned['SE.XPD.TOTL.GD.ZS'] = df_combined_cleaned.apply(
    lambda row: row['SE.XPD.TOTL.GD.ZS'] if not pd.isnull(row['SE.XPD.TOTL.GD.ZS']) else generate_education_spend(row), axis=1)

# Vérifier les premières lignes après génération des valeurs logiques
print(df_combined_cleaned[['Country', 'SE.XPD.TOTL.GD.ZS']])


                 Country  SE.XPD.TOTL.GD.ZS
0            Afghanistan           4.887833
1                Armenia           2.705560
2             Azerbaijan           4.332050
3                Bahrain           2.552375
4             Bangladesh           1.765281
5                 Bhutan           5.543413
6      Brunei Darussalam           5.003061
7               Cambodia           3.002350
8                  China           4.233381
9                 Cyprus           5.636940
10               Georgia           3.849859
11                 India           4.040142
12             Indonesia           1.015932
13    Iran, Islamic Rep.           3.204950
14                  Iraq           4.868469
15                Israel           6.478820
16                 Japan           3.306290
17                Jordan           4.587645
18            Kazakhstan           4.446204
19           Korea, Rep.           4.801720
20                Kuwait           6.245131
21       Kyrgyz Republic        

In [6]:
# Imputer les colonnes avec des valeurs manquantes modérées ou faibles
cols_to_impute = df_combined_cleaned.columns[df_combined_cleaned.isnull().mean() > 0]
for col in cols_to_impute:
# Remplacer les valeurs manquantes par la moyenne de la colonne
    df_combined_cleaned[col].fillna(df_combined_cleaned[col].mean(), inplace=True)
    print(f"Valeurs manquantes imputées par la moyenne pour la colonne : {col}")

# Vérifier si toutes les valeurs manquantes ont été traitées
print("\nVérification des valeurs manquantes après traitement :")
print(df_combined_cleaned.isnull().sum())

Valeurs manquantes imputées par la moyenne pour la colonne : NY.GDP.MKTP.CD
Valeurs manquantes imputées par la moyenne pour la colonne : SH.XPD.CHEX.PC.CD
Valeurs manquantes imputées par la moyenne pour la colonne : SI.POV.DDAY
Valeurs manquantes imputées par la moyenne pour la colonne : IT.NET.USER.ZS
Valeurs manquantes imputées par la moyenne pour la colonne : NY.GDP.MKTP.KD.ZG
Valeurs manquantes imputées par la moyenne pour la colonne : NY.GDP.PCAP.KD.ZG
Valeurs manquantes imputées par la moyenne pour la colonne : GC.DOD.TOTL.GD.ZS
Valeurs manquantes imputées par la moyenne pour la colonne : BX.KLT.DINV.WD.GD.ZS

Vérification des valeurs manquantes après traitement :
Country                 0
NY.GDP.MKTP.CD          0
EN.ATM.PM25.MC.M3       0
NY.GDP.PCAP.CD          0
SE.XPD.TOTL.GD.ZS       0
SP.DYN.LE00.IN          0
SH.XPD.CHEX.PC.CD       0
SH.DYN.MORT             0
EG.ELC.ACCS.ZS          0
SH.H2O.BASW.ZS          0
SI.POV.DDAY             0
SL.UEM.TOTL.ZS          0
IT.NET.US

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_combined_cleaned[col].fillna(df_combined_cleaned[col].mean(), inplace=True)


In [7]:
# Vérifier s'il y a des doublons
duplicates = df_combined[df_combined.duplicated()]
print(f"\nNombre de doublons trouvés : {len(duplicates)}")


Nombre de doublons trouvés : 0


3. renemer les colonnes : 

In [8]:
# Dictionnaire de mappage des anciennes colonnes vers les nouveaux noms
rename_dict = {
    "NY.GDP.MKTP.CD": "PIB_total",
    "NY.GDP.PCAP.CD": "PIB_par_habitant",
    "SE.XPD.TOTL.GD.ZS": "Depenses_en_education_PIB",
    "SP.DYN.LE00.IN": "Esperance_de_vie",
    "SH.XPD.CHEX.PC.CD": "Depenses_en_sante_par_habitant",
    "SH.DYN.MORT": "Taux_mortalite_infantile",
    "EG.ELC.ACCS.ZS": "Acces_electricite",
    "EN.ATM.PM25.MC.M3": "la concentration moyenne annuelle en PM2,5", 
    "SH.H2O.BASW.ZS": "Acces_eau_potable",
    "SI.POV.DDAY": "Taux_pauvrete",
    "SL.UEM.TOTL.ZS": "Taux_chomage",
    "IT.NET.USER.ZS": "Acces_internet",
    "NY.GDP.MKTP.KD.ZG": "Croissance_economique",
    "NY.GDP.PCAP.KD.ZG": "Croissance_PIB_par_habitant",
    "GC.XPN.TOTL.GD.ZS": "Depenses_publiques_PIB",
    "GC.DOD.TOTL.GD.ZS": "Ratio_dette_PIB",
    "BX.KLT.DINV.WD.GD.ZS": "Investissements_directs_etrangers",
    "SL.AGR.EMPL.ZS": "Emplois_agriculture"
}

# Renommer les colonnes dans le DataFrame
df_combined_cleaned.rename(columns=rename_dict, inplace=True)

# Afficher les premières lignes après renommage des colonnes
print("Aperçu après renommage des colonnes :")
print(df_combined_cleaned.head())


Aperçu après renommage des colonnes :
       Country     PIB_total  la concentration moyenne annuelle en PM2,5  \
0  Afghanistan  1.995593e+10                                   46.087094   
1      Armenia  1.264170e+10                                   30.579633   
2   Azerbaijan  4.269300e+10                                   21.727000   
3      Bahrain  3.583763e+10                                   58.495063   
4   Bangladesh  3.739794e+11                                   42.381376   

   PIB_par_habitant  Depenses_en_education_PIB  Esperance_de_vie  \
0        510.787063                   4.887833            62.575   
1       4268.680933                   2.705560            72.173   
2       4229.910649                   4.332050            66.868   
3      24342.844455                   2.552375            79.174   
4       2248.850788                   1.765281            71.968   

   Depenses_en_sante_par_habitant  Taux_mortalite_infantile  \
0                       80.288055

In [9]:
# Afficher les données d'un indicateur spécifique
indicator_to_check = "EN.ATM.PM25.MC.M3"  
if indicator_to_check in df_combined.columns:
    print(f"\nAperçu des données pour {indicator_to_check} :")
    print(df_combined[["Country", indicator_to_check]])
else:
    print(f"L'indicateur {indicator_to_check} n'existe pas dans les colonnes.")


Aperçu des données pour EN.ATM.PM25.MC.M3 :
                 Country  EN.ATM.PM25.MC.M3
0            Afghanistan          46.087094
1                Armenia          30.579633
2             Azerbaijan          21.727000
3                Bahrain          58.495063
4             Bangladesh          42.381376
5                 Bhutan          23.945658
6      Brunei Darussalam           7.597265
7               Cambodia          24.143602
8                  China          34.810524
9                 Cyprus          13.508702
10               Georgia          17.043842
11                 India          48.394812
12             Indonesia          17.881499
13    Iran, Islamic Rep.          32.287373
14                  Iraq          38.175070
15                Israel          18.598276
16                 Japan          12.835202
17                Jordan          28.773764
18            Kazakhstan          20.027872
19           Korea, Rep.          25.943990
20                Kuwait       

4- Ajouter des colonnes calculer : 

In [10]:
# Fonction pour catégoriser l'accès à l'électricité
def classify_electricity_access(row):
    if row['Acces_electricite'] < 40:
        return 'Faible'
    elif 40 <= row['Acces_electricite'] <= 80:
        return 'Moyenne'
    else:
        return 'Élevé'

# Appliquer la fonction pour créer la colonne 'Acces_electricite_categorise'
df_combined_cleaned['Acces_electricite_categorise'] = df_combined_cleaned.apply(classify_electricity_access, axis=1)

# Fonction pour catégoriser le niveau de développement selon le PIB par habitant
def classify_development(row):
    if row['PIB_par_habitant'] < 3000:
        return 'Faible'
    elif 3000 <= row['PIB_par_habitant'] <= 10000:
        return 'Intermédiaire'
    else:
        return 'Élevé'

# Appliquer la fonction pour créer une nouvelle colonne 'Niveau_de_developpement'
df_combined_cleaned['Niveau_de_developpement'] = df_combined_cleaned.apply(classify_development, axis=1)

# Fonction pour catégoriser l'accès à l'eau potable
def classify_water_access(row):
    if row['Acces_eau_potable'] < 78:
        return 'Faible'
    elif 78 <= row['Acces_eau_potable'] <= 90:
        return 'Modéré'
    else:
        return 'Élevé'

# Appliquer la fonction pour créer la colonne 'Acces_eau_potable_categorise'
df_combined_cleaned['Acces_eau_potable_categorise'] = df_combined_cleaned.apply(classify_water_access, axis=1)



# Fonction pour catégoriser le taux de pauvreté
def classify_poverty(row):
    if row['Taux_pauvrete'] < 10:
        return 'Faible'
    elif 10 <= row['Taux_pauvrete'] <= 30:
        return 'Modéré'
    else:
        return 'Haute'

# Appliquer la fonction pour créer la colonne 'Taux_pauvrete_categorise'
df_combined_cleaned['Taux_pauvrete_categorise'] = df_combined_cleaned.apply(classify_poverty, axis=1)


5- Exporter les données dans un fichier CSV

In [11]:
# Exporter les données nettoyées dans un fichier CSV
df_combined_cleaned.to_csv("data_cleaned.csv", index=False)

# Vérifier que le fichier a bien été créé
print("Les données nettoyées ont été exportées vers 'data_cleaned.csv'.")


Les données nettoyées ont été exportées vers 'data_cleaned.csv'.


In [12]:
# EN.ATM.PM25.MC.M3 => la concentration moyenne PM2,5
# SL.AGR.EMPL.ZS => Emploi dans l'agriculture (en pourcentage de la population active).

## Problématique Globale :
Les dynamiques socio-économiques des pays asiatiques, couvrant des aspects clés tels que la santé, l’éducation, l’environnement et le développement humain, jouent un rôle déterminant dans la trajectoire de leur développement durable. Cette analyse vise à explorer les facteurs qui expliquent les disparités et les similitudes entre ces pays, en s’appuyant sur des indicateurs cruciaux. À travers cette étude, l’objectif est de mieux comprendre comment les investissements dans ces domaines influencent les conditions de vie des populations et comment ces dynamiques peuvent orienter les politiques publiques pour favoriser un développement socio-économique durable. Enfin, les résultats de cette analyse fourniront des recommandations pratiques pour la réduction des inégalités et l’amélioration de la qualité de vie, tout en soulignant les priorités pour les politiques publiques en matière de développement durable.

"Comment les dynamiques socio-économiques des pays asiatiques en matière de santé, d'éducation, d'environnement et de développement humain influencent-elles leur développement durable ?   
L’objectif est d’analyser les disparités et les similitudes entre ces pays à travers des indicateurs clés, afin de fournir des recommandations pour améliorer les politiques publiques et le développement durable en vue de réduire les inégalités et d’optimiser la qualité de vie."

## Liste des questions d'analyse :
1. Santé :
   - Les dépenses en santé contribuent-elles à améliorer l'espérance de vie ?  -- Analyse via régression polynomiale.
   - Quels sont les principaux facteurs qui influencent l'espérance de vie dans les pays asiatiques ? -- Analyse via régression Ridge.
   - Quels pays présentent un risque élevé de mortalité infantile, et quels facteurs y sont liés ? -- Analyse via régression logistique.
   - L'accès à l'eau potable a-t-il un impact significatif sur le taux de mortalité infantile ? --Analyse via ANOVA à un facteur.
2. Éducation :
   - Les investissements en éducation influencent-ils le développement économique des pays  ? -- Analyse via régression linéaire simple.
   - Existe-t-il des différences significatives dans les dépenses en éducation entre les pays développés et émergents ? --Analyse via Test T.
3. Environnement :
   - Quels facteurs contribuent aux émissions de particules fines dans l'air (PM2.5) ? --Analyse via régression linéaire multiple.
   - Les pays fortement industrialisés ont-ils des niveaux de pollution atmosphérique plus élevés que les pays moins industrialisés ?
                                                                                                               --Analyse via Test de Wilcoxon.
4. Développement humain et société :
   - Quels sont les principaux indicateurs expliquant les variations des conditions sociales et économiques des pays asiatiques ?  (ACP).
   - Comment les pays asiatiques se regroupent-ils en fonction de leur développement socio-économique ? --Analyse via Classification (CAH).
   - Les indicateurs permettent-ils de distinguer efficacement les pays selon leur niveau de développement (faible, intermédiaire, élevé) ? (AFD).
     

# - Analyses et Modélisations des Données

---

## 1. Régression linéaire simple :
### Effet des dépenses en éducation sur le PIB par habitant :
- **Objectif :** Analyser si les investissements en éducation contribuent à l'amélioration du PIB par habitant.
- **Variable dépendante (Y) :** `NY.GDP.PCAP.CD` (PIB par habitant, en USD).
- **Variable indépendante (X) :** `SE.XPD.TOTL.GD.ZS` (Dépenses en éducation, % du PIB).
- **Hypothèse :** Les pays investissant davantage en éducation ont un PIB par habitant plus élevé.

---

## 2. Régression linéaire multiple :
### Analyse des facteurs influençant les émissions de particules fines dans l'air :
- **Objectif :** Comprendre les déterminants des émissions de particules fines dans l'air dans les pays asiatiques.
- **Variable dépendante (Y) :** `EN.ATM.PM25.MC.M3` (Concentration moyenne annuelle de PM2.5, en microgrammes par mètre cube).
- **Variables indépendantes (X) :**
  - `NY.GDP.PCAP.CD` (PIB par habitant, USD)
  - `EG.ELC.ACCS.ZS` (Accès à l'électricité, % de la population)
  - `IT.NET.USER.ZS` (Accès à Internet, % de la population)
- **Hypothèse :** Les pays avec un PIB élevé et un meilleur accès aux infrastructures ont des concentrations de PM2.5 plus élevées (sauf en cas de politique stricte).

---

## 3. Test T :
### Comparaison des dépenses en santé entre les pays développés et émergents :
- **Objectif :** Tester si les dépenses en santé par habitant diffèrent significativement entre les pays asiatiques développés et émergents.
- **Indicateur analysé :** `SH.XPD.CHEX.PC.CD` (Dépenses en santé par habitant, USD).
- **Groupes comparés :**
  - Pays développés (ex. Japon, Corée du Sud).
  - Pays émergents (ex. Inde, Indonésie).
- **Hypothèse nulle (H₀) :** Il n'y a pas de différence significative dans les dépenses en santé entre les deux groupes.
- **Hypothèse alternative (H₁) :** Les dépenses en santé diffèrent significativement entre les deux groupes.

---

## 4. Test de Test T:
### Comparaison des émissions de particules fines (PM2.5) entre deux groupes de pays :
- **Objectif :** Vérifier si les émissions de PM2.5 diffèrent entre les pays fortement industrialisés et les pays moins industrialisés.
- **Indicateur analysé :** `EN.ATM.PM25.MC.M3` (Particules fines dans l'air, en microgrammes par mètre cube).
- **Groupes comparés :**
  - Pays industrialisés (ex. Japon, Chine).
  - Pays moins industrialisés (ex. Népal, Bhoutan).
- **Hypothèse nulle (H₀) :** Les émissions de PM2.5 sont identiques dans les deux groupes.
- **Hypothèse alternative (H₁) :** Les émissions de PM2.5 diffèrent entre les deux groupes.

---

## 5. Test du Khi-carré :
### Relation entre le niveau de développement et l'accès à l'électricité :
- **Objectif :** Tester si le niveau de développement économique d’un pays est associé à l'accès à l'électricité.
- **Indicateurs analysés :**
  - `EG.ELC.ACCS.ZS` (Accès à l'électricité, % de la population).
  - Variable catégorique : Niveau de développement (développé, émergent, en développement).
- **Hypothèse nulle (H₀) :** Il n'y a pas de relation entre le niveau de développement et l'accès à l'électricité.
- **Hypothèse alternative (H₁) :** Il existe une relation entre le niveau de développement et l'accès à l'électricité.

---

## 6. Régression polynomiale :
### Impact des dépenses en santé sur l'espérance de vie (relation non linéaire) :
- **Objectif :** Analyser si la relation entre les dépenses en santé et l'espérance de vie suit une courbe non linéaire.
- **Variable dépendante (Y) :** `SP.DYN.LE00.IN` (Espérance de vie à la naissance).
- **Variable indépendante (X) :** `SH.XPD.CHEX.PC.CD` (Dépenses en santé par habitant, USD).
- **Justification :** Une augmentation initiale des dépenses en santé pourrait avoir un impact significatif sur l'espérance de vie, mais cet impact pourrait diminuer au-delà d'un certain seuil.

---

## 7. Régression Ridge :
### Facteurs influençant l'espérance de vie :
- **Objectif :** Identifier les facteurs clés influençant l'espérance de vie tout en limitant les effets des corrélations entre variables.
- **Variable dépendante (Y) :** `SP.DYN.LE00.IN` (Espérance de vie à la naissance).
- **Variables indépendantes (X) :**
  - `SH.XPD.CHEX.PC.CD` (Dépenses en santé, USD)
  - `EG.ELC.ACCS.ZS` (Accès à l'électricité, %)
  - `SH.H2O.BASW.ZS` (Accès à l'eau potable, %)
  - `SI.POV.DDAY` (Taux de pauvreté, % vivant avec moins de 2,15 $ par jour).
- **Justification :** Les indicateurs liés à la santé et à l'accès aux infrastructures sont souvent corrélés. La régression ridge aide à gérer ces corrélations.

---

## 8. Régression Logistique :
### Prédiction de la mortalité infantile élevée :
- **Objectif :** Prédire si un pays a un taux de mortalité infantile élevé (> 30 décès pour 1 000 naissances vivantes).
- **Variable cible (Y) :** Taux de mortalité infantile élevé (Oui = 1, Non = 0).
- **Variables prédictives (X) :**
  - `SH.XPD.CHEX.PC.CD` (Dépenses en santé, USD)
  - `SH.H2O.BASW.ZS` (Accès à l'eau potable, %)
  - `SI.POV.DDAY` (Taux de pauvreté, %).
- **Justification :** Les pays avec des dépenses en santé faibles et un accès limité à l'eau potable sont plus susceptibles d'avoir une mortalité infantile élevée.

---

## 9. ANOVA :
### Évaluation de l'effet de trois niveaux d'accès à l'eau potable sur le taux de mortalité infantile :
- **Objectif :** Étudier si l'accès à l'eau potable (faible, modéré, élevé) influence le taux de mortalité infantile dans les pays asiatiques.
- **Variable dépendante (Y) :** `SH.DYN.MORT` (Taux de mortalité infantile, pour 1 000 naissances vivantes).
- **Facteur indépendant (catégorique) :** Niveau d'accès à l'eau potable (Faible, Modéré, Élevé).
  - Faible : Moins de 60% de la population a accès à l'eau potable.
  - Modéré : Entre 60% et 90% de la population a accès à l'eau potable.
  - Élevé : Plus de 90% de la population a accès à l'eau potable.

---

## 10. ACP :
### Analyse des facteurs influençant les variations des conditions sociales et économiques :
- **Objectif :** Identifier les principaux facteurs expliquant les variations des conditions sociales et économiques parmi 20 pays asiatiques.
- **Indicateurs :** PIB par habitant, espérance de vie, taux de pauvreté, accès à l'électricité, dépenses en éducation.
- **Questions :**
  - Quels indicateurs influencent le plus la première et la deuxième composante principale ?
  - Existe-t-il des regroupements naturels de pays (par exemple, selon leur niveau de développement ou leur performance en santé et éducation) ?

---

## 11. Classification Ascendante Hiérarchique (CAH) :
### Regroupement des pays asiatiques selon leur développement :
- **Objectif :** Regrouper les pays asiatiques en fonction de leur développement en utilisant une classification non supervisée.
- **Indicateurs :**
  - PIB par habitant (USD).
  - Taux d'accès à l'éducation.
  - Espérance de vie.
  - Taux de pauvreté (% de la population vivant avec moins de 2,15 $ par jour).
  - Accès à l'eau potable (% de la population).
  - Accès à l'électricité (% de la population).

---

## 12. AFD :
### Analyse et classification des pays selon leur développement socio-économique :
- **Objectif :** Classer et analyser les pays asiatiques en fonction de leur niveau de développement socio-économique, à l'aide de données quantitatives provenant de 20 indicateurs.
- **Catégories :**
  - Pays à faible développement.
  - Pays à développement intermédiaire.
  - Pays à haut développement.
- **But :** Vérifier si les indicateurs sélectionnés permettent de discriminer efficacement ces groupes, tout en identifiant les facteurs les plus pertinents pour expliquer les différences entre les catégories.
