## Projet 2: Analyse des données de systèmes éducatifs

### Partie 1

#### Étape 1 : Chargement des données

In [2]:
# Importation des bibliothèques
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns

In [3]:
# Configuration pour l'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# Liste des fichiers à analyser
fichiers = [
    'EdStatsCountry.csv',
    'EdStatsCountry-Series.csv', 
    'EdStatsData.csv',
    'EdStatsFootNote.csv',
    'EdStatsSeries.csv'
]

# Chargement des données
CountrySeries = pd.read_csv("EdStatsCountry-Series.csv")
Country       = pd.read_csv("EdStatsCountry.csv")
Data          = pd.read_csv("EdStatsData.csv")
FootNote      = pd.read_csv("EdStatsFootNote.csv")
Series        = pd.read_csv("EdStatsSeries.csv")

print("-" * 130)
print("Dataset EdStatsCountry-Series.csv: chargé avec succès sous le nom CountrySeries")
print("\nDataset EdStatsCountry.csv: chargé avec succès sous le nom Country")
print("\nDataset EdStatsData.csv: chargé avec succès sous le nom Data ")
print("\nDataset EdStatsFootNote.csv: chargé avec succès sous le nom FootNote")
print("\nDataset EdStatsSeries.csv: chargé avec succès sous le nom Series")
print(f"\n {len(fichiers)} fichiers chargés au total")
print("-" * 70)

----------------------------------------------------------------------------------------------------------------------------------
Dataset EdStatsCountry-Series.csv: chargé avec succès sous le nom CountrySeries

Dataset EdStatsCountry.csv: chargé avec succès sous le nom Country

Dataset EdStatsData.csv: chargé avec succès sous le nom Data 

Dataset EdStatsFootNote.csv: chargé avec succès sous le nom FootNote

Dataset EdStatsSeries.csv: chargé avec succès sous le nom Series

 5 fichiers chargés au total
----------------------------------------------------------------------


#### Étape 2 : Collecte des informations sur chaque dataset

    1. Dataset EdStatsCountry-Series (CountrySeries) :  Permet de savoir quels indicateurs sont disponibles pour chaque pays

In [4]:
# 1. Définir des lignes
print(" * Structure des données:")
print(f"      - Dimensions: {CountrySeries.shape[0]} lignes × {CountrySeries.shape[1]} colonnes")
print(f"      - Colonnes: {list(CountrySeries.columns[:5])}{'...' if len(CountrySeries.columns) > 5 else ''}")

# Aperçu des 5 premières lignes
print(f"\n • Aperçu des données:")
display(CountrySeries.head())
        
# 2. Calcul des doublons
print(f"\n • Gestion des doublons ")
nb_doublons = CountrySeries.duplicated().sum()
print(f"      - Nombre de doublons: {nb_doublons}")
if nb_doublons > 0:
    print(f"  - Proportion de doublons: {nb_doublons/len(CountrySeries)*100:.2f}%")
            # On supprimera les doublons si nécessaire

#3. Calcul des valeurs manquantes
valeurs_manquantes = CountrySeries.isnull().sum()
prop_manquantes = (valeurs_manquantes / len(CountrySeries) * 100).round(2)
        
### Affichage des colonnes avec des valeurs manquantes
colonnes_avec_nan = prop_manquantes[prop_manquantes > 0]
if len(colonnes_avec_nan) > 0:
    print(" * Colonnes avec valeurs manquantes:")
    for col, prop in colonnes_avec_nan.head(10).items():
        print(f"      - {col}: {valeurs_manquantes[col]} ({prop}%)")
    if len(colonnes_avec_nan) > 10:
        print(f"      -  ... et {len(colonnes_avec_nan)-10} autres colonnes")
    else:
        print("Aucune valeur manquante détectée")
        
# 4. Statistiques descriptives pour colonnes numériques
colonnes_numeriques = CountrySeries.select_dtypes(include=[np.number]).columns
if len(colonnes_numeriques) > 0:
    print(f"\n • Statistiques descritives ({len(colonnes_numeriques)} colonnes numériques):")
    print(CountrySeries[colonnes_numeriques].describe())
        
#5. Analyse des colonnes catégorielles
colonnes_categorielles = CountrySeries.select_dtypes(include=['object']).columns
if len(colonnes_categorielles) > 0:
    print(f"\nColonnes catégorielles ({len(colonnes_categorielles)} colonnes):")
    for col in colonnes_categorielles[:5]:  # Limiter à 5 colonnes
        nb_uniques = CountrySeries[col].nunique()
        print(f" {col}: {nb_uniques} valeurs uniques")
        if nb_uniques <= 10:  # Afficher les valeurs si pas trop nombreuses
            print(f"Valeurs: {CountrySeries[col].value_counts().head(3).to_dict()}")


 * Structure des données:
      - Dimensions: 613 lignes × 4 colonnes
      - Colonnes: ['CountryCode', 'SeriesCode', 'DESCRIPTION', 'Unnamed: 3']

 • Aperçu des données:


Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION,Unnamed: 3
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...,
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...,
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...,
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.,
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...,



 • Gestion des doublons 
      - Nombre de doublons: 0
 * Colonnes avec valeurs manquantes:
      - Unnamed: 3: 613 (100.0%)
Aucune valeur manquante détectée

 • Statistiques descritives (1 colonnes numériques):
       Unnamed: 3
count         0.0
mean          NaN
std           NaN
min           NaN
25%           NaN
50%           NaN
75%           NaN
max           NaN

Colonnes catégorielles (3 colonnes):
 CountryCode: 211 valeurs uniques
 SeriesCode: 21 valeurs uniques
 DESCRIPTION: 97 valeurs uniques


Après analyse, la colonne "Unnamed: 3" est inutilisable.

In [5]:
CountrySeries = CountrySeries.drop("Unnamed: 3", axis = 1)

   2. Dataset EdStatsCountry(Country)

In [6]:
# 1. Définir des lignes
print(" * Structure des données:")
print(f"      - Dimensions: {Country.shape[0]} lignes × {Country.shape[1]} colonnes")
print(f"      - Colonnes: {list(Country.columns[:5])}{'...' if len(Country.columns) > 5 else ''}")

# Aperçu des 5 premières lignes
print(f"\n * Aperçu des données:")
display(Country.head())
        
# 2. Calcul des doublons
print(f"\n * Gestion des doublons ")
nb_doublons = Country.duplicated().sum()
print(f"      - Nombre de doublons: {nb_doublons}")
if nb_doublons > 0:
    print(f"  - Proportion de doublons: {nb_doublons/len(Country)*100:.2f}%")
            # On supprimera les doublons si nécessaire

#3. Calcul des valeurs manquantes
valeurs_manquantes = Country.isnull().sum()
prop_manquantes = (valeurs_manquantes / len(Country) * 100).round(2)
        
### Affichage des colonnes avec des valeurs manquantes
colonnes_avec_nan = prop_manquantes[prop_manquantes > 0]
if len(colonnes_avec_nan) > 0:
    print(" * Colonnes avec valeurs manquantes:")
    for col, prop in colonnes_avec_nan.head(10).items():
        print(f"      - {col}: {valeurs_manquantes[col]} ({prop}%)")
    if len(colonnes_avec_nan) > 10:
        print(f"      -  ... et {len(colonnes_avec_nan)-10} autres colonnes")
    else:
        print("Aucune valeur manquante détectée")
        
# 4. Statistiques descriptives pour colonnes numériques
colonnes_numeriques = Country.select_dtypes(include=[np.number]).columns
if len(colonnes_numeriques) > 0:
    print(f"\n * Statistiques descritives ({len(colonnes_numeriques)} colonnes numériques):")
    print(Country[colonnes_numeriques].describe())
        
#5. Analyse des colonnes catégorielles
colonnes_categorielles = Country.select_dtypes(include=['object']).columns
if len(colonnes_categorielles) > 0:
    print(f"\nColonnes catégorielles ({len(colonnes_categorielles)} colonnes):")
    for col in colonnes_categorielles[:5]:  # Limiter à 5 colonnes
        nb_uniques = Country[col].nunique()
        print(f" {col}: {nb_uniques} valeurs uniques")
        if nb_uniques <= 10:  # Afficher les valeurs si pas trop nombreuses
            print(f"Valeurs: {Country[col].value_counts().head(3).to_dict()}")

 * Structure des données:
      - Dimensions: 241 lignes × 32 colonnes
      - Colonnes: ['Country Code', 'Short Name', 'Table Name', 'Long Name', '2-alpha code']...

 * Aperçu des données:


Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,National accounts base year,National accounts reference year,SNA price valuation,Lending category,Other groups,System of National Accounts,Alternative conversion factor,PPP survey year,Balance of Payments Manual in use,External debt Reporting status,System of trade,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,"IMF Balance of Payments Manual, 6th edition.",,Special trade system,,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2002/03,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,,,Actual,General trade system,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,2002,,Value added at producer prices (VAP),IBRD,,Country uses the 1993 System of National Accou...,1991–96,2005,"IMF Balance of Payments Manual, 6th edition.",Actual,Special trade system,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,Original chained constant price data are resca...,1996.0,Value added at basic prices (VAB),IBRD,,Country uses the 1993 System of National Accou...,,Rolling,"IMF Balance of Payments Manual, 6th edition.",Actual,General trade system,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0,
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,1990,,,,,Country uses the 1968 System of National Accou...,,,,,Special trade system,,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,,



 * Gestion des doublons 
      - Nombre de doublons: 0
 * Colonnes avec valeurs manquantes:
      - 2-alpha code: 3 (1.24%)
      - Currency Unit: 26 (10.79%)
      - Special Notes: 96 (39.83%)
      - Region: 27 (11.2%)
      - Income Group: 27 (11.2%)
      - WB-2 code: 1 (0.41%)
      - National accounts base year: 36 (14.94%)
      - National accounts reference year: 209 (86.72%)
      - SNA price valuation: 44 (18.26%)
      - Lending category: 97 (40.25%)
      -  ... et 18 autres colonnes

 * Statistiques descritives (4 colonnes numériques):
       National accounts reference year  Latest industrial data  \
count                          32.00000              107.000000   
mean                         2001.53125             2008.102804   
std                             5.24856                2.616834   
min                          1987.00000             2000.000000   
25%                          1996.75000             2007.500000   
50%                          2002.00000   

Après analyse, la colonne "Unnamed: 31" est inutilisable.

In [8]:
Country = Country.drop("Unnamed: 31", axis = 1)

KeyError: "['Unnamed: 31'] not found in axis"

   3. Dataset EdStatsData(Data)

In [66]:
# 1. Définir des lignes
print(" * Structure des données:")
print(f"      - Dimensions: {Data.shape[0]} lignes × {Data.shape[1]} colonnes")
print(f"      - Colonnes: {list(Data.columns[:5])}{'...' if len(Data.columns) > 5 else ''}")

# Aperçu des 5 premières lignes
print(f"\n * Aperçu des données:")
display(Data.head())
        
# 2. Calcul des doublons
print(f"\n * Gestion des doublons ")
nb_doublons = Data.duplicated().sum()
print(f"      - Nombre de doublons: {nb_doublons}")
if nb_doublons > 0:
    print(f"  - Proportion de doublons: {nb_doublons/len(Data)*100:.2f}%")
            # On supprimera les doublons si nécessaire

#3. Calcul des valeurs manquantes
valeurs_manquantes = Data.isnull().sum()
prop_manquantes = (valeurs_manquantes / len(Data) * 100).round(2)
        
### Affichage des colonnes avec des valeurs manquantes
colonnes_avec_nan = prop_manquantes[prop_manquantes > 0]
if len(colonnes_avec_nan) > 0:
    print(" * Colonnes avec valeurs manquantes:")
    for col, prop in colonnes_avec_nan.head(10).items():
        print(f"      - {col}: {valeurs_manquantes[col]} ({prop}%)")
    if len(colonnes_avec_nan) > 10:
        print(f"      -  ... et {len(colonnes_avec_nan)-10} autres colonnes")
    else:
        print("Aucune valeur manquante détectée")
        
# 4. Statistiques descriptives pour colonnes numériques
colonnes_numeriques = Data.select_dtypes(include=[np.number]).columns
if len(colonnes_numeriques) > 0:
    print(f"\n * Statistiques descritives ({len(colonnes_numeriques)} colonnes numériques):")
    print(Data[colonnes_numeriques].describe())
        
#5. Analyse des colonnes catégorielles
colonnes_categorielles = Data.select_dtypes(include=['object']).columns
if len(colonnes_categorielles) > 0:
    print(f"\nColonnes catégorielles ({len(colonnes_categorielles)} colonnes):")
    for col in colonnes_categorielles[:5]:  # Limiter à 5 colonnes
        nb_uniques = Data[col].nunique()
        print(f" {col}: {nb_uniques} valeurs uniques")
        if nb_uniques <= 10:  # Afficher les valeurs si pas trop nombreuses
            print(f"Valeurs: {Data[col].value_counts().head(3).to_dict()}")

 * Structure des données:
      - Dimensions: 886930 lignes × 70 colonnes
      - Colonnes: ['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code', '1970']...

 * Aperçu des données:


Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,60.999962,61.92268,62.69342,64.383186,65.617767,66.085152,66.608139,67.290451,68.510094,69.033211,69.944908,71.04187,71.693779,71.699097,71.995819,72.602837,70.032722,70.464821,72.645683,71.81176,73.903511,74.425201,75.110817,76.254318,77.245682,78.800522,80.051399,80.805389,81.607063,82.489487,82.685509,83.280342,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,,,,,,,,,,,,,,,,,,,,,



 * Gestion des doublons 
      - Nombre de doublons: 0
 * Colonnes avec valeurs manquantes:
      - 1970: 814642 (91.85%)
      - 1971: 851393 (95.99%)
      - 1972: 851311 (95.98%)
      - 1973: 851385 (95.99%)
      - 1974: 851200 (95.97%)
      - 1975: 799624 (90.16%)
      - 1976: 849447 (95.77%)
      - 1977: 849356 (95.76%)
      - 1978: 849354 (95.76%)
      - 1979: 850121 (95.85%)
      -  ... et 56 autres colonnes

 * Statistiques descritives (66 colonnes numériques):
               1970          1971          1972          1973          1974  \
count  7.228800e+04  3.553700e+04  3.561900e+04  3.554500e+04  3.573000e+04   
mean   1.974772e+09  4.253638e+09  4.592365e+09  5.105006e+09  5.401493e+09   
std    1.211687e+11  1.804814e+11  1.914083e+11  2.059170e+11  2.112150e+11   
min   -1.435564e+00 -1.594625e+00 -3.056522e+00 -4.032582e+00 -4.213563e+00   
25%    8.900000e-01  8.853210e+00  9.240920e+00  9.595200e+00  9.861595e+00   
50%    6.317724e+00  6.316240e+01  6.655139

In [67]:
Data = Data.drop("Unnamed: 69", axis = 1)

4. Dataset EdStatsFootNote(FootNote) : Notes contextuelles importantes pour interpréter les données (ex: changement méthodologique, événements spéciaux)

In [9]:
# 1. Définir des lignes
print(" * Structure des données:")
print(f"      - Dimensions: {FootNote.shape[0]} lignes × {FootNote.shape[1]} colonnes")
print(f"      - Colonnes: {list(FootNote.columns[:5])}{'...' if len(FootNote.columns) > 5 else ''}")

# Aperçu des 5 premières lignes
print(f"\n * Aperçu des données:")
display(FootNote.head())
        
# 2. Calcul des doublons
print(f"\n * Gestion des doublons ")
nb_doublons = FootNote.duplicated().sum()
print(f"      - Nombre de doublons: {nb_doublons}")
if nb_doublons > 0:
    print(f"  - Proportion de doublons: {nb_doublons/len(FootNote)*100:.2f}%")
            # On supprimera les doublons si nécessaire

#3. Calcul des valeurs manquantes
valeurs_manquantes = FootNote.isnull().sum()
prop_manquantes = (valeurs_manquantes / len(FootNote) * 100).round(2)
        
### Affichage des colonnes avec des valeurs manquantes
colonnes_avec_nan = prop_manquantes[prop_manquantes > 0]
if len(colonnes_avec_nan) > 0:
    print(" * Colonnes avec valeurs manquantes:")
    for col, prop in colonnes_avec_nan.head(10).items():
        print(f"      - {col}: {valeurs_manquantes[col]} ({prop}%)")
    if len(colonnes_avec_nan) > 10:
        print(f"      -  ... et {len(colonnes_avec_nan)-10} autres colonnes")
    else:
        print("Aucune valeur manquante détectée")
        
# 4. Statistiques descriptives pour colonnes numériques
colonnes_numeriques = FootNote.select_dtypes(include=[np.number]).columns
if len(colonnes_numeriques) > 0:
    print(f"\n * Statistiques descritives ({len(colonnes_numeriques)} colonnes numériques):")
    print(FootNote[colonnes_numeriques].describe())
        
#5. Analyse des colonnes catégorielles
colonnes_categorielles = FootNote.select_dtypes(include=['object']).columns
if len(colonnes_categorielles) > 0:
    print(f"\nColonnes catégorielles ({len(colonnes_categorielles)} colonnes):")
    for col in colonnes_categorielles[:5]:  # Limiter à 5 colonnes
        nb_uniques = FootNote[col].nunique()
        print(f" {col}: {nb_uniques} valeurs uniques")
        if nb_uniques <= 10:  # Afficher les valeurs si pas trop nombreuses
            print(f"Valeurs: {FootNote[col].value_counts().head(3).to_dict()}")

 * Structure des données:
      - Dimensions: 643638 lignes × 5 colonnes
      - Colonnes: ['CountryCode', 'SeriesCode', 'Year', 'DESCRIPTION', 'Unnamed: 4']

 * Aperçu des données:


Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Unnamed: 4
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,



 * Gestion des doublons 
      - Nombre de doublons: 0
 * Colonnes avec valeurs manquantes:
      - Unnamed: 4: 643638 (100.0%)
Aucune valeur manquante détectée

 * Statistiques descritives (1 colonnes numériques):
       Unnamed: 4
count         0.0
mean          NaN
std           NaN
min           NaN
25%           NaN
50%           NaN
75%           NaN
max           NaN

Colonnes catégorielles (4 colonnes):
 CountryCode: 239 valeurs uniques
 SeriesCode: 1558 valeurs uniques
 Year: 56 valeurs uniques
 DESCRIPTION: 9102 valeurs uniques


In [10]:
FootNote = FootNote.drop("Unnamed: 4", axis = 1)

5. Dataset EdStatsSeries(Series)

In [11]:
# 1. Définir des lignes
print(" * Structure des données:")
print(f"      - Dimensions: {Series.shape[0]} lignes × {Series.shape[1]} colonnes")
print(f"      - Colonnes: {list(Series.columns[:5])}{'...' if len(Series.columns) > 5 else ''}")

# Aperçu des 5 premières lignes
print(f"\n * Aperçu des données:")
display(Series.head())
        
# 2. Calcul des doublons
print(f"\n * Gestion des doublons ")
nb_doublons = Series.duplicated().sum()
print(f"      - Nombre de doublons: {nb_doublons}")
if nb_doublons > 0:
    print(f"  - Proportion de doublons: {nb_doublons/len(Series)*100:.2f}%")
            # On supprimera les doublons si nécessaire

#3. Calcul des valeurs manquantes
valeurs_manquantes = Series.isnull().sum()
prop_manquantes = (valeurs_manquantes / len(Series) * 100).round(2)
        
### Affichage des colonnes avec des valeurs manquantes
colonnes_avec_nan = prop_manquantes[prop_manquantes > 0]
if len(colonnes_avec_nan) > 0:
    print(" * Colonnes avec valeurs manquantes:")
    for col, prop in colonnes_avec_nan.head(10).items():
        print(f"      - {col}: {valeurs_manquantes[col]} ({prop}%)")
    if len(colonnes_avec_nan) > 10:
        print(f"      -  ... et {len(colonnes_avec_nan)-10} autres colonnes")
    else:
        print("Aucune valeur manquante détectée")
        
# 4. Statistiques descriptives pour colonnes numériques
colonnes_numeriques = Series.select_dtypes(include=[np.number]).columns
if len(colonnes_numeriques) > 0:
    print(f"\n * Statistiques descritives ({len(colonnes_numeriques)} colonnes numériques):")
    print(Series[colonnes_numeriques].describe())
        
#5. Analyse des colonnes catégorielles
colonnes_categorielles = Series.select_dtypes(include=['object']).columns
if len(colonnes_categorielles) > 0:
    print(f"\nColonnes catégorielles ({len(colonnes_categorielles)} colonnes):")
    for col in colonnes_categorielles[:5]:  # Limiter à 5 colonnes
        nb_uniques = Series[col].nunique()
        print(f" {col}: {nb_uniques} valeurs uniques")
        if nb_uniques <= 10:  # Afficher les valeurs si pas trop nombreuses
            print(f"Valeurs: {Series[col].value_counts().head(3).to_dict()}")

 * Structure des données:
      - Dimensions: 3665 lignes × 21 colonnes
      - Colonnes: ['Series Code', 'Topic', 'Indicator Name', 'Short definition', 'Long definition']...

 * Aperçu des données:


Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,Limitations and exceptions,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,



 * Gestion des doublons 
      - Nombre de doublons: 0
 * Colonnes avec valeurs manquantes:
      - Short definition: 1509 (41.17%)
      - Unit of measure: 3665 (100.0%)
      - Periodicity: 3566 (97.3%)
      - Base Period: 3351 (91.43%)
      - Other notes: 3113 (84.94%)
      - Aggregation method: 3618 (98.72%)
      - Limitations and exceptions: 3651 (99.62%)
      - Notes from original source: 3665 (100.0%)
      - General comments: 3651 (99.62%)
      - Statistical concept and methodology: 3642 (99.37%)
      -  ... et 6 autres colonnes

 * Statistiques descritives (6 colonnes numériques):
       Unit of measure  Notes from original source  Other web links  \
count              0.0                         0.0              0.0   
mean               NaN                         NaN              NaN   
std                NaN                         NaN              NaN   
min                NaN                         NaN              NaN   
25%                NaN                  

In [71]:
Series = Series.drop("Unnamed: 20", axis = 1)

#### Étape 3 : Réalisation des premiers nettoyage

 * Nettoyage du dataset Country

In [72]:
Country.shape

(241, 31)

In [73]:
# Récupération de tous les pays
all_pays = []
for i in Country["Short Name"]:
    all_pays.append(i)
print(f"• Nombre total d'entités dans Country: {len(all_pays)}")
print(f"• Premiers éléments de la liste: {all_pays[:5]}")
print(f"• Derniers éléments de la liste: {all_pays[-5:]}")

• Nombre total d'entités dans Country: 241
• Premiers éléments de la liste: ['Aruba', 'Afghanistan', 'Angola', 'Albania', 'Andorra']
• Derniers éléments de la liste: ['Kosovo', 'Yemen', 'South Africa', 'Zambia', 'Zimbabwe']


In [74]:
# Affectation des faux pays dans une variable faux_pays
faux_pays = [
    'East Asia & Pacific (developing only)',
    'East Asia & Pacific (all income levels)',
    'Europe & Central Asia (developing only)',
    'Europe & Central Asia (all income levels)',
    'Heavily indebted poor countries (HIPC)',
    'Latin America & Caribbean (developing only)', 
    'Least developed countries: UN classification',
    'Lower middle income',
    'Low & middle income',
    'Low income',
    'Middle East & North Africa (all income levels)',
    'Middle East & North Africa (developing only)',
    'OECD members',
    "Dem. People's Rep. Korea",
    'West Bank and Gaza',
    'Sub-Saharan Africa (developing only)', 
    'Sub-Saharan Africa (all income levels)',
    'Upper middle income',
    'Latin America & Caribbean (all income levels)',
    'High income',
    'Middle income',
    'Hong Kong SAR, China',
    'World'
]
print(f"• Nombre de faux pays identifiés: {len(faux_pays)}")

• Nombre de faux pays identifiés: 23


In [75]:
# Filtrage des pays indésirables du df Country
Country = Country[~Country["Short Name"].isin(faux_pays)]
print(f"   - Après nettoyage nous obtenons: {len(Country)} lignes")

   - Après nettoyage nous obtenons: 218 lignes


   * Nettoyage du dataset Data

In [76]:
# Filtrage des pays indésirables du df Data
Data = Data[~Data["Country Name"].isin(faux_pays)]
print(f"   - Après nettoyage nous obtenons: {len(Data)} lignes")

   - Après nettoyage nous obtenons: 842950 lignes


In [77]:
Data.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,60.999962,61.92268,62.69342,64.383186,65.617767,66.085152,66.608139,67.290451,68.510094,69.033211,69.944908,71.04187,71.693779,71.699097,71.995819,72.602837,70.032722,70.464821,72.645683,71.81176,73.903511,74.425201,75.110817,76.254318,77.245682,78.800522,80.051399,80.805389,81.607063,82.489487,82.685509,83.280342,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,,,,,,,,,,,,,,,,,,,,


### Partie 2

#### Étape 1 : Réduction du périmètre en utilisant une approche métier

In [78]:
# Examen du dataset Series pour comprendre les catégories d'indicateurs
print("Colonnes du dataset Series:")
print(Series.columns.tolist())

Colonnes du dataset Series:
['Series Code', 'Topic', 'Indicator Name', 'Short definition', 'Long definition', 'Unit of measure', 'Periodicity', 'Base Period', 'Other notes', 'Aggregation method', 'Limitations and exceptions', 'Notes from original source', 'General comments', 'Source', 'Statistical concept and methodology', 'Development relevance', 'Related source links', 'Other web links', 'Related indicators', 'License Type']


In [79]:
# Identifier la colonne de catégorie ('Topic')
if 'Topic' in Series.columns:
    category_col = 'Topic'
elif 'Category' in series.columns:
    category_col = 'Category'
else:
    # Chercher une colonne qui pourrait contenir les catégories
    category_col = [col for col in series.columns if 'topic' in col.lower() or 'category' in col.lower()][0]

print(f"Colonne de catégorie identifiée: {category_col}")
print(f"Catégories disponibles:")
categories = Series[category_col].value_counts()
print(categories)
print()

Colonne de catégorie identifiée: Topic
Catégories disponibles:
Topic
Learning Outcomes                                                                               1046
Attainment                                                                                       733
Education Equality                                                                               426
Secondary                                                                                        256
Primary                                                                                          248
Population                                                                                       213
Tertiary                                                                                         158
Teachers                                                                                         137
Expenditures                                                                                      93
Engaging the Private S

In [80]:
# Sélection des catégories pertinentes pour academy (EdTech lycée/université)
categories_pertinentes = [
    'Education',
    'Population', 
    'Science and Technology',
    'Economic Policy & Debt',
    'Infrastructure']

In [81]:
print("Filtrage par catégories pertinentes:")
print(f"Catégories sélectionnées: {categories_pertinentes}")

# Filtrage des indicateurs par catégories pertinentes
series_filtered = Series[Series[category_col].isin(categories_pertinentes)]
print(f"Nombre d'indicateurs après filtrage par catégorie: {len(series_filtered)}")

# Récupération des codes des indicateurs filtrés
indicateurs_codes = series_filtered['Series Code'].tolist()

Filtrage par catégories pertinentes:
Catégories sélectionnées: ['Education', 'Population', 'Science and Technology', 'Economic Policy & Debt', 'Infrastructure']
Nombre d'indicateurs après filtrage par catégorie: 213


In [82]:
# Filtrage du dataset Data pour ne garder que les indicateurs pertinentes
data_filtered = Data[Data['Indicator Code'].isin(indicateurs_codes)]
print(f"Nombre de lignes dans Data après filtrage: {len(data_filtered)}")

Nombre de lignes dans Data après filtrage: 48990


In [83]:
# Analyse des colonnes années dans le dataset Data
year_columns = [col for col in Data.columns if col.isdigit()]
print(f"Années disponibles: {min(year_columns)} à {max(year_columns)}")
print(f"Nombre total d'années: {len(year_columns)}")

Années disponibles: 1970 à 2100
Nombre total d'années: 65


In [84]:
# Analyse des valeurs futures
current_year = 2025
future_years = [col for col in year_columns if int(col) > current_year]
if future_years:
    print(f"Années futures détectées: {future_years}")
    print("Raison possible: projections démographiques ou estimations")
    # Vérifier si ces années futures contiennent des données
    future_data_count = data_filtered[future_years].notna().sum().sum()
    print(f"Nombre de valeurs non-nulles pour les années futures: {future_data_count}")

Années futures détectées: ['2030', '2035', '2040', '2045', '2050', '2055', '2060', '2065', '2070', '2075', '2080', '2085', '2090', '2095', '2100']
Raison possible: projections démographiques ou estimations
Nombre de valeurs non-nulles pour les années futures: 0


In [85]:
# Filtrage des années pertinentes (2000-2024 pour avoir des données récentes et historiques)
years_pertinentes = [col for col in year_columns if 2000 <= int(col) <= 2025]
print(f"Années sélectionnées pour l'analyse: {min(years_pertinentes)} à {max(years_pertinentes)}")
print(f"Nombre d'années retenues: {len(years_pertinentes)}")

# Dataset final filtré
data_final = data_filtered[['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code'] + years_pertinentes]
print(f"Dimensions du dataset final: {data_final.shape}")

Années sélectionnées pour l'analyse: 2000 à 2025
Nombre d'années retenues: 20
Dimensions du dataset final: (48990, 24)


#### Étape 2 : Réduction du périmètre en utilisant une approche data

In [86]:
#Selection des indicateurs
# Proportion d'indicateurs renseignés par année
prop_by_year = {}
for year in years_pertinentes:
    prop_by_year[year] = data_final[year].notna().sum() / len(data_final)

prop_year_df = pd.DataFrame(list(prop_by_year.items()), columns=['Année', 'Proportion'])
print("Meilleures années:")
display(prop_year_df.sort_values('Proportion', ascending=False))

Meilleures années:


Unnamed: 0,Année,Proportion
2,2002,0.829598
3,2003,0.829557
4,2004,0.826128
5,2005,0.825822
1,2001,0.825046
0,2000,0.819902
6,2006,0.811186
9,2009,0.789692
7,2007,0.789447
8,2008,0.789447


In [87]:
# Proportion d'années renseignées par indicateur
prop_by_indicator = {}
for idx, row in data_final.iterrows():
    indicator_code = row['Indicator Code']
    values_present = row[years_pertinentes].notna().sum()
    prop_by_indicator[indicator_code] = values_present / len(years_pertinentes)

In [88]:
# Compter les pays par indicateur et par année
data_melted = data_final.melt(
    id_vars=['Country Code', 'Indicator Code'],
    value_vars=years_pertinentes,
    var_name='Year',
    value_name='Value'
)

In [89]:
# Calcul du nombre de pays avec des valeurs par indicateur et année
richesse_donnees = data_melted.groupby(['Indicator Code', 'Year'])['Value'].count().reset_index()
richesse_donnees.columns = ['Indicator Code', 'Year', 'Nb_Pays_Renseignés']

In [90]:
richesse_donnees.head()

Unnamed: 0,Indicator Code,Year,Nb_Pays_Renseignés
0,SP.POP.0305.FE.UN,2000,188
1,SP.POP.0305.FE.UN,2001,189
2,SP.POP.0305.FE.UN,2002,190
3,SP.POP.0305.FE.UN,2003,190
4,SP.POP.0305.FE.UN,2004,189


In [91]:
# Calcul de la moyenne de pays renseignés par indicateur
richesse_moyenne = richesse_donnees.groupby('Indicator Code')['Nb_Pays_Renseignés'].agg(['mean', 'max', 'min']).reset_index()
richesse_moyenne.columns = ['Indicator Code', 'Moyenne_Pays', 'Max_Pays', 'Min_Pays']
richesse_moyenne = richesse_moyenne.sort_values('Moyenne_Pays', ascending=False)

In [92]:
richesse_moyenne.head()

Unnamed: 0,Indicator Code,Moyenne_Pays,Max_Pays,Min_Pays
196,SP.SEC.UTOT.IN,173.15,210,0
190,SP.SEC.LTOT.IN,173.05,209,0
193,SP.SEC.TOTL.IN,172.9,209,0
181,SP.PRE.TOTL.IN,172.85,209,0
197,SP.SEC.UTOT.MA.IN,172.4,209,0


In [93]:
# Ajouter les noms
richesse_avec_noms = richesse_moyenne.merge(
    data_final[['Indicator Code', 'Indicator Name']].drop_duplicates(),
    on='Indicator Code'
)
print("Top 20 indicateurs les plus riches:")
display(richesse_avec_noms[['Indicator Code', 'Indicator Name', 'Moyenne_Pays']].head(20))

Top 20 indicateurs les plus riches:


Unnamed: 0,Indicator Code,Indicator Name,Moyenne_Pays
0,SP.SEC.UTOT.IN,Population of the official age for upper secon...,173.15
1,SP.SEC.LTOT.IN,Population of the official age for lower secon...,173.05
2,SP.SEC.TOTL.IN,Population of the official age for secondary e...,172.9
3,SP.PRE.TOTL.IN,Population of the official age for pre-primary...,172.85
4,SP.SEC.UTOT.MA.IN,Population of the official age for upper secon...,172.4
5,SP.SEC.UTOT.FE.IN,Population of the official age for upper secon...,172.4
6,SP.SEC.LTOT.FE.IN,Population of the official age for lower secon...,172.3
7,SP.SEC.LTOT.MA.IN,Population of the official age for lower secon...,172.3
8,SP.SEC.TOTL.FE.IN,Population of the official age for secondary e...,172.15
9,SP.SEC.TOTL.MA.IN,Population of the official age for secondary e...,172.15


In [94]:
# Sélectionner 15 meilleurs indicateurs
indicateurs_academy_final = richesse_avec_noms.head(20)['Indicator Code'].tolist()

print(f"\nIndicateurs sélectionnés: {len(indicateurs_academy_final)}")


Indicateurs sélectionnés: 20


In [95]:
# Dataset final academy
data_academy = data_final[data_final['Indicator Code'].isin(indicateurs_academy_final)]

print(f"Dataset academy final: {data_academy.shape}")
print(f"Pays: {data_academy['Country Code'].nunique()}")
print(f"Indicateurs: {data_academy['Indicator Code'].nunique()}")

print("\nListe des indicateurs finaux:")
for code in indicateurs_academy_final:
    name = data_academy[data_academy['Indicator Code']==code]['Indicator Name'].iloc[0]
    print(f"- {code}: {name}")

Dataset academy final: (4600, 24)
Pays: 230
Indicateurs: 20

Liste des indicateurs finaux:
- SP.SEC.UTOT.IN: Population of the official age for upper secondary education, both sexes (number)
- SP.SEC.LTOT.IN: Population of the official age for lower secondary education, both sexes (number)
- SP.SEC.TOTL.IN: Population of the official age for secondary education, both sexes (number)
- SP.PRE.TOTL.IN: Population of the official age for pre-primary education, both sexes (number)
- SP.SEC.UTOT.MA.IN: Population of the official age for upper secondary education, male (number)
- SP.SEC.UTOT.FE.IN: Population of the official age for upper secondary education, female (number)
- SP.SEC.LTOT.FE.IN: Population of the official age for lower secondary education, female (number)
- SP.SEC.LTOT.MA.IN: Population of the official age for lower secondary education, male (number)
- SP.SEC.TOTL.FE.IN: Population of the official age for secondary education, female (number)
- SP.SEC.TOTL.MA.IN: Population of

In [96]:
indicateurs_academy_final

['SP.SEC.UTOT.IN',
 'SP.SEC.LTOT.IN',
 'SP.SEC.TOTL.IN',
 'SP.PRE.TOTL.IN',
 'SP.SEC.UTOT.MA.IN',
 'SP.SEC.UTOT.FE.IN',
 'SP.SEC.LTOT.FE.IN',
 'SP.SEC.LTOT.MA.IN',
 'SP.SEC.TOTL.FE.IN',
 'SP.SEC.TOTL.MA.IN',
 'SP.PRE.TOTL.FE.IN',
 'SP.PRE.TOTL.MA.IN',
 'SP.PRM.TOTL.IN',
 'UIS.SAP.23.GPV.G1',
 'SP.PRM.TOTL.MA.IN',
 'SP.PRM.TOTL.FE.IN',
 'SP.PRM.GRAD.TO',
 'UIS.SAP.23.GPV.G1.M',
 'UIS.SAP.23.GPV.G1.F',
 'UIS.SAP.1.G1']

In [98]:
print("-" * 100)
print(f"\nDataset final academy: {data_academy.shape}")
print(f"Pays uniques: {data_academy['Country Code'].nunique()}")
print(f"Indicateurs: {data_academy['Indicator Code'].nunique()}")


print(f"✓ Catégories d'indicateurs filtrées: {len(categories_pertinentes)}")
print(f"✓ Années analysées: {len(years_pertinentes)} ({min(years_pertinentes)}-{max(years_pertinentes)})")
print(f"✓ Indicateurs sélectionnés pour academy: {len(indicateurs_academy_final)}")  
print(f"✓ Dataset prêt pour l'expansion internationale d'academy")

----------------------------------------------------------------------------------------------------

Dataset final academy: (4600, 24)
Pays uniques: 230
Indicateurs: 20
✓ Catégories d'indicateurs filtrées: 5
✓ Années analysées: 20 (2000-2025)
✓ Indicateurs sélectionnés pour academy: 20
✓ Dataset prêt pour l'expansion internationale d'academy


#### Étape 3 : Consolidation des résultats dans dataframe agréger par pays

In [99]:
# =============================================================================
# ÉTAPE 3: AGRÉGATION DES DONNÉES PAR PAYS
# =============================================================================

print("=== ÉTAPE 3: CONSTRUCTION DU DATAFRAME PAYS × INDICATEURS ===")

# Partir du dataset academy de l'étape 2
print("Dataset de départ:")
print(f"- Forme: {data_academy.shape}")
print(f"- Pays uniques: {data_academy['Country Code'].nunique()}")
print(f"- Indicateurs: {data_academy['Indicator Code'].nunique()}")
print(f"- Années: {len(years_pertinentes)} ({min(years_pertinentes)}-{max(years_pertinentes)})")

=== ÉTAPE 3: CONSTRUCTION DU DATAFRAME PAYS × INDICATEURS ===
Dataset de départ:
- Forme: (4600, 24)
- Pays uniques: 230
- Indicateurs: 20
- Années: 20 (2000-2025)


In [100]:
# Transformer en format long pour analyser la couverture
data_long = data_academy.melt(
    id_vars=['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code'],
    value_vars=years_pertinentes,
    var_name='Year',
    value_name='Value'
)
# Supprimer les valeurs manquantes
data_long_clean = data_long.dropna(subset=['Value'])

In [101]:
print(f"Données avant nettoyage: {len(data_long):,} lignes")
print(f"Données après nettoyage: {len(data_long_clean):,} lignes")
print(f"Taux de remplissage global: {len(data_long_clean)/len(data_long)*100:.1f}%")

Données avant nettoyage: 92,000 lignes
Données après nettoyage: 68,738 lignes
Taux de remplissage global: 74.7%


In [102]:
# Analyser le nombre d'années disponibles par combinaison (pays, indicateur)
couverture_temporelle = data_long_clean.groupby(['Country Code', 'Indicator Code']).size().reset_index(name='Nb_Années')

print(f"\nDistribution du nombre d'années par combinaison (pays, indicateur):")
print(couverture_temporelle['Nb_Années'].describe())


Distribution du nombre d'années par combinaison (pays, indicateur):
count    4206.000000
mean       16.342844
std         1.916672
min         1.000000
25%        16.000000
50%        17.000000
75%        17.000000
max        17.000000
Name: Nb_Années, dtype: float64


In [103]:
# Vérifier les combinaisons avec peu d'années
peu_annees = couverture_temporelle[couverture_temporelle['Nb_Années'] < 3]
print(f"\nCombinaisons avec moins de 3 années: {len(peu_annees)}")
print(f"Pourcentage: {len(peu_annees)/len(couverture_temporelle)*100:.1f}%")

if len(peu_annees) > len(couverture_temporelle) * 0.2:  # Si plus de 20%
    print("ATTENTION: Beaucoup de combinaisons ont peu d'années de données")
    print("Conseil: Réviser la sélection d'indicateurs ou ajuster la période temporelle")
else:
    print("Qualité acceptable: La plupart des combinaisons ont suffisamment d'années")


Combinaisons avec moins de 3 années: 21
Pourcentage: 0.5%
Qualité acceptable: La plupart des combinaisons ont suffisamment d'années


In [106]:
 #=============================================================================
# AGRÉGATION AVEC PIVOT_TABLE
# =============================================================================

print(f"\nAgrégation des données")

# Méthode d'agrégation: moyenne sur les années disponibles
print("Méthode d'agrégation choisie: MOYENNE")
print("Justification: La moyenne lisse les variations annuelles et donne une vision stable du niveau de chaque indicateur par pays")


Agrégation des données
Méthode d'agrégation choisie: MOYENNE
Justification: La moyenne lisse les variations annuelles et donne une vision stable du niveau de chaque indicateur par pays


In [107]:
#Créer le pivot table: pays en lignes, indicateurs en colonnes
df_aggrege = data_long_clean.pivot_table(
    index=['Country Code', 'Country Name'],
    columns='Indicator Code',
    values='Value',
    aggfunc='mean'  # Moyenne des années disponibles
)

# Réinitialiser l'index pour avoir Country Code et Country Name comme colonnes
df_aggrege = df_aggrege.reset_index()

print(f"\nDataframe agrégé créé:")
print(f"- Forme: {df_aggrege.shape}")
print(f"- Pays: {len(df_aggrege)}")
print(f"- Indicateurs: {len(df_aggrege.columns) - 2}")  # -2 pour Country Code et Name



Dataframe agrégé créé:
- Forme: (212, 22)
- Pays: 212
- Indicateurs: 20


In [108]:
# Analyser le taux de remplissage du dataframe agrégé
colonnes_indicateurs = [col for col in df_aggrege.columns if col not in ['Country Code', 'Country Name']]
taux_remplissage = df_aggrege[colonnes_indicateurs].notna().mean().mean()
print(f"- Taux de remplissage moyen: {taux_remplissage*100:.1f}%")

- Taux de remplissage moyen: 99.2%


In [None]:
# =============================================================================
# ANALYSE DU DATAFRAME AGRÉGÉ
# ============================================================

In [109]:
# Aperçu du dataframe
print("Aperçu des premières lignes:")
display(df_aggrege.head())

print(f"\nAperçu des premières colonnes d'indicateurs:")
display(df_aggrege[['Country Name'] + colonnes_indicateurs[:5]].head())


Aperçu des premières lignes:


Indicator Code,Country Code,Country Name,SP.PRE.TOTL.FE.IN,SP.PRE.TOTL.IN,SP.PRE.TOTL.MA.IN,SP.PRM.GRAD.TO,SP.PRM.TOTL.FE.IN,SP.PRM.TOTL.IN,SP.PRM.TOTL.MA.IN,SP.SEC.LTOT.FE.IN,SP.SEC.LTOT.IN,SP.SEC.LTOT.MA.IN,SP.SEC.TOTL.FE.IN,SP.SEC.TOTL.IN,SP.SEC.TOTL.MA.IN,SP.SEC.UTOT.FE.IN,SP.SEC.UTOT.IN,SP.SEC.UTOT.MA.IN,UIS.SAP.1.G1,UIS.SAP.23.GPV.G1,UIS.SAP.23.GPV.G1.F,UIS.SAP.23.GPV.G1.M
0,ABW,Aruba,1345.941,2742.353,1396.412,1478.412,4306.471,8714.706,4408.235,1470.412,2955.706,1485.294,3639.176,7316.294,3677.118,2168.765,4360.588,2191.824,1411.765,1479.235,735.7059,743.5294
1,AFG,Afghanistan,1548204.0,3178587.0,1630383.0,692767.5,2214142.0,4554592.0,2340449.0,932351.3,1924085.0,991733.8,1755195.0,3628039.0,1872844.0,822843.9,1703954.0,881110.3,835487.2,680217.2,329909.5,350307.7
2,AGO,Angola,593153.5,1189072.0,595918.1,548237.1,1588960.0,3180823.0,1591864.0,846471.9,1687903.0,841431.3,1518136.0,3024640.0,1506504.0,671663.9,1336737.0,665072.9,654423.3,526787.4,263834.6,262952.8
3,ALB,Albania,62253.59,129433.5,67179.94,53902.24,105676.2,219076.3,113400.1,113028.8,232725.1,119696.3,217889.0,446502.6,228613.6,104860.2,213777.5,108917.3,46568.41,55892.41,27073.65,28818.76
4,ARB,Arab World,8568873.0,17513830.0,8944955.0,7200342.0,20736800.0,42379790.0,21642990.0,10709110.0,21893260.0,11184150.0,20970460.0,42825750.0,21855290.0,10261350.0,20932480.0,10671130.0,7561859.0,6999016.0,3429493.0,3569523.0



Aperçu des premières colonnes d'indicateurs:


Indicator Code,Country Name,SP.PRE.TOTL.FE.IN,SP.PRE.TOTL.IN,SP.PRE.TOTL.MA.IN,SP.PRM.GRAD.TO,SP.PRM.TOTL.FE.IN
0,Aruba,1345.941,2742.353,1396.412,1478.412,4306.471
1,Afghanistan,1548204.0,3178587.0,1630383.0,692767.5,2214142.0
2,Angola,593153.5,1189072.0,595918.1,548237.1,1588960.0
3,Albania,62253.59,129433.5,67179.94,53902.24,105676.2
4,Arab World,8568873.0,17513830.0,8944955.0,7200342.0,20736800.0


In [110]:
#Statistiques par indicateur
print(f"\nStatistiques descriptives par indicateur:")
stats_indicateurs = df_aggrege[colonnes_indicateurs].describe()
display(stats_indicateurs.round(2))


Statistiques descriptives par indicateur:


Indicator Code,SP.PRE.TOTL.FE.IN,SP.PRE.TOTL.IN,SP.PRE.TOTL.MA.IN,SP.PRM.GRAD.TO,SP.PRM.TOTL.FE.IN,SP.PRM.TOTL.IN,SP.PRM.TOTL.MA.IN,SP.SEC.LTOT.FE.IN,SP.SEC.LTOT.IN,SP.SEC.LTOT.MA.IN,SP.SEC.TOTL.FE.IN,SP.SEC.TOTL.IN,SP.SEC.TOTL.MA.IN,SP.SEC.UTOT.FE.IN,SP.SEC.UTOT.IN,SP.SEC.UTOT.MA.IN,UIS.SAP.1.G1,UIS.SAP.23.GPV.G1,UIS.SAP.23.GPV.G1.F,UIS.SAP.23.GPV.G1.M
count,211.0,212.0,211.0,210.0,210.0,211.0,210.0,210.0,211.0,210.0,210.0,211.0,210.0,210.0,211.0,210.0,210.0,210.0,209.0,209.0
mean,2069656.17,4260767.54,2211300.13,1581304.14,4241900.67,8711160.0,4510726.52,2490089.01,5101988.0,2636188.76,4903074.0,10042160.0,5186901.0,2412981.24,4940179.0,2550718.44,1593186.33,1581044.12,769253.45,816828.55
std,6585523.77,13696994.17,7143444.04,5009884.29,13231195.06,27425890.0,14257424.76,7599702.92,15715800.0,8151062.23,15468140.0,31990180.0,16593290.0,7932238.02,16404620.0,8509045.38,4962946.59,5060082.53,2439936.52,2632298.89
min,155.0,328.0,173.0,231.35,679.06,1419.24,740.18,349.0,733.0,384.0,621.76,1288.47,666.71,198.71,408.71,210.0,239.65,227.06,108.18,118.0
25%,41983.95,82486.73,43889.71,28741.71,74642.34,143395.4,79293.48,54332.65,107507.4,54410.9,96958.74,190336.1,100039.8,43885.91,87240.82,44954.71,33273.76,31304.68,15092.06,15316.65
50%,196974.18,406032.69,207650.59,134785.21,382371.22,771310.9,395998.69,222695.94,447374.8,232841.06,416947.9,844256.1,434618.7,193489.79,383685.8,195179.65,139181.2,134170.71,66015.53,68464.35
75%,830589.0,1695259.35,872603.25,583059.18,1655767.69,3399734.0,1754405.25,930873.5,1879858.0,966797.7,1852687.0,3780731.0,1940209.0,823933.2,1691772.0,864970.91,607844.12,571538.47,283150.29,292142.82
max,47566986.13,99861422.93,52294437.07,33853934.27,87681105.6,183403700.0,95722582.93,52381913.6,108865700.0,56483803.73,108265700.0,225708600.0,117442900.0,60827063.47,126638700.0,65811675.47,34343747.73,35558071.43,17016702.57,18541369.21


In [111]:
# Analyser les pays avec le plus/moins de données
nb_indicateurs_par_pays = df_aggrege[colonnes_indicateurs].notna().sum(axis=1)
df_aggrege['Nb_Indicateurs_Renseignes'] = nb_indicateurs_par_pays
print(f"\nPays avec le plus d'indicateurs renseignés:")
top_pays = df_aggrege.nlargest(10, 'Nb_Indicateurs_Renseignes')[['Country Name', 'Nb_Indicateurs_Renseignes']]
display(top_pays)

print(f"\nPays avec le moins d'indicateurs renseignés:")
bottom_pays = df_aggrege.nsmallest(10, 'Nb_Indicateurs_Renseignes')[['Country Name', 'Nb_Indicateurs_Renseignes']]
display(bottom_pays)


Pays avec le plus d'indicateurs renseignés:


Indicator Code,Country Name,Nb_Indicateurs_Renseignes
0,Aruba,20
1,Afghanistan,20
2,Angola,20
3,Albania,20
4,Arab World,20
6,Argentina,20
7,Armenia,20
8,Antigua and Barbuda,20
9,Australia,20
10,Austria,20



Pays avec le moins d'indicateurs renseignés:


Indicator Code,Country Name,Nb_Indicateurs_Renseignes
204,British Virgin Islands,6
20,Bosnia and Herzegovina,7
5,United Arab Emirates,17
137,Malaysia,18
18,Bahrain,19
88,Ireland,19
0,Aruba,20
1,Afghanistan,20
2,Angola,20
3,Albania,20


In [112]:
# Supprimer la colonne temporaire
df_aggrege = df_aggrege.drop('Nb_Indicateurs_Renseignes', axis=1)

In [113]:
# =============================================================================
# VALIDATION ET RECOMMANDATIONS
# =============================================================================

print(f"\n=== VALIDATION DU DATAFRAME FINAL ===")

# Vérifications de cohérence
print("Vérifications:")
print(f"✓ Structure: {df_aggrege.shape[0]} pays × {df_aggrege.shape[1]-2} indicateurs")
print(f"✓ Pas de doublons pays: {df_aggrege['Country Code'].nunique() == len(df_aggrege)}")
print(f"✓ Colonnes attendues: {set(colonnes_indicateurs) == set(indicateurs_academy_final)}")

# Recommandations pour la suite
print(f"\n=== RECOMMANDATIONS POUR L'ANALYSE SUIVANTE ===")
print("1. Le dataframe est prêt pour les analyses de clustering et scoring")
print("2. Considérer la normalisation des indicateurs (échelles différentes)")
print("3. Analyser les corrélations entre indicateurs")
print("4. Traiter les valeurs manquantes restantes si nécessaire")

print(f"\n=== SAUVEGARDE ===")
print("Dataframe final sauvegardé dans la variable: df_aggrege")
print("Structure finale:")
print(f"- Index: Country Code, Country Name")
print(f"- Colonnes: {len(colonnes_indicateurs)} indicateurs")
print(f"- Données: moyennes sur {len(years_pertinentes)} années ({min(years_pertinentes)}-{max(years_pertinentes)})")


=== VALIDATION DU DATAFRAME FINAL ===
Vérifications:
✓ Structure: 212 pays × 20 indicateurs
✓ Pas de doublons pays: True
✓ Colonnes attendues: True

=== RECOMMANDATIONS POUR L'ANALYSE SUIVANTE ===
1. Le dataframe est prêt pour les analyses de clustering et scoring
2. Considérer la normalisation des indicateurs (échelles différentes)
3. Analyser les corrélations entre indicateurs
4. Traiter les valeurs manquantes restantes si nécessaire

=== SAUVEGARDE ===
Dataframe final sauvegardé dans la variable: df_aggrege
Structure finale:
- Index: Country Code, Country Name
- Colonnes: 20 indicateurs
- Données: moyennes sur 20 années (2000-2025)


In [None]:
df_aggrege.head()