# Analyse Exploratoire des Données (EDA) - Banque Mondiale
## 1. Imports
Nous configurons l'environnement et listons les sources de données brutes.
Pour visualiser les données, nous définissons d'abord le chemin d'accès (**path**) où sont stockés les fichiers CSV. Nous récupérons ensuite la liste de ces fichiers dans une variable `all_files` en utilisant un pattern de recherche (**globbing**) avec l'extension `*.csv`.

## 2. Chargement des données
## Boucle d'itération et rendu des données
Cette étape permet de valider l'intégrité des fichiers CSV et d'obtenir un premier aperçu visuel des structures.

* **Identification** : Nous affichons le nom du fichier pour confirmer la lecture.
* **Chargement** : Le contenu est chargé dans un **DataFrame**.
* **Rendu** : Nous utilisons `display(df.head())` pour générer un rendu visuel des 5 premières entrées.

## Gestion des exceptions (Error Handling)
En cas d'erreur lors de la lecture ou de l'affichage, un bloc `try...except` permet de capturer l'exception. Le script affiche alors le nom du fichier problématique ainsi que le message d'erreur associé pour faciliter le débogage.

> **Note technique** :
> * **os** : Ce module fournit des fonctions pour interagir avec le système d'exploitation. Nous l'utilisons ici pour manipuler les chemins de fichiers (paths) de manière agnostique
> * **glob** : Cette bibliothèque est utilisée pour la recherche de fichiers via des patterns. Le globbing permet de lister tous les fichiers correspondant à une extension spécifique (ex: *.csv).
> * **pd.read_csv()** : C'est la fonction fondamentale de Pandas pour transformer un fichier CSV en un objet DataFrame (tableau structuré en lignes et colonnes).
> * **display()** : Une fonction spécifique à l'environnement IPython (Jupyter/DataSpell) qui permet un rendu HTML élégant des objets, plus lisible que le simple print().
> * **head($n$)** : Cette méthode retourne les $n$ premières lignes d'un DataFrame (par défaut 5).
> * **Gestion des exceptions : try... expect** : Ce bloc permet de tester un bloc de code (try). Si une erreur survient (fichier corrompu, chemin erroné), le programme ne plante pas brutalement mais exécute le bloc except, nous permettant d'afficher un message d'erreur personnalisé.

In [1]:
import numpy as np
import pandas as pd
import glob
import os
from IPython.display import Markdown
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

path = 'data'
all_files = glob.glob(os.path.join(path , "*.csv"))
dataframes = []

for file in all_files:
    try:
        file_name = os.path.basename(file)
        df = pd.read_csv(file)
        dataframes.append({"name": file_name, "data": df})
    except Exception as e:
        print(f"Erreur sur {file}: {e}")


In [2]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

In [3]:
print(f"--- Fichier : {dataframes[0]['name']} ---")
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0,
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,,


In [4]:
display(Markdown(f"## Analyse du fichier : {dataframes[1]['name']}"))

## Analyse du fichier : EdStatsCountry-Series.csv

In [5]:
print(f"--- Fichier : {dataframes[1]['name']} ---")
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION,Unnamed: 3
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...,
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...,
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...,
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.,
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...,


In [6]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [7]:
print(f"--- Fichier : {dataframes[2]['name']} ---")
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,...,,,,,,,,,,


In [8]:
display(Markdown(f"## Analyse du fichier : {dataframes[3]['name']}"))

## Analyse du fichier : EdStatsFootNote.csv

In [9]:
print(f"--- Fichier : {dataframes[3]['name']} ---")
display(dataframes[3]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Unnamed: 4
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,


In [10]:
display(Markdown(f"## Analyse du fichier : {dataframes[4]['name']}"))

## Analyse du fichier : EdStatsSeries.csv

In [11]:
print(f"--- Fichier : {dataframes[4]['name']} ---")
display(dataframes[4]['data'].head())

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,...,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,


## 3. Nettoyage et Analyse Exploratoire des Données (EDA)

Cette section automatise le processus de nettoyage et d'analyse descriptive pour l'ensemble des fichiers chargés. L'objectif est de garantir l'intégrité des données et d'optimiser la structure des DataFrames avant l'analyse approfondie.

### Méthodologie appliquée par fichier :

1. **Définition de l'unité d'observation (*Row definition*)** :
   - Identification de la granularité technique d'une ligne (ex: une observation unique pays/année/indicateur).
2. **Évaluation de la volumétrie (*Shape*)** :
   - Calcul du nombre de lignes (*records*) et de colonnes (*features*) pour quantifier le dataset.
3. **Traitement des Redondances (*Deduplication*)** :
   - Détection et suppression des doublons pour éviter de biaiser les futurs calculs statistiques (moyennes, sommes).
4. **Analyse de la complétude (*Missing Values*)** :
   - Calcul de la proportion de valeurs manquantes (`NaN`) par colonne pour évaluer la fiabilité de chaque variable.
5. **Optimisation du Dataset (*Pruning*)** :
   - Suppression des colonnes jugées inutilisables (ex: colonnes techniques vides ou colonnes ayant plus de 90% de valeurs manquantes).
      - #### Justification technique :

        * **Significativité statistique** : Une variable renseignée à moins de 10% ne permet pas d'extraire des tendances représentatives et introduit un "bruit" analytique (*statistical noise*) qui fausse les mesures de tendance centrale comme les moyennes et les écart-types.
        * **Pertinence temporelle** : Dans le fichier `EdStatsData.csv`, ce seuil permet d'éliminer les projections à très long terme (ex: 2070-2100) qui sont quasi-intégralement vides, tout en conservant les données historiques réelles indispensables à l'analyse.
        * **Performance (*Memory Management*)** : La suppression de ces colonnes réduit l'empreinte mémoire du DataFrame, ce qui accélère les calculs ultérieurs (calculs vectorisés), une pratique essentielle sur des jeux de données dépassant les 800 000 lignes.

6. **Analyse Descriptive (*Numerical & Categorical Features*)** :
   - **Colonnes Numériques** : Application de `.describe()` pour obtenir les mesures de tendance centrale et de dispersion (Min, Max, Moyenne, Quartiles).
   - **Colonnes Catégorielles** : Calcul des occurrences via `.value_counts()` pour identifier les modalités dominantes et les déséquilibres potentiels.

> **Note technique :** Afin de garantir un rendu visuel stable dans l'IDE et un export PDF professionnel, les résultats catégoriels sont convertis en structures tabulaires (*DataFrames*) avant d'être affichés via la fonction `display()`.

### 3.1 Définition de l'unité d'observation
### EdStatsCountry.csv
* **Définition** : Une ligne représente un pays unique ou une entité géographique (ex: une région comme l'Amérique Latine).
* **Clé primaire** : `CountryCode`
* **Contenu** : Toutes les caractéristiques fixes du pays (monnaie, région, système de recensement, etc...)

### EdStatsSeries.csv
* **Définition** : Une ligne représente un indicateur statistique unique (un "Series").
* **Clé primaire** : `SeriesCode`
* **Contenu** : Les définitions, les sources et les méthodologies pour chaque type de donnée mesurée (ex: taux d'inscription scolaire).

### EdStatsCountry-Series.csv
* **Définition** : Une ligne représente une relation spécifique entre un pays et un indicateur.
* **Clé composite** : `CountryCode` + `SeriesCode`
* **Contenu** : Il sert de table de liaison. Il précise souvent la source de données spécifique utilisée pour cet indicateur dans ce pays précis (colonne `DESCRIPTION`).

### EdStatsFootNote.csv
* **Définition** : Une ligne représente une note de bas de page liée à une mesure spécifique.
* **Clé composite** : `CountryCode` + `SeriesCode` + `Year`
* **Contenu** : Une explication textuelle (`DESCRIPTION`) pour justifier une anomalie ou une estimation pour une année donnée.

### EdStatsData.csv
* **Définition** : Une ligne représente l'évolution historique d'un indicateur pour un pays.
* **Clé composite** : `CountryCode` + `IndicatorCode`
* **Contenu** : Contrairement aux autres, ce fichier est "large" dans un format `pivoté` : il contient les valeurs numériques pour chaque année de 1970 à 2100 sur la même ligne.

In [12]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

> **Note technique .shape :**
> * **Fonctionnement** : Contrairement à une méthode, .shape est un attribut (propriété) du DataFrame. Il ne prend pas de parenthèses (). Il renvoie un tuple contenant deux éléments : (nombre_de_lignes, nombre_de_colonnes).
> * **utilité** : C'est le premier indicateur de la complexité du fichier. Il permet également de valider l'impact de nos futurs filtrages en comparant les dimensions "avant" et "après".

In [13]:
rows, columns = dataframes[0]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[0]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsCountry.csv comprend 241 lignes et 32 colonnes

> **Traitement des redondances**
> * **.duplicated()** : Cette méthode parcourt le DataFrame et renvoie un masque booléen (une série de `True` ou `False`). Elle marque True pour chaque ligne dont toutes les valeurs sont strictement identiques à une ligne précédente.
> * **.sum()** : En Python, les valeurs booléennes sont traitées numériquement (`True = 1` et `False = 0`). En appliquant `.sum()` sur le résultat de duplicated(), nous obtenons instantanément le nombre total de lignes dupliquées.

In [14]:
duplicate_count = dataframes[0]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[0]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsCountry.csv posséde 0 lignes dupliquées

> * **.drop_duplicates()** : Si le compte est supérieur à zéro, cette méthode permet de supprimer les copies pour ne conserver qu'une seule occurrence unique de chaque ligne.

In [15]:
if duplicate_count > 0:
    dataframes[0]['data'] = dataframes[0]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valeurs manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant.

> **Analyse de la complétude** :
> * **.isnull() ou .isna()** :  Cette méthode génère un masque booléen où chaque cellule vide (NaN) est marquée comme True.
> * **len()** : En divisant la somme des valeurs nulles par la longueur totale du DataFrame (`len(df)`), nous obtenons une proportion que nous multiplions par 100 pour obtenir un pourcentage lisible.
> * **pd.DataFrame()** : Nous reconstruisons un nouveau tableau pour synthétiser ces résultats, ce qui facilite la lecture par rapport à une simple liste brute.
> * **.sort_values()** : Cette méthode permet de trier le résultat. En utilisant ascending=False, nous plaçons les colonnes les plus vides en haut de tableau pour identifier immédiatement les variables inutilisables.

In [16]:
percent_missing = dataframes[0]['data'].isnull().sum() * 100 / len(dataframes[0]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[0]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 31,Unnamed: 31,100.0
National accounts reference year,National accounts reference year,86.721992
Alternative conversion factor,Alternative conversion factor,80.497925
Other groups,Other groups,75.93361
Latest industrial data,Latest industrial data,55.60166
Vital registration complete,Vital registration complete,53.941909
External debt Reporting status,External debt Reporting status,48.547718
Latest household survey,Latest household survey,41.493776
Latest agricultural census,Latest agricultural census,41.078838
Lending category,Lending category,40.248963


### 3.5. Néttoyage des collones atteignant plus de 90% de valeurs manquantes

> **Optimisation du Data Set**
> * **.dropna() avec un seuil** : axis=1 : Ce paramètre indique à Pandas d'agir sur les colonnes (l'axe vertical) plutôt que sur les lignes.
> * **thresh=limit** : C'est le paramètre de seuil (threshold). Il définit le nombre minimum de valeurs non-nulles requises pour que la colonne soit conservée.
> * **Logique de calcul** : Si on définis limit à 10% de la longueur totale (len(df) * 0.1), toute colonne ayant plus de 90% de données manquantes sera supprimée.
> * **Utilité** : Cette méthode est plus robuste que de supprimer les colonnes par leur nom, car elle s'adapte dynamiquement au contenu réel de chaque fichier sans hardcoding.

In [17]:
limit = len(dataframes[0]['data']) * 0.1
dataframes[0]['data'] = dataframes[0]['data'].dropna(axis=1, thresh=limit)
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,,2010,,,Yes,,,2012.0,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,


In [18]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[0]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsCountry.csv

> **Analyse descriptive (Numerical feature)** :
> * **select_dtypes(include=['number'])** : Cette méthode filtre le DataFrame pour ne conserver que les colonnes de type numérique (entiers ou flottants). C'est une sécurité indispensable avant de lancer des calculs mathématiques qui échoueraient sur du texte.
> * **.empty** : Un attribut qui renvoie True si le DataFrame résultant ne contient aucune donnée. Nous l'utilisons pour conditionner l'affichage et éviter des erreurs de rendu.
> * **.describe()** : La fonction maîtresse de l'analyse descriptive. Elle génère automatiquement un tableau de synthèse incluant :
> * count : Le nombre de valeurs renseignées (non-nulles).
> * mean : La moyenne arithmétique.
> * std : L'écart-type, mesurant la dispersion des données autour de la moyenne.
> * min / max : Les valeurs extrêmes du jeu de données.
> * 25%, 50% (médiane), 75% : Les quartiles, permettant de comprendre la répartition des données.

In [19]:
numeric_df = dataframes[0]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[0]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[0]['name']} ne posséde pas de valeur numérique"))

Unnamed: 0,National accounts reference year,Latest industrial data,Latest trade data
count,32.0,107.0,185.0
mean,2001.53125,2008.102804,2010.994595
std,5.24856,2.616834,2.569675
min,1987.0,2000.0,1995.0
25%,1996.75,2007.5,2011.0
50%,2002.0,2009.0,2012.0
75%,2005.0,2010.0,2012.0
max,2012.0,2010.0,2012.0


In [20]:
df_source = dataframes[0]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[0]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsCountry.csv

> **Analyse des variables catégorielles**
> * **select_dtypes(include=['object', 'string'])** : Cette méthode cible exclusivement les colonnes textuelles (catégorielles).
> * **value_count().head(5)** : Pour chaque colonne, nous calculons la fréquence d'apparition de chaque texte et ne conservons que le "Top 5".
> * **reset_index et insert()** : Ces manipulations permettent de transformer un résultat de calcul (Series) en un tableau propre, en réintégrant le nom de la variable d'origine comme une colonne à part entière.
> * **pd.concat()** : Cette fonction est l'équivalent d'un "collage" de tableaux. Elle rassemble tous les petits rapports individuels (report_chunks) en un seul grand DataFrame final pour une lecture centralisée.
> * **pd.option_context** : C'est un "gestionnaire de contexte" (utilisé avec le mot-clé with). Il permet de modifier temporairement les réglages de Pandas uniquement pour le bloc de code qui suit.
> * **'display.max_rows'** : En réglant cette option sur None, on indique à Pandas qu'il n'y a plus de limite au nombre de lignes à afficher.
> * **Avantage** : Une fois sorti du bloc with, Pandas reprend ses réglages par défaut, ce qui évite d'encombrer le Notebook pour les autres affichages plus petits.

In [21]:
with pd.option_context('display.max_rows', None):
    display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,Country Code,ABW,1
1,Country Code,AFG,1
2,Country Code,AGO,1
3,Country Code,ALB,1
4,Country Code,AND,1
5,Short Name,Aruba,1
6,Short Name,Afghanistan,1
7,Short Name,Angola,1
8,Short Name,Albania,1
9,Short Name,Andorra,1


In [22]:
display(Markdown(f"## Analyse du fichier : {dataframes[1]['name']}"))

## Analyse du fichier : EdStatsCountry-Series.csv

In [23]:
rows, columns = dataframes[1]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[1]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsCountry-Series.csv comprend 613 lignes et 4 colonnes

In [24]:
duplicate_count = dataframes[1]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[1]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsCountry-Series.csv posséde 0 lignes dupliquées

In [25]:
if duplicate_count > 0:
    dataframes[1]['data'] = dataframes[1]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valeurs manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant.

In [26]:
percent_missing = dataframes[1]['data'].isnull().sum() * 100 / len(dataframes[1]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[1]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 3,Unnamed: 3,100.0
CountryCode,CountryCode,0.0
SeriesCode,SeriesCode,0.0
DESCRIPTION,DESCRIPTION,0.0


### 3.5. Néttoyage des collones atteignant plus de 90% de valeurs manquantes

In [27]:
limit = len(dataframes[1]['data']) * 0.1
dataframes[1]['data'] = dataframes[1]['data'].dropna(axis=1, thresh=limit)
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...


In [28]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[1]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsCountry-Series.csv

In [29]:
numeric_df = dataframes[1]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[1]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[1]['name']} ne posséde pas de valeur numérique"))

 Le fichier : EdStatsCountry-Series.csv ne posséde pas de valeur numérique

In [30]:
df_source = dataframes[1]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[1]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsCountry-Series.csv

In [31]:
with pd.option_context('display.max_rows', None):
    display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,CountryCode,GEO,18
1,CountryCode,MDA,18
2,CountryCode,CYP,12
3,CountryCode,MAR,12
4,CountryCode,MUS,12
5,SeriesCode,SP.POP.TOTL,211
6,SeriesCode,SP.POP.GROW,211
7,SeriesCode,NY.GDP.PCAP.PP.CD,19
8,SeriesCode,NY.GDP.PCAP.PP.KD,19
9,SeriesCode,NY.GNP.PCAP.PP.CD,19


In [32]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [33]:
rows, columns = dataframes[2]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[2]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsData.csv comprend 886930 lignes et 70 colonnes

In [34]:
duplicate_count = dataframes[2]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[2]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsData.csv posséde 0 lignes dupliquées

In [35]:
if duplicate_count > 0:
    dataframes[2]['data'] = dataframes[2]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valuers manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant

In [36]:
percent_missing = dataframes[2]['data'].isnull().sum() * 100 / len(dataframes[2]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[2]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 69,Unnamed: 69,100.000000
2017,2017,99.983877
2016,2016,98.144160
1971,1971,95.993258
1973,1973,95.992356
...,...,...
2010,2010,72.665036
Country Code,Country Code,0.000000
Indicator Code,Indicator Code,0.000000
Indicator Name,Indicator Name,0.000000


### 3.5. Nettoyage des collones atteignant plus de 90% de valuers manquantes

In [37]:
limit = len(dataframes[3]['data']) * 0.1
dataframes[2]['data'] = dataframes[2]['data'].dropna(axis=1, thresh=limit)
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1975,1980,1985,1990,1991,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,59.36554,65.617767,69.033211,71.995819,72.602837,...,82.685509,83.280342,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,


**Observation des données brutes**:

L'analyse du taux de valeurs manquantes (Missing Values) montre des seuils critiques pour les années post-2015:
   - **2016** : 98,14 % de données manquantes.
   - **2017** : 99,98 % de données manquantes.
   - **2018 - 2027** : Taux de vacuité proche de 100 % pour les indicateurs thématiques sélectionnés (Education, IT, Learning Outcomes).

In [38]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[2]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsData.csv

In [39]:
numeric_df = dataframes[2]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[2]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[2]['name']} ne posséde pas de valeur numérique"))

Unnamed: 0,1970,1975,1980,1985,1990,1991,1992,1993,1994,1995,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
count,72288.0,87306.0,89122.0,90296.0,124405.0,74437.0,75543.0,75793.0,77462.0,131361.0,...,140312.0,137272.0,134387.0,142108.0,242442.0,146012.0,147264.0,137509.0,113789.0,131058.0
mean,1974772000.0,2314288000.0,3283898000.0,3622763000.0,9084424000.0,15716740000.0,16046680000.0,16435320000.0,16840220000.0,10525430000.0,...,16846740000.0,18723000000.0,20297940000.0,18949070000.0,11895920000.0,21179110000.0,21763230000.0,24253320000.0,26784490000.0,23537200000.0
std,121168700000.0,137505900000.0,178077400000.0,200292900000.0,366566700000.0,488135700000.0,501205500000.0,512196200000.0,529298200000.0,428521800000.0,...,685148400000.0,746568800000.0,794413200000.0,762365000000.0,621871000000.0,855585300000.0,883395500000.0,951301600000.0,1023180000000.0,973246500000.0
min,-1.435564,-3.658569,-1.40424,-2.216315,-1.80375,-5.814339,-5.089333,-6.184857,-4.792691,-2.697722,...,-370894.0,-388217.0,-408854.0,-456124.0,-496905.0,-570994.0,-604993.0,-615748.0,-89.0,-2.467847
25%,0.89,1.4,1.77,2.15,4.83,51.34554,49.33854,49.44877,47.83283,5.2,...,12.77624,12.68661,12.33467,11.81939,1.322703,12.1633,11.0,13.06113,16.14639,0.41
50%,6.317724,9.67742,11.07,12.0,50.48379,39160.0,34773.0,34971.0,31825.0,50.18663,...,99.81849,100.0,100.0,99.25039,20.4602,98.5351,97.59012,100.0,100.0,52.35
75%,62.5125,78.54163,82.0276,83.38313,91343.0,438313.0,424612.5,431625.0,424460.5,79540.0,...,118719.8,134379.0,145385.5,118041.2,3121.0,106506.5,103816.8,142648.0,163644.0,61535.75
max,19039290000000.0,23006340000000.0,27843190000000.0,31664650000000.0,47143440000000.0,47812720000000.0,48664460000000.0,49596000000000.0,51065810000000.0,52754480000000.0,...,80318400000000.0,84691450000000.0,87110220000000.0,86775160000000.0,91346760000000.0,95063140000000.0,99994730000000.0,105458000000000.0,110806000000000.0,115619800000000.0


### 3.6. Note sur l'analyse descriptive de EdStatsData.csv

Bien que la méthode `.describe()` s'exécute sans erreur technique sur ce fichier, les résultats statistiques globaux (moyenne, écart-type) sont **analytiquement inutilisables** en l'état pour les raisons suivantes :

* **Hétérogénéité des indicateurs (*Mixed Scales*)** : Chaque colonne "Année" mélange des données de natures totalement différentes. Faire la moyenne entre un PIB (en milliers de milliards), une population (en milliards) et un taux d'alphabétisation (en pourcentage) génère un chiffre dépourvu de sens métier.
* **Biais de dispersion (*Variance Bias*)** : L'écart-type (*standard deviation*) extrêmement élevé observé dans les résultats (ex: $1.2 \times 10^{11}$ pour 1970) confirme que les données ne suivent pas une distribution commune. Ce "bruit" statistique masque la réalité de chaque indicateur individuel.
* **Interprétation** : Pour obtenir des statistiques descriptives cohérentes, il est impératif d'effectuer un **filtrage préalable** sur la colonne `Indicator Code` afin d'isoler une seule métrique avant d'appliquer des calculs d'agrégation.

> **Conclusion de l'audit** : Ce tableau global n'est conservé ici qu'à titre de validation technique de la lecture des données numériques. Ce jeu de données servira exclusivement de base à une analyse par filtrage sélectif (méthodes `.loc` ou `.query`). Cette approche est la seule permettant de garantir la pertinence des calculs en isolant chaque métrique de son contexte d'origine.

In [40]:
df_source = dataframes[1]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[1]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsCountry-Series.csv

In [41]:
with pd.option_context('display.max_rows', None):
    display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,CountryCode,GEO,18
1,CountryCode,MDA,18
2,CountryCode,CYP,12
3,CountryCode,MAR,12
4,CountryCode,MUS,12
5,SeriesCode,SP.POP.TOTL,211
6,SeriesCode,SP.POP.GROW,211
7,SeriesCode,NY.GDP.PCAP.PP.CD,19
8,SeriesCode,NY.GDP.PCAP.PP.KD,19
9,SeriesCode,NY.GNP.PCAP.PP.CD,19


In [42]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [43]:
rows, columns = dataframes[3]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[3]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsFootNote.csv comprend 643638 lignes et 5 colonnes

In [44]:
duplicate_count = dataframes[3]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[3]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsFootNote.csv posséde 0 lignes dupliquées

In [45]:
if duplicate_count > 0:
    dataframes[3]['data'] = dataframes[3]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valuers manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant

In [46]:
percent_missing = dataframes[3]['data'].isnull().sum() * 100 / len(dataframes[3]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[3]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 4,Unnamed: 4,100.0
CountryCode,CountryCode,0.0
SeriesCode,SeriesCode,0.0
Year,Year,0.0
DESCRIPTION,DESCRIPTION,0.0


### 3.5. Nettoyage des collones atteignant plus de 90% de valuers manquantes

In [47]:
limit = len(dataframes[3]['data']) * 0.1
dataframes[3]['data'] = dataframes[3]['data'].dropna(axis=1, thresh=limit)
display(dataframes[3]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.


In [48]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[3]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsFootNote.csv

In [49]:
numeric_df = dataframes[3]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[3]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[3]['name']} ne posséde pas de valeur numérique"))

 Le fichier : EdStatsFootNote.csv ne posséde pas de valeur numérique

In [50]:
df_source = dataframes[3]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[3]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsFootNote.csv

In [51]:
with pd.option_context('display.max_rows', None):
    display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,CountryCode,LIC,7320
1,CountryCode,CYP,7183
2,CountryCode,LDC,6481
3,CountryCode,SSA,6389
4,CountryCode,SSF,6336
5,SeriesCode,SH.DYN.MORT,9226
6,SeriesCode,SE.PRM.AGES,8771
7,SeriesCode,SE.PRM.DURS,8771
8,SeriesCode,SE.SEC.DURS,8619
9,SeriesCode,SE.SEC.AGES,8581


In [52]:
display(Markdown(f"## Analyse du fichier : {dataframes[4]['name']}"))

## Analyse du fichier : EdStatsSeries.csv

In [53]:
rows, columns = dataframes[4]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[4]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsSeries.csv comprend 3665 lignes et 21 colonnes

In [54]:
duplicate_count = dataframes[4]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[4]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsSeries.csv posséde 0 lignes dupliquées

In [55]:
if duplicate_count > 0:
    dataframes[4]['data'] = dataframes[4]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valuers manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant

In [56]:
percent_missing = dataframes[4]['data'].isnull().sum() * 100 / len(dataframes[4]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[4]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 20,Unnamed: 20,100.0
Notes from original source,Notes from original source,100.0
License Type,License Type,100.0
Related indicators,Related indicators,100.0
Other web links,Other web links,100.0
Unit of measure,Unit of measure,100.0
Development relevance,Development relevance,99.918145
General comments,General comments,99.618008
Limitations and exceptions,Limitations and exceptions,99.618008
Statistical concept and methodology,Statistical concept and methodology,99.372442


### 3.5. Nettoyage des collones atteignant plus de 90% de valuers manquantes

In [57]:
limit = len(dataframes[4]['data']) * 0.1
dataframes[4]['data'] = dataframes[4]['data'].dropna(axis=1, thresh=limit)
display(dataframes[4]['data'].head())

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Other notes,Source
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,Robert J. Barro and Jong-Wha Lee: http://www.b...


In [58]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[4]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsSeries.csv

In [59]:
numeric_df = dataframes[4]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[4]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[4]['name']} ne posséde pas de valeur numérique"))

 Le fichier : EdStatsSeries.csv ne posséde pas de valeur numérique

In [60]:
df_source = dataframes[4]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[4]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsSeries.csv

In [61]:
with pd.option_context('display.max_rows', None):
    display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,Series Code,BAR.NOED.1519.FE.ZS,1
1,Series Code,BAR.NOED.1519.ZS,1
2,Series Code,BAR.NOED.15UP.FE.ZS,1
3,Series Code,BAR.NOED.15UP.ZS,1
4,Series Code,BAR.NOED.2024.FE.ZS,1
5,Topic,Learning Outcomes,1046
6,Topic,Attainment,733
7,Topic,Education Equality,426
8,Topic,Secondary,256
9,Topic,Primary,248


## 4. Nettoyage des entités non-étatiques (Faux pays)

Cette étape vise à garantir la cohérence référentielle du dataset en isolant les véritables pays des agrégats statistiques (ex: World, High Income).

### Méthodologie appliquée :

1. **Identification dans `EdStatsCountry.csv`** :
   - Audit de la colonne `Region` : les entités n'ayant pas d'affectation régionale sont identifiées comme des agrégats économiques ou mondiaux.
2. **Purification du référentiel** :
   - Suppression des lignes identifiées dans `EdStatsCountry.csv` pour créer une "Source de Vérité" fiable.
   - Extraction de la "Liste Blanche" : Création de la liste des Country Code valides à partir du fichier fraîchement nettoyé.
3. **Propagation du nettoyage aux autres DataFrames** :
   - **Méthode par liste :** Utilisation de la liste extraite précédemment pour filtrer les autres tables.
   - **Méthode par jointure :** Utilisation d'un `inner join` (jointure interne) pour ne conserver que les enregistrements dont la clé (`Country Code`) existe dans le référentiel nettoyé.

### 4.2.1. Suppression des lignes identifiées dans `EdStatsCountry.csv` pour créer une "Source de Vérité" fiable.

In [62]:
dataframes[0]['data'] = dataframes[0]['data'].dropna(subset=['Region'])
display(dataframes[0]['data'])

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,,2010,,,Yes,,,2012.0,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
236,XKX,Kosovo,Kosovo,Republic of Kosovo,,Euro,"Kosovo became a World Bank member on June 29, ...",Europe & Central Asia,Lower middle income,KV,...,,General Data Dissemination System (GDDS),2011,,"Integrated household survey (IHS), 2011",,,,,
237,YEM,Yemen,"Yemen, Rep.",Republic of Yemen,YE,Yemeni rial,Based on official government statistics and In...,Middle East & North Africa,Lower middle income,RY,...,Budgetary central government,General Data Dissemination System (GDDS),2004,"Demographic and Health Survey (DHS), 2013","Expenditure survey/budget survey (ES/BS), 2005",,,2006.0,2012.0,2005
238,ZAF,South Africa,South Africa,Republic of South Africa,ZA,South African rand,Fiscal year end: March 31; reporting period fo...,Sub-Saharan Africa,Upper middle income,ZA,...,Consolidated central government,Special Data Dissemination Standard (SDDS),2011,"Demographic and Health Survey (DHS), 2003; Wor...","Expenditure survey/budget survey (ES/BS), 2010",,2007,2010.0,2012.0,2000
239,ZMB,Zambia,Zambia,Republic of Zambia,ZM,New Zambian kwacha,National accounts data have rebased to reflect...,Sub-Saharan Africa,Lower middle income,ZM,...,Budgetary central government,General Data Dissemination System (GDDS),2010,"Demographic and Health Survey (DHS), 2013","Integrated household survey (IHS), 2010",,2010. Population and Housing Census.,,2011.0,2002


### 4.2.2. Extraction de la "Liste Blanche" : Création de la liste des Country Code valides à partir du fichier fraîchement nettoyé.

> **Extraction de la 'white list'** :
> * **.unique()** : Cette méthode de Pandas identifie toutes les valeurs distinctes dans une colonne. Elle élimine les doublons potentiels et renvoie un objet de type Numpy Array.
> * **.tolist()** : Comme son nom l'indique, cette méthode convertit l'objet Pandas/Numpy en une liste standard Python. C'est une étape cruciale car les listes Python sont plus simples à manipuler pour les opérations de filtrage itératives.
> * **[:5] (Slicing)** : Puisque la liste contient des centaines d'éléments, nous utilisons le découpage (slicing) pour n'afficher que les 5 premiers. Cela permet de valider visuellement le format des données (ex: ['ABW', 'AFG', ...]) sans encombrer le Notebook.

In [63]:
list_countryCode = dataframes[0]['data']['Country Code'].unique().tolist()
display(list_countryCode[:5])

['ABW', 'AFG', 'AGO', 'ALB', 'AND']

### 4.3.1. Utilisation de la liste extraite précédemment pour filtrer les autres tables.

In [64]:
display(Markdown(f" Nombre de lignes avant filtrage pour le fichier {dataframes[1]['name']} : {len(dataframes[1]['data'])}"))

 Nombre de lignes avant filtrage pour le fichier EdStatsCountry-Series.csv : 613

> **Filtrage par appartenance**
> * **.isin()** : .isin(liste) : Cette méthode est un filtre puissant qui compare chaque valeur d'une colonne avec une liste de référence. Elle renvoie True si la valeur est présente dans la liste, et False sinon.
> * **Indexation booléenne** : En plaçant ce filtre entre crochets df[mask], Pandas ne conserve que les lignes où la condition est True. Ici, cela permet d'éliminer instantanément toutes les lignes correspondant à des agrégats ou à des entités non-étatiques.
> * **Réaffectation** : En réaffectant le résultat à `dataframes[1]['data']`, nous mettons à jour le DataFrame en mémoire avec sa version nettoyée.
> * .head() : Comme vu précédemment, nous terminons par un affichage des premières lignes pour confirmer visuellement que le format des données reste cohérent après le filtrage.

In [65]:
dataframes[1]['data'] = dataframes[1]['data'][dataframes[1]['data']['CountryCode'].isin(list_countryCode)]
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...


In [66]:
display(Markdown(f" Nombre de lignes aprés filtrage pour le fichier {dataframes[1]['name']} : {len(dataframes[1]['data'])}"))

 Nombre de lignes aprés filtrage pour le fichier EdStatsCountry-Series.csv : 611

In [67]:
display(Markdown(f" Nombre de lignes avant filtrage pour le fichier {dataframes[2]['name']} : {len(dataframes[2]['data'])}"))

 Nombre de lignes avant filtrage pour le fichier EdStatsData.csv : 886930

In [68]:
dataframes[2]['data'] = dataframes[2]['data'][dataframes[2]['data']['Country Code'].isin(list_countryCode)]
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1975,1980,1985,1990,1991,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
91625,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,28.05987,,,,,,47.43679,50.627232,
91626,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,15.2231,,,,,,34.073261,37.641541,
91627,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,0.37913,,,,,,0.56706,0.59837,
91628,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,40.152851,,,,,,60.087059,62.906952,
91629,Afghanistan,AFG,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,,,,,,,...,,,,,,,,,,


In [69]:
display(Markdown(f" Nombre de lignes aprés filtrage pour le fichier {dataframes[2]['name']} : {len(dataframes[2]['data'])}"))

 Nombre de lignes aprés filtrage pour le fichier EdStatsData.csv : 784310

### 4.3.2. Utilisation d'un `inner join` (jointure interne) pour ne conserver que les enregistrements dont la clé (`Country Code`) existe dans le référentiel nettoyé.

In [70]:
display(Markdown(f" Nombre de lignes avant filtrage pour le fichier {dataframes[3]['name']} : {len(dataframes[3]['data'])}"))

 Nombre de lignes avant filtrage pour le fichier EdStatsFootNote.csv : 643638

> **Synchronisation par jointure relationnelle** :
> * **.merge()** : Fonctionnement : Cette méthode réalise une jointure (join) entre deux DataFrames, à la manière d'une base de données SQL. Elle combine les colonnes de deux tableaux en se basant sur une valeur commune.
 > * **how='inner** : Ce paramètre définit une jointure "interne". Pandas ne conserve que les lignes dont la clé de jointure est présente simultanément dans les deux fichiers. Les "faux pays" absents du référentiel nettoyé sont donc automatiquement éliminés.
> * **left_on et right_on** : Ces arguments sont utilisés lorsque les colonnes de jointure n'ont pas le même nom. Ici, nous lions la colonne CountryCode (sans espace) du fichier FootNote à la colonne Country Code (avec espace) du référentiel.
> * **Avantage** : Contrairement au filtrage simple, le merge permet de ramener des informations complémentaires d'une table vers une autre tout en assurant l'intégrité référentielle.

In [71]:
dataframes[3]['data'] = dataframes[3]['data'].merge(dataframes[0]['data']['Country Code'], how='inner', left_on='CountryCode', right_on='Country Code')
display(dataframes[3]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Country Code
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,ABW
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,ABW
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,ABW
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,ABW
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,ABW


In [72]:
display(Markdown(f" Nombre de lignes aprés filtrage pour le fichier {dataframes[3]['name']} : {len(dataframes[3]['data'])}"))

 Nombre de lignes aprés filtrage pour le fichier EdStatsFootNote.csv : 515752

> **Note sur `EdStatsFootNote`** : Le fichier `EdStatsFootNote.csv` contient deux colonnes `Country Code` il sera prévus de supprimer la colonne redondante.

> **Note sur le périmètre de filtrage** : Le fichier `EdStatsSeries.csv` n'est pas concerné par ce nettoyage. En tant que référentiel métier des indicateurs, il ne contient aucune dimension géographique (`Country Code`) et ses définitions restent valides pour l'ensemble du domaine d'étude.

## 5. Réduction du périmètre analytique

L'analyse initiale a révélé un volume d'indicateurs trop important pour une exploitation manuelle pertinente. Cette section détaille la stratégie de filtrage thématique et temporel pour répondre aux besoins d'expansion internationale de la start-up Academy.

### Méthodologie appliquée :

1. **Filtrage thématique :**
   - **Analyse des catégories :** Nous utilisons la colonne `Topic` du fichier `EdStatsSeries` pour identifier les thématiques structurantes.
   - **Critères de sélection :**
      - Inclusion des catégories liées au secondaire (Lycée) et au tertiaire (Université).
      - Inclusion des données sur l'accès aux technologies (IT) et les résultats d'apprentissage.
      - Exclusion des thématiques économiques pures ou de santé sans lien direct avec l'éducation.
   - **Impact :** Réduction du nombre de `Series Code` pour gagner en lisibilité et en performance de calcul.
   - **Catégories retenues** :
      - **Secondary & Tertiary** : Identification directe du volume de clients cibles (Lycée/Université).
      - **Learning Outcomes** : Mesure de la performance éducative réelle (besoin potentiel en soutien scolaire).
      - **Literacy** : Évaluation du socle de compétences de base de la population.
      - **Attainment** : Pour mesurer les diplômes déjà obtenus.
      - **Infrastructure: Communications** : Vérification de la faisabilité technique pour l'enseignement en ligne (connectivité).
2. **Filtrer l'ensemble des jeux de données** :
    - **Séparation des flux de traitement** :
      - Table de liaison (Country-Series) : Isolation dans des variables spécifiques pour diagnostic (résultats nuls observés).
      - Tables transactionnelles : Écrasement séléctif pour optimisation de la mémoire vive
3. **Filtrage temporel** : Filtrez l’ensemble des jeux de données pour ne garder que les indicateurs sélectionnés.
**Objectif :** Se concentrer sur les données actuelles et exploitables pour une décision d'implantation immédiate.
   - **Interprétation des années futures :** Les colonnes allant de 2025 à 2100 dans EdStatsData correspondent à des projections démographiques théoriques.
   - **Hypothèse métier :** Pour une stratégie d'expansion à court et moyen terme, ces projections lointaines sont jugées hors périmètre et présentent un taux de remplissage quasi nul.
   - **Action :** Suppression des colonnes d'années futures via une liste générée dynamiquement (`np.arange`).
   - **Plage temporelle retenues** :
      - **2010 - 2019** :  Fournit un historique stable pour comprendre l'évolution éducative sur le long terme.
      - **2020 - 2025** : Capture l'impact de la numérisation accélérée de l'enseignement (période COVID et post-COVID).
      - **2026 - 2027** : Offre une vision "présent et futur proche" pour la prise de décision immédiate.
4. **Filtrer le fichier Data** : Filtrer les années en conséquences de l'analyse de la plage temporelle pertinantes.

In [73]:
target_topics = [
    'Secondary',
    'Tertiary',
    'Infrastructure: Communications',
    'Learning Outcomes',
    'Attainment',
    'Literacy'
]

df_series_filtered = dataframes[4]['data'][dataframes[4]['data']['Topic'].isin(target_topics)]
valid_series_codes = df_series_filtered['Series Code'].unique().tolist()


## 5.1. Filtrage thématique
Nous extrayons les codes d'indicateurs (`Series Code`) issus du référentiel thématique pour les utiliser comme clé de filtrage sur le dataset principal.
Création d'un dataframe basé sur EdStatsSeries contenant uniquement les `Topic` séléctionnés précédemment via `isin()` à partie d'une white list.

In [74]:
display(df_series_filtered)

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Other notes,Source
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
...,...,...,...,...,...,...,...
3552,UIS.thDur.4.A.GPV,Tertiary,Theoretical duration of post-secondary non-ter...,,Number of grades (years) in post-secondary edu...,,UNESCO Institute for Statistics
3553,UIS.TranRA.23.GPV.GPI,Secondary,Effective transition rate from primary to lowe...,,The ratio of the female transition rate to the...,,UNESCO Institute for Statistics
3578,UIS.UAPP.23,Secondary,Under-age enrolment ratio in secondary educati...,,Percentage of the secondary school age populat...,,UNESCO Institute for Statistics
3579,UIS.UAPP.23.F,Secondary,Under-age enrolment ratio in secondary educati...,,Percentage of the female secondary school age ...,,UNESCO Institute for Statistics


In [75]:
display(Markdown(f"Nombre de lignes dans `EdStatsSeries.csv` : {len(dataframes[4]['data'])}, nombres de lignes restant aprés filtrage par `Topic` : {len(valid_series_codes)}"))

Nombre de lignes dans `EdStatsSeries.csv` : 3665, nombres de lignes restant aprés filtrage par `Topic` : 2227

In [76]:
display(Markdown(f"### Nombre d'indicateur restant {len(valid_series_codes)}"))

### Nombre d'indicateur restant 2227

Création d'une liste de `Series Code` associé aux `Topic` séléctionnés.

In [77]:
display(valid_series_codes[:5])

['BAR.NOED.1519.FE.ZS',
 'BAR.NOED.1519.ZS',
 'BAR.NOED.15UP.FE.ZS',
 'BAR.NOED.15UP.ZS',
 'BAR.NOED.2024.FE.ZS']

## 5.2. Filtrer l'ensemble des jeux de données

In [78]:
df_data = dataframes[1]['data']
df_data_filtered_EdStatsCountry_Series = df_data[df_data['SeriesCode'].isin(valid_series_codes)]
display(df_data_filtered_EdStatsCountry_Series)

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION


In [79]:
df_data = dataframes[2]['data']
df_data_filtered = df_data[df_data['Indicator Code'].isin(valid_series_codes)]
display(Markdown(f"Nombre de ligne avant filtrage : {len(dataframes[2]['data'])}"))

Nombre de ligne avant filtrage : 784310

In [80]:
dataframes[2]['data'] = df_data_filtered
display(dataframes[2]['data'])

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1975,1980,1985,1990,1991,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
91625,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,28.059870,,,,,,47.436790,50.627232,
91626,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,15.223100,,,,,,34.073261,37.641541,
91627,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,0.379130,,,,,,0.567060,0.598370,
91628,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,40.152851,,,,,,60.087059,62.906952,
91633,Afghanistan,AFG,"Adjusted net enrolment rate, upper secondary, ...",UIS.NERA.3,,,,,,,...,,,,,,,,31.332621,32.417030,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886922,Zimbabwe,ZWE,"Youth illiterate population, 15-24 years, % fe...",UIS.LPP.AG15T24,,,,,,,...,,,,,,43.61436,,,35.887100,
886926,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, b...",SE.ADT.1524.LT.ZS,,,,,,,...,,,,,,90.93070,,,90.428120,
886927,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, f...",SE.ADT.1524.LT.FE.ZS,,,,,,,...,,,,,,92.12456,,,93.188350,
886928,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, g...",SE.ADT.1524.LT.FM.ZS,,,,,,,...,,,,,,1.02828,,,1.063890,


In [81]:
display(Markdown(f"Nombre de lignes aprés filtrage : {len(dataframes[2]['data'])}"))

Nombre de lignes aprés filtrage : 470158

In [82]:
df_data = dataframes[3]['data']
df_data_filtered = df_data[df_data['SeriesCode'].isin(valid_series_codes)]
display(Markdown(f"Nombre de ligne avant filtrage : {len(dataframes[3]['data'])}"))

Nombre de ligne avant filtrage : 515752

In [83]:
dataframes[3]['data'] = df_data_filtered
display(dataframes[3]['data'])

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Country Code
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,ABW
6,ABW,SE.SEC.ENRL.VO.FE,YR2005,Country estimation.,ABW
7,ABW,SE.SEC.ENRL.GC,YR2003,Country estimation.,ABW
12,ABW,SE.SEC.ENRL.VO.FE.ZS,YR2002,Country estimation.,ABW
14,ABW,SE.SEC.ENRL.VO.FE.ZS,YR2007,Country estimation.,ABW
...,...,...,...,...,...
515701,ZWE,SE.TER.ENRR.MA,YR1992,Country Data,ZWE
515702,ZWE,SE.TER.GRAD.FE.ZS,YR1981,Country Data,ZWE
515733,ZWE,SE.SEC.ENRL.GC,YR1999,Country estimation.,ZWE
515734,ZWE,SE.SEC.ENRL.GC.FE,YR1998,UIS estimation.,ZWE


In [84]:
display(Markdown(f"Nombre de lignes aprés filtrage : {len(dataframes[3]['data'])}"))

Nombre de lignes aprés filtrage : 218137

## 5.3. Filtrage temporel
Création d'une liste contenant les années non conservé via `np.range`. Cette liste ce compose de la concaténation des années passé plus les années futures.

In [85]:
past_years = np.arange(1970, 2010).astype(str).tolist()
future_years = np.arange(2028, 2101).astype(str).tolist()
columns_to_delete = past_years + future_years

display(columns_to_delete[:5])

['1970', '1971', '1972', '1973', '1974']

## 5.4. Filtrer le fichier Data

In [86]:
display(Markdown(f"### Dimensions du dataset avant filtrage temporel : {dataframes[2]['data'].shape}"))

### Dimensions du dataset avant filtrage temporel : (470158, 34)

In [87]:
dataframes[2]['data'].drop(columns=columns_to_delete, errors='ignore', inplace=True)
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2010,2011,2012,2013,2014,2015
91625,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,47.43679,50.627232,
91626,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,34.073261,37.641541,
91627,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,0.56706,0.59837,
91628,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,60.087059,62.906952,
91633,Afghanistan,AFG,"Adjusted net enrolment rate, upper secondary, ...",UIS.NERA.3,,,,31.332621,32.41703,


In [88]:
display(Markdown(f"### Dimensions du dataset aprés filtrage temporel : {dataframes[2]['data'].shape}"))

### Dimensions du dataset aprés filtrage temporel : (470158, 10)

### Analyse de la disponibilité temporelle
Bien que notre périmètre d'étude cible initialement la plage 2010-2027, l'audit de complétude révèle une attrition massive des données sur la période récente.

**Limiter l'analyse à 2010-2015**

D'un point de vue statistique et métier, conserver les années au-delà de 2015 introduirait des risques majeurs:
1. **Absence de représentativité** : Un taux de complétude inférieur à 2 % signifie que moins d'une cinquantaine de points de données subsistent pour l'ensemble du globe. Une décision d'investissement ne peut reposer sur un échantillon aussi restreint.
2. **Biais de sélection** : Seuls quelques pays très spécifiques (souvent les plus développés ou ayant des programmes de collecte particuliers) renseignent ces années récentes. Analyser 2025 reviendrait à ignorer 99 % des marchés potentiels d'Academy.
3. **Nature des données futures** : Les colonnes 2020-2027 dans ce dataset sont essentiellement des projections théoriques. En l'absence de valeurs réelles saisies, elles n'offrent aucune plus-value pour un scoring de pays comparatif.

**Conclusion de l'audit** : Nous privilégions la qualité à la quantité. La fenêtre 2010-2015 constitue le segment le plus récent offrant une masse critique de données (complétude ~28 %) permettant d'établir un diagnostic international fiable et comparable.

# 6 : Analyse de la complétude (Data Fill Rate)

Cette section constitue le cœur de notre audit statistique. L'objectif est de quantifier la densité des données pour identifier les indicateurs présentant une masse critique suffisante pour un scoring international fiable.

**Méthodologie appliquée** :

1. **Développement d'un indicateur de densité :**
   - Création d'une fonction `calculate_data_fill_rate` permettant de mesurer la proportion de valeurs non-nulles (`.notnull()`) sur n'importe quel axe du DataFrame.
   - **Axe temporel (Années)** : Identification des années les mieux renseignées pour l'ensemble des thématiques.
   - **Axe thématique (Indicateurs)** : Évaluation de la régularité de mise à jour de chaque métrique sur la période 2010-2015.
2. **Mesure de la couverture géographique :**
   - Utilisation de la fonction `groupby('Indicator Name').count()` pour dénombrer, pour chaque indicateur, le nombre de pays ayant fourni au moins une valeur réelle.
   - **Scoring cumulé** : Création de la variable `Somme_Pays_Total` qui agrège la présence de données sur l'ensemble de la fenêtre temporelle pour classer les indicateurs par "richesse".
3. **Stratégie de sélection finale :**
   - **Arbitrage Quantité/Qualité** : Nous trions les résultats par ordre décroissant pour isoler le "Top 15" des indicateurs.
   - **Filtre Métier** : Parmi les plus riches, nous ne conservons que ceux répondant aux trois piliers d'Academy :
      - **Potentiel client** : Volume d'étudiants (Secondary/Tertiary).
      - **Faisabilité technique** : Accès au numérique (Internet Users).
      - **Besoin en soutien** : Performance éducative (Learning Outcomes).

## 6.1. Développement d'un indicateur de densité :

Pour évaluer la fiabilité de notre dataset, nous avons développé une fonction utilitaire permettant de mesurer la densité des données. Cette approche évite la répétition de code (principe DRY - Don't Repeat Yourself) et garantit une mesure homogène sur tous les axes du DataFrame.

**Justification de la logique appliquée :**
   - `.notnull()` : Cette méthode crée un masque booléen identifiant chaque cellule contenant une information réelle. Les valeurs NaN (manquantes) sont ignorées.
   - `.mean(axis=axis)` : En calculant la moyenne de ce masque booléen (True valant 1 et False valant 0), nous obtenons directement le taux de remplissage exprimé entre 0 et 1.
   - Flexibilité de l'axe (`axis`) :
      - `axis=0` (par colonne) : Permet d'identifier les années les plus riches en données pour l'ensemble des pays
      - `axis=1` (par ligne) : Permet de calculer un score de fiabilité pour chaque indicateur spécifique, en mesurant sa régularité sur la plage temporelle choisie.

> **Note métier** : Cette fonction nous permet de ne retenir que les segments ayant une masse critique suffisante pour que les conclusions stratégiques d'Academy soient statistiquement significatives.

In [89]:
def calculate_data_fill_rate(df_analys, axis=0):
    return df_analys.notnull().mean(axis=axis)

1. **Fonctionnement technique : Le Slicing avec `.loc`**
    - `.loc` : C'est une méthode d'accès par étiquettes (labels).
    - `:` : Le premier argument (avant la virgule) signifie qu'on sélectionne toutes les lignes.
    - `'2010':'2015'` : Le deuxième argument définit la plage de colonnes. Grâce à l'opérateur `:`, Pandas récupère toutes les colonnes situées entre 2010 et 2015 inclus.

In [90]:
df_years_only = dataframes[2]['data'].loc[:, '2010':'2015']
display(df_years_only)

Unnamed: 0,2010,2011,2012,2013,2014,2015
91625,,,,47.436790,50.627232,
91626,,,,34.073261,37.641541,
91627,,,,0.567060,0.598370,
91628,,,,60.087059,62.906952,
91633,,,,31.332621,32.417030,
...,...,...,...,...,...,...
886922,,43.61436,,,35.887100,
886926,,90.93070,,,90.428120,
886927,,92.12456,,,93.188350,
886928,,1.02828,,,1.063890,


> **Fonctionnement technique** :
> - `calculate_data_fill_rate(..., axis=0)` : En passant l'argument axis=0, on indiques à la fonction de calculer la moyenne verticalement (colonne par colonne).
> - `.to_frame(name='...')` : Par défaut, le résultat est une Series Pandas (une simple liste indexée). Cette méthode la convertit en un DataFrame, ce qui facilite la lecture et l'exportation future du rapport.

In [91]:
data_fill_rate_per_year = calculate_data_fill_rate(df_years_only, axis=0)
display(data_fill_rate_per_year.to_frame(name='Ratio de complétude'))

Unnamed: 0,Ratio de complétude
2010,0.302315
2011,0.096706
2012,0.101542
2013,0.085497
2014,0.074739
2015,0.151392


> **Fonctionnement technique** :
> - `calculate_data_fill_rate(..., axis=1)` : En passant l'argument axis=0, on indiques à la fonction de calculer la moyenne verticalement (ligne par ligne).

In [92]:
data_fill_rate_per_indicator = calculate_data_fill_rate(df_years_only, axis=1)
display(data_fill_rate_per_indicator.to_frame(name='Ratio de complétude'))

Unnamed: 0,Ratio de complétude
91625,0.333333
91626,0.333333
91627,0.333333
91628,0.333333
91633,0.333333
...,...
886922,0.333333
886926,0.333333
886927,0.333333
886928,0.333333


## 6.2. Stratégie de sélection finale

> **Fonctionnement technique** :
>
> Le groupby est une opération en trois étapes souvent appelée **Split-Apply-Combine**.
> - **Split** : Pandas rassemble toutes les lignes qui ont le même Indicator Name (par exemple, toutes les lignes "Internet users" de tous les pays).
> - **Apply** : La fonction `.count()` est appliquée à chaque groupe.
>   - Note importante : `.count()` ne compte que les valeurs non-nulles. Si un pays n'a pas de donnée pour 2010, il n'est pas compté.
> - **Combine** : Pandas rassemble les résultats dans un nouveau tableau où chaque ligne est un indicateur unique, et chaque colonne contient le nombre de pays l'ayant renseigné.
>
> **Mesure de la couverture géographique** : On ne regarde plus si une cellule est vide, on regarde si l'indicateur est global. Un indicateur présent dans 200 pays a beaucoup plus de valeur qu'un indicateur présent dans seulement 5 pays.
>
> **Tri stratégique** : Le `sort_values` permet d'isoler immédiatement les "indicateurs stars" (comme Internet users ou Secondary enrolment) qui seront les piliers de la stratégie d'Academy.

In [93]:
df_density = dataframes[2]['data'][['Indicator Name', '2010', '2011', '2012', '2013', '2014', '2015']]
indicators_per_countries = df_density.groupby('Indicator Name').count()
indicators_per_countries['Somme_Pays_Total'] = indicators_per_countries.sum(axis=1)
sort_indicators = indicators_per_countries.sort_values(by='Somme_Pays_Total', ascending=False)
display(sort_indicators.head(30))

Unnamed: 0_level_0,2010,2011,2012,2013,2014,2015,Somme_Pays_Total
Indicator Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Official entrance age to lower secondary education (years),202,201,201,202,202,202,1210
Theoretical duration of secondary education (years),202,201,201,202,202,202,1210
Theoretical duration of upper secondary education (years),202,201,201,202,202,202,1210
Internet users (per 100 people),201,203,201,201,201,201,1208
"Enrolment in secondary general, both sexes (number)",156,162,161,155,154,139,927
Percentage of students in secondary general education who are female (%),156,162,161,154,154,139,926
"Enrolment in secondary general, female (number)",156,162,161,154,154,139,926
"Gross enrolment ratio, lower secondary, both sexes (%)",151,159,156,148,147,129,890
"Gross enrolment ratio, lower secondary, female (%)",151,157,155,147,146,129,885
"Gross enrolment ratio, lower secondary, male (%)",151,157,155,147,146,129,885


## 6.3. Sélection finale des indicateurs clés

Cette liste constitue la variable selection_indicateurs_finale demandée par l'exercice. Elle équilibre la richesse des données (complétude) et la pertinence stratégique.

1. **Metriques coeur (Indispensables)** :
Ces indicateurs mesurent directement la taille du marché et la faisabilité technique de l'offre en ligne d'Academy.
    - **Internet users (per 100 people)** : Indispensable pour valider la faisabilité du e-learning.
    - **Enrolment in secondary education, both sexes (number)** : Mesure la taille brute du marché "Lycée".
    - **Enrolment in tertiary education, all programmes, both sexes (number)** : Mesure la taille brute du marché "Université".
    - **Gross enrolment ratio, secondary, both sexes (%)** : Indique le taux de scolarisation (pénétration du système éducatif).
    - **Gross enrolment ratio, tertiary, both sexes (%)** : Indique l'accès à l'enseignement supérieur.
    - **Population, ages 15-24, total** : Identifie le bassin démographique cible (cœur d'audience).
    - **Personal computers (per 100 people)** : Complète la donnée Internet pour valider l'équipement des foyers.
2. **Metriques contextuels (Utiles)** : Ces indicateurs permettent d'affiner le "scoring" en mesurant le niveau de développement éducatif et le besoin potentiel.
    - **Literacy rate, adult total (% of people ages 15 and above)** : Indicateur du socle de compétences de base du pays.
    - **Government expenditure on education, total (% of GDP)** : Mesure l'investissement public et la stabilité du secteur.
    - **Pupil-teacher ratio in secondary education (headcount basis)** : Un ratio élevé peut indiquer un besoin accru en soutien scolaire privé.
    - **Lower secondary completion rate, both sexes (%)** : Mesure le flux d'étudiants arrivant vers le Lycée.
    - **Secondary education, duration (years)** : Utile pour adapter la durée des programmes d'accompagnement.
    - **Tertiary education, academic staff (% female)** : Indicateur de la structure du corps enseignant supérieur.
    - **Barro-Lee: Average years of total secondary education, ages 15+, total** : Donne une vision du stock de compétences "Lycée" déjà présent.
    - **Barro-Lee: Percentage of population age 15+ with secondary schooling. Completed Secondary** : Précise le niveau de diplôme moyen de la cible.

# 7. Construction du Dataset Décisionnel (Pivotement & Agrégation)

L'objectif de cette phase est de restructurer nos données pour obtenir une **"Source Unique de Vérité"** par pays. Nous passons d'un format "long" (plusieurs lignes d'indicateurs et plusieurs colonnes d'années par pays) à un format "large", où chaque pays est décrit par une ligne unique regroupant l'ensemble de nos variables stratégiques.

**Méthodologie appliquée** :

 **1. Filtrage Final du Périmètre :**
* **Indicateurs** : Utilisation de la liste `final_indicators` regroupant les 15 indicateurs clés retenus pour leur pertinence métier (Lycée, Université, IT).
* **Années** : Focalisation sur la fenêtre **2010-2015**, identifiée précédemment comme le segment le plus dense et le plus fiable en données exploitables.

**2. Stratégie d'Agrégation Temporelle :**
* Puisque nous disposons de données réparties sur 6 ans, il est nécessaire de résumer cette période en une statistique unique par couple (Pays, Indicateur).
* **Choix de la Moyenne (`mean`)** : Nous optons pour la moyenne arithmétique afin de lisser les éventuelles variations annuelles. Cela permet d'obtenir une tendance stable du niveau d'éducation et d'équipement sur la période choisie.

**3. Pivotement des Données (`pivot_table`) :**
* **Restructuration** : Le DataFrame est pivoté pour que chaque `Indicator Name` devienne une colonne distincte.
* **Unicité** : Chaque ligne représentera désormais un **pays unique**, facilitant ainsi le futur calcul de scoring et la comparaison directe entre les marchés potentiels.

In [95]:
final_indicators = [
    'Internet users (per 100 people)',
    'Enrolment in secondary education, both sexes (number)',
    'Enrolment in tertiary education, all programmes, both sexes (number)',
    'Gross enrolment ratio, secondary, both sexes (%)',
    'Gross enrolment ratio, tertiary, both sexes (%)',
    'Population, ages 15-24, total',
    'Personal computers (per 100 people)',
    'Literacy rate, adult total (% of people ages 15 and above)',
    'Government expenditure on education, total (% of GDP)',
    'Pupil-teacher ratio in secondary education (headcount basis)',
    'Lower secondary completion rate, both sexes (%)',
    'Secondary education, duration (years)',
    'Tertiary education, academic staff (% female)',
    'Barro-Lee: Average years of total secondary education, ages 15+, total',
    'Barro-Lee: Percentage of population age 15+ with secondary schooling. Completed Secondary'
]
display(final_indicators)

['Internet users (per 100 people)',
 'Enrolment in secondary education, both sexes (number)',
 'Enrolment in tertiary education, all programmes, both sexes (number)',
 'Gross enrolment ratio, secondary, both sexes (%)',
 'Gross enrolment ratio, tertiary, both sexes (%)',
 'Population, ages 15-24, total',
 'Personal computers (per 100 people)',
 'Literacy rate, adult total (% of people ages 15 and above)',
 'Government expenditure on education, total (% of GDP)',
 'Pupil-teacher ratio in secondary education (headcount basis)',
 'Lower secondary completion rate, both sexes (%)',
 'Secondary education, duration (years)',
 'Tertiary education, academic staff (% female)',
 'Barro-Lee: Average years of total secondary education, ages 15+, total',
 'Barro-Lee: Percentage of population age 15+ with secondary schooling. Completed Secondary']

In [96]:
# Filtrage du dataframe final pour ne garder que ces 15 indicateurs
df_final_academy = dataframes[2]['data'][dataframes[2]['data']['Indicator Name'].isin(final_indicators)]
with pd.option_context('display.float_format', '{:.2f}'.format):
    display(df_final_academy.head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2010,2011,2012,2013,2014,2015
92002,Afghanistan,AFG,Barro-Lee: Percentage of population age 15+ wi...,BAR.SEC.CMPT.15UP.ZS,8.65,,,,,
92816,Afghanistan,AFG,"Enrolment in secondary education, both sexes (...",SE.SEC.ENRL,2044157.0,2208963.0,2415884.0,2538420.0,2602734.0,2698816.0
92829,Afghanistan,AFG,"Enrolment in tertiary education, all programme...",SE.TER.ENRL,,97504.0,,,262874.0,
92960,Afghanistan,AFG,"Gross enrolment ratio, secondary, both sexes (%)",SE.SEC.ENRR,53.25,54.62,56.68,56.69,55.66,55.64
92964,Afghanistan,AFG,"Gross enrolment ratio, tertiary, both sexes (%)",SE.TER.ENRR,,3.76,,,8.66,


## 7.2. Stratégie d'Agrégation Temporelle :

Avant de pivoter les données, nous devons définir une statistique capable de résumer la période 2010-2015 pour chaque couple (Pays, Indicateur).

**Justification du choix de la Moyenne (mean) :**
   - **Lissage des données** : La moyenne arithmétique permet de compenser les éventuelles irrégularités de collecte annuelle.
   - **Stabilité** : Elle offre une vision plus robuste du niveau de développement éducatif et numérique d'un pays sur le moyen terme.
   - **Fiabilité** : Notre audit précédent ayant validé la complétude de ce segment (~28%), le calcul de la moyenne repose sur une base statistique exploitable.

> **Fonctionnement du code :**
> 1. `groupby` : Nous regroupons les données par pays et par indicateur pour isoler les séries temporelles correspondantes.
> 2. `.mean()` : Nous appliquons la moyenne sur les colonnes définies dans analysis_years. Les valeurs manquantes (NaN) sont automatiquement ignorées par Pandas dans ce calcul.
> 3. `Period_Average` : Cette nouvelle colonne devient notre métrique de référence (Source of Truth) pour la suite de l'analyse et le futur pivotement.

In [98]:
analysis_years = ['2010', '2011', '2012', '2013', '2014', '2015']

temporal_aggregation_df = df_final_academy.groupby(['Country Name', 'Country Code', 'Indicator Name'])[analysis_years].mean()
temporal_aggregation_df['Period_Average'] = temporal_aggregation_df.mean(axis=1)

display(temporal_aggregation_df.head(10))

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,2010,2011,2012,2013,2014,2015,Period_Average
Country Name,Country Code,Indicator Name,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Afghanistan,AFG,Barro-Lee: Percentage of population age 15+ with secondary schooling. Completed Secondary,8.65,,,,,,8.65
Afghanistan,AFG,"Enrolment in secondary education, both sexes (number)",2044157.0,2208963.0,2415884.0,2538420.0,2602734.0,2698816.0,2418162.0
Afghanistan,AFG,"Enrolment in tertiary education, all programmes, both sexes (number)",,97504.0,,,262874.0,,180189.0
Afghanistan,AFG,"Gross enrolment ratio, secondary, both sexes (%)",53.24683,54.61618,56.67734,56.68866,55.65616,55.64441,55.4216
Afghanistan,AFG,"Gross enrolment ratio, tertiary, both sexes (%)",,3.75598,,,8.6628,,6.20939
Afghanistan,AFG,Internet users (per 100 people),4.0,5.0,5.454545,5.9,7.0,8.26,5.935758
Afghanistan,AFG,"Lower secondary completion rate, both sexes (%)",,,,,,,
Afghanistan,AFG,Personal computers (per 100 people),,,,,,,
Albania,ALB,Barro-Lee: Percentage of population age 15+ with secondary schooling. Completed Secondary,42.9,,,,,,42.9
Albania,ALB,"Enrolment in secondary education, both sexes (number)",355871.0,355158.0,349269.0,346365.0,333291.0,315079.0,342505.5


## 7.3. Pivotement des Données (`pivot_table`) :

Cette étape marque la transition finale vers une structure de données prête pour l'analyse comparative. Nous transformons nos indicateurs thématiques en variables explicatives pour chaque pays.

**Justification technique et metier** :
- **Restructuration dimensionnelle** : L'utilisation de `pivot_table()` permet de basculer les noms d'indicateurs de la dimension verticale (lignes) vers la dimension horizontale (colonnes).
- **Unicité de l'observation** : Chaque ligne correspond désormais à une seule entité géographique (un pays unique), ce qui est le format standard pour appliquer un algorithme de scoring ou de machine learning.
- **Standardisation de l'accès** : En supprimant le nom de l'index des colonnes (`columns.name = None`) et en réinitialisant l'index (`reset_index`), nous transformons les métadonnées (`Country Name`, `Country Code`) en colonnes classiques, facilitant les futures manipulations de filtrage et d'exportation.

> **Fonctionnement du code** :
> 1. `pivot_table` : Nous utilisons la colonne Period_Average calculée précédemment comme valeur centrale.
> 2. `option_context` : Ce bloc permet de forcer un rendu exhaustif dans le Notebook sans modifier les réglages globaux de ta session.
>   - `max_columns : None` : Affiche les 15 indicateurs sans troncature centrale.
>   - `max_rows : None` : Affiche l'intégralité des 214 pays identifiés comme valides lors du nettoyage.

In [101]:
final_decision_dataset = temporal_aggregation_df.reset_index().pivot_table(
    index=['Country Name', 'Country Code'],
    columns='Indicator Name',
    values='Period_Average'
)

final_decision_dataset.columns.name = None
final_academy_dataset = final_decision_dataset.reset_index()

with pd.option_context(
    'display.float_format', '{:.2f}'.format,
    'display.max_columns', None,
    'display.max_rows', None
):
    display(final_academy_dataset)

Unnamed: 0,Country Name,Country Code,Barro-Lee: Percentage of population age 15+ with secondary schooling. Completed Secondary,"Enrolment in secondary education, both sexes (number)","Enrolment in tertiary education, all programmes, both sexes (number)","Gross enrolment ratio, secondary, both sexes (%)","Gross enrolment ratio, tertiary, both sexes (%)",Internet users (per 100 people),"Lower secondary completion rate, both sexes (%)"
0,Afghanistan,AFG,8.65,2418162.33,180189.0,55.42,6.21,5.94,
1,Albania,ALB,42.9,342505.5,154236.17,93.34,56.02,54.87,94.37
2,Algeria,DZA,17.08,4594369.5,1221772.67,98.52,33.13,22.63,80.83
3,Andorra,AND,,4229.83,507.0,,,89.21,
4,Angola,AGO,,867658.0,194171.33,28.84,8.73,7.32,22.52
5,Antigua and Barbuda,ATG,,8278.6,1343.33,104.55,18.03,59.7,91.56
6,Argentina,ARG,31.07,4339148.0,2709143.4,104.74,78.65,57.41,87.37
7,Armenia,ARM,57.12,259772.4,124134.5,88.5,46.24,41.69,
8,Aruba,ABW,,7699.0,1839.5,101.34,26.95,76.06,100.4
9,Australia,AUS,38.49,2348681.6,1361789.4,135.75,85.33,81.08,
