# Analyse Exploratoire des Données (EDA) - Banque Mondiale
## 1. Imports
Nous configurons l'environnement et listons les sources de données brutes.
Pour visualiser les données, nous définissons d'abord le chemin d'accès (**path**) où sont stockés les fichiers CSV. Nous récupérons ensuite la liste de ces fichiers dans une variable `all_files` en utilisant un pattern de recherche (**globbing**) avec l'extension `*.csv`.

## 2. Chargement des données
## Boucle d'itération et rendu des données
Cette étape permet de valider l'intégrité des fichiers CSV et d'obtenir un premier aperçu visuel des structures.

* **Identification** : Nous affichons le nom du fichier pour confirmer la lecture.
* **Chargement** : Le contenu est chargé dans un **DataFrame**.
* **Rendu** : Nous utilisons `display(df.head())` pour générer un rendu visuel des 5 premières entrées.

## Gestion des exceptions (Error Handling)
En cas d'erreur lors de la lecture ou de l'affichage, un bloc `try...except` permet de capturer l'exception. Le script affiche alors le nom du fichier problématique ainsi que le message d'erreur associé pour faciliter le débogage.

In [1]:
import numpy as np
import pandas as pd
import glob
import os
from IPython.display import Markdown
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

path = 'data'
all_files = glob.glob(os.path.join(path , "*.csv"))
dataframes = []

for file in all_files:
    try:
        file_name = os.path.basename(file)
        df = pd.read_csv(file)
        dataframes.append({"name": file_name, "data": df})
    except Exception as e:
        print(f"Erreur sur {file}: {e}")


In [2]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

In [3]:
print(f"--- Fichier : {dataframes[0]['name']} ---")
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0,
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,,


In [4]:
display(Markdown(f"## Analyse du fichier : {dataframes[1]['name']}"))

## Analyse du fichier : EdStatsCountry-Series.csv

In [5]:
print(f"--- Fichier : {dataframes[1]['name']} ---")
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION,Unnamed: 3
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...,
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...,
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...,
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.,
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...,


In [6]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [7]:
print(f"--- Fichier : {dataframes[2]['name']} ---")
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,...,,,,,,,,,,


In [8]:
display(Markdown(f"## Analyse du fichier : {dataframes[3]['name']}"))

## Analyse du fichier : EdStatsFootNote.csv

In [9]:
print(f"--- Fichier : {dataframes[3]['name']} ---")
display(dataframes[3]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Unnamed: 4
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,


In [10]:
display(Markdown(f"## Analyse du fichier : {dataframes[4]['name']}"))

## Analyse du fichier : EdStatsSeries.csv

In [11]:
print(f"--- Fichier : {dataframes[4]['name']} ---")
display(dataframes[4]['data'].head())

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,...,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,


## 3. Nettoyage et Analyse Exploratoire des Données (EDA)

Cette section automatise le processus de nettoyage et d'analyse descriptive pour l'ensemble des fichiers chargés. L'objectif est de garantir l'intégrité des données et d'optimiser la structure des DataFrames avant l'analyse approfondie.

### Méthodologie appliquée par fichier :

1. **Définition de l'unité d'observation (*Row definition*)** :
   - Identification de la granularité technique d'une ligne (ex: une observation unique pays/année/indicateur).
2. **Évaluation de la volumétrie (*Shape*)** :
   - Calcul du nombre de lignes (*records*) et de colonnes (*features*) pour quantifier le dataset.
3. **Traitement des Redondances (*Deduplication*)** :
   - Détection et suppression des doublons pour éviter de biaiser les futurs calculs statistiques (moyennes, sommes).
4. **Analyse de la complétude (*Missing Values*)** :
   - Calcul de la proportion de valeurs manquantes (`NaN`) par colonne pour évaluer la fiabilité de chaque variable.
5. **Optimisation du Dataset (*Pruning*)** :
   - Suppression des colonnes jugées inutilisables (ex: colonnes techniques vides ou colonnes ayant plus de 90% de valeurs manquantes).
      - #### Justification technique :

        * **Significativité statistique** : Une variable renseignée à moins de 10% ne permet pas d'extraire des tendances représentatives et introduit un "bruit" analytique (*statistical noise*) qui fausse les mesures de tendance centrale comme les moyennes et les écart-types.
        * **Pertinence temporelle** : Dans le fichier `EdStatsData.csv`, ce seuil permet d'éliminer les projections à très long terme (ex: 2070-2100) qui sont quasi-intégralement vides, tout en conservant les données historiques réelles indispensables à l'analyse.
        * **Performance (*Memory Management*)** : La suppression de ces colonnes réduit l'empreinte mémoire du DataFrame, ce qui accélère les calculs ultérieurs (calculs vectorisés), une pratique essentielle sur des jeux de données dépassant les 800 000 lignes.
6. **Analyse Descriptive (*Numerical & Categorical Features*)** :
   - **Colonnes Numériques** : Application de `.describe()` pour obtenir les mesures de tendance centrale et de dispersion (Min, Max, Moyenne, Quartiles).
   - **Colonnes Catégorielles** : Calcul des occurrences via `.value_counts()` pour identifier les modalités dominantes et les déséquilibres potentiels.

> **Note technique :** Afin de garantir un rendu visuel stable dans l'IDE et un export PDF professionnel, les résultats catégoriels sont convertis en structures tabulaires (*DataFrames*) avant d'être affichés via la fonction `display()`.

### 3.1 Définition de l'unité d'observation
### EdStatsCountry.csv
* **Définition** : Une ligne représente un pays unique ou une entité géographique (ex: une région comme l'Amérique Latine).
* **Clé primaire** : `CountryCode`
* **Contenu** : Toutes les caractéristiques fixes du pays (monnaie, région, système de recensement, etc...)

### EdStatsSeries.csv
* **Définition** : Une ligne représente un indicateur statistique unique (un "Series").
* **Clé primaire** : `SeriesCode`
* **Contenu** : Les définitions, les sources et les méthodologies pour chaque type de donnée mesurée (ex: taux d'inscription scolaire).

### EdStatsCountry-Series.csv
* **Définition** : Une ligne représente une relation spécifique entre un pays et un indicateur.
* **Clé composite** : `CountryCode` + `SeriesCode`
* **Contenu** : Il sert de table de liaison. Il précise souvent la source de données spécifique utilisée pour cet indicateur dans ce pays précis (colonne `DESCRIPTION`).

### EdStatsFootNote.csv
* **Définition** : Une ligne représente une note de bas de page liée à une mesure spécifique.
* **Clé composite** : `CountryCode` + `SeriesCode` + `Year`
* **Contenu** : Une explication textuelle (`DESCRIPTION`) pour justifier une anomalie ou une estimation pour une année donnée.

### EdStatsData.csv
* **Définition** : Une ligne représente l'évolution historique d'un indicateur pour un pays.
* **Clé composite** : `CountryCode` + `IndicatorCode`
* **Contenu** : Contrairement aux autres, ce fichier est "large" dans un format `pivoté` : il contient les valeurs numériques pour chaque année de 1970 à 2100 sur la même ligne.

In [12]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

In [13]:
rows, columns = dataframes[0]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[0]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsCountry.csv comprend 241 lignes et 32 colonnes

In [14]:
duplicate_count = dataframes[0]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[0]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsCountry.csv posséde 0 lignes dupliquées

In [15]:
if duplicate_count > 0:
    dataframes[0]['data'] = dataframes[0]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valeurs manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant.

In [16]:
percent_missing = dataframes[0]['data'].isnull().sum() * 100 / len(dataframes[0]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[0]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 31,Unnamed: 31,100.0
National accounts reference year,National accounts reference year,86.721992
Alternative conversion factor,Alternative conversion factor,80.497925
Other groups,Other groups,75.93361
Latest industrial data,Latest industrial data,55.60166
Vital registration complete,Vital registration complete,53.941909
External debt Reporting status,External debt Reporting status,48.547718
Latest household survey,Latest household survey,41.493776
Latest agricultural census,Latest agricultural census,41.078838
Lending category,Lending category,40.248963


### 3.5. Néttoyage des collones atteignant plus de 90% de valeurs manquantes

In [17]:
limit = len(dataframes[0]['data']) * 0.1
dataframes[0]['data'] = dataframes[0]['data'].dropna(axis=1, thresh=limit)
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,,2010,,,Yes,,,2012.0,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,


In [18]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[0]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsCountry.csv

In [19]:
numeric_df = dataframes[0]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[0]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[0]['name']} ne posséde pas de valeur numérique"))

Unnamed: 0,National accounts reference year,Latest industrial data,Latest trade data
count,32.0,107.0,185.0
mean,2001.53125,2008.102804,2010.994595
std,5.24856,2.616834,2.569675
min,1987.0,2000.0,1995.0
25%,1996.75,2007.5,2011.0
50%,2002.0,2009.0,2012.0
75%,2005.0,2010.0,2012.0
max,2012.0,2010.0,2012.0


In [20]:
df_source = dataframes[0]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[0]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsCountry.csv

In [21]:
display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,Country Code,ABW,1
1,Country Code,AFG,1
2,Country Code,AGO,1
3,Country Code,ALB,1
4,Country Code,AND,1
...,...,...,...
105,Latest water withdrawal data,2000,40
106,Latest water withdrawal data,2005,40
107,Latest water withdrawal data,2007,18
108,Latest water withdrawal data,2002,16


In [22]:
display(Markdown(f"## Analyse du fichier : {dataframes[1]['name']}"))

## Analyse du fichier : EdStatsCountry-Series.csv

In [23]:
rows, columns = dataframes[1]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[1]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsCountry-Series.csv comprend 613 lignes et 4 colonnes

In [24]:
duplicate_count = dataframes[1]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[1]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsCountry-Series.csv posséde 0 lignes dupliquées

In [25]:
if duplicate_count > 0:
    dataframes[1]['data'] = dataframes[1]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valeurs manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant.

In [26]:
percent_missing = dataframes[1]['data'].isnull().sum() * 100 / len(dataframes[1]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[1]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 3,Unnamed: 3,100.0
CountryCode,CountryCode,0.0
SeriesCode,SeriesCode,0.0
DESCRIPTION,DESCRIPTION,0.0


### 3.5. Néttoyage des collones atteignant plus de 90% de valeurs manquantes

In [27]:
limit = len(dataframes[1]['data']) * 0.1
dataframes[1]['data'] = dataframes[1]['data'].dropna(axis=1, thresh=limit)
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...


In [28]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[1]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsCountry-Series.csv

In [29]:
numeric_df = dataframes[1]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[1]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[1]['name']} ne posséde pas de valeur numérique"))

 Le fichier : EdStatsCountry-Series.csv ne posséde pas de valeur numérique

In [30]:
df_source = dataframes[1]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[1]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsCountry-Series.csv

In [31]:
display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,CountryCode,GEO,18
1,CountryCode,MDA,18
2,CountryCode,CYP,12
3,CountryCode,MAR,12
4,CountryCode,MUS,12
5,SeriesCode,SP.POP.TOTL,211
6,SeriesCode,SP.POP.GROW,211
7,SeriesCode,NY.GDP.PCAP.PP.CD,19
8,SeriesCode,NY.GDP.PCAP.PP.KD,19
9,SeriesCode,NY.GNP.PCAP.PP.CD,19


In [32]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [33]:
rows, columns = dataframes[2]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[2]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsData.csv comprend 886930 lignes et 70 colonnes

In [34]:
duplicate_count = dataframes[2]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[2]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsData.csv posséde 0 lignes dupliquées

In [35]:
if duplicate_count > 0:
    dataframes[2]['data'] = dataframes[2]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valuers manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant

In [36]:
percent_missing = dataframes[2]['data'].isnull().sum() * 100 / len(dataframes[2]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[2]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 69,Unnamed: 69,100.000000
2017,2017,99.983877
2016,2016,98.144160
1971,1971,95.993258
1973,1973,95.992356
...,...,...
2010,2010,72.665036
Country Code,Country Code,0.000000
Indicator Code,Indicator Code,0.000000
Indicator Name,Indicator Name,0.000000


### 3.5. Nettoyage des collones atteignant plus de 90% de valuers manquantes

In [37]:
limit = len(dataframes[2]['data']) * 0.1
dataframes[2]['data'] = dataframes[2]['data'].dropna(axis=1, thresh=limit)
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1980,1985,1990,1995,1999,2000,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,65.617767,69.033211,71.995819,71.81176,76.254318,77.245682,...,82.685509,83.280342,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,


In [38]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[2]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsData.csv

In [39]:
numeric_df = dataframes[2]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[2]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[2]['name']} ne posséde pas de valeur numérique"))

Unnamed: 0,1980,1985,1990,1995,1999,2000,2001,2002,2003,2004,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
count,89122.0,90296.0,124405.0,131361.0,118839.0,176676.0,123509.0,124205.0,130363.0,128814.0,...,140312.0,137272.0,134387.0,142108.0,242442.0,146012.0,147264.0,137509.0,113789.0,131058.0
mean,3283898000.0,3622763000.0,9084424000.0,10525430000.0,13315580000.0,9423384000.0,13848670000.0,14282990000.0,14493930000.0,15897290000.0,...,16846740000.0,18723000000.0,20297940000.0,18949070000.0,11895920000.0,21179110000.0,21763230000.0,24253320000.0,26784490000.0,23537200000.0
std,178077400000.0,200292900000.0,366566700000.0,428521800000.0,515347200000.0,444237400000.0,544924200000.0,562288600000.0,580360700000.0,627833700000.0,...,685148400000.0,746568800000.0,794413200000.0,762365000000.0,621871000000.0,855585300000.0,883395500000.0,951301600000.0,1023180000000.0,973246500000.0
min,-1.40424,-2.216315,-1.80375,-2.697722,-65260.0,-67593.0,-69737.0,-92143.0,-111186.0,-126260.0,...,-370894.0,-388217.0,-408854.0,-456124.0,-496905.0,-570994.0,-604993.0,-615748.0,-89.0,-2.467847
25%,1.77,2.15,4.83,5.2,17.49051,5.699035,15.99897,15.84246,15.50983,14.18687,...,12.77624,12.68661,12.33467,11.81939,1.322703,12.1633,11.0,13.06113,16.14639,0.41
50%,11.07,12.0,50.48379,50.18663,1251.0,50.78717,830.0,946.0,395.615,335.0,...,99.81849,100.0,100.0,99.25039,20.4602,98.5351,97.59012,100.0,100.0,52.35
75%,82.0276,83.38313,91343.0,79540.0,186736.0,33439.5,174654.0,177099.0,147479.0,158408.2,...,118719.8,134379.0,145385.5,118041.2,3121.0,106506.5,103816.8,142648.0,163644.0,61535.75
max,27843190000000.0,31664650000000.0,47143440000000.0,52754480000000.0,60406320000000.0,63272930000000.0,64778340000000.0,66547530000000.0,69063280000000.0,72788290000000.0,...,80318400000000.0,84691450000000.0,87110220000000.0,86775160000000.0,91346760000000.0,95063140000000.0,99994730000000.0,105458000000000.0,110806000000000.0,115619800000000.0


### 3.6. Note sur l'analyse descriptive de EdStatsData.csv

Bien que la méthode `.describe()` s'exécute sans erreur technique sur ce fichier, les résultats statistiques globaux (moyenne, écart-type) sont **analytiquement inutilisables** en l'état pour les raisons suivantes :

* **Hétérogénéité des indicateurs (*Mixed Scales*)** : Chaque colonne "Année" mélange des données de natures totalement différentes. Faire la moyenne entre un PIB (en milliers de milliards), une population (en milliards) et un taux d'alphabétisation (en pourcentage) génère un chiffre dépourvu de sens métier.
* **Biais de dispersion (*Variance Bias*)** : L'écart-type (*standard deviation*) extrêmement élevé observé dans les résultats (ex: $1.2 \times 10^{11}$ pour 1970) confirme que les données ne suivent pas une distribution commune. Ce "bruit" statistique masque la réalité de chaque indicateur individuel.
* **Interprétation** : Pour obtenir des statistiques descriptives cohérentes, il est impératif d'effectuer un **filtrage préalable** sur la colonne `Indicator Code` afin d'isoler une seule métrique avant d'appliquer des calculs d'agrégation.

> **Conclusion de l'audit** : Ce tableau global n'est conservé ici qu'à titre de validation technique de la lecture des données numériques. Ce jeu de données servira exclusivement de base à une analyse par filtrage sélectif (méthodes `.loc` ou `.query`). Cette approche est la seule permettant de garantir la pertinence des calculs en isolant chaque métrique de son contexte d'origine.

In [40]:
df_source = dataframes[1]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[1]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsCountry-Series.csv

In [41]:
display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,CountryCode,GEO,18
1,CountryCode,MDA,18
2,CountryCode,CYP,12
3,CountryCode,MAR,12
4,CountryCode,MUS,12
5,SeriesCode,SP.POP.TOTL,211
6,SeriesCode,SP.POP.GROW,211
7,SeriesCode,NY.GDP.PCAP.PP.CD,19
8,SeriesCode,NY.GDP.PCAP.PP.KD,19
9,SeriesCode,NY.GNP.PCAP.PP.CD,19


In [42]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [43]:
rows, columns = dataframes[3]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[3]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsFootNote.csv comprend 643638 lignes et 5 colonnes

In [44]:
duplicate_count = dataframes[3]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[3]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsFootNote.csv posséde 0 lignes dupliquées

In [45]:
if duplicate_count > 0:
    dataframes[3]['data'] = dataframes[3]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valuers manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant

In [46]:
percent_missing = dataframes[3]['data'].isnull().sum() * 100 / len(dataframes[3]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[3]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 4,Unnamed: 4,100.0
CountryCode,CountryCode,0.0
SeriesCode,SeriesCode,0.0
Year,Year,0.0
DESCRIPTION,DESCRIPTION,0.0


### 3.5. Nettoyage des collones atteignant plus de 90% de valuers manquantes

In [47]:
limit = len(dataframes[3]['data']) * 0.1
dataframes[3]['data'] = dataframes[3]['data'].dropna(axis=1, thresh=limit)
display(dataframes[3]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.


In [48]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[3]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsFootNote.csv

In [49]:
numeric_df = dataframes[3]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[3]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[3]['name']} ne posséde pas de valeur numérique"))

 Le fichier : EdStatsFootNote.csv ne posséde pas de valeur numérique

In [50]:
df_source = dataframes[3]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[3]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsFootNote.csv

In [51]:
display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,CountryCode,LIC,7320
1,CountryCode,CYP,7183
2,CountryCode,LDC,6481
3,CountryCode,SSA,6389
4,CountryCode,SSF,6336
5,SeriesCode,SH.DYN.MORT,9226
6,SeriesCode,SE.PRM.AGES,8771
7,SeriesCode,SE.PRM.DURS,8771
8,SeriesCode,SE.SEC.DURS,8619
9,SeriesCode,SE.SEC.AGES,8581


In [52]:
display(Markdown(f"## Analyse du fichier : {dataframes[4]['name']}"))

## Analyse du fichier : EdStatsSeries.csv

In [53]:
rows, columns = dataframes[4]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[4]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsSeries.csv comprend 3665 lignes et 21 colonnes

In [54]:
duplicate_count = dataframes[4]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[4]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsSeries.csv posséde 0 lignes dupliquées

In [55]:
if duplicate_count > 0:
    dataframes[4]['data'] = dataframes[4]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valuers manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant

In [56]:
percent_missing = dataframes[4]['data'].isnull().sum() * 100 / len(dataframes[4]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[4]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 20,Unnamed: 20,100.0
Notes from original source,Notes from original source,100.0
License Type,License Type,100.0
Related indicators,Related indicators,100.0
Other web links,Other web links,100.0
Unit of measure,Unit of measure,100.0
Development relevance,Development relevance,99.918145
General comments,General comments,99.618008
Limitations and exceptions,Limitations and exceptions,99.618008
Statistical concept and methodology,Statistical concept and methodology,99.372442


### 3.5. Nettoyage des collones atteignant plus de 90% de valuers manquantes

In [57]:
limit = len(dataframes[4]['data']) * 0.1
dataframes[4]['data'] = dataframes[4]['data'].dropna(axis=1, thresh=limit)
display(dataframes[4]['data'].head())

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Other notes,Source
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,Robert J. Barro and Jong-Wha Lee: http://www.b...
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,Robert J. Barro and Jong-Wha Lee: http://www.b...


In [58]:
display(Markdown(f"### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : {dataframes[4]['name']}"))

### 3.6.1. Obtention des mesures de tendances centrales et de dispersions : EdStatsSeries.csv

In [59]:
numeric_df = dataframes[4]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[4]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[4]['name']} ne posséde pas de valeur numérique"))

 Le fichier : EdStatsSeries.csv ne posséde pas de valeur numérique

In [60]:
df_source = dataframes[4]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6.2. Rapport global des occurrences : {dataframes[4]['name']}"))

### 3.6.2. Rapport global des occurrences : EdStatsSeries.csv

In [61]:
display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,Series Code,BAR.NOED.1519.FE.ZS,1
1,Series Code,BAR.NOED.1519.ZS,1
2,Series Code,BAR.NOED.15UP.FE.ZS,1
3,Series Code,BAR.NOED.15UP.ZS,1
4,Series Code,BAR.NOED.2024.FE.ZS,1
5,Topic,Learning Outcomes,1046
6,Topic,Attainment,733
7,Topic,Education Equality,426
8,Topic,Secondary,256
9,Topic,Primary,248
