# Analyse Exploratoire des Données (EDA) - Banque Mondiale
## 1. Imports
Nous configurons l'environnement et listons les sources de données brutes.
Pour visualiser les données, nous définissons d'abord le chemin d'accès (**path**) où sont stockés les fichiers CSV. Nous récupérons ensuite la liste de ces fichiers dans une variable `all_files` en utilisant un pattern de recherche (**globbing**) avec l'extension `*.csv`.

## 2. Chargement des données
## Boucle d'itération et rendu des données
Cette étape permet de valider l'intégrité des fichiers CSV et d'obtenir un premier aperçu visuel des structures.

* **Identification** : Nous affichons le nom du fichier pour confirmer la lecture.
* **Chargement** : Le contenu est chargé dans un **DataFrame**.
* **Rendu** : Nous utilisons `display(df.head())` pour générer un rendu visuel des 5 premières entrées.

## Gestion des exceptions (Error Handling)
En cas d'erreur lors de la lecture ou de l'affichage, un bloc `try...except` permet de capturer l'exception. Le script affiche alors le nom du fichier problématique ainsi que le message d'erreur associé pour faciliter le débogage.

In [21]:
import numpy as np
import pandas as pd
import glob
import os
from IPython.display import display, Markdown

path = 'data'
all_files = glob.glob(os.path.join(path , "*.csv"))
dataframes = []

for file in all_files:
    try:
        file_name = os.path.basename(file)
        df = pd.read_csv(file)
        dataframes.append({"name": file_name, "data": df})
    except Exception as e:
        print(f"Erreur sur {file}: {e}")


In [22]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

In [23]:
print(f"--- Fichier : {dataframes[0]['name']} ---")
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0,
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,,


In [24]:
display(Markdown(f"## Analyse du fichier : {dataframes[1]['name']}"))

## Analyse du fichier : EdStatsCountry-Series.csv

In [25]:
print(f"--- Fichier : {dataframes[1]['name']} ---")
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION,Unnamed: 3
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...,
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...,
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...,
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.,
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...,


In [26]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [27]:
print(f"--- Fichier : {dataframes[2]['name']} ---")
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,...,,,,,,,,,,


In [28]:
display(Markdown(f"## Analyse du fichier : {dataframes[3]['name']}"))

## Analyse du fichier : EdStatsFootNote.csv

In [29]:
print(f"--- Fichier : {dataframes[3]['name']} ---")
display(dataframes[3]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Unnamed: 4
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,


In [30]:
display(Markdown(f"## Analyse du fichier : {dataframes[4]['name']}"))

## Analyse du fichier : EdStatsSeries.csv

In [31]:
print(f"--- Fichier : {dataframes[4]['name']} ---")
display(dataframes[4]['data'].head())

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,...,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,


## 3. Collecte d'informations basiques sur chaque jeu de données
### EdStatsCountry.csv
* **Définition** : Une ligne représente un pays unique ou une entité géographique (ex: une région comme l'Amérique Latine).
* **Clé primaire** : `CountryCode`
* **Contenu** : Toutes les caractéristiques fixes du pays (monnaie, région, système de recensement, etc...)

### EdStatsSeries.csv
* **Définition** : Une ligne représente un indicateur statistique unique (un "Series").
* **Clé primaire** : `SeriesCode`
* **Contenu** : Les définitions, les sources et les méthodologies pour chaque type de donnée mesurée (ex: taux d'inscription scolaire).
*
### EdStatsCountry-Series.csv
* **Définition** : Une ligne représente une relation spécifique entre un pays et un indicateur.
* **Clé composite** : `CountryCode` + `SeriesCode`
* **Contenu** : Il sert de table de liaison. Il précise souvent la source de données spécifique utilisée pour cet indicateur dans ce pays précis (colonne `DESCRIPTION`).

### EdStatsFootNote.csv
* **Définition** : Une ligne représente une note de bas de page liée à une mesure spécifique.
* **Clé composite** : `CountryCode` + `SeriesCode` + `Year`
* **Contenu** : Une explication textuelle (`DESCRIPTION`) pour justifier une anomalie ou une estimation pour une année donnée.

### EdStatsData.csv
* **Définition** : Une ligne représente l'évolution historique d'un indicateur pour un pays.
* **Clé composite** : `CountryCode` + `IndicatorCode`
* **Contenu** : Contrairement aux autres, ce fichier est "large" : il contient les valeurs numériques pour chaque année de 1970 à 2100 sur la même ligne.

In [32]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

In [33]:
rows, columns = dataframes[0]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f" Le fichier : {dataframes[0]['name']} comprend {rows} lignes et {columns} colonnes"))

 Le fichier : EdStatsCountry.csv comprend 241 lignes et 32 colonnes

In [34]:
duplicate_count = dataframes[0]['data'].duplicated().sum()
display(Markdown(f" Le fichier : {dataframes[0]['name']} posséde {duplicate_count} lignes dupliqués"))

 Le fichier : EdStatsCountry.csv posséde 0 lignes dupliqués

In [35]:
if duplicate_count > 0:
    dataframes[0]['data'] = dataframes[0]['data'].drop_duplicates()

Calcul du pourcentage de valeurs manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant.

In [36]:
percent_missing_ed_stats_country = dataframes[0]['data'].isnull().sum() * 100 / len(dataframes[0]['data'])
missing_value_df_ed_stats_country = pd.DataFrame({'column_name' : dataframes[0]['data'].columns, 'percent_missing' : percent_missing_ed_stats_country}).sort_values(by='percent_missing', ascending=False)
display(missing_value_df_ed_stats_country)

Unnamed: 0,column_name,percent_missing
Unnamed: 31,Unnamed: 31,100.0
National accounts reference year,National accounts reference year,86.721992
Alternative conversion factor,Alternative conversion factor,80.497925
Other groups,Other groups,75.93361
Latest industrial data,Latest industrial data,55.60166
Vital registration complete,Vital registration complete,53.941909
External debt Reporting status,External debt Reporting status,48.547718
Latest household survey,Latest household survey,41.493776
Latest agricultural census,Latest agricultural census,41.078838
Lending category,Lending category,40.248963


Néttoyage des collones atteignant 100% de valeurs manquantes

In [37]:
dataframes[0]['data'] = dataframes[0]['data'].dropna(axis=1, how='all')
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,,2010,,,Yes,,,2012.0,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,


In [38]:
display(dataframes[0]['data'].describe(include=[np.number]))

Unnamed: 0,National accounts reference year,Latest industrial data,Latest trade data
count,32.0,107.0,185.0
mean,2001.53125,2008.102804,2010.994595
std,5.24856,2.616834,2.569675
min,1987.0,2000.0,1995.0
25%,1996.75,2007.5,2011.0
50%,2002.0,2009.0,2012.0
75%,2005.0,2010.0,2012.0
max,2012.0,2010.0,2012.0


In [54]:
display(dataframes[0]['data']['Region'].value_counts())

Region
Europe & Central Asia         57
Sub-Saharan Africa            48
Latin America & Caribbean     41
East Asia & Pacific           36
Middle East & North Africa    21
South Asia                     8
North America                  3
Name: count, dtype: int64