# Analyse Exploratoire des Données (EDA) - Banque Mondiale
## 1. Imports
Nous configurons l'environnement et listons les sources de données brutes.
Pour visualiser les données, nous définissons d'abord le chemin d'accès (**path**) où sont stockés les fichiers CSV. Nous récupérons ensuite la liste de ces fichiers dans une variable `all_files` en utilisant un pattern de recherche (**globbing**) avec l'extension `*.csv`.

## 2. Chargement des données
## Boucle d'itération et rendu des données
Cette étape permet de valider l'intégrité des fichiers CSV et d'obtenir un premier aperçu visuel des structures.

* **Identification** : Nous affichons le nom du fichier pour confirmer la lecture.
* **Chargement** : Le contenu est chargé dans un **DataFrame**.
* **Rendu** : Nous utilisons `display(df.head())` pour générer un rendu visuel des 5 premières entrées.

## Gestion des exceptions (Error Handling)
En cas d'erreur lors de la lecture ou de l'affichage, un bloc `try...except` permet de capturer l'exception. Le script affiche alors le nom du fichier problématique ainsi que le message d'erreur associé pour faciliter le débogage.

In [36]:
import numpy as np
import pandas as pd
import glob
import os
from IPython.display import Markdown
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

path = 'data'
all_files = glob.glob(os.path.join(path , "*.csv"))
dataframes = []

for file in all_files:
    try:
        file_name = os.path.basename(file)
        df = pd.read_csv(file)
        dataframes.append({"name": file_name, "data": df})
    except Exception as e:
        print(f"Erreur sur {file}: {e}")


In [37]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

In [38]:
print(f"--- Fichier : {dataframes[0]['name']} ---")
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0,
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,,


In [39]:
display(Markdown(f"## Analyse du fichier : {dataframes[1]['name']}"))

## Analyse du fichier : EdStatsCountry-Series.csv

In [40]:
print(f"--- Fichier : {dataframes[1]['name']} ---")
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION,Unnamed: 3
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...,
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...,
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...,
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.,
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...,


In [41]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [42]:
print(f"--- Fichier : {dataframes[2]['name']} ---")
display(dataframes[2]['data'].head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,...,,,,,,,,,,


In [43]:
display(Markdown(f"## Analyse du fichier : {dataframes[3]['name']}"))

## Analyse du fichier : EdStatsFootNote.csv

In [44]:
print(f"--- Fichier : {dataframes[3]['name']} ---")
display(dataframes[3]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Unnamed: 4
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,


In [45]:
display(Markdown(f"## Analyse du fichier : {dataframes[4]['name']}"))

## Analyse du fichier : EdStatsSeries.csv

In [46]:
print(f"--- Fichier : {dataframes[4]['name']} ---")
display(dataframes[4]['data'].head())

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,...,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,


## 3. Nettoyage et Analyse Exploratoire des Données (EDA)

Cette section automatise le processus de nettoyage et d'analyse descriptive pour l'ensemble des fichiers chargés. L'objectif est de garantir l'intégrité des données et d'optimiser la structure des DataFrames avant l'analyse approfondie.

### Méthodologie appliquée par fichier :

1. **Définition de l'unité d'observation (*Row definition*)** :
   - Identification de la granularité technique d'une ligne (ex: une observation unique pays/année/indicateur).
2. **Évaluation de la volumétrie (*Shape*)** :
   - Calcul du nombre de lignes (*records*) et de colonnes (*features*) pour quantifier le dataset.
3. **Traitement des Redondances (*Deduplication*)** :
   - Détection et suppression des doublons pour éviter de biaiser les futurs calculs statistiques (moyennes, sommes).
4. **Analyse de la complétude (*Missing Values*)** :
   - Calcul de la proportion de valeurs manquantes (`NaN`) par colonne pour évaluer la fiabilité de chaque variable.
5. **Optimisation du Dataset (*Pruning*)** :
   - Suppression des colonnes jugées inutilisables (ex: colonnes techniques vides ou colonnes ayant 100% de valeurs manquantes).
6. **Analyse Descriptive (*Numerical & Categorical Features*)** :
   - **Colonnes Numériques** : Application de `.describe()` pour obtenir les mesures de tendance centrale et de dispersion (Min, Max, Moyenne, Quartiles).
   - **Colonnes Catégorielles** : Calcul des occurrences via `.value_counts()` pour identifier les modalités dominantes et les déséquilibres potentiels.

> **Note technique :** Afin de garantir un rendu visuel stable dans l'IDE et un export PDF professionnel, les résultats catégoriels sont convertis en structures tabulaires (*DataFrames*) avant d'être affichés via la fonction `display()`.

### 3.1 Collecte d'informations basiques sur chaque jeu de données
### EdStatsCountry.csv
* **Définition** : Une ligne représente un pays unique ou une entité géographique (ex: une région comme l'Amérique Latine).
* **Clé primaire** : `CountryCode`
* **Contenu** : Toutes les caractéristiques fixes du pays (monnaie, région, système de recensement, etc...)

### EdStatsSeries.csv
* **Définition** : Une ligne représente un indicateur statistique unique (un "Series").
* **Clé primaire** : `SeriesCode`
* **Contenu** : Les définitions, les sources et les méthodologies pour chaque type de donnée mesurée (ex: taux d'inscription scolaire).
*
### EdStatsCountry-Series.csv
* **Définition** : Une ligne représente une relation spécifique entre un pays et un indicateur.
* **Clé composite** : `CountryCode` + `SeriesCode`
* **Contenu** : Il sert de table de liaison. Il précise souvent la source de données spécifique utilisée pour cet indicateur dans ce pays précis (colonne `DESCRIPTION`).

### EdStatsFootNote.csv
* **Définition** : Une ligne représente une note de bas de page liée à une mesure spécifique.
* **Clé composite** : `CountryCode` + `SeriesCode` + `Year`
* **Contenu** : Une explication textuelle (`DESCRIPTION`) pour justifier une anomalie ou une estimation pour une année donnée.

### EdStatsData.csv
* **Définition** : Une ligne représente l'évolution historique d'un indicateur pour un pays.
* **Clé composite** : `CountryCode` + `IndicatorCode`
* **Contenu** : Contrairement aux autres, ce fichier est "large" dans un format `pivoté` : il contient les valeurs numériques pour chaque année de 1970 à 2100 sur la même ligne.

In [47]:
display(Markdown(f"## Analyse du fichier : {dataframes[0]['name']}"))

## Analyse du fichier : EdStatsCountry.csv

In [71]:
rows, columns = dataframes[0]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f"### 3.2. Le fichier : {dataframes[0]['name']} comprend {rows} lignes et {columns} colonnes"))

### 3.2. Le fichier : EdStatsCountry.csv comprend 241 lignes et 31 colonnes

In [72]:
duplicate_count = dataframes[0]['data'].duplicated().sum()
display(Markdown(f"### 3.3. Le fichier : {dataframes[0]['name']} posséde {duplicate_count} lignes dupliquées"))

### 3.3. Le fichier : EdStatsCountry.csv posséde 0 lignes dupliqués

In [50]:
if duplicate_count > 0:
    dataframes[0]['data'] = dataframes[0]['data'].drop_duplicates()

### 3.4. Calcul du pourcentage de valeurs manquantes par colonnes et affichage dans un nouveau dataframe trié par pourcentage décroissant.

In [51]:
percent_missing = dataframes[0]['data'].isnull().sum() * 100 / len(dataframes[0]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[0]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 31,Unnamed: 31,100.0
National accounts reference year,National accounts reference year,86.721992
Alternative conversion factor,Alternative conversion factor,80.497925
Other groups,Other groups,75.93361
Latest industrial data,Latest industrial data,55.60166
Vital registration complete,Vital registration complete,53.941909
External debt Reporting status,External debt Reporting status,48.547718
Latest household survey,Latest household survey,41.493776
Latest agricultural census,Latest agricultural census,41.078838
Lending category,Lending category,40.248963


### 3.5. Néttoyage des collones atteignant 100% de valeurs manquantes

In [52]:
dataframes[0]['data'] = dataframes[0]['data'].dropna(axis=1, how='all')
display(dataframes[0]['data'].head())

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,,2010,,,Yes,,,2012.0,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,


In [78]:
display(Markdown(f"### 3.6. Obtention des mesures de tendances centrales et de dispersions : {dataframes[0]['name']}"))

### 3.6. Obtention des mesures de tendances centrales et de dispersions : EdStatsCountry.csv

In [77]:
numeric_df = dataframes[0]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[0]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[0]['name']} ne posséde pas de valeur numérique"))

Unnamed: 0,National accounts reference year,Latest industrial data,Latest trade data
count,32.0,107.0,185.0
mean,2001.53125,2008.102804,2010.994595
std,5.24856,2.616834,2.569675
min,1987.0,2000.0,1995.0
25%,1996.75,2007.5,2011.0
50%,2002.0,2009.0,2012.0
75%,2005.0,2010.0,2012.0
max,2012.0,2010.0,2012.0


In [79]:
import pandas as pd
from IPython.display import display, Markdown

df_source = dataframes[0]['data']
cat_cols = df_source.select_dtypes(include=['object', 'string']).columns

report_chunks = []

for col in cat_cols:
    counts = df_source[col].value_counts().head(5).to_frame()

    counts = counts.reset_index()
    counts.columns = ['Valeur', 'Nombre']
    counts.insert(0, 'Variable', col)
    report_chunks.append(counts)

final_report = pd.concat(report_chunks, ignore_index=True)

display(Markdown(f"### 3.6. Rapport global des occurrences : {dataframes[0]['name']}"))

### 3.6. Rapport global des occurrences : EdStatsCountry.csv

In [74]:
display(final_report)

Unnamed: 0,Variable,Valeur,Nombre
0,Country Code,ABW,1
1,Country Code,AFG,1
2,Country Code,AGO,1
3,Country Code,ALB,1
4,Country Code,AND,1
...,...,...,...
105,Latest water withdrawal data,2000,40
106,Latest water withdrawal data,2005,40
107,Latest water withdrawal data,2007,18
108,Latest water withdrawal data,2002,16


In [55]:
display(Markdown(f"## Analyse du fichier : {dataframes[1]['name']}"))

## Analyse du fichier : EdStatsCountry-Series.csv

In [56]:
rows, columns = dataframes[1]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f" Le fichier : {dataframes[1]['name']} comprend {rows} lignes et {columns} colonnes"))

 Le fichier : EdStatsCountry-Series.csv comprend 613 lignes et 4 colonnes

In [57]:
duplicate_count = dataframes[1]['data'].duplicated().sum()
display(Markdown(f" Le fichier : {dataframes[1]['name']} posséde {duplicate_count} lignes dupliqués"))

 Le fichier : EdStatsCountry-Series.csv posséde 0 lignes dupliqués

In [58]:
if duplicate_count > 0:
    dataframes[1]['data'] = dataframes[1]['data'].drop_duplicates()

In [59]:
percent_missing = dataframes[1]['data'].isnull().sum() * 100 / len(dataframes[1]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[1]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 3,Unnamed: 3,100.0
CountryCode,CountryCode,0.0
SeriesCode,SeriesCode,0.0
DESCRIPTION,DESCRIPTION,0.0


In [60]:
dataframes[1]['data'] = dataframes[1]['data'].dropna(axis=1, how='all')
display(dataframes[1]['data'].head())

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...


In [61]:
numeric_df = dataframes[1]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[1]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[1]['name']} ne posséde pas de valeur numérique"))

 Le fichier : EdStatsCountry-Series.csv ne posséde pas de valeur numérique

In [62]:
df_source = dataframes[1]['data']
categorical_results = {}

cat_col = dataframes[1]['data'].select_dtypes(include=['object', 'string']).columns
x = 0
for col in cat_col:
    categorical_results[col] = df_source[col].value_counts()
    print(f"--- COLONNE : {col} ---")
    print(categorical_results[cat_col[x]].head())
    print("-" * 40)
    x = x + 1

--- COLONNE : CountryCode ---
CountryCode
GEO    18
MDA    18
CYP    12
MAR    12
MUS    12
Name: count, dtype: int64
----------------------------------------
--- COLONNE : SeriesCode ---
SeriesCode
SP.POP.TOTL          211
SP.POP.GROW          211
NY.GDP.PCAP.PP.CD     19
NY.GDP.PCAP.PP.KD     19
NY.GNP.PCAP.PP.CD     19
Name: count, dtype: int64
----------------------------------------
--- COLONNE : DESCRIPTION ---
DESCRIPTION
Data sources : United Nations World Population Prospects                154
Data sources: United Nations World Population Prospects                 137
Estimates are based on regression.                                       84
Data sources : Eurostat                                                  54
Derived using ratio of age group from WPP and World Bank population.     24
Name: count, dtype: int64
----------------------------------------


In [63]:
display(Markdown(f"## Analyse du fichier : {dataframes[2]['name']}"))

## Analyse du fichier : EdStatsData.csv

In [64]:
rows, columns = dataframes[2]['data'].shape
print(f"Rows: {rows}, Columns: {columns}")
display(Markdown(f" Le fichier : {dataframes[2]['name']} comprend {rows} lignes et {columns} colonnes"))

 Le fichier : EdStatsData.csv comprend 886930 lignes et 70 colonnes

In [65]:
duplicate_count = dataframes[2]['data'].duplicated().sum()
display(Markdown(f" Le fichier : {dataframes[2]['name']} posséde {duplicate_count} lignes dupliqués"))

 Le fichier : EdStatsData.csv posséde 0 lignes dupliqués

In [66]:
if duplicate_count > 0:
    dataframes[2]['data'] = dataframes[2]['data'].drop_duplicates()

In [67]:
percent_missing = dataframes[2]['data'].isnull().sum() * 100 / len(dataframes[2]['data'])
missing_value = pd.DataFrame({'column_name' : dataframes[2]['data'].columns, 'percent_missing' : percent_missing}).sort_values(by='percent_missing', ascending=False)
display(missing_value)

Unnamed: 0,column_name,percent_missing
Unnamed: 69,Unnamed: 69,100.000000
2017,2017,99.983877
2016,2016,98.144160
1971,1971,95.993258
1973,1973,95.992356
...,...,...
2010,2010,72.665036
Country Code,Country Code,0.000000
Indicator Code,Indicator Code,0.000000
Indicator Name,Indicator Name,0.000000


In [68]:
numeric_df = dataframes[2]['data'].select_dtypes(include=['number'])

if not numeric_df.empty:
    display(dataframes[2]['data'].describe(include=[np.number]))
else :
    display(Markdown(f" Le fichier : {dataframes[2]['name']} ne posséde pas de valeur numérique"))

Unnamed: 0,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
count,72288.0,35537.0,35619.0,35545.0,35730.0,87306.0,37483.0,37574.0,37576.0,36809.0,...,51436.0,51436.0,51436.0,51436.0,51436.0,51436.0,51436.0,51436.0,51436.0,0.0
mean,1974772000.0,4253638000.0,4592365000.0,5105006000.0,5401493000.0,2314288000.0,5731808000.0,6124437000.0,6671489000.0,7436724000.0,...,722.4868,727.129,728.3779,726.6484,722.8327,717.6899,711.3072,703.4274,694.0296,
std,121168700000.0,180481400000.0,191408300000.0,205917000000.0,211215000000.0,137505900000.0,221554600000.0,232548900000.0,247398600000.0,266095700000.0,...,22158.45,22879.9,23523.38,24081.49,24558.97,24965.87,25301.83,25560.69,25741.89,
min,-1.435564,-1.594625,-3.056522,-4.032582,-4.213563,-3.658569,-2.950945,-3.17487,-3.558749,-2.973612,...,-1.63,-1.44,-1.26,-1.09,-0.92,-0.78,-0.65,-0.55,-0.45,
25%,0.89,8.85321,9.24092,9.5952,9.861595,1.4,9.312615,9.519913,10.0,10.0,...,0.03,0.03,0.02,0.02,0.01,0.01,0.01,0.01,0.01,
50%,6.317724,63.1624,66.55139,69.69595,70.8776,9.67742,71.0159,71.33326,72.90512,75.10173,...,0.23,0.23,0.23,0.23,0.23,0.23,0.23,0.23,0.22,
75%,62.5125,56552.0,58636.5,62029.0,63836.75,78.54163,56828.0,57391.75,59404.25,64115.0,...,7.505,7.5,7.3,7.1,6.7225,6.08,5.4625,4.68,4.0325,
max,19039290000000.0,19864570000000.0,21009160000000.0,22383670000000.0,22829910000000.0,23006340000000.0,24241280000000.0,25213830000000.0,26221010000000.0,27308730000000.0,...,2951569.0,3070879.0,3169711.0,3246239.0,3301586.0,3337871.0,3354746.0,3351887.0,3330484.0,


In [69]:
df_source = dataframes[2]['data']
categorical_results = {}

cat_col = dataframes[2]['data'].select_dtypes(include=['object', 'string']).columns
x = 0
for col in cat_col:
    categorical_results[col] = df_source[col].value_counts()
    print(f"--- COLONNE : {col} ---")
    print(categorical_results[cat_col[x]].head())
    print("-" * 40)
    x = x + 1

--- COLONNE : Country Name ---
Country Name
Arab World                                     3665
East Asia & Pacific                            3665
East Asia & Pacific (excluding high income)    3665
Euro area                                      3665
Europe & Central Asia                          3665
Name: count, dtype: int64
----------------------------------------
--- COLONNE : Country Code ---
Country Code
ARB    3665
EAS    3665
EAP    3665
EMU    3665
ECS    3665
Name: count, dtype: int64
----------------------------------------
--- COLONNE : Indicator Name ---
Indicator Name
Adjusted net enrolment rate, lower secondary, both sexes (%)               242
Adjusted net enrolment rate, lower secondary, female (%)                   242
Adjusted net enrolment rate, lower secondary, gender parity index (GPI)    242
Adjusted net enrolment rate, lower secondary, male (%)                     242
Adjusted net enrolment rate, primary, both sexes (%)                       242
Name: count, dt