# Projet 2 : Analysez des données de systèmes éducatifs

Pour la pré-analyse, pourrais-tu :
* Valider la qualité de ce jeu de données (comporte-t-il beaucoup de données manquantes, dupliquées ?)
* Décrire les informations contenues dans le jeu de données (nombre de colonnes ? nombre de lignes ?)
* Sélectionner les informations qui semblent pertinentes pour répondre à la problématique (quelles sont les colonnes contenant des informations qui peuvent être utiles pour répondre à la problématique de l’entreprise ?)
* Déterminer des ordres de grandeurs des indicateurs statistiques classiques pour les différentes zones géographiques et pays du monde (moyenne/médiane/écart-type par pays et par continent ou bloc géographique)


## Importation des données

In [79]:
import pandas as pd

In [80]:
data_raw = pd.read_csv("EdStatsData.csv")
print("Le jeu de données contient {} lignes et {} colonnes.".format(data_raw.shape[0],data_raw.shape[1]))

Le jeu de données contient 886930 lignes et 70 colonnes.


In [31]:
data_raw.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,...,,,,,,,,,,


In [73]:
data_raw.tail()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
886925,Zimbabwe,ZWE,"Youth illiterate population, 15-24 years, male...",UIS.LP.AG15T24.M,,,,,,,...,,,,,,,,,,
886926,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, b...",SE.ADT.1524.LT.ZS,,,,,,,...,,,,,,,,,,
886927,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, f...",SE.ADT.1524.LT.FE.ZS,,,,,,,...,,,,,,,,,,
886928,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, g...",SE.ADT.1524.LT.FM.ZS,,,,,,,...,,,,,,,,,,
886929,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, m...",SE.ADT.1524.LT.MA.ZS,,,,,,,...,,,,,,,,,,


Nous observons, à partir des premières et dernières lignes :
* Le nom du pays (ou de la région) est indiqué dans la première colonne (index 0)
* le code du pays dans la deuxième colonne (index 1)
* le nom de l'indicateur est indiqué dans la troisième colonne (index 2)
* le code de l'indicateur est indiqué dans la quatrième colonne (index 3)
* les colonnes suivantes donnent les valeurs de l'indicateur depuis 1970 (index 4) à 2090.

Les données sont donc multi-indexé sur le pays ("Country code") et l'indicateur ("Indicator code").

In [178]:
liste_pays = list(data_raw["Country Name"].unique())
print("Nombre de pays et de régions dans le jeu de données :", len(liste_pays))
liste_pays

Nombre de pays et de régions dans le jeu de données : 242


['Arab World',
 'East Asia & Pacific',
 'East Asia & Pacific (excluding high income)',
 'Euro area',
 'Europe & Central Asia',
 'Europe & Central Asia (excluding high income)',
 'European Union',
 'Heavily indebted poor countries (HIPC)',
 'High income',
 'Latin America & Caribbean',
 'Latin America & Caribbean (excluding high income)',
 'Least developed countries: UN classification',
 'Low & middle income',
 'Low income',
 'Lower middle income',
 'Middle East & North Africa',
 'Middle East & North Africa (excluding high income)',
 'Middle income',
 'North America',
 'OECD members',
 'South Asia',
 'Sub-Saharan Africa',
 'Sub-Saharan Africa (excluding high income)',
 'Upper middle income',
 'World',
 'Afghanistan',
 'Albania',
 'Algeria',
 'American Samoa',
 'Andorra',
 'Angola',
 'Antigua and Barbuda',
 'Argentina',
 'Armenia',
 'Aruba',
 'Australia',
 'Austria',
 'Azerbaijan',
 'Bahamas, The',
 'Bahrain',
 'Bangladesh',
 'Barbados',
 'Belarus',
 'Belgium',
 'Belize',
 'Benin',
 'Berm

Nous constatons qu'il y a un total de 242 pays et régions.

Les régions sont situées au début de la base de données (par ordre alphabétique, de 'Arab World' à 'World').

Ensuite viennent les pays, également classés par ordre alphabétique (de 'Afghanistan' à 'Zimbabwe').

Nous allons séparer la liste des pays et régions.

In [179]:
liste_regions = []
while 'World' in liste_pays:
    liste_regions.append(liste_pays.pop(0))
print("Liste des régions : de {} à {}".format(liste_regions[0], liste_regions[-1]))
print("Liste des pays : de {} à {}".format(liste_pays[0], liste_pays[-1]))

Liste des régions : de Arab World à World
Liste des pays : de Afghanistan à Zimbabwe


In [82]:
liste_indicateurs = data_raw["Indicator Name"].unique()
print("Nombre d'indicateurs dans le jeu de données :", len(liste_indicateurs))

Nombre d'indicateurs dans le jeu de données : 3665


Il y a un très grand nombre d'indicateurs. Il ne sera bien évidemment pas possible de tous les exploiter, et nous devrons sélectionner les plus pertinents pour notre analyse.

## Identification et traitement des doublons

In [47]:
# Les valeurs dupliquées correspondent aux lignes qui ont le même pays et le même indicateur.
duplicates = data_raw.duplicated(subset=["Country Code","Indicator Code"], keep='first')
duplicates.unique()

array([False])

Nous constatons qu'il n'y a pas de données dupliquées (même code pays et même code indicateur).

## Sélection des colonnes pertinentes
Nous décidons de ne garder les données que pour les années 2012 à 2030. Cela nous informera suffisamment sur l'état actuel et les perspectives à moyen terme.

In [85]:
data = pd.concat([data_raw.loc[:,"Country Name":"Indicator Code"],data_raw.loc[:,"2012":"2030"]], axis=1)
# Nous affichons les premières lignes pour vérifier la structure des données
data.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2012,2013,2014,2015,2016,2017,2020,2025,2030
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,86.101669,85.51194,85.320152,,,,,,


## Valeurs manquantes

In [86]:
# Résumé statistique
data.describe() 

Unnamed: 0,2012,2013,2014,2015,2016,2017,2020,2025,2030
count,147264.0,137509.0,113789.0,131058.0,16460.0,143.0,51436.0,51436.0,51436.0
mean,21763230000.0,24253320000.0,26784490000.0,23537200000.0,193441100000.0,2.160839,578.0697,605.4774,631.5916
std,883395500000.0,951301600000.0,1023180000000.0,973246500000.0,2839188000000.0,0.810584,14750.72,15773.05,16785.56
min,-604993.0,-615748.0,-89.0,-2.467847,-1.797539,1.0,-1.87,-2.0,-2.11
25%,11.0,13.06113,16.14639,0.41,18.26761,2.0,0.06,0.06,0.06
50%,97.59012,100.0,100.0,52.35,6264.0,2.0,0.23,0.23,0.23
75%,103816.8,142648.0,163644.0,61535.75,593959.0,3.0,6.66,6.9,7.0625
max,99994730000000.0,105458000000000.0,110806000000000.0,115619800000000.0,120603000000000.0,4.0,1599479.0,1781898.0,1967258.0


Nous voyons que de très nombreuses valeurs sont manquantes pour chaque année. En effet, il y a un total de 886930 (8,86e+5) lignes.

En particulier, nous constatons que seulement 143 valeurs sont renseignées pour l'année 2017. Nous décidons donc de suprimer cette colonne.

In [87]:
data = data.drop("2017", axis=1)

In [72]:
data.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2012,2013,2014,2015,2016,2020,2025,2030
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,86.101669,85.51194,85.320152,,,,,


In [144]:
# Nous allons séléctionner les indicateurs qui ont les meilleurs taux de remplissage.
# Pour cela, nous allons agréger les données par indicateur et calculer pour chaque indicateur le taux de remplissage.

gb_indicateurs = data.groupby('Indicator Code')
print(gb_indicateurs.sum()[::200])

                                   2012          2013          2014  \
Indicator Code                                                        
BAR.NOED.1519.FE.ZS        0.000000e+00  0.000000e+00  0.000000e+00   
BAR.SEC.CMPT.5559.FE.ZS    0.000000e+00  0.000000e+00  0.000000e+00   
HH.DHS.OOS.1               2.891000e+02  1.512699e+02  1.611737e+02   
HH.MICS.YRS.15UP.GIN       4.849222e+01  0.000000e+00  2.683296e+02   
LO.EGRA.LSTN.0.SID.2GRD    0.000000e+00  0.000000e+00  0.000000e+00   
LO.EGRA.READ.KNY.ADV.6GRD  0.000000e+00  0.000000e+00  0.000000e+00   
LO.PASEC.MAT.6.P10         0.000000e+00  0.000000e+00  3.926500e+03   
LO.PIRLS.REA.P25           0.000000e+00  0.000000e+00  0.000000e+00   
LO.TIMSS.MAT8.MA           0.000000e+00  0.000000e+00  0.000000e+00   
PRJ.ATT.25UP.3.FE          0.000000e+00  0.000000e+00  0.000000e+00   
SABER.EMIS.GOAL1.LVL6      0.000000e+00  0.000000e+00  0.000000e+00   
SABER.WORK.GOAL1.LVL3      2.100000e+01  2.100000e+01  2.100000e+01   
SL.UEM

Nous constatons que certains indicateurs ne sont pas remplis du tout, par aucun pays et aucune année.
Nous allons déjà supprimer ces indicateurs vides.

In [161]:
# Pour chaque indicateur, nous allons faire le décompte des valeurs non-nulles

col_list = list(gb_indicateurs_count)
col_list.remove('Country Name')
col_list.remove('Country Code')
col_list.remove('Indicator Name')
col_list

# Séparer en valeurs "passées" et valeurs "futur"

gb_indicateurs_count = gb_indicateurs.count()
gb_indicateurs_count['Total'] = gb_indicateurs_count[col_list].sum(axis=1)
gb_indicateurs_count[::200] # affiche une valeur sur 200

Unnamed: 0_level_0,Country Name,Country Code,Indicator Name,2012,2013,2014,2015,2016,2020,2025,2030,Total
Indicator Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
BAR.NOED.1519.FE.ZS,242,242,242,0,0,0,0,0,0,0,0,0
BAR.SEC.CMPT.5559.FE.ZS,242,242,242,0,0,0,0,0,0,0,0,0
HH.DHS.OOS.1,242,242,242,14,7,8,6,0,0,0,0,35
HH.MICS.YRS.15UP.GIN,242,242,242,1,0,7,0,0,0,0,0,8
LO.EGRA.LSTN.0.SID.2GRD,242,242,242,0,0,0,0,0,0,0,0,0
LO.EGRA.READ.KNY.ADV.6GRD,242,242,242,0,0,0,0,0,0,0,0,0
LO.PASEC.MAT.6.P10,242,242,242,0,0,10,0,0,0,0,0,10
LO.PIRLS.REA.P25,242,242,242,0,0,0,0,45,0,0,0,45
LO.TIMSS.MAT8.MA,242,242,242,0,0,0,35,0,0,0,0,35
PRJ.ATT.25UP.3.FE,242,242,242,0,0,0,167,0,167,167,167,668


Nous constatons que certains indicateurs ne sont pas remplis du tout, ou très peu. Comme il y a un total de 8 colonnes pour les années (2012 à 2030), et 242 pays ou régions, un indicateur totalement rempli devrait comporter 1936 valeurs. En ce limitant aux valeurs passées, années 2012 à 2016, nous devrions avoir 1210 valeurs.

In [162]:
# Tri des indicateurs par nombre décroissant de réponses
data = gb_indicateurs_count.sort_values("Total",ascending=False)
data[::200] # affiche une valeur sur 200

Unnamed: 0_level_0,Country Name,Country Code,Indicator Name,2012,2013,2014,2015,2016,2020,2025,2030,Total
Indicator Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
SP.POP.GROW,242,242,242,239,239,232,232,232,0,0,0,1174
SP.POP.1116.MA.UN,242,242,242,181,181,181,181,0,0,0,0,724
PRJ.ATT.2024.NED.FE,242,242,242,0,0,0,167,0,167,167,167,668
SP.POP.AG17.FE.UN,242,242,242,181,181,0,181,0,0,0,0,543
UIS.E.0.T,242,242,242,127,128,110,7,0,0,0,0,372
UIS.FOSEP.56.F400.M,242,242,242,90,90,77,4,0,0,0,0,261
UIS.XGDP.1.FSGOV.FDINSTADM.FFD,242,242,242,81,69,35,0,0,0,0,0,185
LO.PISA.REA.6.FE,242,242,242,64,0,0,71,0,0,0,0,135
UIS.AFR.SCHBSP.1.PU.WOTOIL,242,242,242,24,19,11,1,0,0,0,0,55
UIS.AFR.FNTP.1,242,242,242,15,16,2,0,0,0,0,0,33


In [154]:
# Nous allons construire un histogramme présentant le nombre de valeurs par indicateur
