# World edu stats
Pour commencer l'analyse du fichier Data, je charge chacun des fichiers csv disponibles dans les ressources https://datacatalog.worldbank.org/search/dataset/0038480
Pour chacun de ces fichiers, j'affiche un aperçu et j'explique en quelques lignes ce qu'il contient. 

## EdStatsData
Le fichier principal de 887 000 lignes, comprenant pour chaque pays différents indicateurs relatifs à l'éducation, le taux d'illetrisme, de chômage, de pauvreté, de réussite scolaire... sur des années allant de 1970 à 2065 (projection).
A chaque indicateur est ajouté une définition courte.
Les pays concernés sont aussi parfois réunis en zone régionales, par exemple sur l'aperçu : Arab World.

A cause de la grande quantité d'indicateurs présentés, le fichier est complexe à analyser, car tous les pays ne comprennent pas les mêmes indicateurs ni les mêmes périodes étudiées, qu'il y a parfois des regroupements de pays en régions, que les sources sont diverses et comprennent parfois des données locales, parfois des données de l'UNESCO, parfois des données de l'OCDE, etc.


In [4]:
import pandas as pd

data_db = pd.read_csv('data\EdStatsData.csv')
data_db.head(3)


Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,


## EdStatsSeries
Ce fichier apporte des informations complémentaires sur chacun des indicateurs présents dans le fichier Data, par exemple la source des données. Les colonnes les plus intéressantes pour l'analyse sont la colonne 'Topic', renseignée systématiquement, regroupant les indicateurs en fonction de leur thème; les colonne 'Limitations and exceptions', 'Statistical concept and methodology' et 'General comments', parfois renseignées, permettent d'avoir des éléments de réflexion sur le calcul des indicateurs et leur pertinence; enfin, 'Base period' permet de connaître la période sur laquelle porte les indicateurs.


In [16]:
series_db = pd.read_csv("data\EdStatsSeries.csv")
print("Les topics sont les suivants :",series_db['Topic'].unique())
series_db.head(3)

Les topics sont les suivants : ['Attainment' 'Education Equality' 'Infrastructure: Communications'
 'Learning Outcomes'
 'Economic Policy & Debt: National accounts: US$ at current prices: Aggregate indicators'
 'Economic Policy & Debt: National accounts: US$ at constant 2010 prices: Aggregate indicators'
 'Economic Policy & Debt: Purchasing power parity'
 'Economic Policy & Debt: National accounts: Atlas GNI & GNI per capita'
 'Teachers' 'Education Management Information Systems (SABER)'
 'Early Child Development (SABER)' 'Engaging the Private Sector (SABER)'
 'School Health and School Feeding (SABER)'
 'School Autonomy and Accountability (SABER)' 'School Finance (SABER)'
 'Student Assessment (SABER)' 'Teachers (SABER)'
 'Tertiary Education (SABER)' 'Workforce Development (SABER)' 'Literacy'
 'Background' 'Primary' 'Secondary' 'Tertiary' 'Early Childhood Education'
 'Pre-Primary' 'Expenditures' 'Health: Risk factors' 'Health: Mortality'
 'Social Protection & Labor: Labor force structur

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,...,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,,,,,...,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,


## EdStatsCountry-Series
Ce fichier indique la source des données pour les indicateurs de population SP.POP et les indicateurs économiques NY.GNP (produit national brut) et NY.GDP (produit intérieur brut) par pays.
Ce fichier permet donc aussi de savoir quelles infos (pop,éco) sont disponibles pour chaque pays.

In [10]:
cs_db = pd.read_csv("data\EdStatsCountry-Series.csv")
cs_db.dropna(1).head(3)

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...


## EdStatsCountry
Ce fichier regroupe un tas d'informations sur les pays donnés dans le fichier Data. Par exemple : les codes 2 et 3 lettres, le nom complet, la devise ('Currency Unit'), la zone régionale ('Region'), le niveau de richesses ('Income Group'), le groupe ('Other groups') utile par exemple pour regrouper les pays en zone euro.
D'autres informations économiques sont disponibles mais je les comprends moins.

In [17]:
country_db = pd.read_csv('data\EdStatsCountry.csv')
country_db.head(3)

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,


## EdStatsFootNote
Pour chaque indicateur, par pays, par année, l'origine des données.

In [20]:
footnote_db = pd.read_csv("data\EdStatsFootNote.csv")
footnote_db.dropna(1).head(3)

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.
