# Imports

In [29]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt
import scipy.stats as st
from pandas_profiling import ProfileReport
import missingno as msno

In [2]:
ls -lh ./data

total 353M
-rw-r--r-- 1 dgaillot dgaillot 137K Jan 22  2018 EdStatsCountry.csv
-rw-r--r-- 1 dgaillot dgaillot    0 Dec 10 09:48 EdStatsCountry.csv:Zone.Identifier
-rw-r--r-- 1 dgaillot dgaillot  48K Jan 22  2018 EdStatsCountry-Series.csv
-rw-r--r-- 1 dgaillot dgaillot    0 Dec 10 09:48 EdStatsCountry-Series.csv:Zone.Identifier
-rw-r--r-- 1 dgaillot dgaillot 312M Jan 22  2018 EdStatsData.csv
-rw-r--r-- 1 dgaillot dgaillot    0 Dec 10 09:48 EdStatsData.csv:Zone.Identifier
-rw-r--r-- 1 dgaillot dgaillot  38M Jan 22  2018 EdStatsFootNote.csv
-rw-r--r-- 1 dgaillot dgaillot    0 Dec 10 09:48 EdStatsFootNote.csv:Zone.Identifier
-rw-r--r-- 1 dgaillot dgaillot 3.6M Jan 22  2018 EdStatsSeries.csv
-rw-r--r-- 1 dgaillot dgaillot    0 Dec 10 09:48 EdStatsSeries.csv:Zone.Identifier


# Situation initale, objectifs


## Situation initiale

### Contexte


Vous êtes Data Scientist dans une start-up de la EdTech, nommée academy, qui propose des contenus de formation en ligne pour un public de niveau lycée et université.

Mark, votre manager, vous a convié à une réunion pour vous présenter le projet d’expansion à l’international de l’entreprise. Il vous confie une première mission d’analyse exploratoire, pour déterminer si les données sur l’éducation de la banque mondiale permettent d’informer le projet d’expansion.

### Questions lors de la réunion

Voici les différentes questions que Mark aimerait explorer, que vous avez notées durant la réunion

- Quels sont les pays avec un fort potentiel de clients pour nos services ?
- Pour chacun de ces pays, quelle sera l’évolution de ce potentiel de clients ?
- Dans quels pays l'entreprise doit-elle opérer en priorité ?

### Mail post-réunion


"Les données de la Banque mondiale sont disponibles à l’adresse suivante : https://datacatalog.worldbank.org/dataset/education-statistics

Ou en téléchargement direct à ce [lien](https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/Parcours_data_scientist/Projet+-+Donn%C3%A9es+%C3%A9ducatives/Projet+Python_Dataset_Edstats_csv.zip)."

> The World Bank EdStats All Indicator Query holds over 4,000 internationally comparable indicators that describe education access, progression, completion, literacy, teachers, population, and expenditures. The indicators cover the education cycle from pre-primary to vocational and tertiary education.The query also holds learning outcome data from international and regional learning assessments (e.g. PISA, TIMSS, PIRLS), equity data from household surveys, and projection/attainment data to 2050. For further information, please visit the EdStats website.

"Je te laisse regarder la page d'accueil qui décrit le jeu de données. En résumé, l’organisme “EdStats All Indicator Query” de la Banque mondiale répertorie 4000 indicateurs internationaux décrivant l’accès à l’éducation, l’obtention de diplômes et des informations relatives aux professeurs, aux dépenses liées à l’éducation... Tu trouveras plus d'info [sur ce site](http://datatopics.worldbank.org/education/)"

Pour la pré-analyse, pourrais-tu :

- Valider la qualité de ce jeu de données (comporte-t-il beaucoup de données manquantes, dupliquées ?)
- Décrire les informations contenues dans le jeu de données (nombre de colonnes ? nombre de lignes ?)
- Sélectionner les informations qui semblent pertinentes pour répondre à la problématique (quelles sont les colonnes contenant des informations qui peuvent être utiles pour répondre à la problématique de l’entreprise ?)
- Déterminer des ordres de grandeurs des indicateurs statistiques classiques pour les différentes zones géographiques et pays du monde (moyenne/médiane/écart-type par pays et par continent ou bloc géographique)

Ton travail va nous permettre de déterminer si ce jeu de données peut informer les décisions d'ouverture vers de nouveaux pays. On va partager ton analyse avec le board, alors merci de soigner la présentation et de l'illustrer avec des graphiques pertinents et lisibles !

## Résumé demande

###  Objectif :

"Permettre de déterminer si ce jeu de données peut informer les décisions d'ouverture vers de nouveaux pays. On va partager ton analyse avec le board, alors merci de soigner la présentation et de l'illustrer avec des graphiques pertinents et lisibles"

### Etapes :

# Exploration

## Main DF : EDS_stats_df

### Basic exploration

In [3]:
EDS_stats_df = pd.read_csv('./data/EdStatsData.csv')
EDS_stats_df.shape

(886930, 70)

In [4]:
EDS_stats_df.dtypes

Country Name       object
Country Code       object
Indicator Name     object
Indicator Code     object
1970              float64
                   ...   
2085              float64
2090              float64
2095              float64
2100              float64
Unnamed: 69       float64
Length: 70, dtype: object

In [5]:
EDS_stats_df.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,...,,,,,,,,,,


In [6]:
nb_na_EDSS = EDS_stats_df.isnull().sum()
nb_na_EDSS

Country Name           0
Country Code           0
Indicator Name         0
Indicator Code         0
1970              814642
                   ...  
2085              835494
2090              835494
2095              835494
2100              835494
Unnamed: 69       886930
Length: 70, dtype: int64

In [7]:
# variables ayant des valeurs manquantes
nb_na_EDSS[nb_na_EDSS>0]

1970           814642
1971           851393
1972           851311
1973           851385
1974           851200
                ...  
2085           835494
2090           835494
2095           835494
2100           835494
Unnamed: 69    886930
Length: 66, dtype: int64

In [8]:
EDS_stats_df.shape[0]

886930

In [9]:
sns.heatmap(EDS_stats_df.isnull(), cbar=False)

<AxesSubplot:>

In [None]:
msno.matrix(EDS_stats_df)

<AxesSubplot:>

In [10]:
# détail
EDS_stats_df.loc[EDS_stats_df['1970'].isnull()]

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
8,Arab World,ARB,"Adjusted net enrolment rate, upper secondary, ...",UIS.NERA.3,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886925,Zimbabwe,ZWE,"Youth illiterate population, 15-24 years, male...",UIS.LP.AG15T24.M,,,,,,,...,,,,,,,,,,
886926,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, b...",SE.ADT.1524.LT.ZS,,,,,,,...,,,,,,,,,,
886927,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, f...",SE.ADT.1524.LT.FE.ZS,,,,,,,...,,,,,,,,,,
886928,Zimbabwe,ZWE,"Youth literacy rate, population 15-24 years, g...",SE.ADT.1524.LT.FM.ZS,,,,,,,...,,,,,,,,,,


### Pandas Profiling

In [11]:
#profile = ProfileReport(EDS_stats_df, minimal=True)
#profile.to_file(output_file="./PP_reports/EDS_stats_df.html")

## Secondaries DFs

### EDS_stats country_df

In [12]:
EDS_statscountry_df = pd.read_csv('./data/EdStatsCountry.csv')
EDS_statscountry_df.shape

(241, 32)

In [13]:
EDS_statscountry_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 241 entries, 0 to 240
Data columns (total 32 columns):
 #   Column                                             Non-Null Count  Dtype  
---  ------                                             --------------  -----  
 0   Country Code                                       241 non-null    object 
 1   Short Name                                         241 non-null    object 
 2   Table Name                                         241 non-null    object 
 3   Long Name                                          241 non-null    object 
 4   2-alpha code                                       238 non-null    object 
 5   Currency Unit                                      215 non-null    object 
 6   Special Notes                                      145 non-null    object 
 7   Region                                             214 non-null    object 
 8   Income Group                                       214 non-null    object 
 9   WB-2 code 

In [14]:
EDS_statscountry_df.head()

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,...,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,...,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,...,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,...,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,...,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0,
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,...,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,,


In [15]:
EDS_statscountry_df.isnull().sum()

Country Code                                           0
Short Name                                             0
Table Name                                             0
Long Name                                              0
2-alpha code                                           3
Currency Unit                                         26
Special Notes                                         96
Region                                                27
Income Group                                          27
WB-2 code                                              1
National accounts base year                           36
National accounts reference year                     209
SNA price valuation                                   44
Lending category                                      97
Other groups                                         183
System of National Accounts                           26
Alternative conversion factor                        194
PPP survey year                

In [16]:
#profile_EDSSC = ProfileReport(EDS_statscountry_df, minimal=True)
#profile_EDSSC.to_file(output_file="./PP_reports/EDS_statscountry_df.html")

### EDS_countryseries_df

In [17]:
EDS_countryseries_df = pd.read_csv('./data/EdStatsCountry-Series.csv')
EDS_countryseries_df.shape

(613, 4)

In [18]:
EDS_countryseries_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 613 entries, 0 to 612
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   CountryCode  613 non-null    object 
 1   SeriesCode   613 non-null    object 
 2   DESCRIPTION  613 non-null    object 
 3   Unnamed: 3   0 non-null      float64
dtypes: float64(1), object(3)
memory usage: 19.3+ KB


In [19]:
EDS_countryseries_df.head()

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION,Unnamed: 3
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...,
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...,
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...,
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.,
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...,


In [20]:
EDS_countryseries_df.isnull().sum()

CountryCode      0
SeriesCode       0
DESCRIPTION      0
Unnamed: 3     613
dtype: int64

In [21]:
#profile_EDSCS = ProfileReport(EDS_countryseries_df, minimal=True)
#profile_EDSCS.to_file(output_file="./PP_reports/EDS_countryseries_df.html")

### EDS_statsfootnote_df

In [22]:
EDS_statsfootnote_df = pd.read_csv('./data/EdStatsFootNote.csv')
EDS_statsfootnote_df.shape

(643638, 5)

In [23]:
EDS_statsfootnote_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 643638 entries, 0 to 643637
Data columns (total 5 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   CountryCode  643638 non-null  object 
 1   SeriesCode   643638 non-null  object 
 2   Year         643638 non-null  object 
 3   DESCRIPTION  643638 non-null  object 
 4   Unnamed: 4   0 non-null       float64
dtypes: float64(1), object(4)
memory usage: 24.6+ MB


In [24]:
EDS_statsfootnote_df.head()

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Unnamed: 4
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,


In [25]:
EDS_statsfootnote_df.SeriesCode.head(30)

0           SE.PRE.ENRL.FE
1           SE.TER.TCHR.FE
2           SE.PRE.TCHR.FE
3           SE.SEC.ENRL.GC
4              SE.PRE.TCHR
5              SE.PRE.NENR
6        SE.SEC.ENRL.VO.FE
7           SE.SEC.ENRL.GC
8           SE.PRM.TCHR.FE
9        SE.PRE.TCHR.FE.ZS
10             SE.PRE.ENRL
11          SE.PRE.NENR.FE
12    SE.SEC.ENRL.VO.FE.ZS
13          SE.SEC.TCHR.FE
14    SE.SEC.ENRL.VO.FE.ZS
15          SE.SEC.ENRL.VO
16       SE.PRE.TCHR.FE.ZS
17          SE.PRE.ENRL.FE
18          SE.PRE.NENR.MA
19          SE.SEC.TCHR.FE
20             SE.PRE.ENRL
21             SE.PRE.TCHR
22             SE.PRE.NENR
23          SE.PRM.TCHR.FE
24          SE.PRE.TCHR.FE
25             SE.PRE.ENRL
26          SE.SEC.TCHR.FE
27          SE.SEC.ENRL.GC
28          SE.PRM.TCHR.FE
29       SE.SEC.ENRL.VO.FE
Name: SeriesCode, dtype: object

In [26]:
type(EDS_statsfootnote_df.SeriesCode)

pandas.core.series.Series

In [27]:
EDS_statsfootnote_df.isnull().sum()

CountryCode         0
SeriesCode          0
Year                0
DESCRIPTION         0
Unnamed: 4     643638
dtype: int64

In [28]:
#profile_EDSSfoot = ProfileReport(EDS_statsfootnote_df, minimal=True)
#profile_EDSSfoot.to_file(output_file="./PP_reports/EDS_statsfootnote_df.html")