## Summary:

OlineLearning: propose des cours en ligne.

Cibles: lycée et université

Mark, votre manager, vous a convié à une réunion pour vous présenter le projet d’expansion à l’international de l’entreprise. Il vous confie une première mission d’analyse exploratoire, pour déterminer si les données sur l’éducation de la banque mondiale permettent d’informer le projet d’expansion.

Voici les différentes questions que Mark aimerait explorer, que vous avez notées durant la réunion :

Quels sont les pays avec un fort potentiel de clients pour nos services ?
Pour chacun de ces pays, quelle sera l’évolution de ce potentiel de clients ?
Dans quels pays l'entreprise doit-elle opérer en priorité ?


Votre mission
Mark vous a donc demandé de réaliser une analyse pré-exploratoire de ce jeu de données. Il vous a transmis cet email à la suite de la réunion :

Hello,

Les données de la Banque mondiale sont disponibles dans le dossier `data`

Pour la pré-analyse, pourrais-tu :

Valider la qualité de ce jeu de données (comporte-t-il beaucoup de données manquantes, dupliquées ?)
Décrire les informations contenues dans le jeu de données (nombre de colonnes ? nombre de lignes ?)
Sélectionner les informations qui semblent pertinentes pour répondre à la problématique (quelles sont les colonnes contenant des informations qui peuvent être utiles pour répondre à la problématique de l’entreprise ?)
Déterminer des ordres de grandeurs des indicateurs statistiques classiques pour les différentes zones géographiques et pays du monde (moyenne/médiane/écart-type par pays et par continent ou bloc géographique)
Ton travail va nous permettre de déterminer si ce jeu de données peut informer les décisions d'ouverture vers de nouveaux pays. On va partager ton analyse avec le board, alors merci de soigner la présentation et de l'illustrer avec des graphiques pertinents et lisibles !

Livrables attendus
Un notebook comportant les analyses pré-exploratoires réalisées (non cleané, pour comprendre votre démarche).


source data: https://datacatalog.worldbank.org/search/dataset/0038480


Dernier délai: lundi 03/01/2022 à 00h (UTC) à envoyer par mail

In [2]:
%matplotlib inline
import re
from os import path

import folium
import matplotlib.pyplot as plt
import missingno as msno
import numpy as np
import pandas as pd
import plotly.express as px
import scipy.stats as stats
import seaborn as sns

pd.set_option('display.max_columns', None)

In [12]:
ROOT_DIR = path.join(path.realpath(path.dirname("__file__")))
print(ROOT_DIR)
file_path = path.join(ROOT_DIR, "data", "education_stats.csv")
print(file_path)
data = pd.read_csv(file_path, sep=";")
data.shape
data.head()

/Users/mouslydiaw/Documents/ensae/ensae_project/courses/python_crash_course/excercice
/Users/mouslydiaw/Documents/ensae/ensae_project/courses/python_crash_course/excercice/data/education_stats.csv


Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2020,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,System of National Accounts,Alternative conversion factor,PPP survey year,Series Code,Topic,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,Limitations and exceptions,Notes from original source,General comments,Source
0,Arab World,ARB,Expenditure on education as % of total governm...,SE.XPD.TOTL.GB.ZS,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,SE.XPD.TOTL.GB.ZS,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics
1,Arab World,ARB,"GDP per capita, PPP (constant 2011 internation...",NY.GDP.PCAP.PP.KD,11450.86079,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,NY.GDP.PCAP.PP.KD,Economic Policy & Debt: Purchasing power parity,,GDP per capita based on purchasing power parit...,,Annual,2011.0,,Weighted average,,,,"World Bank, International Comparison Program d..."
2,Arab World,ARB,Government expenditure on post-secondary non-t...,UIS.XGDP.4.FSGOV,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,UIS.XGDP.4.FSGOV,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics
3,Arab World,ARB,Government expenditure on secondary education ...,UIS.XGDP.23.FSGOV,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,UIS.XGDP.23.FSGOV,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics
4,Arab World,ARB,Government expenditure on tertiary education a...,UIS.XGDP.56.FSGOV,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,UIS.XGDP.56.FSGOV,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics


In [8]:
data.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2020,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,System of National Accounts,Alternative conversion factor,PPP survey year,Series Code,Topic,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,Limitations and exceptions,Notes from original source,General comments,Source
0,Arab World,ARB,Expenditure on education as % of total governm...,SE.XPD.TOTL.GB.ZS,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,SE.XPD.TOTL.GB.ZS,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics
1,Arab World,ARB,"GDP per capita, PPP (constant 2011 internation...",NY.GDP.PCAP.PP.KD,11450.86079,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,NY.GDP.PCAP.PP.KD,Economic Policy & Debt: Purchasing power parity,,GDP per capita based on purchasing power parit...,,Annual,2011.0,,Weighted average,,,,"World Bank, International Comparison Program d..."
2,Arab World,ARB,Government expenditure on post-secondary non-t...,UIS.XGDP.4.FSGOV,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,UIS.XGDP.4.FSGOV,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics
3,Arab World,ARB,Government expenditure on secondary education ...,UIS.XGDP.23.FSGOV,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,UIS.XGDP.23.FSGOV,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics
4,Arab World,ARB,Government expenditure on tertiary education a...,UIS.XGDP.56.FSGOV,,Arab World,Arab World,Arab World,1A,,Arab World aggregate. Arab World is composed o...,,,1A,,,,UIS.XGDP.56.FSGOV,Expenditures,,"Total general (local, regional and central) go...",,,,,,,,,UNESCO Institute for Statistics
