# Projet 2

## consigne

Mark, votre manager, vous a convié à une réunion pour vous présenter le projet d’expansion à l’international de l’entreprise. Il vous confie une première mission d’analyse exploratoire, pour déterminer si les données sur l’éducation de la banque mondiale permettent d’informer le projet d’expansion.

Voici les différentes questions que Mark aimerait explorer, que vous avez notées durant la réunion :

 - Quels sont les pays avec un fort potentiel de clients pour nos services ?
 - Pour chacun de ces pays, quelle sera l’évolution de ce potentiel de clients ?
 - Dans quels pays l'entreprise doit-elle opérer en priorité ?
Votre mission
Mark vous a donc demandé de réaliser une analyse pré-exploratoire de ce jeu de données. Il vous a transmis cet email à la suite de la réunion :

***
Hello,

Les données de la Banque mondiale sont disponibles à l’adresse suivante :

https://datacatalog.worldbank.org/dataset/education-statistics

Ou en téléchargement direct à ce lien.

Je te laisse regarder la page d'accueil qui décrit le jeu de données. En résumé, l’organisme “EdStats All Indicator Query” de la Banque mondiale répertorie 4000 indicateurs internationaux décrivant l’accès à l’éducation, l’obtention de diplômes et des informations relatives aux professeurs, aux dépenses liées à l’éducation... Tu trouveras plus d'info sur ce site :

http://datatopics.worldbank.org/education/

Pour la pré-analyse, pourrais-tu :

 - Valider la qualité de ce jeu de données (comporte-t-il beaucoup de données manquantes, dupliquées ?)
 - Décrire les informations contenues dans le jeu de données (nombre de colonnes ? nombre de lignes ?)
 - Sélectionner les informations qui semblent pertinentes pour répondre à la problématique (quelles sont les colonnes contenant des informations qui peuvent être utiles pour répondre à la problématique de l’entreprise ?)
 - Déterminer des ordres de grandeurs des indicateurs statistiques classiques pour les différentes zones géographiques et pays du monde (moyenne/médiane/écart-type par pays et par continent ou bloc géographique)
 
Ton travail va nous permettre de déterminer si ce jeu de données peut informer les décisions d'ouverture vers de nouveaux pays. On va partager ton analyse avec le board, alors merci de soigner la présentation et de l'illustrer avec des graphiques pertinents et lisibles !
***

Livrables attendus
 - Un notebook comportant les analyses pré-exploratoires réalisées (non cleané, pour comprendre votre démarche).
 - Un support de présentation pour la soutenance.

## import des bibliothèques

In [1]:
import numpy as np
import pandas as pd
%matplotlib notebook
import matplotlib.pyplot as plt
import seaborn as sns
import math
import missingno as msno
import datetime

## import des données

In [2]:
EdStatsCountry = pd.read_csv("csv_data/EdStatsCountry.csv")
EdStatsCountry_Series = pd.read_csv("csv_data/EdStatsCountry-Series.csv")
EdStatsData = pd.read_csv("csv_data/EdStatsData.csv")
EdStatsFootNote = pd.read_csv("csv_data/EdStatsFootNote.csv")
EdStatsSeries = pd.read_csv("csv_data/EdStatsSeries.csv")

## premier regard sur les données

premier coup d'oeuil avec une carte des liens entre les tables

![title](table_chart.png)

***
### affichage des données manquantes sous forme de matrice binaire (Noir = manquant, Blanc = présent)

In [3]:
Tables = [EdStatsCountry, EdStatsCountry_Series, EdStatsData, EdStatsFootNote, EdStatsSeries]
T_Names = ["EdStatsCountry", "EdStatsCountry-Series", "EdStatsData", "EdStatsFootNote", "EdStatsSeries"]
for t,n in zip(Tables, T_Names):
    t.name = n
Stats = {}

def draw_missing_values(t, height=7):
    fig, ax = plt.subplots(figsize=(9,height))
    check = np.vectorize(lambda x : x!=x)
    Stats[t.name] = {"missing" : check(t.to_numpy()), "data" : t}
    msno.matrix(t, ax=ax, sparkline=False)
    ax.set_title(t.name)
    fig.tight_layout(pad=2)

In [4]:
draw_missing_values(EdStatsCountry, 10)

<IPython.core.display.Javascript object>

In [5]:
draw_missing_values(EdStatsCountry_Series)

<IPython.core.display.Javascript object>

In [6]:
draw_missing_values(EdStatsData)

<IPython.core.display.Javascript object>

In [7]:
draw_missing_values(EdStatsFootNote)

<IPython.core.display.Javascript object>

In [8]:
draw_missing_values(EdStatsSeries)

<IPython.core.display.Javascript object>

***
### sélection des indicateurs pertinents

In [9]:
indicators = ["Adult illiterate population, 15+ years, both sexes (number)",
              "Internet users (per 100 people)",
              "EGRA: Reading Comprehension - Share of students scoring at least 80 percent (%)",
              "PIAAC: Mean Adult Literacy Proficiency. Total",
              "PIAAC: Mean Adult Numeracy Proficiency. Total",
              "GNI per capita, Atlas method (current US$)",
              "SABER: (Tertiary Education) Policy Goal 4: Finance",
              "SABER: (Tertiary Education) Policy Goal 6: The Relevance of Tertiary Education for Economic and Social Needs",
              "SABER: (Tertiary Education) Policy Goal 6 Lever 1: Economic Development",
              "Literacy rate, population 25-64 years, both sexes (%)",
              "Population, total",
              "Labor force, total",
              "Unemployment, total (% of total labor force) (modeled ILO estimate)",
              "GDP (current US$)"]

selection_mask = np.array([n in indicators for n in EdStatsSeries["Indicator Name"]])
selection_codes = EdStatsSeries["Series Code"][selection_mask].to_numpy()

states = np.unique(EdStatsData["Country Name"].to_numpy())

on vérifie le taux de données manquantes pour les indicateurs choisis

In [13]:
code_mask = np.array([c in selection_codes for c in EdStatsData["Indicator Code"]])
state_mask = np.array([c in states for c in EdStatsData["Country Name"]])

In [11]:
fig, ax = plt.subplots(11, 1, figsize=(9, 11*5))

X = [datetime.date(year, 1, 1) for year in list(range(1970,2018,1))+list(range(2020,2101,5))]
X_string = [str(x.year) for x in X]

for code, axis, Y in zip(indicators, ax, EdStatsData[X_string][code_mask].to_numpy()):
    if len(Y[~np.isnan(Y)])>10 :
        axis.plot(X,Y)
        axis.set_title(code)
    elif len(Y[~np.isnan(Y)])>0 :
        axis.scatter(X,Y)
        axis.set_title(code[:50])
    else :
        axis.set_title(code[:50])
    
fig.tight_layout()

<IPython.core.display.Javascript object>