# Partie 1 : Nettoyage des données

L'une des premières étapes lors de la réalisation d'un projet en data science est le nettoyage des données. Dans la suite de ce notebook, on va détailler les différentes opérations réalisées pour effectuer ce nettoyage. A la fin, le but est d'obtenir un dataset exploitable.

Attention ! Ce n'est pas parce qu'une bonne partie du nettoyage aura été réalisée ici qu'il n'y aura pas de nettoyage par la suite. Il faut garder à l'esprit que l'on est dans un processus itératif et qu'il ne faut pas avoir peur de revenir en arrière pour améliorer certains points. 

Pour débuter cette étape, on va utiliser deux librairies : Numpy et Pandas. Il s'agit de deux librairies très importantes en data sciences et qu'il est important de connaître. 

In [None]:
# importation des librairies nécessaires au nettoyage
import pandas as pd
import numpy as np

Une fois les librairies importées, on va charger le dataset que l'on doit nettoyer. Pour cette étude le dataset a été crée grâce à la base de données de la banque mondiale. Les variables choisies portent sur l'accès à l'éducation et les données économiques de 217 pays. Ces données portent sur les 20 dernières années (de 2001 à 2020). 

In [None]:
# chargement du dataset crée sur le site de la banque mondiale
df = pd.read_csv('data_worldbank.csv', encoding='utf-8')
df.head()

Unnamed: 0,pays Name,pays Code,série Name,série Code,2001 [YR2001],2002 [YR2002],2003 [YR2003],2004 [YR2004],2005 [YR2005],2006 [YR2006],...,2011 [YR2011],2012 [YR2012],2013 [YR2013],2014 [YR2014],2015 [YR2015],2016 [YR2016],2017 [YR2017],2018 [YR2018],2019 [YR2019],2020 [YR2020]
0,Afghanistan,AFG,Accession à l’enseignement secondaire (%),SE.SEC.PROG.ZS,..,..,..,..,..,..,...,..,..,..,..,86.26841,92.3154,90.76541,..,..,..
1,Afghanistan,AFG,Adolescents non scolarisés (% des adolescents ...,SE.SEC.UNER.LO.ZS,..,..,..,..,..,..,...,..,..,..,..,..,..,..,..,..,..
2,Afghanistan,AFG,Âge de début de l’école primaire (années),SE.PRM.AGES,7,7,7,7,7,7,...,7,7,7,7,7,7,7,7,7,7
3,Afghanistan,AFG,Âge de début de l’école secondaire (années),SE.SEC.AGES,13,13,13,13,13,13,...,13,13,13,13,13,13,13,13,13,13
4,Afghanistan,AFG,Capacité (+)/besoin (-) de financement (% du PIB),GC.NLD.TOTL.GD.ZS,..,..,..,..,..,-2.05267546429388,...,-0.630811517861432,-0.640739779224387,2.28247071623154,-1.94743593413573,-1.28044038464162,0.675796502609648,0.355603091065277,..,..,..


Dans un premier temps, on supprime les colonnes qui n'apporteront rien de plus à notre étude. En effet, dans les bases de données, on trouve des codes pour les variables qui ont pour but de servir de clé. Ici, ces valeurs n'ont pas d'intérêt dans notre étude. De plus si le choix de construire une base de données avait été fait, il aurait été plus judicieux de créer ces propres clés primaires. 

In [None]:
# suppression des colonnes non nécessaires pour la suite de l'étude
df.drop('série Code', axis = 1, inplace=True)
df.head()

Unnamed: 0,pays Name,pays Code,série Name,2001 [YR2001],2002 [YR2002],2003 [YR2003],2004 [YR2004],2005 [YR2005],2006 [YR2006],2007 [YR2007],...,2011 [YR2011],2012 [YR2012],2013 [YR2013],2014 [YR2014],2015 [YR2015],2016 [YR2016],2017 [YR2017],2018 [YR2018],2019 [YR2019],2020 [YR2020]
0,Afghanistan,AFG,Accession à l’enseignement secondaire (%),..,..,..,..,..,..,..,...,..,..,..,..,86.26841,92.3154,90.76541,..,..,..
1,Afghanistan,AFG,Adolescents non scolarisés (% des adolescents ...,..,..,..,..,..,..,..,...,..,..,..,..,..,..,..,..,..,..
2,Afghanistan,AFG,Âge de début de l’école primaire (années),7,7,7,7,7,7,7,...,7,7,7,7,7,7,7,7,7,7
3,Afghanistan,AFG,Âge de début de l’école secondaire (années),13,13,13,13,13,13,13,...,13,13,13,13,13,13,13,13,13,13
4,Afghanistan,AFG,Capacité (+)/besoin (-) de financement (% du PIB),..,..,..,..,..,-2.05267546429388,-1.74900704735252,...,-0.630811517861432,-0.640739779224387,2.28247071623154,-1.94743593413573,-1.28044038464162,0.675796502609648,0.355603091065277,..,..,..


Les autres colonnes ont été appelés selon un standard qui correspond à celui de la banque mondiale et qui est compris par ce système. Pour plus de compréhension dans la suite de l'étude, les noms des colonnes va être modifier. 

In [None]:
# Création d'une liste contenant le nom de nos colonnes
cols = ['Pays', 'Code ISO', 'Indicateurs', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020']

# Affectation du nouveau nom des colonnes
df.columns = cols
df.head()

Unnamed: 0,Pays,Code ISO,Indicateurs,2001,2002,2003,2004,2005,2006,2007,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,Afghanistan,AFG,Accession à l’enseignement secondaire (%),..,..,..,..,..,..,..,...,..,..,..,..,86.26841,92.3154,90.76541,..,..,..
1,Afghanistan,AFG,Adolescents non scolarisés (% des adolescents ...,..,..,..,..,..,..,..,...,..,..,..,..,..,..,..,..,..,..
2,Afghanistan,AFG,Âge de début de l’école primaire (années),7,7,7,7,7,7,7,...,7,7,7,7,7,7,7,7,7,7
3,Afghanistan,AFG,Âge de début de l’école secondaire (années),13,13,13,13,13,13,13,...,13,13,13,13,13,13,13,13,13,13
4,Afghanistan,AFG,Capacité (+)/besoin (-) de financement (% du PIB),..,..,..,..,..,-2.05267546429388,-1.74900704735252,...,-0.630811517861432,-0.640739779224387,2.28247071623154,-1.94743593413573,-1.28044038464162,0.675796502609648,0.355603091065277,..,..,..


On remarque de nombreuses valeurs manquantes ont été symbolisés par "..". Cette notion peut poser problème. En effet, les valeurs présentes dans notre dataset sont toutes considérées comme des chaînes de caractère. Il sera donc difficile d'y réaliser des opérations en lien avec des types numériques. 

In [None]:
# Remplacement des deux points par un NaN
df.replace('..', np.nan, inplace=True)

In [None]:
# Création d'une boucle pour modifier le type des variables en float
cols = ['2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020']

for i in cols:
    df[i] = df[i].astype('float')

In [None]:
df.head()

Unnamed: 0,Pays,Code ISO,Indicateurs,2001,2002,2003,2004,2005,2006,2007,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,Afghanistan,AFG,Accession à l’enseignement secondaire (%),,,,,,,,...,,,,,86.26841,92.3154,90.76541,,,
1,Afghanistan,AFG,Adolescents non scolarisés (% des adolescents ...,,,,,,,,...,,,,,,,,,,
2,Afghanistan,AFG,Âge de début de l’école primaire (années),7.0,7.0,7.0,7.0,7.0,7.0,7.0,...,7.0,7.0,7.0,7.0,7.0,7.0,7.0,7.0,7.0,7.0
3,Afghanistan,AFG,Âge de début de l’école secondaire (années),13.0,13.0,13.0,13.0,13.0,13.0,13.0,...,13.0,13.0,13.0,13.0,13.0,13.0,13.0,13.0,13.0,13.0
4,Afghanistan,AFG,Capacité (+)/besoin (-) de financement (% du PIB),,,,,,-2.052675,-1.749007,...,-0.630812,-0.64074,2.282471,-1.947436,-1.28044,0.675797,0.355603,,,


On s'aperçoit que les dernières colonnes de notre dataset contiennent des informations en lien avec les sources de ce dernier. Ces informations vont venir perturber la suite de nos analyses, on va donc les supprimer tout en prenant soin de les noter dans un document à côté pour pouvoir les citer le moment voulu. 

In [None]:
# Suppresion des dernières lignes du dataset qui correspondent au source
df.drop([13237, 13238, 13239, 13240, 13241], inplace=True)
df.tail()

Unnamed: 0,Pays,Code ISO,Indicateurs,2001,2002,2003,2004,2005,2006,2007,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
13232,Zimbabwe,ZWE,Valeur actuelle de la dette extérieure (% du RNB),,,,,,,,...,,,,,,0.0,0.0,0.0,29.667337,
13233,Zimbabwe,ZWE,"Inscriptions à l’école, primaire (% brut)",110.254539,105.328201,104.33065,,,,,...,,112.516792,109.892792,,,,,,,
13234,Zimbabwe,ZWE,"Inscriptions à l’école, enseignement supérieur...",,,,,,,,...,6.70256,6.85414,6.93526,,10.00655,,,,,
13235,Zimbabwe,ZWE,"Inscriptions à l’école, préscolaire, (% brut)",,61.446468,67.82708,,,,,...,,45.81406,46.95562,,,,,,,
13236,Zimbabwe,ZWE,"Inscriptions à l’école, secondaire (% brut)",46.159199,43.88483,39.979641,,,,,...,,51.550991,52.40567,,,,,,,


On s'aperçoit qu'au cours des vingt dernièers années, il y a des données non disponibles pour certaines années. En se renseignant, on se rend compte que les enquêtes sur l'accès à l'éducation sont réalisées sur des cycles et qu'elles peuvent dans certains cas avoir lieu tous les 4 ans. Pour éviter d'avoir énormément de valeurs manquantes, le choix est fait de créer une valeur correspondant à la moyenne des années disponibles. 

In [None]:
# Création d'une colonne Valeurs avec la moyenne de chaque ligne
df['Valeurs'] = df.mean(axis=1)
df.head()

Unnamed: 0,Pays,Code ISO,Indicateurs,2001,2002,2003,2004,2005,2006,2007,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,Valeurs
0,Afghanistan,AFG,Accession à l’enseignement secondaire (%),,,,,,,,...,,,,86.26841,92.3154,90.76541,,,,89.783073
1,Afghanistan,AFG,Adolescents non scolarisés (% des adolescents ...,,,,,,,,...,,,,,,,,,,
2,Afghanistan,AFG,Âge de début de l’école primaire (années),7.0,7.0,7.0,7.0,7.0,7.0,7.0,...,7.0,7.0,7.0,7.0,7.0,7.0,7.0,7.0,7.0,7.0
3,Afghanistan,AFG,Âge de début de l’école secondaire (années),13.0,13.0,13.0,13.0,13.0,13.0,13.0,...,13.0,13.0,13.0,13.0,13.0,13.0,13.0,13.0,13.0,13.0
4,Afghanistan,AFG,Capacité (+)/besoin (-) de financement (% du PIB),,,,,,-2.052675,-1.749007,...,-0.64074,2.282471,-1.947436,-1.28044,0.675797,0.355603,,,,-0.461142


In [None]:
# Sélection des colonnes nécessaires à l'étude
df = df[["Pays", "Code ISO", "Indicateurs", "Valeurs"]]
df.head()

Unnamed: 0,Pays,Code ISO,Indicateurs,Valeurs
0,Afghanistan,AFG,Accession à l’enseignement secondaire (%),89.783073
1,Afghanistan,AFG,Adolescents non scolarisés (% des adolescents ...,
2,Afghanistan,AFG,Âge de début de l’école primaire (années),7.0
3,Afghanistan,AFG,Âge de début de l’école secondaire (années),13.0
4,Afghanistan,AFG,Capacité (+)/besoin (-) de financement (% du PIB),-0.461142


Pour faciliter la lecture, on va effectuer une rotation de notre dataset en lui indiquant que l'on souhaite que le contenu de notre colonne "Indicateurs" devienne l'intitulé des colonnes. Pour cela, on va utiliser la commande "pivot_table" qui est l'équivalent des tableaux croisés dynamique que l'on trouve dans les logiciels tableur tels qu'Excel ou Libre Office Calc. 

In [None]:
# Modification de notre dataset pour obtenir des colonnes correspondant à nos variables d'intérêt
df = pd.pivot_table(df, index=['Pays', 'Code ISO'], columns= "Indicateurs", values='Valeurs', aggfunc=np.mean).reset_index()
df.head()

Indicateurs,Pays,Code ISO,Accession à l’enseignement secondaire (%),Adolescents non scolarisés (% des adolescents en âge de fréquenter le 1er cycle du secondaire),Capacité (+)/besoin (-) de financement (% du PIB),Chômage (% de la population active) (estimation nationale),Croissance du PIB (% annuel),Croissance du PIB par habitant (% annuel),Croissance du RNB (% annuel),Croissance du RNB par habitant (% annuel),...,Total des réserves (% de la dette extérieure totale),"Travail des enfants, travail familial non rémunéré (en % de toutes les formes d’emploi chez les enfants de 7 à 14 ans)","Travail des enfants, travail indépendant (en % de toutes les formes d’emploi chez les enfants de 7 à 14 ans)","Travail des enfants, travail salarié (en % de toutes les formes d’emploi chez les enfants de 7 à 14 ans)",Valeur actuelle de la dette extérieure (% du RNB),Âge de début de l’école primaire (années),Âge de début de l’école secondaire (années),Épargne brute (% du PIB),Épargne brute (% du RNB),Épargne intérieure brute (% du PIB)
0,Afghanistan,AFG,89.783073,,-0.461142,5.8175,6.664775,3.45264,,,...,258.877744,61.67,,17.37,2.479109,7.0,13.0,,,
1,Afrique du Sud,ZAF,96.816158,13.785806,-3.156518,27.014737,2.558669,1.144181,2.514491,1.100648,...,36.339358,,,,5.570765,7.0,14.0,16.371788,16.807039,19.7199
2,Albanie,ALB,98.833753,4.755447,-3.236472,14.582632,4.117023,4.555113,2.668352,2.954737,...,51.868798,94.39,3.82,1.655,8.258809,6.0,10.6,21.311708,21.014951,9.391536
3,Algérie,DZA,96.591529,,,14.311176,3.252632,1.49345,3.323473,1.563445,...,1846.814195,85.64,,14.36,0.283073,6.0,11.4,47.290134,48.2251,45.964392
4,Allemagne,DEU,99.627867,2.639915,-0.606787,6.815263,1.266693,1.21043,1.490509,1.446956,...,,,,,,6.0,10.0,26.247102,25.842292,26.142249


Pour ne pas avoir à recommencer cette étape de nettoyage à chaque fois, on enregistre les modifications dans un nouveau dataset en format csv et Excel. 

In [None]:
df.to_csv('data_total.csv')
df.to_excel('data_total.xlsx')