# Projet 2 : Analysez des données de systèmes éducatifs

## Sommaire
* [Exploration des données](#exp_donnees)
    * [Importation des bibliothèques](#import_bib)
    * [Variable du tableau créée](#var_tab)
    * [Obtention d'informations générales sur le jeu de données](#info_general)
    * [Configuration du Pandas](#cfg_pandas)
    * [Vérification des colonnes](#verif_col)
    * [Vérification des données manquantes](#verif_don_manq)

## Exploration des données <a class="anchor" id="exp_donnees"></a>

### Importation des bibliothèques <a class="anchor" id="import_bib"></a>
Les bibliothèques nécessaires pour les traitements sont importées et se voient attribuer des alias.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Variable du tableau créée <a class="anchor" id="var_tab"></a>
Le fichier source CSV est lu dans un objet de tableau et les cinq premières colonnes sont affichées.

In [2]:
edstats = pd.read_csv('Edstats_csv/EdStatsData.csv')
edstats.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,...,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,...,,,,,,,,,,


### Obtention d'informations générales sur le jeu de données <a class="anchor" id="info_general"></a>
- Le nombre de lignes et de colonnes est imprimé.
- Une méthode est appelée qui produit des informations de base sur le tableau, y compris le nombre d'entrées dans chaque colonne et leurs types de données.

In [3]:
edstats.shape

(886930, 70)

In [4]:
edstats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 886930 entries, 0 to 886929
Data columns (total 70 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Country Name    886930 non-null  object 
 1   Country Code    886930 non-null  object 
 2   Indicator Name  886930 non-null  object 
 3   Indicator Code  886930 non-null  object 
 4   1970            72288 non-null   float64
 5   1971            35537 non-null   float64
 6   1972            35619 non-null   float64
 7   1973            35545 non-null   float64
 8   1974            35730 non-null   float64
 9   1975            87306 non-null   float64
 10  1976            37483 non-null   float64
 11  1977            37574 non-null   float64
 12  1978            37576 non-null   float64
 13  1979            36809 non-null   float64
 14  1980            89122 non-null   float64
 15  1981            38777 non-null   float64
 16  1982            37511 non-null   float64
 17  1983      

### Configuration du Pandas <a class="anchor" id="cfg_pandas"></a>
- Par défaut, Pandas affiche un maximum de 20 colonnes, mais le jeu de données à manipuler en contient 70, la limite de colonne est donc supprimée.
- Pour permettre la sortie complète d'une opération de somme ultérieure, le nombre maximum de lignes à afficher est défini sur le nombre de colonnes.

In [5]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 70)

### Vérification des colonnes <a class="anchor" id="verif_col"></a>
Les noms des colonnes sont affichés.

In [6]:
edstats.columns

Index(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',
       '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977', '1978',
       '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987',
       '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996',
       '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014',
       '2015', '2016', '2017', '2020', '2025', '2030', '2035', '2040', '2045',
       '2050', '2055', '2060', '2065', '2070', '2075', '2080', '2085', '2090',
       '2095', '2100', 'Unnamed: 69'],
      dtype='object')

Les séparateurs de fin de ligne dans le fichier CSV ont créé une colonne superflue, celle-ci est supprimée.

In [7]:
edstats = edstats.drop("Unnamed: 69", axis=1)
edstats.columns

Index(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',
       '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977', '1978',
       '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987',
       '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996',
       '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014',
       '2015', '2016', '2017', '2020', '2025', '2030', '2035', '2040', '2045',
       '2050', '2055', '2060', '2065', '2070', '2075', '2080', '2085', '2090',
       '2095', '2100'],
      dtype='object')

### Vérification des données manquantes <a class="anchor" id="verif_don_manq"></a>
* Percentage of missing values for each column:
    * The first part of the following command `edstats.isna()` takes the edstats object and produces a boolean table of the same dimensions with 'False' if there is data in the corresponding cell, and 'True' if there is none.
    * The second part of the command `.sum()` outputs a list of key-value pairs with the names of each column and the total number of missing values in each column.
    * The third part `/ len(edstats) * 100` divides the number of missing values in each column by the total number of rows and multiplying by 100, thus giving a percentage of missing values for each column.

In [12]:
edstats.isna().sum() / len(edstats) * 100

Country Name       0.000000
Country Code       0.000000
Indicator Name     0.000000
Indicator Code     0.000000
1970              91.849639
1971              95.993258
1972              95.984012
1973              95.992356
1974              95.971497
1975              90.156382
1976              95.773849
1977              95.763589
1978              95.763364
1979              95.849842
1980              89.951631
1981              95.627953
1982              95.770692
1983              95.663694
1984              95.647233
1985              89.819264
1986              95.560867
1987              95.643286
1988              95.653321
1989              95.767422
1990              85.973527
1991              91.607342
1992              91.482642
1993              91.454455
1994              91.266278
1995              85.189248
1996              91.340128
1997              91.718287
1998              90.426076
1999              86.601085
2000              80.080051
2001              86