# Projet 2 : Analysez des données de systèmes éducatifs #

### Import du nécessaire ###

In [1]:
import numpy as np
import pandas as pd
from annexe import annexe as an

## 1. Ouverture et affichage grossier du contenu des fichiers du dataset ##

In [2]:
for numFichier in range(len(an.fichiers)):
    print("Fichier numéro ",numFichier + 1," :")
    dataFrame = an.ouvre_csv(numFichier)
    an.print_samples(dataFrame)
    print("\n\n\n\n\n")

Fichier numéro  1  :
EdStatsCountry.csv  is open
    Country Code           Short Name           Table Name  \
103          ISR               Israel               Israel   
188          SAU         Saudi Arabia         Saudi Arabia   
133          MAC     Macao SAR, China     Macao SAR, China   
149          MNE           Montenegro           Montenegro   
139          MDV             Maldives             Maldives   
126          LKA            Sri Lanka            Sri Lanka   
156          MYS             Malaysia             Malaysia   
10           ATG  Antigua and Barbuda  Antigua and Barbuda   
0            ABW                Aruba                Aruba   
61           ECU              Ecuador              Ecuador   

                                             Long Name 2-alpha code  \
103                                    State of Israel           IL   
188                            Kingdom of Saudi Arabia           SA   
133  Macao Special Administrative Region of the Peo... 

EdStatsData.csv  is open
                                         Country Name Country Code  \
710109                                     Seychelles          SYC   
43395    Least developed countries: UN classification          LDC   
56609                      Middle East & North Africa          MEA   
18871   Europe & Central Asia (excluding high income)          ECA   
206404                                        Burundi          BDI   
286746                                        Denmark          DNK   
869797                          Virgin Islands (U.S.)          VIR   
373637                                      Greenland          GRL   
152083                                       Barbados          BRB   
134756                                        Austria          AUT   

                                           Indicator Name  \
710109  SABER: (School Finance) Policy Goal 4 Lever 2:...   
43395   TIMSS: Mean performance on the mathematics sca...   
56609   MICS: Typolog

#### Rapide analyse des 5 fichiers
**1. EdstatCountry.csv**  
On peut voir qu'il y a dans le premier fichier **31 colonnes de 241 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : Country Code,Short Name,Table Name,Long Name,2-alpha code,WB-2 code
 - des categories : Lending category, Currency Unit, Income Group, Government Accounting concept, IMF data dissemination standard
 - des données géographiques : Region
 - des rescencements : National accounts base year, National accounts reference year, SNA price valuation, PPP survey year, Latest population census, Latest household survey, Latest agricultural census, Latest industrial data, Latest trade data, Latest water withdrawal data
 - d'autres données : Special Notes, Other groups,System of National Accounts,Alternative conversion factor,Balance of Payments Manual in use,External debt Reporting status, System of trade, Source of most recent Income and expenditure data, Vital registration complete 

Ce fichier semble être une source de données générals sur chaque pays.
 
 
**2. EdStatsCountry-Series.csv**  
On peut voir qu'il y a dans le deuxième fichier **3 colonnes de 613 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : CountryCode, SeriesCode.
 - une description : DESCRIPTION.

Ce fichier donne la source des données pour une série à un pays donné.


**3. EdStatsData.csv**  
On peut voir qu'il y a dans le troisième fichier EdStatsData.csv **69 colonnes de 886930 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : Country Name, Country Code, Indicator Name, Indicator Code.
 - des années : de 1970 à 2017, puis de 2020 à 2100 par pas de 5 ans.

Ce fichier donne les nombres pour chaque année de chaque série.


**4. EdStatsFootNote.csv**  
On peut voir qu'il y a dans le quatrième fichier **4 colonnes de 643638 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : CountryCode, SeriesCode.
 - une donnée temporelle : Year.
 - une description : DESCRIPTION.

Ce fichier donne la provenance des données quantitative pour une série, un pays à une année donné.


**5. EdStatsSeries.csv**
On peut voir qu'il y a dans le cinquième et dernier fichier **15 colonnes de 3665 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : Series Code.
 - des descriptions : Indicator Name, Topic, Short definition, Long definition.
 - des données temporelles : Periodicity, Base Period.
 - d'autres données : Other notes, Aggregation method, Limitations and exceptions, General comments, Source, Statistical concept and methodology, Development relevance, Related source links.

Ce fichier semble être une source de données descriptives de chaque série .


Après avoir regardé tout les fichiers il me parait pas utile de continuer l'exploration dans les fichiers EdStatsCountry-Series.csv et EdStatsFootNote.csv. Le fichier EdstatCountry.csv ne me parait pas utile pour une première analyse comparative.
Je vais donc continuer avec les fichiers EdStatsData.csv pour les données chiffrées et avec EdStatsSeries.csv pour la compréhension des données dans EdStatsData.csv.

## 2. Création d'un dataframe exclusivement chiffré

Un dataframe exclusivement chiffré va me permettre grâce à la librairie pandas de faire des opérations plus efficace. Je vais donc prendre le fichier qui nous intéresse ( EdStatsData.csv), mettre en index une colonne indicator Code (si tout les codes sont bien uniques) et enlever les colonnes contenant des données autre que numériques.

In [4]:
fichier3 = an.ouvre_csv(2,nom_colonne = "Indicator Code")
an.print_some_info(fichier3)

EdStatsData.csv  is open
shape of the dataframe (886930, 68)

Country Name
242 n uniques
0 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6      

3665 n uniques
0 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

                   

31139 n uniques
851200 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

             

[10 rows x 68 columns]

1979
32359 n uniques
850121 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                             

33683 n uniques
848470 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

             

[10 rows x 68 columns]

1988
34013 n uniques
848378 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                             

811387 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

                          Cou

[10 rows x 68 columns]

1997
66665 n uniques
813477 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                             

[10 rows x 68 columns]

2001
108633 n uniques
763421 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                            

123821 n uniques
702822 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

            

744822 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

                          Cou

[10 rows x 68 columns]

2013
120987 n uniques
749421 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                            

886787 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

                          Cou

[10 rows x 68 columns]

2040
8403 n uniques
835494 somme des non nul dans la colonne
Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                              

                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

                          Country Code  \
Indicator Code                           
SA

Some exemples :
                                                             Country Name  \
Indicator Code                                                             
SABER.SCH.FNNC.GOAL4.LVL2                                     Seychelles   
LO.TIMSS.MAT4.MA            Least developed countries: UN classification   
HH.MICS.OOST.X.M                              Middle East & North Africa   
HH.DHS.YRS.1519.Q5         Europe & Central Asia (excluding high income)   
UIS.E.2.PU.F                                                     Burundi   
LO.EGRA.LSTN.0.ENG.2GRD                                          Denmark   
SE.SEC.ENRL.FE                                     Virgin Islands (U.S.)   
PRJ.ATT.2064.1.MA                                              Greenland   
LO.PASEC.REA.2.FE                                               Barbados   
SABER.TECH.GOAL6                                                 Austria   

                          Country Code  \
Indicator Code              

In [8]:
fichier3 = an.ouvre_csv(2,nom_colonne = "Indicator Code")
fichier3JustNb = fichier3.drop(columns = ["Country Name","Country Code","Indicator Name"])

EdStatsData.csv  is open


In [9]:
fichier3JustNb.sample(10)

Unnamed: 0_level_0,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,...,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
Indicator Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
LO.EGRA.READ.0.LUN.2GRD,,,,,,,,,,,...,,,,,,,,,,
LO.PISA.MAT.P10,,,,,,,,,,,...,,,,,,,,,,
BAR.PRM.SCHL.1519,0.94,,,,,1.66,,,,,...,,,,,,,,,,
UIS.FEP.7,,,,,,,,,,,...,,,,,,,,,,
HH.DHS.OOST.L.Q1,,,,,,,,,,,...,,,,,,,,,,
BAR.TER.ICMP.4549.FE.ZS,1.7,,,,,6.39,,,,,...,,,,,,,,,,
XGDP.56.FSGOV.FDINSTADM.FFD,,,,,,,,,,,...,,,,,,,,,,
LO.PISA.REA.MA,,,,,,,,,,,...,,,,,,,,,,
LO.SACMEQ.MAT.L6.MA,,,,,,,,,,,...,,,,,,,,,,
LO.EGRA.CLPM.ENG.2GRD,,,,,,,,,,,...,,,,,,,,,,
