# Projet 2 : Analysez des données de systèmes éducatifs #

### Import du nécessaire ###

In [1]:
import numpy as np
import pandas as pd
from annexe import annexe as an



## 1. Ouverture et affichage grossier du contenu des fichiers du dataset ##

In [30]:
for numFichier in range(len(an.fichiers)):
    print("Fichier numéro ",numFichier + 1," :")
    dataFrame = an.ouvre_csv(numFichier)
    an.print_samples(dataFrame,10)
    print("\n\n\n\n\n")

Fichier numéro  1  :
EdStatsCountry.csv  is open
    Country Code           Short Name           Table Name  \
103          ISR               Israel               Israel   
188          SAU         Saudi Arabia         Saudi Arabia   
133          MAC     Macao SAR, China     Macao SAR, China   
149          MNE           Montenegro           Montenegro   
139          MDV             Maldives             Maldives   
126          LKA            Sri Lanka            Sri Lanka   
156          MYS             Malaysia             Malaysia   
10           ATG  Antigua and Barbuda  Antigua and Barbuda   
0            ABW                Aruba                Aruba   
61           ECU              Ecuador              Ecuador   

                                             Long Name 2-alpha code  \
103                                    State of Israel           IL   
188                            Kingdom of Saudi Arabia           SA   
133  Macao Special Administrative Region of the Peo... 

EdStatsData.csv  is open
                                         Country Name Country Code  \
710109                                     Seychelles          SYC   
43395    Least developed countries: UN classification          LDC   
56609                      Middle East & North Africa          MEA   
18871   Europe & Central Asia (excluding high income)          ECA   
206404                                        Burundi          BDI   
286746                                        Denmark          DNK   
869797                          Virgin Islands (U.S.)          VIR   
373637                                      Greenland          GRL   
152083                                       Barbados          BRB   
134756                                        Austria          AUT   

                                           Indicator Name  \
710109  SABER: (School Finance) Policy Goal 4 Lever 2:...   
43395   TIMSS: Mean performance on the mathematics sca...   
56609   MICS: Typolog

#### Rapide analyse des 5 fichiers
**1. EdstatCountry.csv**  
On peut voir qu'il y a dans le premier fichier **31 colonnes de 241 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : Country Code,Short Name,Table Name,Long Name,2-alpha code,WB-2 code
 - des categories : Lending category, Currency Unit, Income Group, Government Accounting concept, IMF data dissemination standard
 - des données géographiques : Region
 - des rescencements : National accounts base year, National accounts reference year, SNA price valuation, PPP survey year, Latest population census, Latest household survey, Latest agricultural census, Latest industrial data, Latest trade data, Latest water withdrawal data
 - d'autres données : Special Notes, Other groups,System of National Accounts,Alternative conversion factor,Balance of Payments Manual in use,External debt Reporting status, System of trade, Source of most recent Income and expenditure data, Vital registration complete 

Ce fichier semble être une source de données générals sur chaque pays.
 
 
**2. EdStatsCountry-Series.csv**  
On peut voir qu'il y a dans le deuxième fichier **3 colonnes de 613 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : CountryCode, SeriesCode.
 - une description : DESCRIPTION.

Ce fichier donne la source des données pour une série à un pays donné.


**3. EdStatsData.csv**  
On peut voir qu'il y a dans le troisième fichier EdStatsData.csv **69 colonnes de 886930 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : Country Name, Country Code, Indicator Name, Indicator Code.
 - des années : de 1970 à 2017, puis de 2020 à 2100 par pas de 5 ans.

Ce fichier donne les nombres pour chaque année de chaque série.


**4. EdStatsFootNote.csv**  
On peut voir qu'il y a dans le quatrième fichier **4 colonnes de 643638 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : CountryCode, SeriesCode.
 - une donnée temporelle : Year.
 - une description : DESCRIPTION.

Ce fichier donne la provenance des données quantitative pour une série, un pays à une année donné.


**5. EdStatsSeries.csv**
On peut voir qu'il y a dans le cinquième et dernier fichier **15 colonnes de 3665 lignes**.  
Dans les colonnes nous trouvons:
 - des identifiants : Series Code.
 - des descriptions : Indicator Name, Topic, Short definition, Long definition.
 - des données temporelles : Periodicity, Base Period.
 - d'autres données : Other notes, Aggregation method, Limitations and exceptions, General comments, Source, Statistical concept and methodology, Development relevance, Related source links.

Ce fichier semble être une source de données descriptives de chaque série .


Après avoir regardé tout les fichiers il me parait pas utile de continuer l'exploration dans les fichiers EdStatsCountry-Series.csv et EdStatsFootNote.csv. Le fichier EdstatCountry.csv ne me parait pas utile pour une première analyse comparative.
Je vais donc continuer avec les fichiers EdStatsData.csv pour les données chiffrées et avec EdStatsSeries.csv pour la compréhension des données dans EdStatsData.csv.

## 2. Création d'un dataframe exclusivement chiffré

Un dataframe exclusivement chiffré va me permettre grâce à la librairie pandas de faire des opérations plus efficace. Je vais donc prendre le fichier qui nous intéresse ( EdStatsData.csv), mettre en index une colonne à identifiant unique (Indicator Code sera testé) et enlever les colonnes contenant des données autre que numériques.

In [2]:
fichier3 = an.ouvre_csv(2)
an.print_info_col(fichier3,["Indicator Code"])

EdStatsData.csv  is open

Indicator Code
3665 n uniques
0 somme des naN dans la colonne


La calonne Indicator Code n'est pas unique, je vais donc prendre comme identifiant la colonne Indicator Code concaténé à la colonne Country Name.

fichier3 = an.ouvre_csv(2 ,nom_colonne = ["Indicator Code","Country Name"])

In [3]:
# fichier3 = an.ouvre_csv(2)
# fichier3 = an.ouvre_csv(2,nom_colonne = "Indicator Code")
fichier3['id'] = fichier3['Indicator Code'] + '_' + fichier3['Country Name']
fichier3 = fichier3.set_index('id')
fichier3JustNb = fichier3.drop(columns = ["Country Code","Indicator Name","Indicator Code","Country Name"])

In [45]:
fichier3JustNb.sample(10)

Unnamed: 0_level_0,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,...,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
LO.EGRA.CLPM.HAR.3GRD_Luxembourg,,,,,,,,,,,...,,,,,,,,,,
SABER.SCH.ATNM.GOAL1_Arab World,,,,,,,,,,,...,,,,,,,,,,
UIS.SLE.23.M_Maldives,0.17623,0.15498,,,,,,,,,...,,,,,,,,,,
PRJ.ATT.2529.3.FE_Europe & Central Asia,,,,,,,,,,,...,,,,,,,,,,
HH.DHS.PCR.M_West Bank and Gaza,,,,,,,,,,,...,,,,,,,,,,
SABER.EMIS.GOAL3_Greece,,,,,,,,,,,...,,,,,,,,,,
UIS.AFR.GTC.1T3.T_Poland,,,,,,,,,,,...,,,,,,,,,,
SE.SEC.CMPT.LO.ZS_Kiribati,,,,,,,,,,14.70786,...,,,,,,,,,,
BAR.NOED.2529.ZS_Low & middle income,,,,,,,,,,,...,,,,,,,,,,
LO.PISA.MAT.P05_Latin America & Caribbean,,,,,,,,,,,...,,,,,,,,,,


Notre dataframe a maintenant un identifiant unique (les colonnes Country Name et Indicator Code) et ne contient que des nombres ou des valeurs non assigné.

## 3. Epuration pas à pas du dataframe 

On va enlever les colonnes qui paraissent trop loin dans le temps que se soit dans le passé ou dans le futur. Puis on explorera le fichier pour voir si il y a des lignes vide et dans ce cas les enlever. On va chercher si il y a des differents ordre de grandeur de valeur dans le dataframe. On pourra aussi rechercher des pourcentage pour plus tard afficher des statistiques.

### 1. Enlever les colonnes inutile pour l'analyse

In [4]:
fichier3JustNb = fichier3JustNb.drop(['1970','1971','1972','1973','1974','1975','1976','1977','1978','1979','1980','1981','1982','1983','1984','1985','1986','1987','1988','1989','1990','1991','1992','1993','1994','1995','1996','1997','1998','1999','2000','2035','2040','2045','2050','2055','2060','2065','2070','2075','2080','2085','2090','2095','2100'], axis = 1)
fichier3JustNb.shape

(886930, 20)

Il ne reste plus que 20 colonnes sur les 65 dates du début.

### 2. Enlever les lignes vides

Je vais voir si j'arrive a afficher des lignes vides en faisant la somme cumulé des valeur naN pour chaque ligne.

In [8]:
tabIsnaCumsum = fichier3JustNb.isna().cumsum(axis=1)
an.print_samples(tabIsnaCumsum,10)

                                                    2001  2002  2003  2004  \
id                                                                           
SABER.SCH.FNNC.GOAL4.LVL2_Seychelles                   1     2     3     4   
LO.TIMSS.MAT4.MA_Least developed countries: UN ...     1     2     3     4   
HH.MICS.OOST.X.M_Middle East & North Africa            1     2     3     4   
HH.DHS.YRS.1519.Q5_Europe & Central Asia (exclu...     1     2     3     4   
UIS.E.2.PU.F_Burundi                                   1     2     2     2   
LO.EGRA.LSTN.0.ENG.2GRD_Denmark                        1     2     3     4   
SE.SEC.ENRL.FE_Virgin Islands (U.S.)                   1     2     3     4   
PRJ.ATT.2064.1.MA_Greenland                            1     2     3     4   
LO.PASEC.REA.2.FE_Barbados                             1     2     3     4   
SABER.TECH.GOAL6_Austria                               1     2     3     4   

                                                    2005  2006 

Nous avons 20 colonnes, donc quand on voit le nombre 20 dans la dernière colonnes (2030) c'est que la ligne est vide, on peut donc la supprimer.

In [6]:
fichier3JustNb2 = fichier3JustNb.dropna(axis = 'index',how = 'all')
fichier3JustNb2.shape

(347465, 20)

Sur nos 886930 lignes du départ, il ne reste plus que 347465 lignes, ce qui nous a bien allégé le dataframe.

In [75]:
# tabIsnaCumsum2 = fichier3JustNb2.isna().cumsum(axis=1)
# an.print_samples(tabIsnaCumsum2,10)

## 3. Exploration des ordres de grandeur du fichier

Je vais afficher le min,le max et l'écart type que je trouve dans chaque colonnes.

In [56]:
print("min")
print(fichier3JustNb2.min())
print("max")
print(fichier3JustNb2.max())
print("ecart-type")
print(fichier3JustNb2.std())

min
2001    -69737.000000
2002    -92143.000000
2003   -111186.000000
2004   -126260.000000
2005   -134724.000000
2006   -370894.000000
2007   -388217.000000
2008   -408854.000000
2009   -456124.000000
2010   -496905.000000
2011   -570994.000000
2012   -604993.000000
2013   -615748.000000
2014       -89.000000
2015        -2.467847
2016        -1.797539
2017         1.000000
2020        -1.870000
2025        -2.000000
2030        -2.110000
dtype: float64
max
2001    6.477834e+13
2002    6.654753e+13
2003    6.906328e+13
2004    7.278829e+13
2005    7.624045e+13
2006    8.031840e+13
2007    8.469145e+13
2008    8.711022e+13
2009    8.677516e+13
2010    9.134676e+13
2011    9.506314e+13
2012    9.999473e+13
2013    1.054580e+14
2014    1.108060e+14
2015    1.156198e+14
2016    1.206030e+14
2017    4.000000e+00
2020    1.599479e+06
2025    1.781898e+06
2030    1.967258e+06
dtype: float64
ecart-type
2001    5.449242e+11
2002    5.622886e+11
2003    5.803607e+11
2004    6.278337e+11
2005   

Les max sont énorme, les min sont extrèmement négatif et l'écart type très grand. Il y a donc des données qui n'ont pas le même ordre de grandeur et ne sont pas comparables.  
Je vais donc faire des catégories de lignes en fonction de l'ordre de grandeur. Je vais pour l'instant essayé de sortir des pourcentage ceux compris entre 1 et 100, ceux entre 0 et 1. Je vais mettre de coté les valeurs négatives et les valeurs supérieur à 100.

In [7]:
fichier3pow2plus = an.part_dataframe(fichier3JustNb2,100)
fichier3LessThanPow2 = an.part_dataframe(fichier3JustNb2,1,100)
fichier3lessThanOne = an.part_dataframe(fichier3JustNb2,0,1)
fichier3lessThanZero = an.part_dataframe(fichier3JustNb2,0,-1)
# fichier3JustNb2.iloc[fichier3JustNb2[:] > 10000].samples(10)
# fichier3pow10plus = fichier3JustNb2[fichier3JustNb2.ge(10000000000)].dropna(axis = 'index',how = 'all')
# fichier3pow7plus = fichier3JustNb2[fichier3JustNb2.lt(10000000000) & fichier3JustNb2.gt(10000000)].dropna(axis = 'index',how = 'all')
# fichier3pow2plus = fichier3JustNb2[fichier3JustNb2.gt(100)].dropna(axis = 'index',how = 'all')
# fichier3LessThanPow2 = fichier3JustNb2[fichier3JustNb2.lt(100) & fichier3JustNb2.gt(1)].dropna(axis = 'index',how = 'all')
# fichier3lessThanOne = fichier3JustNb2[fichier3JustNb2.lt(1) & fichier3JustNb2.gt(0)].dropna(axis = 'index',how = 'all')
# fichier3lessThanZero = fichier3JustNb2[fichier3JustNb2.lt(0)].dropna(axis = 'index',how = 'all')
# print(fichier3JustNb2[fichier3JustNb2.ge(10000000000) == True] )
# fichier3pow10plus = fichier3JustNb2[fichier3JustNb2[:] > 999999999 ]
# print(fichier3pow10plus.shape)
# print(fichier3pow7plus.shape)
# fichier3pow2plus2 = fichier3JustNb2.join(fichier3pow2plus,how ='left',lsuffix=['2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009','2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2020','2025', '2030'])
# print(fichier3pow2plus2.shape)
# print(fichier3pow2plus2.shape)
print(fichier3pow2plus.shape)
print(fichier3LessThanPow2.shape)
print(fichier3lessThanOne.shape)
print(fichier3lessThanZero.shape)


(101796, 40)
(192098, 40)
(69746, 40)
(582, 40)


In [43]:
        
def find_def(df_to_define,df_with_def):
    columns_name = ["Indicator Code","Country Name"]
    list_of_index = df_to_define.index.values
    newDataFrame = pd.DataFrame(columns = columns_name)
    for i,index in enumerate(list_of_index):
        index_couple = index.split("_")
        newDataFrame.loc[i] = index_couple
#     print(newDataFrame.shape)
#     print(newDataFrame.sample(10))
    newDataFrame.merge(df_with_def,left_on = 'Indicator Code',right_on = 'Series Code')   
        
EdStatDataSeries = EdStatData.merge(EdStatSeries,left_on = 'Indicator Code',right_on = 'Series Code')
#     for elem in list_of_index:
#         list_of_id_and_country = elem.split(separator = '_')
#         print(list_of_id_and_country)

find_def(fichier3lessThanZero)
        

(582, 2)
            Indicator Code     Country Name
194           UIS.MENFR.56         Djibouti
203       PRJ.MYS.25UP.GPI          Ecuador
338            SP.POP.GROW        Lithuania
508       PRJ.MYS.15UP.GPI        St. Lucia
314       PRJ.MYS.15UP.GPI  Kyrgyz Republic
30             UIS.MENF.56       Azerbaijan
431       PRJ.MYS.15UP.GPI           Panama
104  LO.PASEC.REA.6.RU.GAP          Burundi
166            UIS.MENF.56       Costa Rica
453       PRJ.MYS.25UP.GPI      Puerto Rico


In [11]:
print(fichier3pow2plus[fichier3pow2plus.lt(100)].dropna(axis = 'index',how = 'all'))

                                  2001['2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2020', '2025', '2030']  \
id                                                                                                                                                                                                       
SE.PRM.ENRR.MA_Arab World                                                 95.380608                                                                                                                      
SE.PRM.GINT.ZS_Arab World                                                 91.057167                                                                                                                      
SE.PRM.GINT.MA.ZS_Arab World                                              94.116013                                                                                                             

Affichons encore quelques min,max et ecart type.

In [126]:
print("min")
print(fichier3pow2plus.min())
print("max")
print(fichier3pow2plus.max())
print("ecart-type")
print(fichier3pow2plus.std())

min
2001    100.002319
2002    100.000023
2003    100.007812
2004    100.004028
2005    100.006866
2006    100.008812
2007    100.001259
2008    100.007477
2009    100.009933
2010    100.000252
2011    100.027420
2012    100.001534
2013    100.002327
2014    100.013458
2015    100.000160
2016    100.274353
2017           NaN
2020    100.040000
2025    100.010000
2030    100.040000
dtype: float64
max
2001    9992270.00
2002    9982769.00
2003    9997115.00
2004    9998433.00
2005    9995796.00
2006    9999078.00
2007    9997737.00
2008    9999852.00
2009    9998954.00
2010    9999617.00
2011    9990828.00
2012    9998667.00
2013    9996921.00
2014    9999716.00
2015    9998431.00
2016    9992496.00
2017           NaN
2020    1599479.25
2025    1781898.44
2030    1967258.22
dtype: float64
ecart-type
2001    1.410469e+06
2002    1.404813e+06
2003    1.396261e+06
2004    1.408264e+06
2005    1.379149e+06
2006    1.397215e+06
2007    1.406688e+06
2008    1.419233e+06
2009    1.401934e+06
20