<h3>Découverte des DataSet et personnalisation du DataFrame 'data'</h3>
<p>L'objectif est de prendre connaissance des différents DataSet qui nous ont été mis à disposition<br \>
    puis de créer un DataFrame (nommé 'data') que nous personnaliserons en fonction de nos besoins</p>

<p><u>Avant de commencer</u> :</p>
<p>
    <ol>
        <li>Importation des librairies nécessaires</li>        
        <li>Modification des paramètres par défaut de <i>Jupyter</i></li>
        <li>Déclaration d'une fonction personnalisée qui nous sera utile par la suite</li>
    </ol>
</p>

<p>Importation des librairies necessaires :</p>

In [1]:
# Import des librairies Numpy et Pandas
import numpy as np
import pandas as pd
# Import de Pickle pour la sauvegarde des objets Python.
import pickle

<p>Modification des paramètres par défaut de <i>Jupyter</i> :</p>

In [2]:
# Modification des paramètres de Pandas pour 
# pouvoir afficher plus de lignes et plus de colonnes.
pd.set_option("display.max_rows", 110)
pd.set_option("display.max_columns",100)

<p>Déclaration de la fonction personnalisée '<b>lastYearLastValue</b>' :</p>

In [3]:
# Fonction qui permet de renseigner les colonnes: 
#    'Année Dernière Valeur Non Null' 
# et 'Dernière Valeur Non Null'.
def lastYearLastValue(row):
    '''Retourne un tuple qui contient l'index et la value 
    de la première valeur non null d'une liste'''   
    
    if row.first_valid_index() is None:
        return None
    else:
        return (row.first_valid_index(),row[row.first_valid_index()])

<h4>Découverte des DataSet</h4>
<p><u>Importation et analyse des DataSet suivants</u> :
    <ol>
        <li>EdStatsData.csv</li>
        <li>EdStatsCountry.csv</li>
        <li>EdStatsSeries.csv</li>
    </ol>
</p>

<p>Importation du jeu du <i>Dataset</i> '<b>EdStatsData.csv</b>' dans le <i>DataFrame</i> '<b>data</b>'</p>

In [4]:
data = pd.read_csv('EdStatsData.csv', encoding='utf8', sep=',')
data.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,60.999962,61.92268,62.69342,64.383186,65.617767,66.085152,66.608139,67.290451,68.510094,69.033211,69.944908,71.04187,71.693779,71.699097,71.995819,72.602837,70.032722,70.464821,72.645683,71.81176,73.903511,74.425201,75.110817,76.254318,77.245682,78.800522,80.051399,80.805389,81.607063,82.489487,82.685509,83.280342,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,,,,,,,,,,,,,,,,,,,,,


<p>Detail des informations du <i>DataFrame</i> '<b>data</b>'</p>

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 886930 entries, 0 to 886929
Data columns (total 70 columns):
Country Name      886930 non-null object
Country Code      886930 non-null object
Indicator Name    886930 non-null object
Indicator Code    886930 non-null object
1970              72288 non-null float64
1971              35537 non-null float64
1972              35619 non-null float64
1973              35545 non-null float64
1974              35730 non-null float64
1975              87306 non-null float64
1976              37483 non-null float64
1977              37574 non-null float64
1978              37576 non-null float64
1979              36809 non-null float64
1980              89122 non-null float64
1981              38777 non-null float64
1982              37511 non-null float64
1983              38460 non-null float64
1984              38606 non-null float64
1985              90296 non-null float64
1986              39372 non-null float64
1987              38641 non-

<p>Taux de valeur Null par colonne du DF '<b>Data</b>'.</p>

In [13]:
data.isnull().sum()/len(data)

Country Name      0.000000
Country Code      0.000000
Indicator Name    0.000000
Indicator Code    0.000000
1970              0.918496
1971              0.959933
1972              0.959840
1973              0.959924
1974              0.959715
1975              0.901564
1976              0.957738
1977              0.957636
1978              0.957634
1979              0.958498
1980              0.899516
1981              0.956280
1982              0.957707
1983              0.956637
1984              0.956472
1985              0.898193
1986              0.955609
1987              0.956433
1988              0.956533
1989              0.957674
1990              0.859735
1991              0.916073
1992              0.914826
1993              0.914545
1994              0.912663
1995              0.851892
1996              0.913401
1997              0.917183
1998              0.904261
1999              0.866011
2000              0.800801
2001              0.860745
2002              0.859961
2

<p>Le DF '<b>data</b>' semble <u>correctement formaté</u>. Il n'y a pas de changement de type à envisager.<br \>
    La colonne '<b>2017</b>' semble pratiquement vide et sera surement <u>à supprimer</u>.<br \>
    La colonne '<b>Unnamed: 69</b>' est totalement vide et sera <u>à supprimer</u>.</p>

<p>Importation du <i>DataSet</i> '<b>EdStatsCountry.csv</b>' dans le <i>DataFrame</i> '<b>EdStatsCountry</b>'</p>

In [14]:
edStatsCountry = pd.read_csv('EdStatsCountry.csv', encoding='utf8', sep=',')
edStatsCountry.head(1)

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,National accounts base year,National accounts reference year,SNA price valuation,Lending category,Other groups,System of National Accounts,Alternative conversion factor,PPP survey year,Balance of Payments Manual in use,External debt Reporting status,System of trade,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,"IMF Balance of Payments Manual, 6th edition.",,Special trade system,,,2010,,,Yes,,,2012.0,,


<p>Detail des information du <i>DataFrame</i> '<b>edStatsCountry</b>'</p>

In [15]:
edStatsCountry.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 241 entries, 0 to 240
Data columns (total 32 columns):
Country Code                                         241 non-null object
Short Name                                           241 non-null object
Table Name                                           241 non-null object
Long Name                                            241 non-null object
2-alpha code                                         238 non-null object
Currency Unit                                        215 non-null object
Special Notes                                        145 non-null object
Region                                               214 non-null object
Income Group                                         214 non-null object
WB-2 code                                            240 non-null object
National accounts base year                          205 non-null object
National accounts reference year                     32 non-null float64
SNA price valuation

<p>Taux de valeur Null par colonne du DF '<b>edStatsCountry</b>'.</p>

In [18]:
edStatsCountry.isnull().sum()/len(edStatsCountry)

Country Code                                         0.000000
Short Name                                           0.000000
Table Name                                           0.000000
Long Name                                            0.000000
2-alpha code                                         0.012448
Currency Unit                                        0.107884
Special Notes                                        0.398340
Region                                               0.112033
Income Group                                         0.112033
WB-2 code                                            0.004149
National accounts base year                          0.149378
National accounts reference year                     0.867220
SNA price valuation                                  0.182573
Lending category                                     0.402490
Other groups                                         0.759336
System of National Accounts                          0.107884
Alternat

<p>Le DF '<b>edStatsCountry</b>' semble <u>correctement formaté</u> à l'exception des colonnes <br \>'<b>National accounts reference year</b>','<b>Latest agricultural census</b>' et '<b>Latest water <br \>withdrawal data</b>' qui devraient être converties en '<b>float</b>'.<br \>
    La colonne '<b>Unnamed: 69</b>' est totalement vide et sera <u>à supprimer</u>.</p>
<p>Cependant, dans ce DF, seule la colonne '<b>Region</b>' nous interesse afin de regrouper <br \>les pays par région du monde lors de nos futures analyses et graphiques.</p>

<p>Merge vers le DF '<b>data</b>' de la colonne '<b>Region</b>' du DF '<b>edStatsCountry</b>' pour analyse par Continent.</p>

In [19]:
data = data.merge(edStatsCountry[['Country Code','Region']], 
                  how='left', left_on='Country Code', right_on='Country Code')

<p>Importation du <i>DataSet</i> '<b>EdStatsSeries.csv</b>' dans le <i>DataFrame</i> '<b>EdStatsSeries</b>'</p>

In [20]:
edStatsSeries = pd.read_csv('EdStatsSeries.csv', encoding='utf8', sep=',')
edStatsSeries.head(1)

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,Limitations and exceptions,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,


<p>Detail des informations du <i>DataFrame</i> '<b>EdStatsSeries</b>'</p>

In [21]:
edStatsSeries.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3665 entries, 0 to 3664
Data columns (total 21 columns):
Series Code                            3665 non-null object
Topic                                  3665 non-null object
Indicator Name                         3665 non-null object
Short definition                       2156 non-null object
Long definition                        3665 non-null object
Unit of measure                        0 non-null float64
Periodicity                            99 non-null object
Base Period                            314 non-null object
Other notes                            552 non-null object
Aggregation method                     47 non-null object
Limitations and exceptions             14 non-null object
Notes from original source             0 non-null float64
General comments                       14 non-null object
Source                                 3665 non-null object
Statistical concept and methodology    23 non-null object
Developme

<p>Taux de valeur Null par colonne du DF '<b>edStatsSeries</b>'.</p>

In [23]:
edStatsSeries.isnull().sum()/len(edStatsSeries)

Series Code                            0.000000
Topic                                  0.000000
Indicator Name                         0.000000
Short definition                       0.411733
Long definition                        0.000000
Unit of measure                        1.000000
Periodicity                            0.972988
Base Period                            0.914325
Other notes                            0.849386
Aggregation method                     0.987176
Limitations and exceptions             0.996180
Notes from original source             1.000000
General comments                       0.996180
Source                                 0.000000
Statistical concept and methodology    0.993724
Development relevance                  0.999181
Related source links                   0.941337
Other web links                        1.000000
Related indicators                     1.000000
License Type                           1.000000
Unnamed: 20                            1

<p>Le DF '<u>edStatsSeries</u>' semble <u>correctement formaté</u>. Il n'y a pas de changement de type à envisager.<br \>
Des colonnes sont pratiquement vides (3 ou 14 valeur non-null sur 3665 entrées) ou totalement vides <br \>et seront <u>à supprimer</u>.</p>
<p>Cependant, dans ce DF, seules les colonnes '<b>Series Code</b>','<b>Topic</b>','<b>Indicator Name</b>' et <br \>'<b>Long definition</b>' nous intéressent afin de pouvoir sélectionner les '<b>Series Code</b>' qu'il <br \>sera intéressant de sélectionner pour choisir nos Pays à potentiels. <br \>De plus, ces colonnes sont correctement formatées et n'ont pas de valeur null.</p>
<p>Pour le moment je choisi de merger la colonne '<b>Topic</b>' <br \>
    au DF '<b>data</b>' pour la suite de mon analyse.<br \>
Les informations des colonnes '<b>Series Code</b>' et '<b>Indicator Name</b>' <br \>sont déjà présentes dans le DF '<b>data</b>'.</p>

<p>Merge de la colonne '<b>Topic</b>' dans le DF '<b>data</b>'<br \>
    puis <u>drop</u> de la colonne '<b>Series Code</b>' qui fait doublon avec '<b>Indicator Code</b>'.</p>

In [24]:
data = data.merge(edStatsSeries[['Series Code','Topic']], 
       how='left', left_on='Indicator Code', right_on='Series Code').\
       drop('Series Code', axis = 1)
data.head(1)

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69,Region,Topic
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Secondary


<h4>Data Cleaning du DF 'data'</h4>
<p><u>Actions à effectuer</u> :
    <ol>
        <li>Suppression des colonnes inutiles</li>
        <li>Réorganisation des colonnes</li>
        <li>Suppression des 'Indicator Code' genrés</li>
        <li>Suppression des indicateur d'âge trop élevés</li>
    </ol>
</p>
    

<p><u>Suppression des colonnes inutiles</u> : 'Country Code','Indicator Name','Unnamed: 69'</p>

In [25]:
data.drop(['Country Code','Indicator Name','Unnamed: 69'], axis=1, inplace=True)

<p><u>Réorganisation des colonnes</u> :</p>

In [26]:
cols = data.columns.tolist()
print('Liste des colonnes avant réorganisation :\n{}'.format(cols))
cols = cols[0:1] + cols[-2:-1] + cols[1:2] + [cols[-1]] + \
       cols[cols.index('1970'):cols.index('2100')+1]
print('Liste des colonnes après réorganisation: \n{}'.format(cols))
data = data[cols]
data.tail()

Liste des colonnes avant réorganisation :
['Country Name', 'Indicator Code', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2020', '2025', '2030', '2035', '2040', '2045', '2050', '2055', '2060', '2065', '2070', '2075', '2080', '2085', '2090', '2095', '2100', 'Region', 'Topic']
Liste des colonnes après réorganisation: 
['Country Name', 'Region', 'Indicator Code', 'Topic', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', 

Unnamed: 0,Country Name,Region,Indicator Code,Topic,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
886925,Zimbabwe,Sub-Saharan Africa,UIS.LP.AG15T24.M,,,,,,,,,,,,,,47631.0,,,,,,,,,,38800.0,,,,,,,,,,,,,,,,,,,166679.0,,,199464.0,,,,,,,,,,,,,,,,,,,,
886926,Zimbabwe,Sub-Saharan Africa,SE.ADT.1524.LT.ZS,Literacy,,,,,,,,,,,,,89.021851,,,,,,,,,,95.411362,,,,,,,,,,,,,,,,,,,90.9307,,,90.42812,,,,,,,,,,,,,,,,,,,,
886927,Zimbabwe,Sub-Saharan Africa,SE.ADT.1524.LT.FE.ZS,Literacy,,,,,,,,,,,,,84.812241,,,,,,,,,,94.353439,,,,,,,,,,,,,,,,,,,92.12456,,,93.18835,,,,,,,,,,,,,,,,,,,,
886928,Zimbabwe,Sub-Saharan Africa,SE.ADT.1524.LT.FM.ZS,Literacy,,,,,,,,,,,,,0.90392,,,,,,,,,,0.97734,,,,,,,,,,,,,,,,,,,1.02828,,,1.06389,,,,,,,,,,,,,,,,,,,,
886929,Zimbabwe,Sub-Saharan Africa,SE.ADT.1524.LT.MA.ZS,Literacy,,,,,,,,,,,,,93.826958,,,,,,,,,,96.540619,,,,,,,,,,,,,,,,,,,89.59058,,,87.59186,,,,,,,,,,,,,,,,,,,,


<p><u>Suppression des 'Indicator Code' genrés</u> :
    <ol>
        <li>Contenant l'un des termes suivants : '<b>.F</b>','<b>.M.</b>','<b>.FE.</b>','<b>.MA.</b>'</li>
        <li>Se terminant par l'un des termes suivants : '<b>.F</b>','<b>.M</b>','<b>.GPI</b>','<b>FE</b>','<b>MA</b>','<b>FE.ZS</b>','<b>MA.ZS</b>'</li>

In [30]:
# Suppression des indicator code genré F et M.
lenData = len(data)
print('Nombre de lignes dans le DF \'data\' : {}'.format(lenData))
data = data[~data['Indicator Code'].str.endswith(('.F','.M','.GPI',
                                    'FE','MA','FE.ZS','MA.ZS'))]
data = data[~data['Indicator Code'].str.contains("\.F\.|\.M\.|\.FE\.|\.MA\.", 
                                    regex=True)]
print('Nombre de lignes à supprimer : {}'.format(lenData-len(data)))
print('Nombre de lignes après traitement : {}'.format(len(data)))

Nombre de lignes dans le DF 'data' : 439342
Nombre de lignes à supprimer: 0
Nombre de lignes après traitement: 439342


<p><u>Suppression des indicateurs d'âge trop élevés</u> : 40 à 75up</p>

In [28]:
print('Nombre de lignes supprimées: {}'.format(data['Indicator Code'][data['Indicator Code'].str.\
contains('4044|4549|5054|5559|6064|6569|7074|75UP', regex=True)].count()))
data = data[~data['Indicator Code'].str.contains('4044|4549|5054|5559|6064|6569|7074|75UP', regex=True)]

Nombre de lignes supprimées: 23232


<p>Suppression des indicateurs qui ne sont pas des pays <br \>en filtrant les pays qui n'ont pas de '<b>Region</b>' associé.</p>
<p>Mon filtre inclus les territoires de '<b>British Virgin Islands</b>', '<b>Gibraltar</b>' et '<b>Nauru</b>'<br \>
mais compte tenu de leur nature (territoire anglais pour les 2 premiers et <br \>très petit pays de moins de 15 000 habitants pour 'Nauru'), <u>je décide de ne pas les retirer du filtre</u>.</p>

In [29]:
print('Liste des indicateurs à supprimer: \n{}'.format(data[data['Region'].\
                                                isnull()]['Country Name'].unique()))
print('\nNombre de lignes avant traitement: {}'.format(len(data)))
data.dropna(subset=['Region'], inplace=True)
print('Nombre de lignes après traitement: {}'.format(len(data)))

Liste des indicateurs à supprimer: 
['Arab World' 'East Asia & Pacific'
 'East Asia & Pacific (excluding high income)' 'Euro area'
 'Europe & Central Asia' 'Europe & Central Asia (excluding high income)'
 'European Union' 'Heavily indebted poor countries (HIPC)' 'High income'
 'Latin America & Caribbean'
 'Latin America & Caribbean (excluding high income)'
 'Least developed countries: UN classification' 'Low & middle income'
 'Low income' 'Lower middle income' 'Middle East & North Africa'
 'Middle East & North Africa (excluding high income)' 'Middle income'
 'North America' 'OECD members' 'South Asia' 'Sub-Saharan Africa'
 'Sub-Saharan Africa (excluding high income)' 'Upper middle income'
 'World' 'British Virgin Islands' 'Gibraltar' 'Nauru']

Nombre de lignes avant traitement: 496826
Nombre de lignes après traitement: 439342


<h4>Mise en évidences des Indicateur Passés et Futurs :</h4>
<p>L'idée est de mettre en évidence les indicateurs qui renseignent sur <br \>les événements passés et ceux qui sont des projections des événements à venir.</p>
<p>Une fois cette étape réalisée, je séparerai le DataFrame en 2 parties :
    <ol>
        <li>Un DataFrame contenant les indicateurs de projection uniquement</li>
        <li>Un DataFrame contenant les autres indicateurs</li>
    </ol>
</p>
<p>Pour réaliser mes tests, <u>je testerai les indicateurs sur deux années</u> futures: '<b>2020</b>' et '<b>2030</b>'.</p>

<p>Liste des '<b>Indicator Code</b>' et '<b>Topic</b>' pour lesquels les années (futures) 2020 et 2030 sont renseignées.</p>

In [31]:
data[['Indicator Code','Topic']][(data['2020'].notnull()) & (data['2030'].notnull())].\
                                groupby(['Indicator Code','Topic']).nunique()

Unnamed: 0_level_0,Unnamed: 1_level_0,Indicator Code,Topic
Indicator Code,Topic,Unnamed: 2_level_1,Unnamed: 3_level_1
PRJ.ATT.1519.1.MF,Attainment,1,1
PRJ.ATT.1519.2.MF,Attainment,1,1
PRJ.ATT.1519.3.MF,Attainment,1,1
PRJ.ATT.1519.4.MF,Attainment,1,1
PRJ.ATT.1519.NED.MF,Attainment,1,1
PRJ.ATT.1519.S1.MF,Attainment,1,1
PRJ.ATT.15UP.1.MF,Attainment,1,1
PRJ.ATT.15UP.2.MF,Attainment,1,1
PRJ.ATT.15UP.3.MF,Attainment,1,1
PRJ.ATT.15UP.4.MF,Attainment,1,1


<p>L'ensemble des indicateurs futurs appartiennent au '<b>Topic</b>' intitulé '<b>Attainment</b>'<br \>
et l'ensemble des '<b>Indicator Code</b>' commencent par '<b>PRJ</b>'.</p>

In [32]:
print('Nombre de \'Indicator Code\' pour lesquels les année (futur) 2020 et 2030 sont renseignées : {}'\
      .format(len(data['Indicator Code'][(data['2020'].notnull()) & (data['2030'].notnull())].unique())))
print('Nombre de \'Indicator Code\' commençant par \'PRJ\': {}'\
      .format(len(data['Indicator Code'][data['Indicator Code'].str.startswith('PRJ')].unique())))

Nombre de 'Indicator Code' pour lesquels les année (futur) 2020 et 2030 sont renseignées : 102
Nombre de 'Indicator Code' commençant par 'PRJ': 102


<p>L'ensemble des <u>indicateurs futurs</u> commencent par '<b>PRJ</b>'<br \>
    et l'ensemble des indicateurs commençant par '<b>PRJ</b>' sont des <u>indicateurs futurs</u> (<i>de projection</i>).</p>

<p>Visualisation du remplissage des indicateurs de projection :</p>

In [33]:
data[data['Indicator Code'].str.startswith('PRJ')].loc[:,'1970':'2100'].count()

1970        0
1971        0
1972        0
1973        0
1974        0
1975        0
1976        0
1977        0
1978        0
1979        0
1980        0
1981        0
1982        0
1983        0
1984        0
1985        0
1986        0
1987        0
1988        0
1989        0
1990        0
1991        0
1992        0
1993        0
1994        0
1995        0
1996        0
1997        0
1998        0
1999        0
2000        0
2001        0
2002        0
2003        0
2004        0
2005        0
2006        0
2007        0
2008        0
2009        0
2010    16932
2011        0
2012        0
2013        0
2014        0
2015    16928
2016        0
2017        0
2020    16932
2025    16932
2030    16932
2035    16932
2040    16932
2045    16932
2050    16932
2055    16932
2060    16932
2065    16932
2070    16932
2075    16932
2080    16932
2085    16932
2090    16932
2095    16932
2100    16932
dtype: int64

<h4>Séparation du DF 'data' entre les données passées et les données futures</h4>
<p><u>Données futures</u> :
    <ul>
        <li>Colonnes '<b>Country Name</b>', '<b>Region</b>', '<b>Indicator Code</b>', '<b>Topic</b>'</li>
        <li>Colonnes Année <b>'2010'</b>, <b>'2015'</b> puis de <b>'2020' à '2100'</b>.</li>
        <li><b>'Indicator Code'</b> <u>commence</u> par <b>'PRJ'</b>.</li>
    </ul>
</p>
<p><u>Données passées</u> :
    <ul>
        <li>Colonnes '<b>Country Name</b>', '<b>Region</b>', '<b>Indicator Code</b>', '<b>Topic</b>'</li>
        <li>Colonnes Année de <b>'1970'</b> à <b>'2016'</b>.
            <ul><li>L'année <b>2017</b> ne sera jamais renseigné sur les indicateurs à analyser.</li></ul></li>
        <li><b>'Indicator Code'</b> <u>ne commence pas</u> par <b>'PRJ.'</b>.</li>
        <li>Ajout de 2 colonnes grâce à la fonction personnalisée '<b>lastYearLastValue</b>'
            <ul><li>'<b>Année Dernière Valeur Non Null</b>'</li><li>'<b>Dernière Valeur Non Null</b>'</li></ul></li>
    </ul>
</p>

<h4><u>Données futures</u> :</h4>

In [34]:
# Données Futures
# Création d'une liste contenant les colonnes à conserver
colsFutur = cols[:cols.index('Topic')+1] + ['2010'] + ['2015'] + cols[cols.index('2020'):]
# Création d'un nouveau DataFrame avec application des filtres
dataFutur = data[colsFutur][data['Indicator Code'].str.startswith('PRJ')]
dataFutur.tail()

Unnamed: 0,Country Name,Region,Indicator Code,Topic,2010,2015,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
886909,Zimbabwe,Sub-Saharan Africa,PRJ.POP.ALL.2.MF,Attainment,1406.2,1436.11,1452.3,1456.0,1406.09,1331.45,1230.95,1121.88,1020.78,923.44,825.13,730.73,639.15,559.09,488.32,431.02,377.69,333.26,294.91
886912,Zimbabwe,Sub-Saharan Africa,PRJ.POP.ALL.NED.MF,Attainment,409.11,312.94,237.77,173.87,122.19,81.31,51.26,30.3,17.04,9.57,5.69,3.68,2.53,1.82,1.39,1.14,1.01,0.94,0.91
886915,Zimbabwe,Sub-Saharan Africa,PRJ.POP.ALL.4.MF,Attainment,304.5,370.12,448.51,528.76,614.27,706.31,801.6,895.21,986.17,1076.25,1166.47,1266.3,1374.29,1489.14,1611.78,1743.55,1886.91,2040.83,2202.47
886918,Zimbabwe,Sub-Saharan Africa,PRJ.POP.ALL.1.MF,Attainment,1614.84,1474.43,1360.77,1253.78,1124.63,995.32,870.21,755.65,659.02,574.0,494.23,420.47,352.09,294.1,244.68,205.47,171.39,144.86,124.17
886921,Zimbabwe,Sub-Saharan Africa,PRJ.POP.ALL.3.MF,Attainment,3010.47,3596.51,4207.33,4779.36,5296.82,5729.49,6074.16,6314.43,6469.45,6558.41,6576.5,6572.1,6533.22,6469.39,6390.77,6303.34,6206.69,6100.56,5988.95


<p>Ajout d'une colonne '<b>Taux de remplissage</b>'</p>

In [35]:
dataFutur['Taux de Remplissage'] = dataFutur.loc[:,'2010':'2100']\
          .notnull().sum(axis=1)/len(dataFutur.loc[:,'2010':'2100'].columns)

<p>J'enregistre le DataFrame '<b>dataFutur</b>' dans un fichier via <u>pickle</u> <br \>pour le réutiliser dans la suite de mon analyse :<p>

In [36]:
pickle.dump(dataFutur, open('dataFuturBackup', 'wb'))

<h4><u>Données passées</u> :</h4>

<p>Création d'une liste contenant les colonnes à conserver<br \>
    puis Création d'un nouveau <i>DataFrame</i> '<b>dataPast</b>' avec <u>application des filtres</u> :</p>

In [37]:
colsPast = cols[:cols.index('2017')]
dataPast = data[colsPast][~data['Indicator Code'].str.startswith('PRJ')]

<p>Ajout des <u>2 colonnes</u> '<b>Année Dernière Valeur Non Null</b>' et <br \>
    '<b>Dernière Valeur Non Null</b>' via la <u>fonction personnalisée</u> '<b>lastYearLastValue</b>'</p>

In [38]:
dataPast[['Année Dernière Valeur Non Null','Dernière Valeur Non Null']] = \
            dataPast.loc[:,'2016':'1970':-1]\
                    .apply(lambda row: pd.Series(lastYearLastValue(row)), axis=1)
dataPast.head()

Unnamed: 0,Country Name,Region,Indicator Code,Topic,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,Année Dernière Valeur Non Null,Dernière Valeur Non Null
91625,Afghanistan,South Asia,UIS.NERA.2,Secondary,,,,,7.05911,,,,,,,,,,,,,,,,,,,17.260189,,,,,,,,,,,,,,28.05987,,,,,,47.43679,50.627232,,,2014.0,50.627232
91629,Afghanistan,South Asia,SE.PRM.TENR,Primary,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
91633,Afghanistan,South Asia,UIS.NERA.3,Secondary,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,31.332621,32.41703,,,2014.0,32.41703
91637,Afghanistan,South Asia,UIS.NIRA.1,Primary,,,,,23.58927,,,,,,,,,,,,,,,,,,,19.85187,,,,,,,,,,,,,,,,,,,,,,,,1993.0,19.85187
91641,Afghanistan,South Asia,UIS.LPP.AG15T99,,,,,,,,,,,57.004791,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,58.67976,,,,,,2011.0,58.67976


<p>Vérification du type des 2 colonnes ajoutés : </p>

In [39]:
dataPast[['Année Dernière Valeur Non Null','Dernière Valeur Non Null']].dtypes

Année Dernière Valeur Non Null     object
Dernière Valeur Non Null          float64
dtype: object

<p>Je convertis la colonne '<b>Année Dernière Valeur Non Null</b>' en '<b>float</b>'</p>

In [40]:
dataPast['Année Dernière Valeur Non Null'] = dataPast['Année Dernière Valeur Non Null'].astype(float)

<p>Mes colonnes représentants les années de '<b>1970</b>' à '<b>2016</b>' ne <br \>
    me sont plus utiles et peuvent être <u>supprimées</u> :</p>

In [41]:
dataPast = dataPast.drop(columns=dataPast.loc[:,'1970':'2016'].columns)

<p>J'enregistre le <i>DataFrame</i> '<b>dataPast</b>' dans un fichier via <u>pickle</u> <br \>pour le réutiliser dans la suite de mon analyse :<p>

In [42]:
pickle.dump(dataPast, open('dataPastBackup', 'wb'))

<p>Fin de la découverte des <i>DataSet</i> et personnalisation du <i>DataFrame</i> '<b>data</b>'</p>