<img src="https://user.oc-static.com/upload/2023/03/21/16794159547105_Data%20Scientist-P2-01-banner.png" alt="Alternative text" />

**Table des matières**<a id='toc0_'></a>    
- [Introduction](#toc1_)    
- [1 - Inspection et préparation des données](#toc2_)    
    - [Chargement des datasets](#toc2_1_1_)    
    - [Traitements préliminaires des DataFrames : uniformisation et suppression](#toc2_1_2_)    
    - [Préparation du DataFrame "Series"](#toc2_1_3_)    
    - [Préparation du DataFrame "Country Series"](#toc2_1_4_)    
    - [Préparation du DataFrame "Foot Note"](#toc2_1_5_)    
    - [Préparation du DataFrame "Country"](#toc2_1_6_)    
    - [Préparation du DataFrame "Data](#toc2_1_7_)    
- [2 - Préparation du DataFrame initial](#toc3_)    
    - [Fusion de données](#toc3_1_1_)    
    - [Imputation de données](#toc3_1_2_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

# <a id='toc1_'></a>[Introduction](#toc0_)

Notre objectif est de remettre au board d'Academy une **analyse impactante** afin de l'aider à élaborer sa stratégie d'expansion à l'international en tant que plateforme de e-learning.

Notre mission est de produire des résultats exploitables et actionables en établissant une liste de pays prioritaires pour l'expansion de Academy au regard des critères que l'on jugera pertinents comme : 

- la démographie
- l'investissement dans l'éducation
- la qualité et le taux de développement de l'infrastructure des réseaux de télécommunication
- l'économie et la solvabilité des potentiels utilisateurs (lycéens et étudiants)

Pour arriver à notre fin nous disposons de datasets à partir desquels nous allons extraire directement des données mais nous allons aussi créer des indicateurs synthétiques pour répondre à certaines questions décisives.


# <a id='toc2_'></a>[1 - Inspection et préparation des données](#toc0_)

### <a id='toc2_1_1_'></a>[Chargement des datasets](#toc0_)

In [137]:
import numpy as np
import pandas as pd

# Configurer Pandas pour un affichage complet du contenu des colonnes
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_columns', None)

In [138]:
# EdStatsSeries.csv
# Ce dataset contient des métadonnées concernant les différents types d'études ou d'indicateurs statistiques liés à l'éducation
# Ces métadonnées fournissent des informations pour comprendre les données recueillies, leur contexte et leur signification. 
df_series = pd.read_csv("../datasets/EdStatsSeries.csv")

# EdStatsCountry.csv
# Ce dataset contient des métadonnées sur chaque pays.
df_country = pd.read_csv("../datasets/EdStatsCountry.csv")

# EdStatsCountry-Series.csv
# Ce dataset contient des informations spécifiques au pays pour certaines séries ou indicateurs statistiques. Ce fichier crée une relation entre les pays et les séries de données, offrant des métadonnées supplémentaires ou des notes qui sont pertinentes pour des séries de données spécifiques dans le contexte de pays particuliers.
df_country_series = pd.read_csv("../datasets/EdStatsCountry-Series.csv")

# EdStatsFootNote.csv
# Ce dataset contient des notes de bas de page associées aux valeurs de données dans les datasets.
df_foot_note = pd.read_csv("../datasets/EdStatsFootNote.csv")

# EdStatsData.csv
# Ce dataset contient les valeurs réelles des indicateurs éducatifs pour divers pays et régions à travers le monde, sur plusieurs années y compris des projections. Ce fichier est conçu pour fournir une vue complète des performances éducatives, des tendances et des résultats à travers une gamme étendue d'indicateurs. 
df_data = pd.read_csv("../datasets/EdStatsData.csv")

### <a id='toc2_1_2_'></a>[Traitements préliminaires des DataFrames : uniformisation et suppression](#toc0_)

In [139]:
#  Mettre tous les titres de colonne en minuscule et sans espace
df_series.columns = df_series.columns.str.lower().str.replace(" ", "_")
df_data.columns = df_data.columns.str.lower().str.replace(" ", "_")
df_country.columns = df_country.columns.str.lower().str.replace(" ", "_")
df_country_series.columns = df_country_series.columns.str.lower().str.replace(" ", "_")
df_foot_note.columns = df_foot_note.columns.str.lower().str.replace(" ", "_")

In [140]:
# Suppression des colonnes "unnamed" qui correspondent à des colonnes générées par Pandas à cause de la dernière virgule qui se trouve à la fin de chaque ligne des datasets
df_series = df_series.loc[:, ~df_series.columns.str.contains("unnamed")]
df_data = df_data.loc[:, ~df_data.columns.str.contains("unnamed")]
df_country = df_country.loc[:, ~df_country.columns.str.contains("unnamed")]
df_country_series = df_country_series.loc[:, ~df_country_series.columns.str.contains("unnamed")]
df_foot_note = df_foot_note.loc[:, ~df_foot_note.columns.str.contains("unnamed")]

### <a id='toc2_1_3_'></a>[Préparation du DataFrame "Series"](#toc0_)

In [141]:
# Aperçu rapide du DataFrame
df_series.head()

Unnamed: 0,series_code,topic,indicator_name,short_definition,long_definition,unit_of_measure,periodicity,base_period,other_notes,aggregation_method,limitations_and_exceptions,notes_from_original_source,general_comments,source,statistical_concept_and_methodology,development_relevance,related_source_links,other_web_links,related_indicators,license_type
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age 15-19 with no education,Percentage of female population age 15-19 with no education,Percentage of female population age 15-19 with no education,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.barrolee.com/,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 with no education,Percentage of population age 15-19 with no education,Percentage of population age 15-19 with no education,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.barrolee.com/,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age 15+ with no education,Percentage of female population age 15+ with no education,Percentage of female population age 15+ with no education,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.barrolee.com/,,,,,,
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ with no education,Percentage of population age 15+ with no education,Percentage of population age 15+ with no education,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.barrolee.com/,,,,,,
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age 20-24 with no education,Percentage of female population age 20-24 with no education,Percentage of female population age 20-24 with no education,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.barrolee.com/,,,,,,


In [142]:
# Vérification des dimensions du DataFrame
# => les données sont stockées sur 3665 lignes et 20 colonnes
df_series.shape

(3665, 20)

In [143]:
# Vérification des valeurs manquantes
# 5 colonnes uniquement semblent intéressantes pour l'analyse car ne possédant aucune donnée manquante, tandis que les autres ne possèdent aucune donnée ou très peu.
df_series.isna().sum()

series_code                               0
topic                                     0
indicator_name                            0
short_definition                       1509
long_definition                           0
unit_of_measure                        3665
periodicity                            3566
base_period                            3351
other_notes                            3113
aggregation_method                     3618
limitations_and_exceptions             3651
notes_from_original_source             3665
general_comments                       3651
source                                    0
statistical_concept_and_methodology    3642
development_relevance                  3662
related_source_links                   3450
other_web_links                        3665
related_indicators                     3665
license_type                           3665
dtype: int64

In [144]:

# Conservation des colonnes ayant de la donnée
df_series = df_series[["series_code", "topic", "indicator_name", "long_definition", "source"]]

In [145]:
# Vérification des meta-données du DataFrame
# => l'encodage des données semble correct, toutes les données sont de type object/string ce qui correspond au type de chaque modalité
df_series.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3665 entries, 0 to 3664
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   series_code      3665 non-null   object
 1   topic            3665 non-null   object
 2   indicator_name   3665 non-null   object
 3   long_definition  3665 non-null   object
 4   source           3665 non-null   object
dtypes: object(5)
memory usage: 143.3+ KB


In [146]:
# Vérification des valeurs dupliquées
# => il n'y a aucun doublon en tenant compte de "series_code"
df_series.duplicated("series_code").sum()

0

### <a id='toc2_1_4_'></a>[Préparation du DataFrame "Country Series"](#toc0_)

In [147]:
# Aperçu rapide du DataFrame
df_country_series.head()

Unnamed: 0,countrycode,seriescode,description
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population Prospects
1,ABW,SP.POP.GROW,Data sources: United Nations World Population Prospects
2,AFG,SP.POP.GROW,Data sources: United Nations World Population Prospects
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population Prospects


In [148]:
# Vérification des dimensions du DataFrame
# => les données sont stockées sur 613 lignes et 3 colonnes
df_country_series.shape

(613, 3)

In [149]:
# Vérification des meta-données du DataFrame
# => l'encodage des données semble correct, toutes les données sont de type object/string ce qui correspond au type de chaque modalité
df_country_series.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 613 entries, 0 to 612
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   countrycode  613 non-null    object
 1   seriescode   613 non-null    object
 2   description  613 non-null    object
dtypes: object(3)
memory usage: 14.5+ KB


In [150]:
# Vérification des valeurs manquantes
# => il n'y a aucune valeur manquante
df_country_series.isna().sum()

countrycode    0
seriescode     0
description    0
dtype: int64

In [151]:
# Vérification des valeurs dupliquées
# => il n'y a aucun doublon basé sur les valeurs composées de "countrycode" et "seriescode"
df_country_series.duplicated(["countrycode", "seriescode"]).sum()

0

### <a id='toc2_1_5_'></a>[Préparation du DataFrame "Foot Note"](#toc0_)

In [152]:
# Aperçu rapide du DataFrame
df_foot_note.head()

Unnamed: 0,countrycode,seriescode,year,description
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.


In [153]:
# Vérification des dimensions du DataFrame
# => les données sont stockées sur 643638 lignes et 4 colonnes
df_foot_note.shape

(643638, 4)

In [154]:
# Vérification des meta-données du DataFrame
# => l'encodage des données semble correct sauf pour la colonne "year" ou nous allons reformater les données au format numérique ex : 2001 au lieu de YR2001
df_foot_note.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 643638 entries, 0 to 643637
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   countrycode  643638 non-null  object
 1   seriescode   643638 non-null  object
 2   year         643638 non-null  object
 3   description  643638 non-null  object
dtypes: object(4)
memory usage: 19.6+ MB


In [155]:
# Vérification des valeurs manquantes
# => il n'y a aucune valeur manquante
df_foot_note.isna().sum()

countrycode    0
seriescode     0
year           0
description    0
dtype: int64

In [156]:
# Vérification des valeurs dupliquées
# => il n'y a aucun doublon basé sur les valeurs composées de "countrycode", "seriescode" et "year"
df_foot_note.duplicated(["countrycode", "seriescode", "year"]).sum()

0

In [157]:
# Traitement de la colonne "year", transformation en année numérique
df_foot_note["year"] = pd.to_numeric(df_foot_note["year"].str.replace('yr', '', case=False))

### <a id='toc2_1_6_'></a>[Préparation du DataFrame "Country"](#toc0_)

In [158]:
# Aperçu rapide du DataFrame
df_country.head()

Unnamed: 0,country_code,short_name,table_name,long_name,2-alpha_code,currency_unit,special_notes,region,income_group,wb-2_code,national_accounts_base_year,national_accounts_reference_year,sna_price_valuation,lending_category,other_groups,system_of_national_accounts,alternative_conversion_factor,ppp_survey_year,balance_of_payments_manual_in_use,external_debt_reporting_status,system_of_trade,government_accounting_concept,imf_data_dissemination_standard,latest_population_census,latest_household_survey,source_of_most_recent_income_and_expenditure_data,vital_registration_complete,latest_agricultural_census,latest_industrial_data,latest_trade_data,latest_water_withdrawal_data
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from official government statistics; 1994-1999 from UN databases. Base year has changed from 1995 to 2000.,Latin America & Caribbean,High income: nonOECD,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accounts methodology.,,,"IMF Balance of Payments Manual, 6th edition.",,Special trade system,,,2010,,,Yes,,,2012.0,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period for national accounts data: FY (from 2013 are CY). National accounts data are sourced from the IMF and differ from the Central Statistics Organization numbers due to exclusion of the opium economy.,South Asia,Low income,AF,2002/03,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accounts methodology.,,,,Actual,General trade system,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data, national accounts data were revised for 2000 onward; the base year changed to 2002.",Sub-Saharan Africa,Upper middle income,AO,2002,,Value added at producer prices (VAP),IBRD,,Country uses the 1993 System of National Accounts methodology.,1991–96,2005,"IMF Balance of Payments Manual, 6th edition.",Actual,Special trade system,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,Original chained constant price data are rescaled.,1996.0,Value added at basic prices (VAB),IBRD,,Country uses the 1993 System of National Accounts methodology.,,Rolling,"IMF Balance of Payments Manual, 6th edition.",Actual,General trade system,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09","Living Standards Measurement Study Survey (LSMS), 2012",Yes,2012,2010.0,2012.0,2006.0
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,1990,,,,,Country uses the 1968 System of National Accounts methodology.,,,,,Special trade system,,,2011. Population figures compiled from administrative registers.,,,Yes,,,2006.0,


In [159]:
# Vérification des dimensions du DataFrame
# => les données sont stockées sur 241 lignes et 31 colonnes
df_country.shape

(241, 31)

In [160]:
# Conserver que les variables pertinentes pour l'analyse
df_country = df_country[[
    "country_code", 
    "short_name", 
    "region", 
    "income_group", 
    "lending_category", 
    "other_groups",
    "external_debt_reporting_status",
    "government_accounting_concept",
    "imf_data_dissemination_standard",
    "vital_registration_complete"]]

In [161]:
# Vérification des meta-données du DataFrame
# => l'encodage des données est incorrect pour certaines variables
df_country.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 241 entries, 0 to 240
Data columns (total 10 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   country_code                     241 non-null    object
 1   short_name                       241 non-null    object
 2   region                           214 non-null    object
 3   income_group                     214 non-null    object
 4   lending_category                 144 non-null    object
 5   other_groups                     58 non-null     object
 6   external_debt_reporting_status   124 non-null    object
 7   government_accounting_concept    161 non-null    object
 8   imf_data_dissemination_standard  181 non-null    object
 9   vital_registration_complete      111 non-null    object
dtypes: object(10)
memory usage: 19.0+ KB


In [162]:
# Uniformisation des valeurs de la colonnes "vital_registration_complete", mettre à "Yes" et "No" là où cela est nécessaire
df_country["vital_registration_complete"] = np.where(df_country["vital_registration_complete"].str.contains("yes", case=False, na=False), "Yes", "No")

### <a id='toc2_1_7_'></a>[Préparation du DataFrame "Data](#toc0_)

In [163]:
# Aperçu rapide du DataFrame
df_data.head()

Unnamed: 0,country_name,country_code,indicator_name,indicator_code,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, both sexes (%)",UIS.NERA.2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, female (%)",UIS.NERA.2.F,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, gender parity index (GPI)",UIS.NERA.2.GPI,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, male (%)",UIS.NERA.2.M,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sexes (%)",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,60.999962,61.92268,62.69342,64.383186,65.617767,66.085152,66.608139,67.290451,68.510094,69.033211,69.944908,71.04187,71.693779,71.699097,71.995819,72.602837,70.032722,70.464821,72.645683,71.81176,73.903511,74.425201,75.110817,76.254318,77.245682,78.800522,80.051399,80.805389,81.607063,82.489487,82.685509,83.280342,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,,,,,,,,,,,,,,,,,,,,


In [164]:
# Vérification des dimensions du DataFrame
# => les données sont stockées sur 886930 lignes et 69 colonnes
df_data.shape

(886930, 69)

In [165]:
# Vérification des valeurs manquantes
df_data.isna().sum()

country_name           0
country_code           0
indicator_name         0
indicator_code         0
1970              814642
                   ...  
2080              835494
2085              835494
2090              835494
2095              835494
2100              835494
Length: 69, dtype: int64

In [166]:
# Suppression des lignes où toutes les valeurs des colonnes des années sont manquantes
df_data = df_data.dropna(subset=df_data.columns[~df_data.columns.isin(["country_name", "country_code", "indicator_name", "indicator_code"])], how="all")

# Suppression des oultiers abérrants
df_data.loc[(df_data["indicator_code"] == 'SE.XPD.TOTL.GD.ZS') & (df_data["country_code"] == 'TUV'),"1997"] = None

In [167]:
# Vérification des meta-données du DataFrame
# => l'encodage des données semble correct
df_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 357405 entries, 4 to 886929
Data columns (total 69 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   country_name    357405 non-null  object 
 1   country_code    357405 non-null  object 
 2   indicator_name  357405 non-null  object 
 3   indicator_code  357405 non-null  object 
 4   1970            72288 non-null   float64
 5   1971            35537 non-null   float64
 6   1972            35619 non-null   float64
 7   1973            35545 non-null   float64
 8   1974            35730 non-null   float64
 9   1975            87306 non-null   float64
 10  1976            37483 non-null   float64
 11  1977            37574 non-null   float64
 12  1978            37576 non-null   float64
 13  1979            36809 non-null   float64
 14  1980            89122 non-null   float64
 15  1981            38777 non-null   float64
 16  1982            37511 non-null   float64
 17  1983           

# <a id='toc3_'></a>[2 - Préparation du DataFrame initial](#toc0_)

Pour des raisons pratiques nous allons construire un nouveau DataFrame à partir du DataFrame "Data" et dans lequels viendront s'y ajouter d'autres informations provenant des autres DataFrames. L'objectif est d'avoir un DataFrame inital à partir duquel nous construirons des DataFrames intermédiaires pour les besoins de l'analyse.

### <a id='toc3_1_1_'></a>[Fusion de données](#toc0_)

In [168]:
# Fusion avec le DataFrame "Country" pour ramener toutes les colonnes de chaque pays et région
df_data_completed = pd.merge(df_data, df_country, how="left", on="country_code")

# Différencier les régions des pays
df_data_completed["country_type"] = np.where(df_data_completed["region"].isna(), "region", "country")

# Suppression des colonnes redondantes suite à la fusion
df_data_completed.drop("short_name", axis=1, inplace=True)

# Réorganisation des colonnes pour une meilleure lecture
cols = ["country_type", "region", "country_code", "country_name", "indicator_code", "indicator_name", "income_group", "lending_category",	"other_groups",	"external_debt_reporting_status", "government_accounting_concept", "imf_data_dissemination_standard", "vital_registration_complete"]
columns = cols + [col for col in df_data_completed if col not in cols]
df_data_completed = df_data_completed[columns]

### <a id='toc3_1_2_'></a>[Imputation de données](#toc0_)

In [169]:
# Nous allons réaliser une imputation de données avec la méthode d'interpolation linéaire, cela de l'année 1970 à l'année 2020
# Plus tard nous n'exploiterons que l'année 2020 qui servira de référence pour notre analyse.
years_choice = np.arange(1970, 2021).astype(str).tolist()
year_columns = [col for col in years_choice if col in df_data_completed.columns]

# L'imputation de données va être réalisée sur les indicateurs que nous avons ciblés pour leur pertinence dans notre analyse
selected_indicator_codes = [
    "SP.POP.TOTL",          # Population totale
    "NY.GDP.PCAP.KD",       # PIB par habitant
    "IT.NET.USER.P2",       # Taux d'utilisation d'Internet
    "SP.POP.1524.TO.UN",    # Populatiolion en âge d'étudier dans le secondaire et le supérieur
    "SE.SEC.ENRL",          # Nombre de lycéens
    "SE.TER.ENRL",          # Nombre d'étudiants
    "SE.XPD.TOTL.GD.ZS",     # Dépenses gouvernementales pour l'éducation (% du PIB)
    "SE.SEC.CMPT.LO.ZS"     # Taux d'achèvement du premier cycle du secondaire
]

# Pour chaque indicateur sélectionné effectuer l'interpolation sur l'intervalle des années déterminé par "year_columns"
for indicator_code in selected_indicator_codes:
    # Interpolation de gauche à droite
    df_temp = df_data_completed.query(f"indicator_code == '{indicator_code}'").copy()
    df_data_completed.loc[df_data_completed["indicator_code"] == indicator_code, year_columns] = df_temp[year_columns].interpolate(method="linear", axis=1)
    # Interpolation de droite à gauche
    df_temp = df_data_completed.query(f"indicator_code == '{indicator_code}'").copy()
    df_data_completed.loc[df_data_completed["indicator_code"] == indicator_code, year_columns] = df_temp[year_columns].interpolate(method="linear", axis=1, limit_direction='backward')

In [170]:
# Exportation du DataFrame vers un fichier csv
df_data_completed.to_csv("../datasets/EdStats.csv", index=False)