In [1]:
import pandas as pd
import numpy as np


In [2]:
country_csv = "./data/EdStatsCountry.csv"
ed_stats_csv = "./data/EdStatsData.csv"
series_info_csv = "./data/EdStatsSeries.csv"


df_country = pd.read_csv(country_csv)
df_stats = pd.read_csv(ed_stats_csv)
df_series = pd.read_csv(series_info_csv)


In [10]:

past = np.arange(1969, 2000, 1)
future = np.arange(2020, 2101, 1)

for year in past:
    try:
        del df_stats[str(year)]
    except KeyError:
        pass

for year in future:
    try:
        del df_stats[str(year)]
    except KeyError:
        pass

    
for col in df_stats.columns:
    if str(col).startswith("Unnamed"):
        del df_stats[col]


print("Nombre d'indicateurs =", len(pd.unique(df_series["Series Code"])))
print("Nombre de pays/unions =", len(pd.unique(df_country["Country Code"])))
print("Nombre de donnees manquantes, periode 2000-2020 =", df_stats.isna().sum().sum())


Nombre d'indicateurs = 3665
Nombre de pays/unions = 241
Nombre de donnees manquantes, periode 2000-2020 = 13608309


In [4]:
df_stats.head(n=10)

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2000,2001,2002,2003,2004,2005,...,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,...,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,...,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,...,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,...,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,77.245682,78.800522,80.051399,80.805389,81.607063,82.489487,...,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,,,
5,Arab World,ARB,"Adjusted net enrolment rate, primary, female (%)",SE.PRM.TENR.FE,73.27562,75.13298,76.641022,77.65358,78.485397,79.475769,...,81.473801,81.695686,82.871651,82.861389,84.401413,83.914032,83.820831,,,
6,Arab World,ARB,"Adjusted net enrolment rate, primary, gender p...",UIS.NERA.1.GPI,0.90406,0.91275,0.91979,0.9263,0.92768,0.93084,...,0.9425,0.94347,0.94762,0.9467,0.96208,0.96409,0.9662,,,
7,Arab World,ARB,"Adjusted net enrolment rate, primary, male (%)",SE.PRM.TENR.MA,81.051369,82.315048,83.324059,83.83223,84.604393,85.380287,...,86.444138,86.590691,87.452583,87.52652,87.728172,87.039879,86.753387,,,
8,Arab World,ARB,"Adjusted net enrolment rate, upper secondary, ...",UIS.NERA.3,,,,,,,...,,,,,,,,,,
9,Arab World,ARB,"Adjusted net enrolment rate, upper secondary, ...",UIS.NERA.3.F,,,,,,,...,,,,,,,,,,


<h2>Étude de la fiabilité du dataset :</h2> 

- <u>Nombre d'indicateurs</u> = 3665
- <u>Nombre de pays/unions</u> = 241 <i>Note: Les 25 premieres entrees dans "EdStatsCountry" correspondent aux unions et aux regions economiques<i/>
- <u>Nombre de donnees manquantes, periode 2000-2020</u>= 13608309
- <i>La très large majorité des données du dataset ne va pas plus loin que 2015.</i>

Le dataset provenant de <a href="http://worldbank.org" target="_blank">worldbank.org</a> parait peu complet et ne suffit pas en lui meme pour etablir precisement les zones où <i>Academy</i> devrait investir dans le futur. <br>
Il est neanmoins possible de dresser quelques hypothèses à ce sujet.<br>
<br>

<hr>

On peut prendre en compte, sur la periode 2000-2015, les données suivantes pour donner des pistes à approfondir avec des données de meilleure qualité. <br>
Nous pouvons utiliser :

<h4><u>Général :</u></h4>

- SP.POP.1524.TO.UN => La population agée de 15 à 25 ans, qui constitue la demographie cible <i>d'Academy<i/>.
- IT.NET.USER.P2 => Le pourcentage de personnes ayant un accès à internet, puisque les services proposés seront mis à disposition via internet
- NY.GDP.PCAP.PP.KD => Le pouvoir d'achat par habitant, pour determiner si un retour sur investissement est envisageable.

<hr>

<h4><u>Secteur secondaire :</u></h4>

- UIS.NERT.2 => Le taux d'inscription à des études secondaires (%)
- BAR.SEC.CMPT.1519.ZS, Le pourcentage de personnes agées de 15 à 19 ans ayant terminé leurs études secondaires<br>
- BAR.SEC.ICMP.1519.ZS, - BAR.SEC.CMPT.1519.ZS, Le pourcentage de personnes agées de 15 à 19 ans ayant suivi (terminé ou non) des études secondaires<br>
- Incomplete secondary_1519 = BAR.SEC.ICMP.1519.ZS - BAR.SEC.CMPT.1519.ZS : Mettre en evidence le pourcentage de non completion peut etre également une piste pour distinguer les pays ou <i>Academy</i> pourrait intervenir en tant que soutien scolaire.<br><br>

<i>Note : the Baro Lee indicators will only be used to calculate the incompletion rate of 2000, 2005 & 2010, data missing for other years.</i>

<hr>

<h4><u>Secteur Universitaire :</u></h4>
    
- SE.TER.ENRR : Pourcentage de la population correspondant à la tranche d'âge suceptible d'effectuer des études superieures (src : UNESCO) = <b><i>Note : Ces données sont inutiles et ignorées : il y a plusieurs occurrences où cet indicateur est superieur à 100%, ce qui met en doute la fiabilité de l'indicateur</i></b><br>
- BAR.TER.CMPT.2024.ZS, Le pourcentage de la population agée de 20 à 24 ans ayant terminé leurs études superieures<br>
- BAR.TER.ICMP.2024.ZS, Le pourcentage de la population agée de 20 à 24 ans ayant terminé ou non leurs études superieures<br>
- Incomplete tertiary_2024 = BAR.TER.ICMP.2024.ZS - BAR.TER.CMPT.2024.ZS <i>c.f. Inconplete_secondary_1519</i>

<br><br>

<i>Note : the Baro Lee indicators will only be used to calculate the incompletion rate of 2000, 2005 & 2010, data missing for other years.</i>

<hr>

- Relevant Years : 2000 - 2020(2015) <br>

    
<h4>Une étude des indicateurs mentionnés ci dessus, même si elle ne suffit pas à dresser une conclusion définitive, permettra de determiner des pistes à approfondir dans le cadre de l'extension <i>d'Academy</i></h4>

In [31]:
countries = df_stats[["Country Code", "Country Name"]].drop_duplicates().reset_index(drop=True)

In [32]:
countries.head(n=25)

Unnamed: 0,Country Code,Country Name
0,ARB,Arab World
1,EAS,East Asia & Pacific
2,EAP,East Asia & Pacific (excluding high income)
3,EMU,Euro area
4,ECS,Europe & Central Asia
5,ECA,Europe & Central Asia (excluding high income)
6,EUU,European Union
7,HPC,Heavily indebted poor countries (HIPC)
8,HIC,High income
9,LCN,Latin America & Caribbean


<h4>Ci dessus les Codes et Noms des Unions</h4>
<br>
<i>Note : Ordre alpha dans country.csv, ordre : unions geo/econonmiques puis pays dans EdStats</i>