# **Projet 2 : Exercice 1**
Dans cet exercice, vous êtes Data Scientist dans une start-up de la EdTech, nommée academy, qui propose des contenus de formation en ligne pour un public de niveau lycée et université.

Mark, votre manager, vous a convié à une réunion pour vous présenter le projet d’expansion à l’international de l’entreprise. Il vous confie une première mission d’analyse exploratoire, pour déterminer si les données sur l’éducation de la banque mondiale permettent d’enrichir la réflexion autour du projet d’expansion

Mark aimerait explorer les pays avec un fort potentiel de clients pour les services de academy, et voir comment ce potentiel pourrait évoluer.

Vous allez répondre à la demande de Mark en suivant l’ensemble des exercices entièrement guidés. A la fin des exercices, vous aurez réussi à déterminer si ces jeux de données peuvent fournir des insights guidant academy à décider dans quels pays s’implanter.

Ce premier exercice vous fait mener une première analyse en surface des différents jeux de données.

In [1]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
import warnings
warnings.filterwarnings('ignore')

# Configuration pour l'affichage
pd.set_option('display.max_columns', 70)
pd.set_option('display.width', 200)

## **Étape 1 :** Chargez les données dans votre Notebook

Résultats attendus :
* Avoir chargé les données.
* Visualiser dans un Jupyter Notebook les premières lignes des cinq fichiers en utilisant Pandas (présenté dans le cours ci-dessus).

Recommandations :

* Prenez le temps de comprendre ce que signifie une ligne dans chaque fichier de données.
* Tirez parti au maximum des différentes options du Jupyter Notebook :
    * Assurez-vous que chaque case correspond à une tâche spécifique.
    * N’hésitez pas à ajouter des commentaires et des markdowns pour faciliter la navigation.

Ordre d'analyse des fichiers
1. EdStatsCountry.csv
2. EdStatsSeries.csv
3. EdStatsCountry-Series.csv
4. EdStatsFootNote.csv
5. EdStatsData.csv

In [3]:
# Chargement des 5 fichiers CSV
try:
    # Chargement des fichiers
    EdStatsCountry = pd.read_csv('EdStatsCountry.csv')
    EdStatsSeries = pd.read_csv('EdStatsSeries.csv')
    EdStatsCountrySeries = pd.read_csv('EdStatsCountry-Series.csv')
    EdStatsFootNote = pd.read_csv('EdStatsFootNote.csv')
    EdStatsData = pd.read_csv('EdStatsData.csv')
    
    print("Tous les fichiers ont été chargés avec succès")
    
except FileNotFoundError as e:
    print(f"Erreur de chargement : {e}")

Tous les fichiers ont été chargés avec succès


In [4]:
EdStatsCountry.head()

Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Special Notes,Region,Income Group,WB-2 code,National accounts base year,National accounts reference year,SNA price valuation,Lending category,Other groups,System of National Accounts,Alternative conversion factor,PPP survey year,Balance of Payments Manual in use,External debt Reporting status,System of trade,Government Accounting concept,IMF data dissemination standard,Latest population census,Latest household survey,Source of most recent Income and expenditure data,Vital registration complete,Latest agricultural census,Latest industrial data,Latest trade data,Latest water withdrawal data,Unnamed: 31
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,SNA data for 2000-2011 are updated from offici...,Latin America & Caribbean,High income: nonOECD,AW,2000,,Value added at basic prices (VAB),,,Country uses the 1993 System of National Accou...,,,"IMF Balance of Payments Manual, 6th edition.",,Special trade system,,,2010,,,Yes,,,2012.0,,
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,Fiscal year end: March 20; reporting period fo...,South Asia,Low income,AF,2002/03,,Value added at basic prices (VAB),IDA,HIPC,Country uses the 1993 System of National Accou...,,,,Actual,General trade system,Consolidated central government,General Data Dissemination System (GDDS),1979,"Multiple Indicator Cluster Survey (MICS), 2010/11","Integrated household survey (IHS), 2008",,2013/14,,2012.0,2000.0,
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,"April 2013 database update: Based on IMF data,...",Sub-Saharan Africa,Upper middle income,AO,2002,,Value added at producer prices (VAP),IBRD,,Country uses the 1993 System of National Accou...,1991–96,2005,"IMF Balance of Payments Manual, 6th edition.",Actual,Special trade system,Budgetary central government,General Data Dissemination System (GDDS),1970,"Malaria Indicator Survey (MIS), 2011","Integrated household survey (IHS), 2008",,2015,,,2005.0,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,,Europe & Central Asia,Upper middle income,AL,Original chained constant price data are resca...,1996.0,Value added at basic prices (VAB),IBRD,,Country uses the 1993 System of National Accou...,,Rolling,"IMF Balance of Payments Manual, 6th edition.",Actual,General trade system,Budgetary central government,General Data Dissemination System (GDDS),2011,"Demographic and Health Survey (DHS), 2008/09",Living Standards Measurement Study Survey (LSM...,Yes,2012,2010.0,2012.0,2006.0,
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,,Europe & Central Asia,High income: nonOECD,AD,1990,,,,,Country uses the 1968 System of National Accou...,,,,,Special trade system,,,2011. Population figures compiled from adminis...,,,Yes,,,2006.0,,


In [5]:
EdStatsCountry.dtypes

Country Code                                          object
Short Name                                            object
Table Name                                            object
Long Name                                             object
2-alpha code                                          object
Currency Unit                                         object
Special Notes                                         object
Region                                                object
Income Group                                          object
WB-2 code                                             object
National accounts base year                           object
National accounts reference year                     float64
SNA price valuation                                   object
Lending category                                      object
Other groups                                          object
System of National Accounts                           object
Alternative conversion f

In [6]:
EdStatsSeries.head()

Unnamed: 0,Series Code,Topic,Indicator Name,Short definition,Long definition,Unit of measure,Periodicity,Base Period,Other notes,Aggregation method,Limitations and exceptions,Notes from original source,General comments,Source,Statistical concept and methodology,Development relevance,Related source links,Other web links,Related indicators,License Type,Unnamed: 20
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Percentage of female population age 15-19 with...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Percentage of population age 15-19 with no edu...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Percentage of female population age 15+ with n...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Percentage of population age 15+ with no educa...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Percentage of female population age 20-24 with...,,,,,,,,,Robert J. Barro and Jong-Wha Lee: http://www.b...,,,,,,,


In [7]:
EdStatsSeries.dtypes

Series Code                             object
Topic                                   object
Indicator Name                          object
Short definition                        object
Long definition                         object
Unit of measure                        float64
Periodicity                             object
Base Period                             object
Other notes                             object
Aggregation method                      object
Limitations and exceptions              object
Notes from original source             float64
General comments                        object
Source                                  object
Statistical concept and methodology     object
Development relevance                   object
Related source links                    object
Other web links                        float64
Related indicators                     float64
License Type                           float64
Unnamed: 20                            float64
dtype: object

In [8]:
EdStatsCountrySeries.head()

Unnamed: 0,CountryCode,SeriesCode,DESCRIPTION,Unnamed: 3
0,ABW,SP.POP.TOTL,Data sources : United Nations World Population...,
1,ABW,SP.POP.GROW,Data sources: United Nations World Population ...,
2,AFG,SP.POP.GROW,Data sources: United Nations World Population ...,
3,AFG,NY.GDP.PCAP.PP.CD,Estimates are based on regression.,
4,AFG,SP.POP.TOTL,Data sources : United Nations World Population...,


In [9]:
EdStatsCountrySeries.dtypes

CountryCode     object
SeriesCode      object
DESCRIPTION     object
Unnamed: 3     float64
dtype: object

In [10]:
EdStatsFootNote.head()

Unnamed: 0,CountryCode,SeriesCode,Year,DESCRIPTION,Unnamed: 4
0,ABW,SE.PRE.ENRL.FE,YR2001,Country estimation.,
1,ABW,SE.TER.TCHR.FE,YR2005,Country estimation.,
2,ABW,SE.PRE.TCHR.FE,YR2000,Country estimation.,
3,ABW,SE.SEC.ENRL.GC,YR2004,Country estimation.,
4,ABW,SE.PRE.TCHR,YR2006,Country estimation.,


In [11]:
EdStatsFootNote.dtypes

CountryCode     object
SeriesCode      object
Year            object
DESCRIPTION     object
Unnamed: 4     float64
dtype: object

In [12]:
EdStatsData.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100,Unnamed: 69
0,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,Arab World,ARB,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Arab World,ARB,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,54.822121,54.894138,56.209438,57.267109,57.991138,59.36554,60.999962,61.92268,62.69342,64.383186,65.617767,66.085152,66.608139,67.290451,68.510094,69.033211,69.944908,71.04187,71.693779,71.699097,71.995819,72.602837,70.032722,70.464821,72.645683,71.81176,73.903511,74.425201,75.110817,76.254318,77.245682,78.800522,80.051399,80.805389,81.607063,82.489487,82.685509,83.280342,84.011871,84.195961,85.211998,85.24514,86.101669,85.51194,85.320152,,,,,,,,,,,,,,,,,,,,,


In [13]:
EdStatsData.dtypes

Country Name       object
Country Code       object
Indicator Name     object
Indicator Code     object
1970              float64
                   ...   
2085              float64
2090              float64
2095              float64
2100              float64
Unnamed: 69       float64
Length: 70, dtype: object

## **Identification des faux pays**

In [14]:
print(EdStatsCountry.shape)
EdStatsCountry.dtypes

(241, 32)


Country Code                                          object
Short Name                                            object
Table Name                                            object
Long Name                                             object
2-alpha code                                          object
Currency Unit                                         object
Special Notes                                         object
Region                                                object
Income Group                                          object
WB-2 code                                             object
National accounts base year                           object
National accounts reference year                     float64
SNA price valuation                                   object
Lending category                                      object
Other groups                                          object
System of National Accounts                           object
Alternative conversion f

In [15]:
EdStatsCountry[['Country Code', 'Short Name', 'Table Name', 'Long Name']].head(50)

Unnamed: 0,Country Code,Short Name,Table Name,Long Name
0,ABW,Aruba,Aruba,Aruba
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan
2,AGO,Angola,Angola,People's Republic of Angola
3,ALB,Albania,Albania,Republic of Albania
4,AND,Andorra,Andorra,Principality of Andorra
5,ARB,Arab World,Arab World,Arab World
6,ARE,United Arab Emirates,United Arab Emirates,United Arab Emirates
7,ARG,Argentina,Argentina,Argentine Republic
8,ARM,Armenia,Armenia,Republic of Armenia
9,ASM,American Samoa,American Samoa,American Samoa


In [16]:
EdStatsCountry[['Country Code', 'Short Name', 'Table Name', 'Long Name']].iloc[50:100]

Unnamed: 0,Country Code,Short Name,Table Name,Long Name
50,CZE,Czech Republic,Czech Republic,Czech Republic
51,DEU,Germany,Germany,Federal Republic of Germany
52,DJI,Djibouti,Djibouti,Republic of Djibouti
53,DMA,Dominica,Dominica,Commonwealth of Dominica
54,DNK,Denmark,Denmark,Kingdom of Denmark
55,DOM,Dominican Republic,Dominican Republic,Dominican Republic
56,DZA,Algeria,Algeria,People's Democratic Republic of Algeria
57,EAP,East Asia & Pacific (developing only),East Asia & Pacific,East Asia & Pacific (developing only)
58,EAS,East Asia & Pacific (all income levels),East Asia & Pacific (all income levels),East Asia & Pacific (all income levels)
59,ECA,Europe & Central Asia (developing only),Europe & Central Asia,Europe & Central Asia (developing only)


In [17]:
EdStatsCountry[['Country Code', 'Short Name', 'Table Name', 'Long Name']].iloc[101:150]

Unnamed: 0,Country Code,Short Name,Table Name,Long Name
101,IRQ,Iraq,Iraq,Republic of Iraq
102,ISL,Iceland,Iceland,Republic of Iceland
103,ISR,Israel,Israel,State of Israel
104,ITA,Italy,Italy,Italian Republic
105,JAM,Jamaica,Jamaica,Jamaica
106,JOR,Jordan,Jordan,Hashemite Kingdom of Jordan
107,JPN,Japan,Japan,Japan
108,KAZ,Kazakhstan,Kazakhstan,Republic of Kazakhstan
109,KEN,Kenya,Kenya,Republic of Kenya
110,KGZ,Kyrgyz Republic,Kyrgyz Republic,Kyrgyz Republic


In [18]:
EdStatsCountry[['Country Code', 'Short Name', 'Table Name', 'Long Name']].iloc[150:200]

Unnamed: 0,Country Code,Short Name,Table Name,Long Name
150,MNG,Mongolia,Mongolia,Mongolia
151,MNP,Northern Mariana Islands,Northern Mariana Islands,Commonwealth of the Northern Mariana Islands
152,MOZ,Mozambique,Mozambique,Republic of Mozambique
153,MRT,Mauritania,Mauritania,Islamic Republic of Mauritania
154,MUS,Mauritius,Mauritius,Republic of Mauritius
155,MWI,Malawi,Malawi,Republic of Malawi
156,MYS,Malaysia,Malaysia,Malaysia
157,NAC,North America,North America,North America
158,NAM,Namibia,Namibia,Republic of Namibia
159,NCL,New Caledonia,New Caledonia,New Caledonia


In [19]:
EdStatsCountry[['Country Code', 'Short Name', 'Table Name', 'Long Name']].iloc[200:250]

Unnamed: 0,Country Code,Short Name,Table Name,Long Name
200,SSF,Sub-Saharan Africa (all income levels),Sub-Saharan Africa (all income levels),Sub-Saharan Africa (all income levels)
201,STP,São Tomé and Principe,São Tomé and Principe,Democratic Republic of São Tomé and Principe
202,SUR,Suriname,Suriname,Republic of Suriname
203,SVK,Slovak Republic,Slovak Republic,Slovak Republic
204,SVN,Slovenia,Slovenia,Republic of Slovenia
205,SWE,Sweden,Sweden,Kingdom of Sweden
206,SWZ,Swaziland,Swaziland,Kingdom of Swaziland
207,SXM,Sint Maarten (Dutch part),Sint Maarten (Dutch part),Sint Maarten (Dutch part)
208,SYC,Seychelles,Seychelles,Republic of Seychelles
209,SYR,Syrian Arab Republic,Syrian Arab Republic,Syrian Arab Republic


#### **Regroupement de tous les faux pays identifiés**

Voici l'ensemble des entités qui ne sont pas de véritables pays souverains, regroupées dans un tableau :

| Country Code | Short Name | Table Name | Long Name |
|--------------|------------|------------|-----------|
| ARB | Arab World | Arab World | Arab World |
| CHI | Channel Islands | Channel Islands | Channel Islands |
| EAP | East Asia & Pacific (developing only) | East Asia & Pacific | East Asia & Pacific (developing only) |
| EAS | East Asia & Pacific (all income levels) | East Asia & Pacific (all income levels) | East Asia & Pacific (all income levels) |
| ECA | Europe & Central Asia (developing only) | Europe & Central Asia | Europe & Central Asia (developing only) |
| ECS | Europe & Central Asia (all income levels) | Europe & Central Asia (all income levels) | Europe & Central Asia (all income levels) |
| EMU | Euro area | Euro area | Euro area |
| EUU | European Union | European Union | European Union |
| FRO | Faeroe Islands | Faeroe Islands | Faeroe Islands |
| GIB | Gibraltar | Gibraltar | Gibraltar |
| GRL | Greenland | Greenland | Greenland |
| GUM | Guam | Guam | Guam |
| HIC | High income | High income | High income |
| HKG | Hong Kong SAR, China | Hong Kong SAR, China | Hong Kong Special Administrative Region of the... |
| HPC | Heavily indebted poor countries (HIPC) | Heavily indebted poor countries (HIPC) | Heavily indebted poor countries (HIPC) |
| IMN | Isle of Man | Isle of Man | Isle of Man |
| LAC | Latin America & Caribbean (developing only) | Latin America & Caribbean | Latin America & Caribbean (developing only) |
| LCN | Latin America & Caribbean (all income levels) | Latin America & Caribbean (all income levels) | Latin America & Caribbean (all income levels) |
| LDC | Least developed countries: UN classification | Least developed countries: UN classification | Least developed countries: UN classification |
| LIC | Low income | Low income | Low income |
| LMC | Lower middle income | Lower middle income | Lower middle income |
| LMY | Low & middle income | Low & middle income | Low & middle income |
| MAC | Macao SAR, China | Macao SAR, China | Macao Special Administrative Region of the Peo... |
| MAF | St. Martin (French part) | St. Martin (French part) | St. Martin (French part) |
| MEA | Middle East & North Africa (all income levels) | Middle East & North Africa (all income levels) | Middle East & North Africa (all income levels) |
| MIC | Middle income | Middle income | Middle income |
| MNA | Middle East & North Africa (developing only) | Middle East & North Africa | Middle East & North Africa (developing only) |
| MNP | Northern Mariana Islands | Northern Mariana Islands | Commonwealth of the Northern Mariana Islands |
| NAC | North America | North America | North America |
| NCL | New Caledonia | New Caledonia | New Caledonia |
| OED | OECD members | OECD members | OECD members |
| PRI | Puerto Rico | Puerto Rico | Puerto Rico |
| PSE | West Bank and Gaza | West Bank and Gaza | West Bank and Gaza |
| PYF | French Polynesia | French Polynesia | French Polynesia |
| SAS | South Asia | South Asia | South Asia |
| SSA | Sub-Saharan Africa (developing only) | Sub-Saharan Africa | Sub-Saharan Africa (developing only) |
| SSF | Sub-Saharan Africa (all income levels) | Sub-Saharan Africa (all income levels) | Sub-Saharan Africa (all income levels) |
| SXM | Sint Maarten (Dutch part) | Sint Maarten (Dutch part) | Sint Maarten (Dutch part) |
| TCA | Turks and Caicos Islands | Turks and Caicos Islands | Turks and Caicos Islands |
| UMC | Upper middle income | Upper middle income | Upper middle income |
| VIR | Virgin Islands | Virgin Islands (U.S.) | Virgin Islands of the United States |
| WLD | World | World | World |

#### **Résumés par colonne**

**[Country Code]** : [ARB, CHI, EAP, EAS, ECA, ECS, EMU, EUU, FRO, GIB, GRL, GUM, HIC, HKG, HPC, IMN, LAC, LCN, LDC, LIC, LMC, LMY, MAC, MAF, MEA, MIC, MNA, MNP, NAC, NCL, OED, PRI, PSE, PYF, SAS, SSA, SSF, SXM, TCA, UMC, VIR, WLD]

**[Short Name]** : [Arab World, Channel Islands, East Asia & Pacific (developing only), East Asia & Pacific (all income levels), Europe & Central Asia (developing only), Europe & Central Asia (all income levels), Euro area, European Union, Faeroe Islands, Gibraltar, Greenland, Guam, High income, Hong Kong SAR China, Heavily indebted poor countries (HIPC), Isle of Man, Latin America & Caribbean (developing only), Latin America & Caribbean (all income levels), Least developed countries: UN classification, Low income, Lower middle income, Low & middle income, Macao SAR China, St. Martin (French part), Middle East & North Africa (all income levels), Middle income, Middle East & North Africa (developing only), Northern Mariana Islands, North America, New Caledonia, OECD members, Puerto Rico, West Bank and Gaza, French Polynesia, South Asia, Sub-Saharan Africa (developing only), Sub-Saharan Africa (all income levels), Sint Maarten (Dutch part), Turks and Caicos Islands, Upper middle income, Virgin Islands, World]

**[Table Name]** : [Arab World, Channel Islands, East Asia & Pacific, East Asia & Pacific (all income levels), Europe & Central Asia, Europe & Central Asia (all income levels), Euro area, European Union, Faeroe Islands, Gibraltar, Greenland, Guam, High income, Hong Kong SAR China, Heavily indebted poor countries (HIPC), Isle of Man, Latin America & Caribbean, Latin America & Caribbean (all income levels), Least developed countries: UN classification, Low income, Lower middle income, Low & middle income, Macao SAR China, St. Martin (French part), Middle East & North Africa (all income levels), Middle income, Middle East & North Africa, Northern Mariana Islands, North America, New Caledonia, OECD members, Puerto Rico, West Bank and Gaza, French Polynesia, South Asia, Sub-Saharan Africa, Sub-Saharan Africa (all income levels), Sint Maarten (Dutch part), Turks and Caicos Islands, Upper middle income, Virgin Islands (U.S.), World]

**[Long Name]** : [Arab World, Channel Islands, East Asia & Pacific (developing only), East Asia & Pacific (all income levels), Europe & Central Asia (developing only), Europe & Central Asia (all income levels), Euro area, European Union, Faeroe Islands, Gibraltar, Greenland, Guam, High income, Hong Kong Special Administrative Region, Heavily indebted poor countries (HIPC), Isle of Man, Latin America & Caribbean (developing only), Latin America & Caribbean (all income levels), Least developed countries: UN classification, Low income, Lower middle income, Low & middle income, Macao Special Administrative Region, St. Martin (French part), Middle East & North Africa (all income levels), Middle income, Middle East & North Africa (developing only), Commonwealth of the Northern Mariana Islands, North America, New Caledonia, OECD members, Puerto Rico, West Bank and Gaza, French Polynesia, South Asia, Sub-Saharan Africa (developing only), Sub-Saharan Africa (all income levels), Sint Maarten (Dutch part), Turks and Caicos Islands, Upper middle income, Virgin Islands of the United States, World]

**Total : 42 entités** identifiées comme n'étant pas de véritables pays souverains.

In [20]:
# Liste des codes des faux pays identifiés (42 entités)
faux_pays_codes = [
    "ARB", "CHI", "EAP", "EAS", "ECA", "ECS", "EMU", "EUU", "FRO", "GIB", 
    "GRL", "GUM", "HIC", "HKG", "HPC", "IMN", "LAC", "LCN", "LDC", "LIC", 
    "LMC", "LMY", "MAC", "MAF", "MEA", "MIC", "MNA", "MNP", "NAC", "NCL", 
    "OED", "PRI", "PSE", "PYF", "SAS", "SSA", "SSF", "SXM", "TCA", "UMC", 
    "VIR", "WLD"
]

print(f"Nombre de faux pays identifiés : {len(faux_pays_codes)}")

Nombre de faux pays identifiés : 42


## **Étape 2 :** Collectez les des informations basiques sur chaque jeu de données

**Résultat attendu :** Code et markdown dans un Jupyter Notebook, permettant de reproduire les réponses aux instructions ci-dessous.

**Instructions :**

* Pour chaque fichier, suivez ces instructions :
    * Définissez ce que représente une ligne (une ligne = un pays ? un indicateur ? une combinaison des deux ? autre chose ?)
    * Calculez le nombre de lignes et de colonnes.
    * Calculez le nombre de doublons dans le jeu de données.
    * Supprimez les doublons s’il y en a.
    * Calculez la proportion de valeurs manquantes par colonne.
    * Supprimez les colonnes inutilisables.
    * Pour les colonnes numériques : calculez les statistiques descriptives basiques en utilisant describe().
    * Pour les colonnes catégorielles : calculez le nombre d'occurrences de chaque valeur possible de la colonne.

**Recommandations :**

* Réutilisez le plus possible les méthodes déjà implémentées dans Pandas :
    * head()
    * shape
    * unique()
    * duplicated()
    * drop_duplicates()
    * value_counts()
    * info()
    * isnull() etc.

* Traitez chaque fichier de données l’un après l’autre.
* Si vous rencontrez des erreurs de code que vous ne comprenez pas, copiez le message d’erreur et collez-le dans votre moteur de recherche.
    * Vous aurez très probablement comme résultats des pages du forum StackOverflow, où quelqu’un aura déjà posé la question.
    * Une majorité écrasante des erreurs de code ont déjà été rencontrées, publiées sur StackOverflow par d’autres personnes, et résolues par la communauté d’experts qui l’anime.
    * Référez-vous particulièrement aux réponses avec un haut nombre de votes et un symbole de coche vert situé à gauche de la réponse. Ce sont les réponses les plus fiables.

In [21]:
# Fonction d'exploration et de nettoyage
def explorer_dataframe(df, nom_dataframe="DataFrame"):
    """
    Paramètres:
    - df: DataFrame pandas à explorer
    - nom_dataframe: str, nom du dataframe pour l'affichage
    
    Retourne un dictionnaire avec toutes les informations d'exploration
    """
    print(f"Exploration du dataframe: {nom_dataframe}")
    print("----------------------------------------")
    
    resultats = {}      # Le dictionnaire qui sera rentourné par la fonction d'exploration et de nettoyage
    
    # 1. Nombre de lignes et colonnes
    lignes, colonnes = df.shape
    print(f"Nombre de lignes: {lignes}")
    print(f"Nombre de colonnes: {colonnes}")
    resultats['dimensions'] = {'lignes': lignes, 'colonnes': colonnes}
    
    # 2. Nombre de doublons
    nb_doublons = df.duplicated().sum()
    print(f"Nombre de doublons: {nb_doublons}")
    resultats['nb_doublons'] = nb_doublons
    
    # 3. Suppression doublons en gardant la ligne la plus complète
    # Méthode : pour chaque groupe de doublons, garder la ligne avec le moins de valeurs manquantes
    mask_doublons = df.duplicated(keep=False)
    df_doublons = df[mask_doublons]
    df_non_doublons = df[~mask_doublons]
    
    if nb_doublons > 0:
        # Ajouter une colonne temporaire avec nombre de valeurs manquantes
        df_doublons = df_doublons.copy()
        df_doublons['na_count'] = df_doublons.isnull().sum(axis=1)
        
        # Garder la ligne du groupe avec le moins de valeurs manquantes
        df_doublons_nettoyes = df_doublons.sort_values('na_count').drop_duplicates(
            subset=df.columns.difference(['na_count']), keep='first')
        df_doublons_nettoyes = df_doublons_nettoyes.drop(columns=['na_count'])
        
        # Combiner avec les lignes non doublons
        df_nettoye = pd.concat([df_non_doublons, df_doublons_nettoyes], ignore_index=True)
    else:
        df_nettoye = df.copy()
    
    # Afficher la nouvelle taille
    lignes_nettoye, colonnes_nettoye = df_nettoye.shape
    print(f"Après suppression des doublons, nombre de lignes: {lignes_nettoye}")
    resultats['dimensions_nettoye'] = {'lignes': lignes_nettoye, 'colonnes': colonnes_nettoye}
    
    # 4. Proportion de valeurs manquantes par colonne
    valeurs_manquantes = df_nettoye.isnull().sum()
    proportions_manquantes = (valeurs_manquantes / lignes_nettoye)*100
    
    print("Proportion de valeurs manquantes par colonne:")
    for col, prop in proportions_manquantes.items():
        print(f"  - {col}: {prop:.2f}")
    
    # 5. Suppression colonnes inutilisables (100% manquantes)
    colonnes_inutilisables = proportions_manquantes[proportions_manquantes == 100.00].index.tolist()
    if colonnes_inutilisables:
        print(f"Suppression des colonnes inutilisables (100% manquantes): {colonnes_inutilisables}")
        df_nettoye = df_nettoye.drop(columns=colonnes_inutilisables)
    else:
        print("Aucune colonne inutilisable détectée")
    
    # Stocker le dataframe nettoyé et les informations
    resultats['dataframe_nettoye'] = df_nettoye
    resultats['proportions_manquantes'] = proportions_manquantes.round(2)
    resultats['colonnes_supprimees'] = colonnes_inutilisables
    
    print("----------------------------------------")
    return resultats

In [22]:
# Calcule et affiche les statistiques descriptives pour les colonnes numériques d'un dataframe.
def statistiques_descriptives_numeriques(df):
    """
    Calcule et affiche les statistiques descriptives pour les colonnes numériques d'un dataframe.
    
    Paramètres:
    - df: DataFrame pandas à analyser
    
    Retourne:
    - DataFrame contenant les statistiques descriptives ou None si aucune colonne numérique
    """
    colonnes_numeriques = df.select_dtypes(include=[np.number]).columns
    if len(colonnes_numeriques) > 0:
        print("Statistiques descriptives des colonnes numériques:")
        stats_numeriques = df[colonnes_numeriques].describe()
        print(stats_numeriques)
        return stats_numeriques
    else:
        print("Aucune colonne numérique trouvée")
        return None

In [23]:
# Calcule et affiche le nombre d'occurrences des valeurs pour chaque colonne catégorielle.
def statistiques_occurrences_categorielles(df):
    """   
    Paramètres:
    - df: DataFrame pandas à analyser
    
    Retourne:
    - Dictionnaire contenant les Series des occurrences pour chaque colonne ou None si aucune colonne catégorielle
    """
    colonnes_categorielles = df.select_dtypes(include=['object', 'category']).columns
    if len(colonnes_categorielles) > 0:
        print("Occurrences des valeurs pour les colonnes catégorielles:")
        stats_categorielles = {}
        for col in colonnes_categorielles:
            print(f"  - Colonne: {col}")
            occurrences = df[col].value_counts(dropna=False).head(10)
            print(occurrences)
            stats_categorielles[col] = occurrences
        return stats_categorielles
    else:
        print("Aucune colonne catégorielle trouvée")
        return None

In [24]:
# Calcule le pourcentage arrondi à 2 décimales des valeurs manquantes par colonne.

def pourcentage_valeurs_manquantes_colonnes(df):
    """
    Paramètres :
    - df : DataFrame pandas à analyser
    
    Retourne :
    - Series pandas contenant le pourcentage de valeurs manquantes par colonne
    """
    # Calcul du pourcentage de valeurs manquantes par colonne
    pourcentage_nulls = (df.isnull().sum() / len(df)) * 100
    pourcentage_nulls_arrondi = pourcentage_nulls.round(2)
    
    # Affichage des résultats
    print("\nPourcentage de valeurs manquantes par colonne :\n")
    print(pourcentage_nulls_arrondi.sort_values())
    print('\n')
    print("\nStatistiques de valeurs manquantes par colonne :\n")
    print(pourcentage_nulls_arrondi.describe())
    
    return pourcentage_nulls_arrondi

In [25]:
# Calcule le pourcentage arrondi à 2 décimales des valeurs manquantes par ligne.
def pourcentage_valeurs_manquantes_lignes(df):
    """
    Paramètres :
    - df : DataFrame pandas à analyser
    
    Retourne :
    - Series pandas contenant le pourcentage de valeurs manquantes par ligne
    """
    # Calcul du pourcentage de valeurs manquantes par ligne
    pourcentage_nulls_lignes = (df.isnull().sum(axis=1) / df.shape[1]) * 100
    pourcentage_nulls_lignes_arrondi = pourcentage_nulls_lignes.round(2)
    
    # Affichage des résultats
    print("\nPourcentage de valeurs manquantes par ligne :\n")
    print(pourcentage_nulls_lignes_arrondi.describe())
    
    return pourcentage_nulls_lignes_arrondi

In [26]:
# Filtre les colonnes d'un DataFrame en fonction du pourcentage de valeurs manquantes.

def filtrer_colonnes_par_seuil_manquant(df, seuil_pct):
    """    
    Paramètres:
    - df: DataFrame pandas à modifier (modification directe)
    - seuil_pct: float, seuil en pourcentage
    
    Retourne:
    - DataFrame modifié avec les colonnes filtrées
    """
    print(f"Filtrage des colonnes avec seuil < {seuil_pct}%")
    
    # 1. Calculer le pourcentage de valeurs manquantes pour chaque colonne
    pourcentage_nulls_colonnes = (df.isnull().sum() / df.shape[0]) * 100
    
    print(f"Nombre de colonnes avant filtrage: {df.shape[1]}")
    
    # 2. Filtrer les colonnes à conserver (< seuil% de valeurs manquantes)
    colonnes_a_conserver = pourcentage_nulls_colonnes < seuil_pct
    
    # 3. Appliquer le filtre au DataFrame
    df_filtre = df.loc[:, colonnes_a_conserver]
    
    print(f"Nombre de colonnes après filtrage: {df_filtre.shape[1]}")
    print(f"Colonnes supprimées: {df.shape[1] - df_filtre.shape[1]}")
    
    # Copier le contenu filtré dans le DataFrame original
    df.drop(df.columns, axis=1, inplace=True)
    for col in df_filtre.columns:
        df[col] = df_filtre[col]
    
    return df

In [27]:
# Filtre les lignes d'un DataFrame en gardant seulement celles qui ont un pourcentage 
# de valeurs manquantes strictement inférieur au seuil spécifié.

def filtrer_lignes_par_seuil_manquant(df, seuil_pct):
    """
    Paramètres:
    - df: DataFrame pandas à modifier (modification directe)
    - seuil_pct: float, seuil en pourcentage
    
    Retourne:
    - DataFrame modifié avec les lignes filtrées
    """
    print(f"Filtrage des lignes avec seuil < {seuil_pct}%")
    
    # 1. Calculer le pourcentage de valeurs manquantes pour chaque ligne
    pourcentage_nulls_lignes = (df.isnull().sum(axis=1) / df.shape[1]) * 100
    
    print(f"Nombre de lignes avant filtrage: {df.shape[0]}")
    
    # 2. Filtrer les lignes à conserver (< seuil% de valeurs manquantes)
    lignes_a_conserver = pourcentage_nulls_lignes < seuil_pct
    
    # 3. Appliquer le filtre au DataFrame
    df_filtre = df[lignes_a_conserver]
    
    print(f"Nombre de lignes après filtrage: {df_filtre.shape[0]}")
    print(f"Lignes supprimées: {df.shape[0] - df_filtre.shape[0]}")
    
    # Remplacer le contenu du DataFrame original
    df.drop(df.index, inplace=True)
    df = pd.concat([df, df_filtre], ignore_index=True)
    
    return df

### **Fichier EdStatsCountry.csv**

In [28]:
explorer_dataframe(EdStatsCountry, nom_dataframe="EdStatsCountry")

Exploration du dataframe: EdStatsCountry
----------------------------------------
Nombre de lignes: 241
Nombre de colonnes: 32
Nombre de doublons: 0
Après suppression des doublons, nombre de lignes: 241
Proportion de valeurs manquantes par colonne:
  - Country Code: 0.00
  - Short Name: 0.00
  - Table Name: 0.00
  - Long Name: 0.00
  - 2-alpha code: 1.24
  - Currency Unit: 10.79
  - Special Notes: 39.83
  - Region: 11.20
  - Income Group: 11.20
  - WB-2 code: 0.41
  - National accounts base year: 14.94
  - National accounts reference year: 86.72
  - SNA price valuation: 18.26
  - Lending category: 40.25
  - Other groups: 75.93
  - System of National Accounts: 10.79
  - Alternative conversion factor: 80.50
  - PPP survey year: 39.83
  - Balance of Payments Manual in use: 24.90
  - External debt Reporting status: 48.55
  - System of trade: 17.01
  - Government Accounting concept: 33.20
  - IMF data dissemination standard: 24.90
  - Latest population census: 11.62
  - Latest household sur

{'dimensions': {'lignes': 241, 'colonnes': 32},
 'nb_doublons': np.int64(0),
 'dimensions_nettoye': {'lignes': 241, 'colonnes': 32},
 'dataframe_nettoye':     Country Code    Short Name    Table Name                     Long Name 2-alpha code       Currency Unit                                      Special Notes                      Region  \
 0            ABW         Aruba         Aruba                         Aruba           AW       Aruban florin  SNA data for 2000-2011 are updated from offici...   Latin America & Caribbean   
 1            AFG   Afghanistan   Afghanistan  Islamic State of Afghanistan           AF      Afghan afghani  Fiscal year end: March 20; reporting period fo...                  South Asia   
 2            AGO        Angola        Angola   People's Republic of Angola           AO      Angolan kwanza  April 2013 database update: Based on IMF data,...          Sub-Saharan Africa   
 3            ALB       Albania       Albania           Republic of Albania       

In [29]:
# On voit que la colonne 'Unnamed: 31' est à 100% vide, on peut donc l'effacer.
EdStatsCountry.drop(columns=['Unnamed: 31'], inplace=True)

In [30]:
pourcentage_valeurs_manquantes_colonnes(EdStatsCountry)


Pourcentage de valeurs manquantes par colonne :

Country Code                                          0.00
Short Name                                            0.00
Table Name                                            0.00
Long Name                                             0.00
WB-2 code                                             0.41
2-alpha code                                          1.24
System of National Accounts                          10.79
Currency Unit                                        10.79
Income Group                                         11.20
Region                                               11.20
Latest population census                             11.62
National accounts base year                          14.94
System of trade                                      17.01
SNA price valuation                                  18.26
Latest trade data                                    23.24
Balance of Payments Manual in use                    24.90
IMF da

Country Code                                          0.00
Short Name                                            0.00
Table Name                                            0.00
Long Name                                             0.00
2-alpha code                                          1.24
Currency Unit                                        10.79
Special Notes                                        39.83
Region                                               11.20
Income Group                                         11.20
WB-2 code                                             0.41
National accounts base year                          14.94
National accounts reference year                     86.72
SNA price valuation                                  18.26
Lending category                                     40.25
Other groups                                         75.93
System of National Accounts                          10.79
Alternative conversion factor                        80.

In [31]:
EdStatsCountry = filtrer_colonnes_par_seuil_manquant(EdStatsCountry, 24.90)

Filtrage des colonnes avec seuil < 24.9%
Nombre de colonnes avant filtrage: 31
Nombre de colonnes après filtrage: 17
Colonnes supprimées: 14


In [32]:
pourcentage_valeurs_manquantes_lignes(EdStatsCountry)


Pourcentage de valeurs manquantes par ligne :

count    241.000000
mean      10.617759
std       20.735407
min        0.000000
25%        0.000000
50%        0.000000
75%        5.880000
max       64.710000
dtype: float64


0       5.88
1       5.88
2       5.88
3       0.00
4      17.65
       ...  
236    23.53
237     0.00
238     0.00
239     0.00
240     0.00
Length: 241, dtype: float64

In [33]:
EdStatsCountry = filtrer_lignes_par_seuil_manquant(EdStatsCountry, 20.74)

Filtrage des lignes avec seuil < 20.74%
Nombre de lignes avant filtrage: 241
Nombre de lignes après filtrage: 197
Lignes supprimées: 44


In [34]:
print(f"Nombre de lignes : {EdStatsCountry.shape[0]}")
print(f"Nombre de colonnes : {EdStatsCountry.shape[1]}")
print("\nTypes de données des colonnes :")
EdStatsCountry.dtypes

Nombre de lignes : 197
Nombre de colonnes : 17

Types de données des colonnes :


Country Code                          object
Short Name                            object
Table Name                            object
Long Name                             object
2-alpha code                          object
Currency Unit                         object
Region                                object
Income Group                          object
WB-2 code                             object
National accounts base year           object
SNA price valuation                   object
System of National Accounts           object
Balance of Payments Manual in use     object
System of trade                       object
IMF data dissemination standard       object
Latest population census              object
Latest trade data                    float64
dtype: object

Résultat exploration et nettoyage :

* La colonne **Unnamed: 31** peut être supprimer car n'est pas utilisable.
* Après un premier nettoyage on passe de 31 colonnes à 17 colonnes.
* Filtrage des lignes avec seuil < 20.74%, ainsi nous passons de 241 lignes avant filtrage à 197 après filtrage. Lignes supprimées: 44

Après un premier nettoyage les colonnes ci-dessous nécessite un typage **int** :

* La colonne **National accounts base year** est un int et non pas un objet
* La colonne **Latest population census** est un int et non pas un object
* La colonne **Latest trade data** est un int et non pas un objet

In [35]:
import re

In [36]:
# Nettoie une colonne contenant des années mélangées avec du texte

def nettoyer_colonne_annee(colonne, nom_colonne="Colonne"):
    """
    Nettoie une colonne contenant des années mélangées avec du texte
    
    Paramètres:
    - colonne: Series pandas à nettoyer
    - nom_colonne: nom pour l'affichage
    
    Retourne:
    - Series nettoyée avec années extraites ou NaN
    """
    
    def extraire_annee(valeur):
        if pd.isna(valeur):
            return None
            
        valeur_str = str(valeur).strip()
        
        # Cas 1: Année simple (4 chiffres)
        match_annee_simple = re.match(r'^(\d{4})$', valeur_str)
        if match_annee_simple:
            return int(match_annee_simple.group(1))
        
        # Cas 2: Plage d'années (ex: 2002/03, 1995/96)
        match_plage = re.match(r'^(\d{4})/(\d{2,4})$', valeur_str)
        if match_plage:
            annee_debut = int(match_plage.group(1))
            # Prendre l'année de début de la plage
            return annee_debut
        
        # Cas 3: Texte contenant une année (ex: "2011. Population figures...")
        match_texte_annee = re.search(r'(\d{4})', valeur_str)
        if match_texte_annee:
            return int(match_texte_annee.group(1))
        
        # Cas 4: Aucune année trouvée
        return None
    
    print(f"Nettoyage de la colonne: {nom_colonne}")
    
    # Appliquer la fonction d'extraction
    colonne_nettoyee = colonne.apply(extraire_annee)
    
    # Statistiques de nettoyage
    nb_original = len(colonne)
    nb_converties = colonne_nettoyee.notna().sum()
    nb_perdues = colonne_nettoyee.isna().sum()
    
    print(f"  • Valeurs originales: {nb_original}")
    print(f"  • Années extraites: {nb_converties}")
    print(f"  • Valeurs perdues: {nb_perdues}")
    print(f"  • Taux de succès: {(nb_converties/nb_original)*100:.1f}%")
    
    return colonne_nettoyee

In [37]:
EdStatsCountry['National accounts base year'] = nettoyer_colonne_annee(EdStatsCountry['National accounts base year'], nom_colonne="National accounts base year").astype('Int64')
EdStatsCountry['Latest population census'] = nettoyer_colonne_annee(EdStatsCountry['Latest population census'], nom_colonne="Latest population census").astype('Int64')

Nettoyage de la colonne: National accounts base year
  • Valeurs originales: 197
  • Années extraites: 168
  • Valeurs perdues: 29
  • Taux de succès: 85.3%
Nettoyage de la colonne: Latest population census
  • Valeurs originales: 197
  • Années extraites: 197
  • Valeurs perdues: 0
  • Taux de succès: 100.0%


In [38]:
print(EdStatsCountry.shape)
EdStatsCountry.head(10)

(197, 17)


Unnamed: 0,Country Code,Short Name,Table Name,Long Name,2-alpha code,Currency Unit,Region,Income Group,WB-2 code,National accounts base year,SNA price valuation,System of National Accounts,Balance of Payments Manual in use,System of trade,IMF data dissemination standard,Latest population census,Latest trade data
0,ABW,Aruba,Aruba,Aruba,AW,Aruban florin,Latin America & Caribbean,High income: nonOECD,AW,2000.0,Value added at basic prices (VAB),Country uses the 1993 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",Special trade system,,2010,2012.0
1,AFG,Afghanistan,Afghanistan,Islamic State of Afghanistan,AF,Afghan afghani,South Asia,Low income,AF,2002.0,Value added at basic prices (VAB),Country uses the 1993 System of National Accou...,,General trade system,General Data Dissemination System (GDDS),1979,2012.0
2,AGO,Angola,Angola,People's Republic of Angola,AO,Angolan kwanza,Sub-Saharan Africa,Upper middle income,AO,2002.0,Value added at producer prices (VAP),Country uses the 1993 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",Special trade system,General Data Dissemination System (GDDS),1970,
3,ALB,Albania,Albania,Republic of Albania,AL,Albanian lek,Europe & Central Asia,Upper middle income,AL,,Value added at basic prices (VAB),Country uses the 1993 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",General trade system,General Data Dissemination System (GDDS),2011,2012.0
4,AND,Andorra,Andorra,Principality of Andorra,AD,Euro,Europe & Central Asia,High income: nonOECD,AD,1990.0,,Country uses the 1968 System of National Accou...,,Special trade system,,2011,2006.0
5,ARE,United Arab Emirates,United Arab Emirates,United Arab Emirates,AE,U.A.E. dirham,Middle East & North Africa,High income: nonOECD,AE,2007.0,Value added at producer prices (VAP),Country uses the 1993 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",General trade system,General Data Dissemination System (GDDS),2010,2011.0
6,ARG,Argentina,Argentina,Argentine Republic,AR,Argentine peso,Latin America & Caribbean,Upper middle income,AR,2004.0,Value added at basic prices (VAB),Country uses the 1993 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",Special trade system,Special Data Dissemination Standard (SDDS),2010,2012.0
7,ARM,Armenia,Armenia,Republic of Armenia,AM,Armenian dram,Europe & Central Asia,Lower middle income,AM,,Value added at basic prices (VAB),Country uses the 1993 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",Special trade system,Special Data Dissemination Standard (SDDS),2011,2012.0
8,ATG,Antigua and Barbuda,Antigua and Barbuda,Antigua and Barbuda,AG,East Caribbean dollar,Latin America & Caribbean,High income: nonOECD,AG,2006.0,Value added at basic prices (VAB),Country uses the 1968 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",General trade system,General Data Dissemination System (GDDS),2011,2012.0
9,AUS,Australia,Australia,Commonwealth of Australia,AU,Australian dollar,East Asia & Pacific,High income: OECD,AU,,Value added at basic prices (VAB),Country uses the 2008 System of National Accou...,"IMF Balance of Payments Manual, 6th edition.",General trade system,Special Data Dissemination Standard (SDDS),2011,2012.0


In [39]:
statistiques_descriptives_numeriques(EdStatsCountry)

Statistiques descriptives des colonnes numériques:
       National accounts base year  Latest population census  Latest trade data
count                        168.0                     197.0         184.000000
mean                       2000.75               2008.050761        2010.989130
std                       7.808908                  6.482115           2.575609
min                         1954.0                    1970.0        1995.000000
25%                         1999.0                    2007.0        2011.000000
50%                         2004.0                    2010.0        2012.000000
75%                         2005.0                    2011.0        2012.000000
max                         2012.0                    2013.0        2012.000000


Unnamed: 0,National accounts base year,Latest population census,Latest trade data
count,168.0,197.0,184.0
mean,2000.75,2008.050761,2010.98913
std,7.808908,6.482115,2.575609
min,1954.0,1970.0,1995.0
25%,1999.0,2007.0,2011.0
50%,2004.0,2010.0,2012.0
75%,2005.0,2011.0,2012.0
max,2012.0,2013.0,2012.0


In [40]:
statistiques_occurrences_categorielles(EdStatsCountry)

Occurrences des valeurs pour les colonnes catégorielles:
  - Colonne: Country Code
Country Code
ABW    1
AFG    1
AGO    1
ALB    1
AND    1
ARE    1
ARG    1
ARM    1
ATG    1
AUS    1
Name: count, dtype: int64
  - Colonne: Short Name
Short Name
Aruba                   1
Afghanistan             1
Angola                  1
Albania                 1
Andorra                 1
United Arab Emirates    1
Argentina               1
Armenia                 1
Antigua and Barbuda     1
Australia               1
Name: count, dtype: int64
  - Colonne: Table Name
Table Name
Aruba                   1
Afghanistan             1
Angola                  1
Albania                 1
Andorra                 1
United Arab Emirates    1
Argentina               1
Armenia                 1
Antigua and Barbuda     1
Australia               1
Name: count, dtype: int64
  - Colonne: Long Name
Long Name
Aruba                           1
Islamic State of Afghanistan    1
People's Republic of Angola     1
Republic of

{'Country Code': Country Code
 ABW    1
 AFG    1
 AGO    1
 ALB    1
 AND    1
 ARE    1
 ARG    1
 ARM    1
 ATG    1
 AUS    1
 Name: count, dtype: int64,
 'Short Name': Short Name
 Aruba                   1
 Afghanistan             1
 Angola                  1
 Albania                 1
 Andorra                 1
 United Arab Emirates    1
 Argentina               1
 Armenia                 1
 Antigua and Barbuda     1
 Australia               1
 Name: count, dtype: int64,
 'Table Name': Table Name
 Aruba                   1
 Afghanistan             1
 Angola                  1
 Albania                 1
 Andorra                 1
 United Arab Emirates    1
 Argentina               1
 Armenia                 1
 Antigua and Barbuda     1
 Australia               1
 Name: count, dtype: int64,
 'Long Name': Long Name
 Aruba                           1
 Islamic State of Afghanistan    1
 People's Republic of Angola     1
 Republic of Albania             1
 Principality of Andorra      

**Résultat exploration et nettoyage :**
* On a supprimé la colonne **Unnamed: 31** car complétement inutile.
* Le premier nettoyage a permit de passer de 31 colonnes à 17 colonnes.
* Filtrage des lignes avec seuil < 20.74% a supprmié 44 ligne, passage de 241 lignes à 197 après filtrage.

**Analyse statistiques des valeurs numériques :**

* Colonne **National accounts base year** :
    * Moyenne 2000.75 : La plupart des pays ont établi leur base comptable nationale autour de l'an 2000
    * La moitié des pays ont une base postérieure à 2004
    * Dispersion modérée, la majorité des valeurs se concentrent entre 1993-2008
* Colonne **Latest population census** :
    * Moyenne 2008.05 : Recensements récents en moyenne
    * Médiane 2010 : 50% des pays ont un recensement après 2010
    * Concentration forte : 50% des pays entre 2007-2011
    * Recensements récents : 75% des pays ont des données après 2007
* Colonne **Latest trade data** :
    * Moyenne de 2010.99 : Données commerciales très récentes
    * Médiane de 2012 : 50% des pays ont des données de 2012 ou plus récentes
    * Écart-type de 2.58 ans : Très faible dispersion, excellente homogénéité
    * 75% des pays ont des données de 2012

**Analyse statistiques des occurances catégorielles :**

* Les colonnes suivantes sont toutes uniques, il n'y a pas d'occurances : Country Code, Short Name, Table Name, Long Name, 2-alpha code, WB-2 code

* Currency Unit
    * Euro                     20
    * CFA franc                14
    * U.S. dollar               8
    * East Caribbean dollar     6
    * Danish krone              3
    * Australian dollar         3
    * Israeli new shekel        2
    * Swiss franc               2
    * CFP franc                 2
    * Afghan afghani            1

* Region
    * Europe & Central Asia         53
    * Sub-Saharan Africa            46
    * Latin America & Caribbean     35
    * East Asia & Pacific           31
    * Middle East & North Africa    21
    * South Asia                     8
    * North America                  3

* Income Group
    * Upper middle income     54
    * Lower middle income     47
    * High income: nonOECD    33
    * Low income              32
    * High income: OECD       31

* SNA price valuation
    * Value added at basic prices (VAB)       159
    * Value added at producer prices (VAP)     34
    * NaN                                       4
 
* System of National Accounts
    * Country uses the 1993 System of National Accounts methodology.    155
    * Country uses the 1968 System of National Accounts methodology.     34
    * Country uses the 2008 System of National Accounts methodology.      8
 
* Balance of Payments Manual in use
    * IMF Balance of Payments Manual, 6th edition.    180
    * NaN                                              17

* System of trade
    * General trade system    102
    * Special trade system     92
    * NaN                       3

* IMF data dissemination standard
    * General Data Dissemination System (GDDS)      109
    * Special Data Dissemination Standard (SDDS)     71
    * NaN                                            17

### **Fichier EdStatsSeries.csv**

In [41]:
explorer_dataframe(EdStatsSeries, nom_dataframe="EdStatsSeries")

Exploration du dataframe: EdStatsSeries
----------------------------------------
Nombre de lignes: 3665
Nombre de colonnes: 21
Nombre de doublons: 0
Après suppression des doublons, nombre de lignes: 3665
Proportion de valeurs manquantes par colonne:
  - Series Code: 0.00
  - Topic: 0.00
  - Indicator Name: 0.00
  - Short definition: 41.17
  - Long definition: 0.00
  - Unit of measure: 100.00
  - Periodicity: 97.30
  - Base Period: 91.43
  - Other notes: 84.94
  - Aggregation method: 98.72
  - Limitations and exceptions: 99.62
  - Notes from original source: 100.00
  - General comments: 99.62
  - Source: 0.00
  - Statistical concept and methodology: 99.37
  - Development relevance: 99.92
  - Related source links: 94.13
  - Other web links: 100.00
  - Related indicators: 100.00
  - License Type: 100.00
  - Unnamed: 20: 100.00
Suppression des colonnes inutilisables (100% manquantes): ['Unit of measure', 'Notes from original source', 'Other web links', 'Related indicators', 'License Type',

{'dimensions': {'lignes': 3665, 'colonnes': 21},
 'nb_doublons': np.int64(0),
 'dimensions_nettoye': {'lignes': 3665, 'colonnes': 21},
 'dataframe_nettoye':                       Series Code         Topic                                     Indicator Name                                   Short definition  \
 0             BAR.NOED.1519.FE.ZS    Attainment  Barro-Lee: Percentage of female population age...  Percentage of female population age 15-19 with...   
 1                BAR.NOED.1519.ZS    Attainment  Barro-Lee: Percentage of population age 15-19 ...  Percentage of population age 15-19 with no edu...   
 2             BAR.NOED.15UP.FE.ZS    Attainment  Barro-Lee: Percentage of female population age...  Percentage of female population age 15+ with n...   
 3                BAR.NOED.15UP.ZS    Attainment  Barro-Lee: Percentage of population age 15+ wi...  Percentage of population age 15+ with no educa...   
 4             BAR.NOED.2024.FE.ZS    Attainment  Barro-Lee: Percentage of

In [42]:
# On constate que les colonnes Unit of measure, Notes from original source, Other web links, Related indicators, License Type et Unnamed: 20
# sont complétements inutilisables, on peut les effacer. Ainsi on passe de 21 à 15 colonnes
EdStatsSeries.drop(columns=['Unit of measure'], inplace=True)
EdStatsSeries.drop(columns=['Notes from original source'], inplace=True)
EdStatsSeries.drop(columns=['Other web links'], inplace=True)
EdStatsSeries.drop(columns=['Related indicators'], inplace=True)
EdStatsSeries.drop(columns=['License Type'], inplace=True)
EdStatsSeries.drop(columns=['Unnamed: 20'], inplace=True)

In [43]:
pourcentage_valeurs_manquantes_colonnes(EdStatsSeries)


Pourcentage de valeurs manquantes par colonne :

Series Code                             0.00
Topic                                   0.00
Indicator Name                          0.00
Long definition                         0.00
Source                                  0.00
Short definition                       41.17
Other notes                            84.94
Base Period                            91.43
Related source links                   94.13
Periodicity                            97.30
Aggregation method                     98.72
Statistical concept and methodology    99.37
General comments                       99.62
Limitations and exceptions             99.62
Development relevance                  99.92
dtype: float64



Statistiques de valeurs manquantes par colonne :

count    15.000000
mean     60.414667
std      46.522127
min       0.000000
25%       0.000000
50%      91.430000
75%      99.045000
max      99.920000
dtype: float64


Series Code                             0.00
Topic                                   0.00
Indicator Name                          0.00
Short definition                       41.17
Long definition                         0.00
Periodicity                            97.30
Base Period                            91.43
Other notes                            84.94
Aggregation method                     98.72
Limitations and exceptions             99.62
General comments                       99.62
Source                                  0.00
Statistical concept and methodology    99.37
Development relevance                  99.92
Related source links                   94.13
dtype: float64

* La colonne "Short definition" est vide à 41,17%, or nous avons une colonne "Long definition" complète à 100%. Nous pouvons supprimer la colonne "Short definition".
* Nous avons également 9 colonnes où il manque plus de 84,94% des valeurs.  On peut donc les supprimer aussi.

In [44]:
EdStatsSeries.drop(columns=['Short definition'], inplace=True)

In [45]:
EdStatsSeries = filtrer_colonnes_par_seuil_manquant(EdStatsSeries, 84.93)

Filtrage des colonnes avec seuil < 84.93%
Nombre de colonnes avant filtrage: 14
Nombre de colonnes après filtrage: 5
Colonnes supprimées: 9


In [46]:
print(EdStatsSeries.shape)
EdStatsSeries.dtypes

(3665, 5)


Series Code        object
Topic              object
Indicator Name     object
Long definition    object
Source             object
dtype: object

In [47]:
pourcentage_valeurs_manquantes_colonnes(EdStatsSeries)


Pourcentage de valeurs manquantes par colonne :

Series Code        0.0
Topic              0.0
Indicator Name     0.0
Long definition    0.0
Source             0.0
dtype: float64



Statistiques de valeurs manquantes par colonne :

count    5.0
mean     0.0
std      0.0
min      0.0
25%      0.0
50%      0.0
75%      0.0
max      0.0
dtype: float64


Series Code        0.0
Topic              0.0
Indicator Name     0.0
Long definition    0.0
Source             0.0
dtype: float64

In [48]:
statistiques_occurrences_categorielles(EdStatsSeries)

Occurrences des valeurs pour les colonnes catégorielles:
  - Colonne: Series Code
Series Code
BAR.NOED.1519.FE.ZS    1
BAR.NOED.1519.ZS       1
BAR.NOED.15UP.FE.ZS    1
BAR.NOED.15UP.ZS       1
BAR.NOED.2024.FE.ZS    1
BAR.NOED.2024.ZS       1
BAR.NOED.2529.FE.ZS    1
BAR.NOED.2529.ZS       1
BAR.NOED.25UP.FE.ZS    1
BAR.NOED.25UP.ZS       1
Name: count, dtype: int64
  - Colonne: Topic
Topic
Learning Outcomes                      1046
Attainment                              733
Education Equality                      426
Secondary                               256
Primary                                 248
Population                              213
Tertiary                                158
Teachers                                137
Expenditures                             93
Engaging the Private Sector (SABER)      51
Name: count, dtype: int64
  - Colonne: Indicator Name
Indicator Name
Barro-Lee: Percentage of female population age 15-19 with no education    1
Barro-Lee: Percentag

{'Series Code': Series Code
 BAR.NOED.1519.FE.ZS    1
 BAR.NOED.1519.ZS       1
 BAR.NOED.15UP.FE.ZS    1
 BAR.NOED.15UP.ZS       1
 BAR.NOED.2024.FE.ZS    1
 BAR.NOED.2024.ZS       1
 BAR.NOED.2529.FE.ZS    1
 BAR.NOED.2529.ZS       1
 BAR.NOED.25UP.FE.ZS    1
 BAR.NOED.25UP.ZS       1
 Name: count, dtype: int64,
 'Topic': Topic
 Learning Outcomes                      1046
 Attainment                              733
 Education Equality                      426
 Secondary                               256
 Primary                                 248
 Population                              213
 Tertiary                                158
 Teachers                                137
 Expenditures                             93
 Engaging the Private Sector (SABER)      51
 Name: count, dtype: int64,
 'Indicator Name': Indicator Name
 Barro-Lee: Percentage of female population age 15-19 with no education    1
 Barro-Lee: Percentage of population age 15-19 with no education           1
 B

**Après analyses, filtrages et nettoyages nous obtenons un dataframe de 5 colonnes non vides de données catégorielles.**

* Les colonnes suivantes sont toutes uniques, il n'y a pas d'occurances : Series Code et Name

* Colonne Topic :
    * Learning Outcomes                      1046
    * Attainment                              733
    * Education Equality                      426
    * Secondary                               256
    * Primary                                 248
    * Population                              213
    * Tertiary                                158
    * Teachers                                137
    * Expenditures                             93
    * Engaging the Private Sector (SABER)      51

* Colonne Long definition :
    * 215 occurances - Data Interpretation: 1=Latent; 2=Emerging; 3=Established; 4=Advanced. For additional information, visit the SABER: (website: http://saber.worldbank.org/index.cfm
    
    * 51 occurances - Share of students who scored 80 percent or higher on the reading comprehension assessment. The reading comprehension subtask follows the oral reading fluency subtask; students are required to respond to literal and inferential questions about the oral reading fluency subtask text they have just read. The questions are read aloud to the student by the assessor. Users are discouraged from using these data to make direct comparisons across countries or languages. Consult the EdData website and the specific country report for more information: www.eddataglobal.org.

    * 51 occurances - Share of students who scored zero percent on the reading comprehension assessment. The reading comprehension subtask follows the oral reading fluency subtask; students are required to respond to literal and inferential questions about the oral reading fluency subtask text they have just read. The questions are read aloud to the student by the assessor. Consult the EdData website and the specific country report for more information: www.eddataglobal.org.

    * 51 occurances - Average total number of invented/nonsense words correctly read per minute. The indicator measures students' ability to fluently decipher/decode randomly-presented “words” that follow linguistic rules but do not actually exist in the stated language. Skill in reading nonwords can be a purer measure of decoding than using real words because children cannot recognize the words by sight. Decoding is considered a self-teaching skill that enables children to read new and unfamiliar words independently. Users are discouraged from using these data to make direct comparisons across countries or languages. Consult the EdData website and the specific country report for more information: www.eddataglobal.org.

    * 51 occurances - Percentage of students who were unable to read a single word of text on the oral reading fluency subtask. The oral reading fluency/paragraph reading subtask examines students' ability to read a narrative or informational text with accuracy, with little effort, and at a sufficient rate. Consult the EdData website and the specific country report for more information: www.eddataglobal.org.

    * 50 occurances - Share of students scoring zero percent on the listening comprehension assessment. The listening comprehension subtask examines students' ability to respond correctly to questions about a brief passage read aloud to the student by the assessor in order to understand students’ ability to comprehend orally without having to overcome issues of decoding. Part of comprehension is understanding the meanings of the words, thus if students do not have enough vocabulary in the language, they will not be able to comprehend. Consult the EdData website and the specific country report for more information: www.eddataglobal.org.

    * 36 occurances - Mean number of years spent in school by age group and gender. Projections are based on collected census and survey data for the base year (around 2010) and the Medium Shared Socioeconomic Pathways (SSP2) projection model. The SSP2 is a middle-of-the-road scenario that combines medium fertility with medium mortality, medium migration, and the Global Education Trend (GET) education scenario. For more information and other projection models, consult the Wittgenstein Centre for Demography and Global Human Capital's website: http://www.oeaw.ac.at/vid/dataexplorer/

    * 33 occurances - Share of the population of the stated age group that has completed primary education or incomplete lower secondary education as the highest level of educational attainment. Projections are based on collected census and survey data for the base year (around 2010) and the Medium Shared Socioeconomic Pathways (SSP2) projection model. The SSP2 is a middle-of-the-road scenario that combines medium fertility with medium mortality, medium migration, and the Global Education Trend (GET) education scenario. For more information and other projection models, consult the Wittgenstein Centre for Demography and Global Human Capital's website: http://www.oeaw.ac.at/vid/dataexplorer/

    * 33 occurances -  Share of the population of the stated age group that has completed lower secondary or incomplete upper secondary education as the highest level of educational attainment. Projections are based on collected census and survey data for the base year (around 2010) and the Medium Shared Socioeconomic Pathways (SSP2) projection model. The SSP2 is a middle-of-the-road scenario that combines medium fertility with medium mortality, medium migration, and the Global Education Trend (GET) education scenario. For more information and other projection models, consult the Wittgenstein Centre for Demography and Global Human Capital's website: http://www.oeaw.ac.at/vid/dataexplorer/

    * 33 occurances - Share of the population of the stated age group that has completed upper secondary or incomplete post-secondary education as the highest level of educational attainment. Projections are based on collected census and survey data for the base year (around 2010) and the Medium Shared Socioeconomic Pathways (SSP2) projection model. The SSP2 is a middle-of-the-road scenario that combines medium fertility with medium mortality, medium migration, and the Global Education Trend (GET) education scenario. For more information and other projection models, consult the Wittgenstein Centre for Demography and Global Human Capital's website: http://www.oeaw.ac.at/vid/dataexplorer/

* Colonne Source :
    * 1269 occurances - UNESCO Institute for Statistics                                                                                                                             
    *  403 occurances - Early Grade Reading Assessment (EGRA): https://www.eddataglobal.org/reading/                                                                                
    *  360 occurances - Robert J. Barro and Jong-Wha Lee: http://www.barrolee.com/                                                                                                  
    *  308 occurances - Wittgenstein Centre for Demography and Global Human Capital: http://www.oeaw.ac.at/vid/dataexplorer/                                                        
    *  215 occurances - Systems Approach for Better Education Results (SABER), World Bank                                                                                           
    *  140 occurances - Programme d'Analyse des Systèmes Educatifs de la CONFEMEN/Program for the Analysis of CONFEMEN Education Systems (PASEC): http://www.pasec.confemen.org/    
    *  130 occurances - Demographic and Health Surveys (DHS)                                                                                                                        
    *  127 occurances - Latin American Laboratory for Assessment of the Quality of Education (LLECE)                                                                                
    *  102 occurances - UNESCO Institute for Statistics (Derived)                                                                                                                   
    *  100 occurances - International Association for the Evaluation of Educational Achievement (IEA)'s Trends in International Mathematics and Science Study                       

### **Fichier EdStatsCountry-Series.csv**

In [49]:
explorer_dataframe(EdStatsCountrySeries, nom_dataframe="EdStatsCountrySeries")

Exploration du dataframe: EdStatsCountrySeries
----------------------------------------
Nombre de lignes: 613
Nombre de colonnes: 4
Nombre de doublons: 0
Après suppression des doublons, nombre de lignes: 613
Proportion de valeurs manquantes par colonne:
  - CountryCode: 0.00
  - SeriesCode: 0.00
  - DESCRIPTION: 0.00
  - Unnamed: 3: 100.00
Suppression des colonnes inutilisables (100% manquantes): ['Unnamed: 3']
----------------------------------------


{'dimensions': {'lignes': 613, 'colonnes': 4},
 'nb_doublons': np.int64(0),
 'dimensions_nettoye': {'lignes': 613, 'colonnes': 4},
 'dataframe_nettoye':     CountryCode         SeriesCode                                        DESCRIPTION
 0           ABW        SP.POP.TOTL  Data sources : United Nations World Population...
 1           ABW        SP.POP.GROW  Data sources: United Nations World Population ...
 2           AFG        SP.POP.GROW  Data sources: United Nations World Population ...
 3           AFG  NY.GDP.PCAP.PP.CD                 Estimates are based on regression.
 4           AFG        SP.POP.TOTL  Data sources : United Nations World Population...
 ..          ...                ...                                                ...
 608         ZAF        SP.POP.GROW  Data sources : Statistics South Africa, United...
 609         ZMB        SP.POP.GROW  Data sources: United Nations World Population ...
 610         ZMB        SP.POP.TOTL  Data sources : United Nation

In [50]:
EdStatsCountrySeries.drop(columns=['Unnamed: 3'], inplace=True)

In [51]:
print(EdStatsCountrySeries.shape)
EdStatsCountrySeries.dtypes

(613, 3)


CountryCode    object
SeriesCode     object
DESCRIPTION    object
dtype: object

In [52]:
statistiques_occurrences_categorielles(EdStatsCountrySeries)

Occurrences des valeurs pour les colonnes catégorielles:
  - Colonne: CountryCode
CountryCode
GEO    18
MDA    18
CYP    12
SRB    12
MUS    12
MAR    12
TZA    12
GUY     8
ERI     8
ARG     8
Name: count, dtype: int64
  - Colonne: SeriesCode
SeriesCode
SP.POP.TOTL          211
SP.POP.GROW          211
NY.GDP.PCAP.PP.CD     19
NY.GNP.PCAP.PP.CD     19
NY.GDP.PCAP.PP.KD     19
NY.GNP.MKTP.PP.CD     14
NY.GDP.MKTP.PP.KD     14
NY.GDP.MKTP.PP.CD     14
SP.POP.1564.TO.ZS     13
SP.POP.TOTL.MA.ZS     13
Name: count, dtype: int64
  - Colonne: DESCRIPTION
DESCRIPTION
Data sources : United Nations World Population Prospects                                       154
Data sources: United Nations World Population Prospects                                        137
Estimates are based on regression.                                                              84
Data sources : Eurostat                                                                         54
Derived using ratio of age group fro

{'CountryCode': CountryCode
 GEO    18
 MDA    18
 CYP    12
 SRB    12
 MUS    12
 MAR    12
 TZA    12
 GUY     8
 ERI     8
 ARG     8
 Name: count, dtype: int64,
 'SeriesCode': SeriesCode
 SP.POP.TOTL          211
 SP.POP.GROW          211
 NY.GDP.PCAP.PP.CD     19
 NY.GNP.PCAP.PP.CD     19
 NY.GDP.PCAP.PP.KD     19
 NY.GNP.MKTP.PP.CD     14
 NY.GDP.MKTP.PP.KD     14
 NY.GDP.MKTP.PP.CD     14
 SP.POP.1564.TO.ZS     13
 SP.POP.TOTL.MA.ZS     13
 Name: count, dtype: int64,
 'DESCRIPTION': DESCRIPTION
 Data sources : United Nations World Population Prospects                                       154
 Data sources: United Nations World Population Prospects                                        137
 Estimates are based on regression.                                                              84
 Data sources : Eurostat                                                                         54
 Derived using ratio of age group from WPP and World Bank population.                       

**Analyse statistiques occurances catégorielles :**

* Colonne CountryCode :
    * GEO    18
    * MDA    18
    * CYP    12
    * SRB    12
    * MUS    12
    * MAR    12
    * TZA    12
    * GUY     8
    * ERI     8
    * ARG     8

* Colonne SeriesCode :
    * SP.POP.TOTL          211
    * SP.POP.GROW          211
    * NY.GDP.PCAP.PP.CD     19
    * NY.GNP.PCAP.PP.CD     19
    * NY.GDP.PCAP.PP.KD     19
    * NY.GNP.MKTP.PP.CD     14
    * NY.GDP.MKTP.PP.KD     14
    * NY.GDP.MKTP.PP.CD     14
    * SP.POP.1564.TO.ZS     13
    * SP.POP.TOTL.MA.ZS     13

* Colonne DESCRIPTION :
    * Data sources : United Nations World Population Prospects                                       154
    * Data sources: United Nations World Population Prospects                                        137
    * Estimates are based on regression.                                                              84
    * Data sources : Eurostat                                                                         54
    * Derived using ratio of age group from WPP and World Bank population.                            24
    * Data are for areas under the effective control of the Government of the Republic of Cyprus.      6
    * Excludes Abkhazia and South Ossetia.                                                             6
    * Includes Former Spanish Sahara.                                                                  6
    * Excludes Transnistria.                                                                           6
    * Covers mainland Tanzania only.                                                                   6

### **Fichier EdStatsFootNote.csv**

In [53]:
explorer_dataframe(EdStatsFootNote, nom_dataframe="EdStatsFootNote")

Exploration du dataframe: EdStatsFootNote
----------------------------------------
Nombre de lignes: 643638
Nombre de colonnes: 5


Nombre de doublons: 0
Après suppression des doublons, nombre de lignes: 643638
Proportion de valeurs manquantes par colonne:
  - CountryCode: 0.00
  - SeriesCode: 0.00
  - Year: 0.00
  - DESCRIPTION: 0.00
  - Unnamed: 4: 100.00
Suppression des colonnes inutilisables (100% manquantes): ['Unnamed: 4']
----------------------------------------


{'dimensions': {'lignes': 643638, 'colonnes': 5},
 'nb_doublons': np.int64(0),
 'dimensions_nettoye': {'lignes': 643638, 'colonnes': 5},
 'dataframe_nettoye':        CountryCode      SeriesCode    Year                             DESCRIPTION
 0              ABW  SE.PRE.ENRL.FE  YR2001                     Country estimation.
 1              ABW  SE.TER.TCHR.FE  YR2005                     Country estimation.
 2              ABW  SE.PRE.TCHR.FE  YR2000                     Country estimation.
 3              ABW  SE.SEC.ENRL.GC  YR2004                     Country estimation.
 4              ABW     SE.PRE.TCHR  YR2006                     Country estimation.
 ...            ...             ...     ...                                     ...
 643633         ZWE     SH.DYN.MORT  YR2007       Uncertainty bound is 91.6 - 109.3
 643634         ZWE     SH.DYN.MORT  YR2014          Uncertainty bound is 54.3 - 76
 643635         ZWE     SH.DYN.MORT  YR2015        Uncertainty bound is 48.3 - 73.3
 6

In [54]:
# La colonne "Unnamed: 4" est complétement vide et peut donc être supprimé car inutilisable
EdStatsFootNote.drop(columns=['Unnamed: 4'], inplace=True)

In [55]:
print(EdStatsFootNote.shape)
EdStatsFootNote.dtypes

(643638, 4)


CountryCode    object
SeriesCode     object
Year           object
DESCRIPTION    object
dtype: object

In [56]:
EdStatsFootNote['Year'].head(20)

0     YR2001
1     YR2005
2     YR2000
3     YR2004
4     YR2006
5     YR2000
6     YR2005
7     YR2003
8     YR1999
9     YR2008
10    YR2006
11    YR2000
12    YR2002
13    YR2006
14    YR2007
15    YR1999
16    YR2001
17    YR2002
18    YR1999
19    YR2003
Name: Year, dtype: object

In [57]:
# Convertir Year en int après les changements nécessaires

EdStatsFootNote['Year'] = EdStatsFootNote['Year'].str.removeprefix('YR')
EdStatsFootNote['Year'] = EdStatsFootNote['Year'].str.replace('yr', '', case=False, regex=False)
EdStatsFootNote['Year'] = EdStatsFootNote['Year'].astype(int)

EdStatsFootNote.dtypes

CountryCode    object
SeriesCode     object
Year            int64
DESCRIPTION    object
dtype: object

In [58]:
pourcentage_valeurs_manquantes_colonnes(EdStatsFootNote)


Pourcentage de valeurs manquantes par colonne :

CountryCode    0.0
SeriesCode     0.0
Year           0.0
DESCRIPTION    0.0
dtype: float64



Statistiques de valeurs manquantes par colonne :

count    4.0
mean     0.0
std      0.0
min      0.0
25%      0.0
50%      0.0
75%      0.0
max      0.0
dtype: float64


CountryCode    0.0
SeriesCode     0.0
Year           0.0
DESCRIPTION    0.0
dtype: float64

In [59]:
statistiques_descriptives_numeriques(EdStatsFootNote)

Statistiques descriptives des colonnes numériques:
                Year
count  643638.000000
mean     1996.899961
std        12.211624
min      1970.000000
25%      1988.000000
50%      2000.000000
75%      2006.000000
max      2050.000000


Unnamed: 0,Year
count,643638.0
mean,1996.899961
std,12.211624
min,1970.0
25%,1988.0
50%,2000.0
75%,2006.0
max,2050.0


In [60]:
EdStatsFootNote.drop(EdStatsFootNote[EdStatsFootNote['Year'] > 2024].index, inplace=True)

In [61]:
statistiques_descriptives_numeriques(EdStatsFootNote)

Statistiques descriptives des colonnes numériques:
                Year
count  642782.000000
mean     1996.845769
std        12.125076
min      1970.000000
25%      1988.000000
50%      2000.000000
75%      2006.000000
max      2020.000000


Unnamed: 0,Year
count,642782.0
mean,1996.845769
std,12.125076
min,1970.0
25%,1988.0
50%,2000.0
75%,2006.0
max,2020.0


In [62]:
EdStatsFootNote.drop(EdStatsFootNote[EdStatsFootNote['Year'] > 2024].index, inplace=True)

In [63]:
statistiques_descriptives_numeriques(EdStatsFootNote)

Statistiques descriptives des colonnes numériques:
                Year
count  642782.000000
mean     1996.845769
std        12.125076
min      1970.000000
25%      1988.000000
50%      2000.000000
75%      2006.000000
max      2020.000000


Unnamed: 0,Year
count,642782.0
mean,1996.845769
std,12.125076
min,1970.0
25%,1988.0
50%,2000.0
75%,2006.0
max,2020.0


In [64]:
statistiques_occurrences_categorielles(EdStatsFootNote)

Occurrences des valeurs pour les colonnes catégorielles:
  - Colonne: CountryCode
CountryCode
LIC    7320
CYP    7117
LDC    6481
SSA    6389
SSF    6336
HPC    6237
LAC    6116
MIC    5862
LMY    5839
LCN    5779
Name: count, dtype: int64
  - Colonne: SeriesCode
SeriesCode
SH.DYN.MORT          9226
SE.PRM.DURS          8771
SE.PRM.AGES          8771
SE.SEC.DURS          8619
SE.SEC.AGES          8581
SE.PRM.ENRL          6610
SE.PRM.ENRR          6418
SE.PRM.ENRL.FE.ZS    6177
SE.PRM.ENRL.FE       6165
SE.ENR.PRIM.FM.ZS    6013
Name: count, dtype: int64
  - Colonne: DESCRIPTION
DESCRIPTION
Country Data                                      191188
UNESCO Institute for Statistics (UIS) estimate    171527
Estimated                                         117155
UIS Estimation                                     31395
Country estimation.                                26308
National Estimate                                  23570
Country data                                       16353
Nat

{'CountryCode': CountryCode
 LIC    7320
 CYP    7117
 LDC    6481
 SSA    6389
 SSF    6336
 HPC    6237
 LAC    6116
 MIC    5862
 LMY    5839
 LCN    5779
 Name: count, dtype: int64,
 'SeriesCode': SeriesCode
 SH.DYN.MORT          9226
 SE.PRM.DURS          8771
 SE.PRM.AGES          8771
 SE.SEC.DURS          8619
 SE.SEC.AGES          8581
 SE.PRM.ENRL          6610
 SE.PRM.ENRR          6418
 SE.PRM.ENRL.FE.ZS    6177
 SE.PRM.ENRL.FE       6165
 SE.ENR.PRIM.FM.ZS    6013
 Name: count, dtype: int64,
 'DESCRIPTION': DESCRIPTION
 Country Data                                      191188
 UNESCO Institute for Statistics (UIS) estimate    171527
 Estimated                                         117155
 UIS Estimation                                     31395
 Country estimation.                                26308
 National Estimate                                  23570
 Country data                                       16353
 National Estimation                                1200

**Analyse statistique de la colonne "Year" :**
* Moyenne : 1996.9 -> Les annotations se concentrent autour des années 1997
* Médiane : 2000 -> Point d'équilibre de la distribution temporelle
* Amplitude : 80 ans (1970-2050) -> Couverture historique et projections futures (or nous sommes en 2025, ainsi nous pouvons supprimer les lignes où Year est supérieur à 2024)
* Cela réduit l'amplitude de 30 ans
* On pourrait se concenter sur les données entre 2000 et 2020, c'est à dire sur 50% des données les plus récentes.

**Analyse statistique occurances des colonnes catégorielles :**

* Colonne CountryCode :
    * LIC    7320
    * CYP    7183
    * LDC    6481
    * SSA    6389
    * SSF    6336
    * HPC    6237
    * LAC    6116
    * MIC    5862
    * LMY    5839
    * LCN    5779
* Colonne SeriesCode :
    * SH.DYN.MORT          9226
    * SE.PRM.DURS          8771
    * SE.PRM.AGES          8771
    * SE.SEC.DURS          8619
    * SE.SEC.AGES          8581
    * SE.PRM.ENRL          6610
    * SE.PRM.ENRR          6418
    * SE.PRM.ENRL.FE.ZS    6177
    * SE.PRM.ENRL.FE       6165
    * SE.ENR.PRIM.FM.ZS    6013
* Colonne DESCRIPTION :
    * Country Data                                      191188
    * UNESCO Institute for Statistics (UIS) estimate    171527
    * Estimated                                         117155
    * UIS Estimation                                     31395
    * Country estimation.                                26308
    * National Estimate                                  23570
    * Country data                                       16353
    * National Estimation                                12001
    * UNSD WPP08 revision file 2A and 3A.                 3480
    * Reference Period: 2005-2014.                        3406

### **Fichier EdStatsData.csv**

In [65]:
print(EdStatsData.shape)
print(EdStatsData.dtypes)

(886930, 70)
Country Name       object
Country Code       object
Indicator Name     object
Indicator Code     object
1970              float64
                   ...   
2085              float64
2090              float64
2095              float64
2100              float64
Unnamed: 69       float64
Length: 70, dtype: object


In [66]:
explorer_dataframe(EdStatsData, nom_dataframe="EdStatsData")

Exploration du dataframe: EdStatsData
----------------------------------------
Nombre de lignes: 886930
Nombre de colonnes: 70
Nombre de doublons: 0
Après suppression des doublons, nombre de lignes: 886930
Proportion de valeurs manquantes par colonne:
  - Country Name: 0.00
  - Country Code: 0.00
  - Indicator Name: 0.00
  - Indicator Code: 0.00
  - 1970: 91.85
  - 1971: 95.99
  - 1972: 95.98
  - 1973: 95.99
  - 1974: 95.97
  - 1975: 90.16
  - 1976: 95.77
  - 1977: 95.76
  - 1978: 95.76
  - 1979: 95.85
  - 1980: 89.95
  - 1981: 95.63
  - 1982: 95.77
  - 1983: 95.66
  - 1984: 95.65
  - 1985: 89.82
  - 1986: 95.56
  - 1987: 95.64
  - 1988: 95.65
  - 1989: 95.77
  - 1990: 85.97
  - 1991: 91.61
  - 1992: 91.48
  - 1993: 91.45
  - 1994: 91.27
  - 1995: 85.19
  - 1996: 91.34
  - 1997: 91.72
  - 1998: 90.43
  - 1999: 86.60
  - 2000: 80.08
  - 2001: 86.07
  - 2002: 86.00
  - 2003: 85.30
  - 2004: 85.48
  - 2005: 79.24
  - 2006: 84.18
  - 2007: 84.52
  - 2008: 84.85
  - 2009: 83.98
  - 2010: 72

{'dimensions': {'lignes': 886930, 'colonnes': 70},
 'nb_doublons': np.int64(0),
 'dimensions_nettoye': {'lignes': 886930, 'colonnes': 70},
 'dataframe_nettoye':        Country Name Country Code                                     Indicator Name        Indicator Code       1970       1971       1972       1973       1974      1975       1976      1977  \
 0        Arab World          ARB  Adjusted net enrolment rate, lower secondary, ...            UIS.NERA.2        NaN        NaN        NaN        NaN        NaN       NaN        NaN       NaN   
 1        Arab World          ARB  Adjusted net enrolment rate, lower secondary, ...          UIS.NERA.2.F        NaN        NaN        NaN        NaN        NaN       NaN        NaN       NaN   
 2        Arab World          ARB  Adjusted net enrolment rate, lower secondary, ...        UIS.NERA.2.GPI        NaN        NaN        NaN        NaN        NaN       NaN        NaN       NaN   
 3        Arab World          ARB  Adjusted net enrolmen

In [67]:
# On voit que la colonne 'Unnamed: 69' est à 100% vide, on peut donc l'effacer.
EdStatsData.drop(columns=['Unnamed: 69'], inplace=True)

In [68]:
pourcentage_valeurs_manquantes_colonnes(EdStatsData)


Pourcentage de valeurs manquantes par colonne :

Country Name       0.00
Country Code       0.00
Indicator Name     0.00
Indicator Code     0.00
2010              72.67
                  ...  
1972              95.98
1973              95.99
1971              95.99
2016              98.14
2017              99.98
Length: 69, dtype: float64



Statistiques de valeurs manquantes par colonne :

count    69.000000
mean     85.897971
std      22.085402
min       0.000000
25%      85.480000
50%      94.200000
75%      95.560000
max      99.980000
dtype: float64


Country Name       0.00
Country Code       0.00
Indicator Name     0.00
Indicator Code     0.00
1970              91.85
                  ...  
2080              94.20
2085              94.20
2090              94.20
2095              94.20
2100              94.20
Length: 69, dtype: float64

In [69]:
pourcentage_valeurs_manquantes_lignes(EdStatsData)


Pourcentage de valeurs manquantes par ligne :

count    886930.000000
mean         85.896762
std          14.685275
min          26.090000
25%          81.160000
50%          94.200000
75%          94.200000
max          94.200000
dtype: float64


0         94.20
1         94.20
2         94.20
3         94.20
4         28.99
          ...  
886925    88.41
886926    88.41
886927    88.41
886928    88.41
886929    88.41
Length: 886930, dtype: float64

* Dans notre fichier Data, seules les 4 premières colonnes qui sont complètent et qu'il ne manque pas de données
* Dans toutes autres colonnes, qui représentent des annnées, il y a énormément de valeurs manquantes.

## Étape 3 : Réalisez votre premier nettoyage
**Résultat attendu:**
- Code permettant de filtrer les faux pays des tables où cela fait sens (Country, Country-Series, FootNote et Data).
- Markdown associé au code pour expliquer l’approche.

**Instructions:**
- Regardez de plus près les lignes du fichier Country pour identifier des faux pays.
- Supprimez les lignes correspondantes du dataframe contenant la donnée Country.
- Utilisez les 2 méthodes suivantes pour supprimer les faux pays des autres dataframes : 
	- En stockant les faux pays dans une liste qui sera utilisée pour le filtrage des différents dataframes. 
	- En utilisant un inner join entre les pays du dataframe Country nettoyé, et les autres dataframes.

**Recommandations:**
- L’objectif ici est de déterminer si le jeu de données Country contient bien ce qu’il est censé contenir : des informations sur des pays. 
- Utilisez le filtrage à base de conditions avec Pandas comme expliqué dans le chapitre (voir la section Ressource ci-dessous).
- Pour filtrer des valeurs indésirables dans un dataframe, utilisez la formule : 
	- df[ ~df[colonne].isin(liste_mauvaises_valeurs) ] 
	- L’utilisation du caractère ~ permet d’inverser la condition spécifiée à Pandas lors du filtrage.

**Points de vigilance :**
- Évitez l'utilisation d’iloc pour supprimer des lignes ou des colonnes sur la base d’une position d’index.
	- En effet, des traitements de données peuvent changer les index associés à une ligne ou une colonne (par exemple en triant le dataframe selon une colonne, ou en supprimant une colonne).
	- Si vous spécifiez en dur l’index d’une ligne et d’une colonne, et que vous avez transformé votre dataframe entre temps, vous supprimerez la mauvaise ligne.
	- Cette mauvaise pratique s’appelle le hardcoding, et il faut systématiquement l’éviter. 
- Les années jouent un rôle central dans l’organisation de nos données : il faut donc soigneusement les traiter en prenant compte de : 
	- quelles années conserver ou non ; 
	- comment gérer les valeurs manquantes, etc.
	- comment les organiser.

**Liste des faux pays** : comme indiqué plus haut voici la liste des faux pays (42 entités)
* faux_pays_codes = [
    "ARB", "CHI", "EAP", "EAS", "ECA", "ECS", "EMU", "EUU", "FRO", "GIB", 
    "GRL", "GUM", "HIC", "HKG", "HPC", "IMN", "LAC", "LCN", "LDC", "LIC", 
    "LMC", "LMY", "MAC", "MAF", "MEA", "MIC", "MNA", "MNP", "NAC", "NCL", 
    "OED", "PRI", "PSE", "PYF", "SAS", "SSA", "SSF", "SXM", "TCA", "UMC", 
    "VIR", "WLD"
]
* **CountryCode** est présent dans nos différents dataframes (EdStatsCountry, EdStatsCountrySeries, EdStatsFootNote, EdStatsData)
* **Series Code** permet de relié les dataframes EdStatsSeries, EdStatsCountrySeries et EdStatsCountrySeries

In [70]:
def supprimer_faux_pays(df, colonne_pays, faux_pays_codes, nom_df="DataFrame"):
    """
    Supprime les lignes correspondant aux faux pays d'un DataFrame
    
    Paramètres:
    - df: DataFrame à nettoyer
    - colonne_pays: nom de la colonne contenant les codes pays
    - faux_pays_codes: liste des codes à supprimer
    - nom_df: nom du DataFrame pour l'affichage
    
    Retourne:
    - DataFrame nettoyé
    """
    lignes_avant = df.shape[0]
    
    if colonne_pays not in df.columns:
        print(f"Erreur: Colonne '{colonne_pays}' non trouvée dans {nom_df}")
        return df
    
    # Suppression des faux pays
    df_nettoye = df[~df[colonne_pays].isin(faux_pays_codes)]
    lignes_apres = df_nettoye.shape[0]
    lignes_supprimees = lignes_avant - lignes_apres
    
    # Affichage des résultats
    print(f"{nom_df} - Suppression des faux pays:")
    print(f"  • Lignes avant: {lignes_avant:,}")
    print(f"  • Lignes après: {lignes_apres:,}")
    print(f"  • Lignes supprimées: {lignes_supprimees:,}")
    print(f"  • Pourcentage supprimé: {(lignes_supprimees/lignes_avant)*100:.1f}%")
    
    return df_nettoye

# Application de la fonction
EdStatsCountry = supprimer_faux_pays(EdStatsCountry, 'Country Code', faux_pays_codes, 'EdStatsCountry')
print(EdStatsCountry.shape)
print()
EdStatsCountrySeries = supprimer_faux_pays(EdStatsCountrySeries, 'CountryCode', faux_pays_codes, 'EdStatsCountrySeries')
print(EdStatsCountrySeries.shape)
print()
EdStatsFootNote = supprimer_faux_pays(EdStatsFootNote, 'CountryCode', faux_pays_codes, 'EdStatsFootNote')
print(EdStatsFootNote.shape)
print()
EdStatsData = supprimer_faux_pays(EdStatsData, 'Country Code', faux_pays_codes, 'EdStatsData')
print(EdStatsData.shape)
print()

EdStatsCountry - Suppression des faux pays:
  • Lignes avant: 197
  • Lignes après: 189
  • Lignes supprimées: 8
  • Pourcentage supprimé: 4.1%
(189, 17)

EdStatsCountrySeries - Suppression des faux pays:
  • Lignes avant: 613
  • Lignes après: 569
  • Lignes supprimées: 44
  • Pourcentage supprimé: 7.2%
(569, 3)

EdStatsFootNote - Suppression des faux pays:
  • Lignes avant: 642,782
  • Lignes après: 502,015
  • Lignes supprimées: 140,767
  • Pourcentage supprimé: 21.9%
(502015, 4)

EdStatsData - Suppression des faux pays:
  • Lignes avant: 886,930
  • Lignes après: 733,000
  • Lignes supprimées: 153,930
  • Pourcentage supprimé: 17.4%
(733000, 69)



In [71]:
pourcentage_valeurs_manquantes_colonnes(EdStatsCountry)


Pourcentage de valeurs manquantes par colonne :

Country Code                          0.00
Short Name                            0.00
Table Name                            0.00
Long Name                             0.00
Currency Unit                         0.00
Region                                0.00
Income Group                          0.00
System of National Accounts           0.00
Latest population census              0.00
2-alpha code                          0.53
SNA price valuation                   0.53
WB-2 code                             0.53
System of trade                       1.59
Latest trade data                     5.82
IMF data dissemination standard       6.35
Balance of Payments Manual in use     6.88
National accounts base year          14.29
dtype: float64



Statistiques de valeurs manquantes par colonne :

count    17.000000
mean      2.148235
std       3.957988
min       0.000000
25%       0.000000
50%       0.000000
75%       1.590000
max      14.290000

Country Code                          0.00
Short Name                            0.00
Table Name                            0.00
Long Name                             0.00
2-alpha code                          0.53
Currency Unit                         0.00
Region                                0.00
Income Group                          0.00
WB-2 code                             0.53
National accounts base year          14.29
SNA price valuation                   0.53
System of National Accounts           0.00
Balance of Payments Manual in use     6.88
System of trade                       1.59
IMF data dissemination standard       6.35
Latest population census              0.00
Latest trade data                     5.82
dtype: float64

In [72]:
pourcentage_valeurs_manquantes_colonnes(EdStatsCountrySeries)


Pourcentage de valeurs manquantes par colonne :

CountryCode    0.0
SeriesCode     0.0
DESCRIPTION    0.0
dtype: float64



Statistiques de valeurs manquantes par colonne :

count    3.0
mean     0.0
std      0.0
min      0.0
25%      0.0
50%      0.0
75%      0.0
max      0.0
dtype: float64


CountryCode    0.0
SeriesCode     0.0
DESCRIPTION    0.0
dtype: float64

In [73]:
pourcentage_valeurs_manquantes_colonnes(EdStatsFootNote)


Pourcentage de valeurs manquantes par colonne :

CountryCode    0.0
SeriesCode     0.0
Year           0.0
DESCRIPTION    0.0
dtype: float64



Statistiques de valeurs manquantes par colonne :

count    4.0
mean     0.0
std      0.0
min      0.0
25%      0.0
50%      0.0
75%      0.0
max      0.0
dtype: float64


CountryCode    0.0
SeriesCode     0.0
Year           0.0
DESCRIPTION    0.0
dtype: float64

In [74]:
pourcentage_valeurs_manquantes_colonnes(EdStatsData)


Pourcentage de valeurs manquantes par colonne :

Country Name       0.00
Country Code       0.00
Indicator Name     0.00
Indicator Code     0.00
2010              68.88
                  ...  
1972              95.78
1974              95.79
1973              95.80
2016              97.92
2017              99.98
Length: 69, dtype: float64



Statistiques de valeurs manquantes par colonne :

count    69.000000
mean     84.952319
std      22.027396
min       0.000000
25%      83.940000
50%      93.280000
75%      95.390000
max      99.980000
dtype: float64


Country Name       0.00
Country Code       0.00
Indicator Name     0.00
Indicator Code     0.00
1970              90.79
                  ...  
2080              93.28
2085              93.28
2090              93.28
2095              93.28
2100              93.28
Length: 69, dtype: float64

# **Projet 2 - Exercice 2**

Dans cet exercice, vous allez apprendre à réduire le périmètre de la donnée (nombre de lignes et colonnes).

Après avoir analysé en surface les différents fichiers, vous avez remarqué :
- que le fichier Data est plus important que les autres ;
- que vous avez un nombre d’indicateurs beaucoup trop élevé pour vous permettre une analyse manuelle de chacun.

Vous devez réduire le périmètre de la donnée pour faciliter le choix des indicateurs et répondre à la demande de Mark.

## **Étape 1 :** Réduisez le périmètre en utilisant une approche métier
**Prérequis:** Avoir obtenu un dataframe par fichier après avoir suivi les étapes du Projet 2 - Exercice 1.

**Résultat attendu:** Du code et du markdown dans le même Jupyter Notebook, permettant de reproduire les réponses aux instructions ci-dessous.

**Instructions:**
- Parmi les jeux de données centrés sur les indicateurs, identifiez la colonne qui décrit la catégorie métier à laquelle appartient chaque indicateur.
- Gardez les catégories qui font sens par rapport à la demande de Mark et l’objectif du projet et supprimez les autres.
- Calculez le nombre d’indicateurs restants.
- Filtrez l’ensemble des jeux de données pour ne garder que les indicateurs sélectionnés.
- Dans le fichier Data, interprétez les colonnes représentant les années.
	- Pourquoi avons-nous des valeurs d’indicateur pour des années futures ? 
	- Sur la base de votre compréhension de la problématique métier, filtrez les années en conséquence.

**Recommandations:**
- La méthode value_counts() de Pandas est particulièrement utile pour comprendre le contenu d’une colonne catégorielle.
- Réutilisez la même approche de filtrage que dans l’exercice précédent.
	- Le filtrage en utilisant la méthode isin() de Pandas vous permettra également de filtrer les colonnes en précisant une liste d’années à supprimer. 
	- Construisez cette liste d’années avec la méthode np.arange() du package numpy 
- Vu qu’il y a plusieurs années disponibles pour chaque indicateur, réfléchissez pour savoir quelles années sont pertinentes ou non : 
	- par rapport à ce que l’on cherche ;
	- par rapport au taux de remplissage/nombre de valeurs manquantes

**Points de vigilance:**
- Dans un projet data, il y a rarement une seule et unique bonne réponse.
- Vous allez forcément faire appel à votre bon sens et votre compréhension subjective de la demande de Mark pour sélectionner certaines catégories d’indicateur et pas d’autres. Vous allez décider différemment par rapport aux cas limites.

In [75]:
EdStatsSeries.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3665 entries, 0 to 3664
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Series Code      3665 non-null   object
 1   Topic            3665 non-null   object
 2   Indicator Name   3665 non-null   object
 3   Long definition  3665 non-null   object
 4   Source           3665 non-null   object
dtypes: object(5)
memory usage: 143.3+ KB


In [76]:
print("Structure du fichier EdStatsSeries :")
print(f"Nombre de lignes : {EdStatsSeries.shape[0]}")
print(f"Nombre de colonnes : {EdStatsSeries.shape[1]}")
print()

# Affichons les colonnes disponibles
print("Colonnes disponibles dans EdStatsSeries :")
for i, col in enumerate(EdStatsSeries.columns):
    print(f"{i+1}. {col}")
print()

# La colonne 'Topic' contient les catégories métier des indicateurs
print("Analyse de la colonne 'Topic' (catégories métier) :")

# Calcul des occurrences et pourcentages
categories_metier = EdStatsSeries['Topic'].value_counts()
categories_pourcentage = EdStatsSeries['Topic'].value_counts(normalize=True) * 100

# Création d'un DataFrame combiné pour un affichage structuré
df_categories = pd.DataFrame({
    'Occurrences': categories_metier,
    'Pourcentage (%)': categories_pourcentage.round(1)
})

# Affichage du tableau combiné
print(df_categories)
print()


Structure du fichier EdStatsSeries :
Nombre de lignes : 3665
Nombre de colonnes : 5

Colonnes disponibles dans EdStatsSeries :
1. Series Code
2. Topic
3. Indicator Name
4. Long definition
5. Source

Analyse de la colonne 'Topic' (catégories métier) :
                                                    Occurrences  Pourcentage (%)
Topic                                                                           
Learning Outcomes                                          1046             28.5
Attainment                                                  733             20.0
Education Equality                                          426             11.6
Secondary                                                   256              7.0
Primary                                                     248              6.8
Population                                                  213              5.8
Tertiary                                                    158              4.3
Teachers            

**Analyse de la colonne Topic :**

On peut constater que la majorité du dataset se consentre sur les valeurs suivantes : 'Learning Outcomes', 'Attainment', 'Education Equality', 'Secondary', 'Primary', 'Tertiary', 'Population', 'Teachers', 'Expenditures'. Ainsi on peut envisager de supprimer les autres indicateurs.

In [77]:
# Categories pertinentes à conserver
categories_pertinentes = [
    'Learning Outcomes', 
    'Attainment', 
    'Education Equality', 
    'Secondary', 
    'Primary', 
    'Tertiary', 
    'Population', 
    'Teachers', 
    'Expenditures'
]

# Affichage des informations avant filtrage
lignesAvantFiltrage = EdStatsSeries.shape[0]
colonneAvantFiltrage = EdStatsSeries.shape[1]
print(f"Nombre de lignes avant filtrage : {lignesAvantFiltrage}")
print(f"Nombre de colonnes avant filtrage : {colonneAvantFiltrage}")
print()

# Verification des categories existantes dans le dataframe
categories_existantes = EdStatsSeries['Topic'].unique()
categories_trouvees = [cat for cat in categories_pertinentes if cat in categories_existantes]
categories_non_trouvees = [cat for cat in categories_pertinentes if cat not in categories_existantes]

print("Verification des categories :")
print(f"Categories pertinentes : {len(categories_pertinentes)}")
print(f"Categories trouvées dans les donnees : {len(categories_trouvees)}")

if categories_non_trouvees:
    print(f"Categories non trouvées : {categories_non_trouvees}")
print()

# Filtrage du dataframe pour conserver uniquement les categories pertinentes
EdStatsSeries = EdStatsSeries[EdStatsSeries['Topic'].isin(categories_pertinentes)]

# Affichage des informations apres filtrage
print("Resultats du filtrage :")
lignesApresFiltrage = EdStatsSeries.shape[0]
colonneApresFiltrage = EdStatsSeries.shape[1]
print(f"Nombre de lignes apres filtrage : {lignesApresFiltrage}")
print(f"Nombre de colonnes apres filtrage : {colonneApresFiltrage}")

# Calcul des statistiques de reduction
lignes_supprimees = lignesAvantFiltrage - lignesApresFiltrage
pourcentage_conserve = (lignesApresFiltrage / lignesAvantFiltrage) * 100

print(f"Lignes supprimees : {lignes_supprimees}")
print(f"Pourcentage de donnees conservees : {pourcentage_conserve:.1f}%")
print()

# Verification finale : affichage des categories conservees
print("Categories conservees dans le dataframe filtre :")
categories_metier = EdStatsSeries['Topic'].value_counts()
categories_pourcentage = EdStatsSeries['Topic'].value_counts(normalize=True) * 100

categories_finales = pd.DataFrame({
    'Occurrences': categories_metier,
    'Pourcentage (%)': categories_pourcentage.round(1)
})

print(categories_finales)
print()

Nombre de lignes avant filtrage : 3665
Nombre de colonnes avant filtrage : 5

Verification des categories :
Categories pertinentes : 9
Categories trouvées dans les donnees : 9

Resultats du filtrage :
Nombre de lignes apres filtrage : 3310
Nombre de colonnes apres filtrage : 5
Lignes supprimees : 355
Pourcentage de donnees conservees : 90.3%

Categories conservees dans le dataframe filtre :
                    Occurrences  Pourcentage (%)
Topic                                           
Learning Outcomes          1046             31.6
Attainment                  733             22.1
Education Equality          426             12.9
Secondary                   256              7.7
Primary                     248              7.5
Population                  213              6.4
Tertiary                    158              4.8
Teachers                    137              4.1
Expenditures                 93              2.8



In [78]:
pourcentage_valeurs_manquantes_colonnes(EdStatsSeries)


Pourcentage de valeurs manquantes par colonne :

Series Code        0.0
Topic              0.0
Indicator Name     0.0
Long definition    0.0
Source             0.0
dtype: float64



Statistiques de valeurs manquantes par colonne :

count    5.0
mean     0.0
std      0.0
min      0.0
25%      0.0
50%      0.0
75%      0.0
max      0.0
dtype: float64


Series Code        0.0
Topic              0.0
Indicator Name     0.0
Long definition    0.0
Source             0.0
dtype: float64

In [79]:
pourcentage_valeurs_manquantes_lignes(EdStatsSeries)


Pourcentage de valeurs manquantes par ligne :

count    3310.0
mean        0.0
std         0.0
min         0.0
25%         0.0
50%         0.0
75%         0.0
max         0.0
dtype: float64


0       0.0
1       0.0
2       0.0
3       0.0
4       0.0
       ... 
3660    0.0
3661    0.0
3662    0.0
3663    0.0
3664    0.0
Length: 3310, dtype: float64

In [80]:
print(f"Nombre de lignes : {EdStatsSeries.shape[0]}")
print(f"Nombre de colonnes : {EdStatsSeries.shape[1]}")
print("")
EdStatsSeries.head()

Nombre de lignes : 3310
Nombre de colonnes : 5



Unnamed: 0,Series Code,Topic,Indicator Name,Long definition,Source
0,BAR.NOED.1519.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15-19 with...,Robert J. Barro and Jong-Wha Lee: http://www.b...
1,BAR.NOED.1519.ZS,Attainment,Barro-Lee: Percentage of population age 15-19 ...,Percentage of population age 15-19 with no edu...,Robert J. Barro and Jong-Wha Lee: http://www.b...
2,BAR.NOED.15UP.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 15+ with n...,Robert J. Barro and Jong-Wha Lee: http://www.b...
3,BAR.NOED.15UP.ZS,Attainment,Barro-Lee: Percentage of population age 15+ wi...,Percentage of population age 15+ with no educa...,Robert J. Barro and Jong-Wha Lee: http://www.b...
4,BAR.NOED.2024.FE.ZS,Attainment,Barro-Lee: Percentage of female population age...,Percentage of female population age 20-24 with...,Robert J. Barro and Jong-Wha Lee: http://www.b...


**dataframe EdStatsSeries:** nettoyage complet, Les colonnes sont complètes, ainsi que les lignes. Il n'y a pas de valeurs manquantes.
* On peut maintenant utiliser le dataframe **EdStatsSeries** pour filter les **autres dataframes** : EdStatsData, EdStatsCountrySeries et EdStatsFootNote

In [81]:
EdStatsSeries.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3310 entries, 0 to 3664
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Series Code      3310 non-null   object
 1   Topic            3310 non-null   object
 2   Indicator Name   3310 non-null   object
 3   Long definition  3310 non-null   object
 4   Source           3310 non-null   object
dtypes: object(5)
memory usage: 155.2+ KB


In [82]:
EdStatsData.info()

<class 'pandas.core.frame.DataFrame'>
Index: 733000 entries, 91625 to 886929
Data columns (total 69 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Country Name    733000 non-null  object 
 1   Country Code    733000 non-null  object 
 2   Indicator Name  733000 non-null  object 
 3   Indicator Code  733000 non-null  object 
 4   1970            67494 non-null   float64
 5   1971            31038 non-null   float64
 6   1972            30957 non-null   float64
 7   1973            30751 non-null   float64
 8   1974            30887 non-null   float64
 9   1975            81672 non-null   float64
 10  1976            32488 non-null   float64
 11  1977            32606 non-null   float64
 12  1978            32633 non-null   float64
 13  1979            31854 non-null   float64
 14  1980            83149 non-null   float64
 15  1981            33524 non-null   float64
 16  1982            32243 non-null   float64
 17  1983       

In [83]:
EdStatsCountrySeries.info()

<class 'pandas.core.frame.DataFrame'>
Index: 569 entries, 0 to 612
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   CountryCode  569 non-null    object
 1   SeriesCode   569 non-null    object
 2   DESCRIPTION  569 non-null    object
dtypes: object(3)
memory usage: 17.8+ KB


In [84]:
EdStatsFootNote.info()

<class 'pandas.core.frame.DataFrame'>
Index: 502015 entries, 0 to 643637
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   CountryCode  502015 non-null  object
 1   SeriesCode   502015 non-null  object
 2   Year         502015 non-null  int64 
 3   DESCRIPTION  502015 non-null  object
dtypes: int64(1), object(3)
memory usage: 19.2+ MB


In [85]:
# === FILTRAGE DES DATAFRAMES AVEC LES INDICATEURS SÉLECTIONNÉS ===
print("FILTRAGE DES DATAFRAMES AVEC LES INDICATEURS SÉLECTIONNÉS")
print("")

# Extraction de la liste des codes indicateurs du EdStatsSeries filtré
indicateurs_retenus = EdStatsSeries['Series Code'].unique().tolist()

print(f"Nombre d'indicateurs retenus après filtrage métier : {len(indicateurs_retenus)}")
print()

# Configuration des dataframes à filtrer
config_filtrage = {
    'EdStatsData': {
        'dataframe': EdStatsData,
        'colonne_indicateur': 'Indicator Code'
    },
    'EdStatsCountrySeries': {
        'dataframe': EdStatsCountrySeries, 
        'colonne_indicateur': 'SeriesCode'
    },
    'EdStatsFootNote': {
        'dataframe': EdStatsFootNote,
        'colonne_indicateur': 'SeriesCode'
    }
}

# Application du filtrage sur chaque dataframe
for nom_df, config in config_filtrage.items():
    df = config['dataframe']
    colonne = config['colonne_indicateur']
    
    print(f"Filtrage de {nom_df} :")
    
    # Informations avant filtrage
    lignes_avant = df.shape[0]
    print(f"  • Lignes avant filtrage : {lignes_avant:,}")
    
    # Vérification de l'existence de la colonne
    if colonne not in df.columns:
        print(f"  Erreur : Colonne '{colonne}' non trouvée dans {nom_df}")
        continue
    
    # Application du filtrage
    df_filtre = df[df[colonne].isin(indicateurs_retenus)]
    lignes_apres = df_filtre.shape[0]
    lignes_supprimees = lignes_avant - lignes_apres
    
    # Mise à jour du dataframe global
    globals()[nom_df] = df_filtre
    
    # Affichage des résultats
    print(f"  • Lignes après filtrage : {lignes_apres:,}")
    print(f"  • Lignes supprimées : {lignes_supprimees:,}")
    print(f"  • Pourcentage conservé : {(lignes_apres/lignes_avant)*100:.1f}%")
    print()

print("Filtrage terminé pour tous les dataframes")
print()

# Vérification de cohérence entre les dataframes
print("VÉRIFICATION DE COHÉRENCE ENTRE LES DATAFRAMES")
print("=" * 50)

# Vérification EdStatsData
indicateurs_dans_data = set(EdStatsData['Indicator Code'].unique())
indicateurs_dans_series = set(EdStatsSeries['Series Code'].unique())

print(f"Indicateurs dans EdStatsSeries : {len(indicateurs_dans_series)}")
print(f"Indicateurs dans EdStatsData : {len(indicateurs_dans_data)}")

# Vérification de la correspondance
indicateurs_manquants_data = indicateurs_dans_series - indicateurs_dans_data
indicateurs_en_trop_data = indicateurs_dans_data - indicateurs_dans_series

if len(indicateurs_manquants_data) == 0 and len(indicateurs_en_trop_data) == 0:
    print("Parfaite cohérence entre EdStatsSeries et EdStatsData")
else:
    if indicateurs_manquants_data:
        print(f"Indicateurs présents dans EdStatsSeries mais absents d'EdStatsData : {len(indicateurs_manquants_data)}")
    if indicateurs_en_trop_data:
        print(f"Indicateurs présents dans EdStatsData mais absents d'EdStatsSeries : {len(indicateurs_en_trop_data)}")

# Vérification EdStatsCountrySeries
if 'EdStatsCountrySeries' in globals():
    indicateurs_dans_country_series = set(EdStatsCountrySeries['SeriesCode'].unique())
    print(f"Indicateurs dans EdStatsCountrySeries : {len(indicateurs_dans_country_series)}")

# Vérification EdStatsFootNote  
if 'EdStatsFootNote' in globals():
    indicateurs_dans_footnote = set(EdStatsFootNote['SeriesCode'].unique())
    print(f"Indicateurs dans EdStatsFootNote : {len(indicateurs_dans_footnote)}")

print()
print("Tous les dataframes sont maintenant alignés sur les indicateurs sélectionnés")
print("Vous pouvez maintenant procéder à l'étape 2 de l'exercice 2")


FILTRAGE DES DATAFRAMES AVEC LES INDICATEURS SÉLECTIONNÉS

Nombre d'indicateurs retenus après filtrage métier : 3310

Filtrage de EdStatsData :
  • Lignes avant filtrage : 733,000
  • Lignes après filtrage : 654,600
  • Lignes supprimées : 78,400
  • Pourcentage conservé : 89.3%

Filtrage de EdStatsCountrySeries :
  • Lignes avant filtrage : 569
  • Lignes après filtrage : 0
  • Lignes supprimées : 569
  • Pourcentage conservé : 0.0%

Filtrage de EdStatsFootNote :
  • Lignes avant filtrage : 502,015
  • Lignes après filtrage : 429,521
  • Lignes supprimées : 72,494
  • Pourcentage conservé : 85.6%

Filtrage terminé pour tous les dataframes

VÉRIFICATION DE COHÉRENCE ENTRE LES DATAFRAMES
Indicateurs dans EdStatsSeries : 3310
Indicateurs dans EdStatsData : 3273
Indicateurs présents dans EdStatsSeries mais absents d'EdStatsData : 37
Indicateurs dans EdStatsCountrySeries : 0
Indicateurs dans EdStatsFootNote : 1255

Tous les dataframes sont maintenant alignés sur les indicateurs sélectionné

In [86]:
print(f"Lignes dans EdStatsSeries : {EdStatsSeries.shape[0]}")
print(f"Lignes dans EdStatsData : {EdStatsData.shape[0]}")
print(f"Lignes dans EdStatsCountrySeries : {EdStatsCountrySeries.shape[0]}")
print(f"Lignes dans EdStatsFootNote : {EdStatsFootNote.shape[0]}")

Lignes dans EdStatsSeries : 3310
Lignes dans EdStatsData : 654600
Lignes dans EdStatsCountrySeries : 0
Lignes dans EdStatsFootNote : 429521


**Résultats du filtrage :** Le dataframe EdStatsCountrySeries n'est pas utile à notre analyse, elle ne contient que des indicateurs en aucun lien avec EdStatsSeries après filtrage.

In [87]:
EdStatsData.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2020,2025,2030,2035,2040,2045,2050,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
91625,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2,,,,,7.05911,,,,,,,,,,,,,,,,,,,17.260189,,,,,,,,,,,,,,28.05987,,,,,,47.43679,50.627232,,,,,,,,,,,,,,,,,,,,
91626,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.F,,,,,2.53138,,,,,,,,,,,,,,,,,,,9.43181,,,,,,,,,,,,,,15.2231,,,,,,34.073261,37.641541,,,,,,,,,,,,,,,,,,,,
91627,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.GPI,,,,,0.22154,,,,,,,,,,,,,,,,,,,0.38623,,,,,,,,,,,,,,0.37913,,,,,,0.56706,0.59837,,,,,,,,,,,,,,,,,,,,
91628,Afghanistan,AFG,"Adjusted net enrolment rate, lower secondary, ...",UIS.NERA.2.M,,,,,11.42652,,,,,,,,,,,,,,,,,,,24.420429,,,,,,,,,,,,,,40.152851,,,,,,60.087059,62.906952,,,,,,,,,,,,,,,,,,,,
91629,Afghanistan,AFG,"Adjusted net enrolment rate, primary, both sex...",SE.PRM.TENR,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [88]:
# === ANALYSE DE LA STRUCTURE TEMPORELLE D'EdStatsData ===
print("ANALYSE DES COLONNES ANNÉES DANS EdStatsData")
print("")

# Identification des colonnes années
colonnes_non_annees = ['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code']
colonnes_annees = [col for col in EdStatsData.columns if col not in colonnes_non_annees]

print(f"Nombre total de colonnes : {EdStatsData.shape[1]}")
print(f"Colonnes non-années : {len(colonnes_non_annees)}")
print(f"Colonnes années : {len(colonnes_annees)}")
print()

# Affichage de la plage temporelle
annees_numeriques = [int(col) for col in colonnes_annees if col.isdigit()]
annees_numeriques.sort()

print(f"Plage temporelle complète :")
print(f"  • Première année : {min(annees_numeriques)}")
print(f"  • Dernière année : {max(annees_numeriques)}")
print(f"  • Nombre d'années : {len(annees_numeriques)}")
print()

# Identification des périodes
annee_actuelle = 2025  # À ajuster selon l'année actuelle
annees_passees = [a for a in annees_numeriques if a < annee_actuelle]
annees_futures = [a for a in annees_numeriques if a >= annee_actuelle]

print(f"Répartition temporelle :")
print(f"  • Années passées (< {annee_actuelle}) : {len(annees_passees)} ({min(annees_passees)}-{max(annees_passees)})")
print(f"  • Années futures (>= {annee_actuelle}) : {len(annees_futures)} ({min(annees_futures)}-{max(annees_futures)})")

ANALYSE DES COLONNES ANNÉES DANS EdStatsData

Nombre total de colonnes : 69
Colonnes non-années : 4
Colonnes années : 65

Plage temporelle complète :
  • Première année : 1970
  • Dernière année : 2100
  • Nombre d'années : 65

Répartition temporelle :
  • Années passées (< 2025) : 49 (1970-2020)
  • Années futures (>= 2025) : 16 (2025-2100)


In [89]:
# === ANALYSE DE LA COMPLÉTUDE PAR PÉRIODE TEMPORELLE ===
print("\nANALYSE DE LA COMPLÉTUDE DES DONNÉES PAR PÉRIODE")
print("")

# Fonction pour analyser une période
def analyser_periode(annees_liste, nom_periode):
    colonnes_periode = [str(annee) for annee in annees_liste]
    donnees_periode = EdStatsData[colonnes_periode]
    
    # Calcul des statistiques
    nb_valeurs_totales = donnees_periode.size
    nb_valeurs_non_nulles = donnees_periode.count().sum()
    taux_remplissage = (nb_valeurs_non_nulles / nb_valeurs_totales) * 100
    
    # Analyse par année
    taux_par_annee = donnees_periode.count() / len(EdStatsData) * 100
    
    print(f"{nom_periode} :")
    print(f"  • Nombre d'années : {len(annees_liste)}")
    print(f"  • Taux de remplissage global : {taux_remplissage:.1f}%")
    print(f"  • Taux de remplissage moyen par année : {taux_par_annee.mean():.1f}%")
    print(f"  • Meilleure année : {taux_par_annee.idxmax()} ({taux_par_annee.max():.1f}%)")
    print(f"  • Moins bonne année : {taux_par_annee.idxmin()} ({taux_par_annee.min():.1f}%)")
    print()
    
    return taux_par_annee

# Période historique (1970-1999)
annees_historiques = [a for a in annees_numeriques if 1970 <= a <= 1999]
taux_historique = analyser_periode(annees_historiques, "PÉRIODE HISTORIQUE (1970-1999)")

# Période récente (2000-2024)
annees_recentes = [a for a in annees_numeriques if 2000 <= a <= 2024]
taux_recent = analyser_periode(annees_recentes, "PÉRIODE RÉCENTE (2000-2024)")

# Période future (2025+)
annees_projections = [a for a in annees_numeriques if a >= 2025]
taux_projections = analyser_periode(annees_projections, "PROJECTIONS FUTURES (2025+)")



ANALYSE DE LA COMPLÉTUDE DES DONNÉES PAR PÉRIODE

PÉRIODE HISTORIQUE (1970-1999) :
  • Nombre d'années : 30
  • Taux de remplissage global : 7.4%
  • Taux de remplissage moyen par année : 7.4%
  • Meilleure année : 1995 (17.4%)
  • Moins bonne année : 1973 (3.9%)

PÉRIODE RÉCENTE (2000-2024) :
  • Nombre d'années : 19
  • Taux de remplissage global : 15.8%
  • Taux de remplissage moyen par année : 15.8%
  • Meilleure année : 2010 (32.2%)
  • Moins bonne année : 2017 (0.0%)

PROJECTIONS FUTURES (2025+) :
  • Nombre d'années : 16
  • Taux de remplissage global : 7.5%
  • Taux de remplissage moyen par année : 7.5%
  • Meilleure année : 2025 (7.5%)
  • Moins bonne année : 2025 (7.5%)



In [90]:
pourcentage_valeurs_manquantes_colonnes(EdStatsData)


Pourcentage de valeurs manquantes par colonne :

Country Name        0.00
Country Code        0.00
Indicator Name      0.00
Indicator Code      0.00
2010               67.76
                   ...  
1972               96.08
1974               96.09
1973               96.11
2016               98.94
2017              100.00
Length: 69, dtype: float64



Statistiques de valeurs manquantes par colonne :

count     69.000000
mean      84.879565
std       22.018821
min        0.000000
25%       84.080000
50%       92.470000
75%       95.760000
max      100.000000
dtype: float64


Country Name       0.00
Country Code       0.00
Indicator Name     0.00
Indicator Code     0.00
1970              90.37
                  ...  
2080              92.47
2085              92.47
2090              92.47
2095              92.47
2100              92.47
Length: 69, dtype: float64

* **Période 1970 - 1999 :** le taux de remplissage est insuffisante <= 7,6%, nous pouvons donc exclures cette période.
* **Période 2000 à 2024:** la meilleure période avec un taux de remplissage moyen de 16%. Faire une **analyse détaillée** de cette période qui s'étend en réalité de 2000 à 2016 car nous passons de 2017 à 2025
* **Colonne 2017 :** à supprimer car elle est vide.
* **Colonnes à partir 2025 :** non exploitable le taux de remplissage est inférieur ou égal à 6,7% => nous pouvons donc effacer ces lignes.

In [91]:
print("Analyse détaillée de la période 2000 à 2016")
print("")

colonnes_2000_2016 = [str(annee) for annee in range(2000, 2017)]
taux_par_annee_2000_2016 = EdStatsData[colonnes_2000_2016].count() / len(EdStatsData) * 100

print("Statistiques :")
print(taux_par_annee_2000_2016.describe().round(1))
print("")

print("ANALYSE DÉTAILLÉE 2000-2016 :")
for annee in range(2000, 2017):
    taux = taux_par_annee_2000_2016[str(annee)]
    status = "TRÈS FAIBLE" if taux < 5 else "FAIBLE" if taux < 10 else "ACCEPTABLE" if taux < 15 else "BON"
    print(f"  {annee} : {taux:.1f}% {status}")


Analyse détaillée de la période 2000 à 2016

Statistiques :
count    17.0
mean     17.2
std       6.1
min       1.1
25%      15.6
50%      16.8
75%      17.8
max      32.2
dtype: float64

ANALYSE DÉTAILLÉE 2000-2016 :
  2000 : 22.8% BON
  2001 : 14.8% ACCEPTABLE
  2002 : 15.0% ACCEPTABLE
  2003 : 15.9% BON
  2004 : 15.6% BON
  2005 : 24.0% BON
  2006 : 17.4% BON
  2007 : 16.8% BON
  2008 : 16.3% BON
  2009 : 17.4% BON
  2010 : 32.2% BON
  2011 : 17.8% BON
  2012 : 18.0% BON
  2013 : 16.5% BON
  2014 : 13.2% ACCEPTABLE
  2015 : 17.5% BON
  2016 : 1.1% TRÈS FAIBLE


* Sauf l'année 2016 les autres colonnes ont un taux de remplissage supérieur à 10%
* Nous pouvons également envisager à supprimier la colonne 2016
* **Période que nous pouvons retenir pour l'étude 2000 à 2015**

In [92]:
# === FILTRAGE DES COLONNES ANNÉES 2000-2015 ===

# Définition des colonnes à conserver
colonnes_non_annees = ['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code']
colonnes_annees_selectionnees = [str(annee) for annee in range(2000, 2016)]
colonnes_a_conserver = colonnes_non_annees + colonnes_annees_selectionnees

# Affichage avant filtrage
colonneAvantFiltrage = EdStatsData.shape[1]
lignesAvantFiltrage = EdStatsData.shape[0]
print(f"Colonnes avant filtrage : {colonneAvantFiltrage}")
print(f"Lignes avant filtrage : {lignesAvantFiltrage}")

# Application du filtrage
EdStatsData = EdStatsData[colonnes_a_conserver].copy()

# Affichage après filtrage
colonneApresFiltrage = EdStatsData.shape[1]
lignesApresFiltrage = EdStatsData.shape[0]
print(f"Colonnes après filtrage : {colonneApresFiltrage}")
print(f"Lignes après filtrage : {lignesApresFiltrage}")
print(f"Colonnes années conservées : {len(colonnes_annees_selectionnees)} (2000-2015)")

# Vérification des colonnes conservées
print(f"\nColonnes finales dans EdStatsData :")
print(f"Non-années : {colonnes_non_annees}")
print(f"Années : {colonnes_annees_selectionnees}")


Colonnes avant filtrage : 69
Lignes avant filtrage : 654600
Colonnes après filtrage : 20
Lignes après filtrage : 654600
Colonnes années conservées : 16 (2000-2015)

Colonnes finales dans EdStatsData :
Non-années : ['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code']
Années : ['2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015']


## Étape 2 : Réduisez le périmètre en utilisant une approche data

**Résultats attendus:** 
- Du code et du markdown dans le même Jupyter Notebook, permettant de reproduire les réponses aux instructions ci-dessous.
- Une variable contenant une liste d’une quinzaine maximum d’indicateurs sélectionnés.

**Instructions:** 
- Pour chaque année, calculez la proportion d’indicateurs avec des valeurs renseignées (c’est-à-dire, non manquantes).
- Pour chaque indicateur, calculez la proportion d’années avec des valeurs renseignées.
- Sur la base des opérations précédentes, réduisez le nombre d’années et d’indicateurs pour garder celles et ceux qui sont les plus riches en données (et donc les plus utilisables pour la suite).
	- Identifiez les indicateurs particulièrement riches en données en calculant un dataframe contenant par indicateur et par année, le nombre de pays avec une valeur renseignée.
	- Triez ce dataframe par ordre décroissant de nombre de pays avec une valeur renseignée, afin d’obtenir les indicateurs les plus riches en données dans l’ensemble. 
	- Aidez-vous de ce dataframe pour sélectionner parmi les indicateurs les plus riches, une quinzaine qui font sens par rapport à la problématique métier. 

**Recommandations:**
- Servez-vous de la fonction groupby() que vous avez vue en cours pour faciliter le calcul des différentes proportions.
- Si vous vous sentez assez à l’aise avec Python, essayez de coder une fonction qui réalise ce calcul de proportion et de l’appliquer pour réaliser les 3 premières instructions.

**Points de vigilance:** 
- Même les indicateurs les plus riches en données peuvent probablement présenter un nombre assez important de valeurs manquantes. 
- Trouvez le juste équilibre entre quantité d’indicateurs, pertinence métier des indicateurs et complétude en données de ceux-ci.

In [93]:
# Identification des colonnes
colonnes_non_annees = ['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code']
colonnes_annees = [str(annee) for annee in range(2000, 2016)]  # 2000 à 2015 inclus

print(f"Colonnes non-années : {colonnes_non_annees}")
print(f"Colonnes années à analyser : {len(colonnes_annees)} colonnes (2000-2015)")

# Vérification de la structure du dataframe
print(f"\nStructure d'EdStatsData :")
print(f"  • Nombre total de lignes (indicateur-pays) : {EdStatsData.shape[0]:,}")
print(f"  • Nombre total de colonnes : {EdStatsData.shape[1]}")
print(f"  • Colonnes années disponibles : {len(colonnes_annees)}")

# Initialisation
richesse_par_annee = {}
total_indicateurs = EdStatsData.shape[0]

print(f"Nombre total d'indicateurs dans le dataset : {total_indicateurs:,}")
print("")

# Calcul pour chaque année
for annee in colonnes_annees:
    # Nombre d'indicateurs avec au moins une valeur non manquante pour cette année
    nb_non_manquant = EdStatsData[annee].notnull().sum()
    
    # Calcul de la proportion (pourcentage)
    proportion = (nb_non_manquant / total_indicateurs) * 100
    
    # Stockage du résultat
    richesse_par_annee[annee] = {
        'nb_indicateurs_remplis': nb_non_manquant,
        'proportion_pct': proportion
    }

print("\nRÉSULTATS DE L'ANALYSE DE RICHESSE PAR ANNÉE")
print("")

print(f"{'Année':<6} {'Indicateurs remplis':<18} {'Total':<8} {'Proportion (%)':<15}")
print("")

for annee in sorted(colonnes_annees):
    nb_rempli = richesse_par_annee[annee]['nb_indicateurs_remplis']
    proportion = richesse_par_annee[annee]['proportion_pct']
    
    print(f"{annee:<6} {nb_rempli:<18,} {total_indicateurs:<8,} {proportion:<15.2f}")


print(f"\nANALYSE STATISTIQUE")
print("")

# Conversion en Series pour faciliter l'analyse
proportions_series = pd.Series({annee: data['proportion_pct'] 
                                for annee, data in richesse_par_annee.items()})

print(f"Statistiques descriptives des proportions :")
print(f"  • Proportion moyenne : {proportions_series.mean():.2f}%")
print(f"  • Proportion médiane : {proportions_series.median():.2f}%")
print(f"  • Écart-type : {proportions_series.std():.2f}%")
print(f"  • Minimum : {proportions_series.min():.2f}% (année {proportions_series.idxmin()})")
print(f"  • Maximum : {proportions_series.max():.2f}% (année {proportions_series.idxmax()})")


print(f"\nIdentification des années les plus/moins riches")
print("")

# Tri par ordre décroissant de richesse
richesse_triee = proportions_series.sort_values(ascending=False)

print("Top 5 des années les plus riches en données :")
for i, (annee, proportion) in enumerate(richesse_triee.head(5).items(), 1):
    nb_rempli = richesse_par_annee[annee]['nb_indicateurs_remplis']
    print(f"  {i}. {annee} : {proportion:.2f}% ({nb_rempli:,} indicateurs)")

print("\nTop 5 des années les moins riches en données :")
for i, (annee, proportion) in enumerate(richesse_triee.tail(5).items(), 1):
    nb_rempli = richesse_par_annee[annee]['nb_indicateurs_remplis']
    print(f"  {i}. {annee} : {proportion:.2f}% ({nb_rempli:,} indicateurs)")


print("")

# Créer un DataFrame récapitulatif
df_richesse_annees = pd.DataFrame.from_dict(richesse_par_annee, orient='index')
df_richesse_annees.index.name = 'Annee'
df_richesse_annees = df_richesse_annees.reset_index()

print("DataFrame de synthèse créé : df_richesse_annees")
print(f"Contient : {len(df_richesse_annees)} lignes (une par année)")
print("Colonnes : Annee, nb_indicateurs_remplis, proportion_pct")

Colonnes non-années : ['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code']
Colonnes années à analyser : 16 colonnes (2000-2015)

Structure d'EdStatsData :
  • Nombre total de lignes (indicateur-pays) : 654,600
  • Nombre total de colonnes : 20
  • Colonnes années disponibles : 16
Nombre total d'indicateurs dans le dataset : 654,600


RÉSULTATS DE L'ANALYSE DE RICHESSE PAR ANNÉE

Année  Indicateurs remplis Total    Proportion (%) 

2000   149,395            654,600  22.82          
2001   97,192             654,600  14.85          
2002   98,000             654,600  14.97          
2003   104,212            654,600  15.92          
2004   102,335            654,600  15.63          
2005   156,874            654,600  23.96          
2006   113,584            654,600  17.35          
2007   109,821            654,600  16.78          
2008   106,832            654,600  16.32          
2009   113,987            654,600  17.41          
2010   211,045            654,600  32.2

Ces résultats valident le choix de la période 2000-2015

In [94]:
print("ANALYSE DE LA COMPLÉTUDE PAR INDICATEUR")
print()

def analyser_completude_par_indicateur(df, colonnes_annees, col_indicateur='Indicator Code'):
    """
    Calcule la proportion d'années avec au moins une valeur renseignée par indicateur
    """
    
    def completude_temporelle(group):
        # Pour chaque indicateur, vérifier la présence de données par année
        presence_par_annee = group[colonnes_annees].notna().any(axis=0)
        nb_annees_avec_donnees = presence_par_annee.sum()
        proportion_annees = (nb_annees_avec_donnees / len(colonnes_annees)) * 100
        
        return pd.Series({
            'Nb_Annees_Avec_Donnees': nb_annees_avec_donnees,
            'Total_Annees': len(colonnes_annees),
            'Taux_Completude_Temporelle_Pct': proportion_annees,
            'Nb_Lignes_Indicateur': len(group)  # Nombre de pays pour cet indicateur
        })
    
    return df.groupby(col_indicateur).apply(completude_temporelle)

# Application de l'analyse
df_completude_indicateurs = analyser_completude_par_indicateur(EdStatsData, colonnes_annees)

# Tri par taux de complétude décroissant
df_completude_indicateurs = df_completude_indicateurs.sort_values(
    'Taux_Completude_Temporelle_Pct', ascending=False
)

# Ajout des noms d'indicateurs depuis EdStatsSeries
df_completude_avec_noms = pd.merge(
    df_completude_indicateurs.reset_index(),
    EdStatsSeries[['Series Code', 'Indicator Name', 'Topic']].rename(columns={'Series Code': 'Indicator Code'}),
    on='Indicator Code',
    how='left'
).drop_duplicates(subset=['Indicator Code'])

# Classification des indicateurs
def classifier_indicateur(taux):
    if taux >= 80:
        return "Excellente (>= 80%)"
    elif taux >= 60:
        return "Bonne (60-79%)"
    elif taux >= 40:
        return "Moyenne (40-59%)"
    else:
        return "Insuffisante (< 40%)"

df_completude_avec_noms['Classification'] = df_completude_avec_noms['Taux_Completude_Temporelle_Pct'].apply(classifier_indicateur)

# Affichage des résultats
print("TOP 20 INDICATEURS PAR COMPLÉTUDE TEMPORELLE :")
top_20_indicateurs = df_completude_avec_noms.head(20)
for _, row in top_20_indicateurs.iterrows():
    print(f"• {row['Indicator Code'][:15]:<15} | {row['Taux_Completude_Temporelle_Pct']:>5.1f}% | {row['Classification']}")

print()

# Statistiques par classification
print("RÉPARTITION PAR CLASSIFICATION :")
classification_counts = df_completude_avec_noms['Classification'].value_counts()
for classification, count in classification_counts.items():
    pct = (count / len(df_completude_avec_noms)) * 100
    print(f"  {classification} : {count} indicateurs ({pct:.1f}%)")


ANALYSE DE LA COMPLÉTUDE PAR INDICATEUR

TOP 20 INDICATEURS PAR COMPLÉTUDE TEMPORELLE :
• UIS.XSPENDP.FDP | 100.0% | Excellente (>= 80%)
• UIS.XSPENDP.FDP | 100.0% | Excellente (>= 80%)
• UIS.XSPENDP.FDP | 100.0% | Excellente (>= 80%)
• UIS.XSPENDP.56. | 100.0% | Excellente (>= 80%)
• UIS.XSPENDP.56. | 100.0% | Excellente (>= 80%)
• SE.PRM.ENRL     | 100.0% | Excellente (>= 80%)
• SE.PRM.ENRL.FE  | 100.0% | Excellente (>= 80%)
• SE.PRM.ENRL.FE. | 100.0% | Excellente (>= 80%)
• SE.PRM.ENRL.TC. | 100.0% | Excellente (>= 80%)
• SE.PRM.ENRR     | 100.0% | Excellente (>= 80%)
• SE.PRM.ENRR.FE  | 100.0% | Excellente (>= 80%)
• SE.PRM.CMPL.FE. | 100.0% | Excellente (>= 80%)
• SE.PRM.CMPL.MA. | 100.0% | Excellente (>= 80%)
• SE.PRM.GINT.MA. | 100.0% | Excellente (>= 80%)
• SE.PRM.GINT.ZS  | 100.0% | Excellente (>= 80%)
• SE.PRM.NENR     | 100.0% | Excellente (>= 80%)
• SE.PRM.NENR.FE  | 100.0% | Excellente (>= 80%)
• SE.PRM.NENR.MA  | 100.0% | Excellente (>= 80%)
• SE.PRM.NINT.FE. | 100.0% | E

Les données EdStats suivent une logique "tout ou rien" - soit un indicateur est systématiquement collecté, soit il ne l'est pratiquement jamais.

In [95]:
print("CRÉATION DU DATAFRAME D'ANALYSE CROISÉE")
print()

def creer_dataframe_croise(df, colonnes_annees, col_indicateur='Indicator Code', col_pays='Country Code'):
    """
    Crée un DataFrame avec pour chaque couple (indicateur, année) le nombre de pays renseignés
    """
    resultats = []
    nb_total_pays = df[col_pays].nunique()
    
    print(f"Nombre total de pays dans le dataset : {nb_total_pays}")
    print("Construction du DataFrame croisé...")
    
    for indicateur in df[col_indicateur].unique():
        # Filtrer sur l'indicateur
        df_indicateur = df[df[col_indicateur] == indicateur]
        
        for annee in colonnes_annees:
            # Compter les pays avec valeur non manquante pour cet indicateur cette année
            nb_pays_renseignes = df_indicateur[annee].notna().sum()
            taux_couverture = (nb_pays_renseignes / nb_total_pays) * 100
            
            resultats.append({
                'Indicator Code': indicateur,
                'Annee': int(annee),
                'Nb_Pays_Renseignes': nb_pays_renseignes,
                'Total_Pays': nb_total_pays,
                'Taux_Couverture_Pct': taux_couverture
            })
    
    return pd.DataFrame(resultats)

# Création du DataFrame croisé
df_analyse_croisee = creer_dataframe_croise(EdStatsData, colonnes_annees)

print(f"DataFrame croisé créé : {len(df_analyse_croisee)} lignes")
print()

# Enrichissement avec métadonnées
df_analyse_enrichi = pd.merge(
    df_analyse_croisee,
    EdStatsSeries[['Series Code', 'Indicator Name', 'Topic']].rename(columns={'Series Code': 'Indicator Code'}),
    on='Indicator Code',
    how='left'
).drop_duplicates()

CRÉATION DU DATAFRAME D'ANALYSE CROISÉE

Nombre total de pays dans le dataset : 200
Construction du DataFrame croisé...
DataFrame croisé créé : 52368 lignes



In [96]:
print("APERÇU DU DATAFRAME CROISÉ :")
df_analyse_enrichi.head(10)

APERÇU DU DATAFRAME CROISÉ :


Unnamed: 0,Indicator Code,Annee,Nb_Pays_Renseignes,Total_Pays,Taux_Couverture_Pct,Indicator Name,Topic
0,UIS.NERA.2,2000,93,200,46.5,"Adjusted net enrolment rate, lower secondary, ...",Secondary
1,UIS.NERA.2,2001,98,200,49.0,"Adjusted net enrolment rate, lower secondary, ...",Secondary
2,UIS.NERA.2,2002,98,200,49.0,"Adjusted net enrolment rate, lower secondary, ...",Secondary
3,UIS.NERA.2,2003,91,200,45.5,"Adjusted net enrolment rate, lower secondary, ...",Secondary
4,UIS.NERA.2,2004,98,200,49.0,"Adjusted net enrolment rate, lower secondary, ...",Secondary
5,UIS.NERA.2,2005,102,200,51.0,"Adjusted net enrolment rate, lower secondary, ...",Secondary
6,UIS.NERA.2,2006,95,200,47.5,"Adjusted net enrolment rate, lower secondary, ...",Secondary
7,UIS.NERA.2,2007,101,200,50.5,"Adjusted net enrolment rate, lower secondary, ...",Secondary
8,UIS.NERA.2,2008,99,200,49.5,"Adjusted net enrolment rate, lower secondary, ...",Secondary
9,UIS.NERA.2,2009,109,200,54.5,"Adjusted net enrolment rate, lower secondary, ...",Secondary


In [97]:
# Calcul de statistiques agrégées par indicateur
print("CALCUL DES STATISTIQUES AGRÉGÉES PAR INDICATEUR...")

stats_par_indicateur = df_analyse_croisee.groupby('Indicator Code').agg({
    'Nb_Pays_Renseignes': ['sum', 'mean', 'median', 'min', 'max', 'std'],
    'Taux_Couverture_Pct': ['mean', 'median', 'min', 'max', 'std']
}).round(2)

# Aplatissement des colonnes multi-niveaux
stats_par_indicateur.columns = ['_'.join(col).strip() for col in stats_par_indicateur.columns]
stats_par_indicateur = stats_par_indicateur.reset_index()

print(f"Statistiques calculées pour {len(stats_par_indicateur)} indicateurs")

CALCUL DES STATISTIQUES AGRÉGÉES PAR INDICATEUR...
Statistiques calculées pour 3273 indicateurs


In [98]:
stats_par_indicateur.head(5)

Unnamed: 0,Indicator Code,Nb_Pays_Renseignes_sum,Nb_Pays_Renseignes_mean,Nb_Pays_Renseignes_median,Nb_Pays_Renseignes_min,Nb_Pays_Renseignes_max,Nb_Pays_Renseignes_std,Taux_Couverture_Pct_mean,Taux_Couverture_Pct_median,Taux_Couverture_Pct_min,Taux_Couverture_Pct_max,Taux_Couverture_Pct_std
0,BAR.NOED.1519.FE.ZS,426,26.62,0.0,0,142,57.24,13.31,0.0,0.0,71.0,28.62
1,BAR.NOED.1519.ZS,426,26.62,0.0,0,142,57.24,13.31,0.0,0.0,71.0,28.62
2,BAR.NOED.15UP.FE.ZS,426,26.62,0.0,0,142,57.24,13.31,0.0,0.0,71.0,28.62
3,BAR.NOED.15UP.ZS,426,26.62,0.0,0,142,57.24,13.31,0.0,0.0,71.0,28.62
4,BAR.NOED.2024.FE.ZS,426,26.62,0.0,0,142,57.24,13.31,0.0,0.0,71.0,28.62


In [99]:
print("TRI ET IDENTIFICATION DES INDICATEURS LES PLUS RICHES")
print()

def calculer_score_richesse(df_stats, seuil_pays_min=50):
    """
    Calcule un score composite de richesse des données
    """
    # Normalisation des métriques (0-1)
    df_score = df_stats.copy()
    
    # 1. Volume total de données (40% du score)
    volume_max = df_stats['Nb_Pays_Renseignes_sum'].max()
    df_score['Score_Volume'] = df_stats['Nb_Pays_Renseignes_sum'] / volume_max
    
    # 2. Régularité temporelle (35% du score)
    # Nombre d'années avec au moins X pays renseignés
    def regularite_temporelle(indicator_code):
        data_indicateur = df_analyse_croisee[df_analyse_croisee['Indicator Code'] == indicator_code]
        annees_suffisantes = (data_indicateur['Nb_Pays_Renseignes'] >= seuil_pays_min).sum()
        return annees_suffisantes / len(colonnes_annees)
    
    df_score['Score_Regularite'] = df_score['Indicator Code'].apply(regularite_temporelle)
    
    # 3. Couverture géographique moyenne (25% du score)
    df_score['Score_Couverture'] = df_stats['Taux_Couverture_Pct_mean'] / 100
    
    # Score composite
    df_score['Score_Richesse_Composite'] = (
        df_score['Score_Volume'] * 0.40 +
        df_score['Score_Regularite'] * 0.35 +
        df_score['Score_Couverture'] * 0.25
    )
    
    return df_score

# Calcul des scores
df_scores = calculer_score_richesse(stats_par_indicateur)

# Tri par score décroissant
df_scores = df_scores.sort_values('Score_Richesse_Composite', ascending=False)

# Ajout des métadonnées
df_scores_enrichi = pd.merge(
    df_scores,
    EdStatsSeries[['Series Code', 'Indicator Name', 'Topic']].rename(columns={'Series Code': 'Indicator Code'}),
    on='Indicator Code',
    how='left'
).drop_duplicates(subset=['Indicator Code'])

print("TOP 30 INDICATEURS LES PLUS RICHES EN DONNÉES :")
print()
top_30 = df_scores_enrichi.head(30)

for i, (_, row) in enumerate(top_30.iterrows(), 1):
    print(f"{i:2d}. {row['Indicator Code']:<20} | Score: {row['Score_Richesse_Composite']:.3f} | "
          f"Topic: {row['Topic']:<15} | Volume: {row['Nb_Pays_Renseignes_sum']:>5.0f}")

print()

# Analyse par Topic
print("RÉPARTITION DES TOP 30 PAR TOPIC :")
topic_counts = top_30['Topic'].value_counts()
for topic, count in topic_counts.items():
    print(f"  {topic:<25} : {count:2d} indicateurs")


TRI ET IDENTIFICATION DES INDICATEURS LES PLUS RICHES

TOP 30 INDICATEURS LES PLUS RICHES EN DONNÉES :

 1. SE.PRM.DURS          | Score: 0.999 | Topic: Primary         | Volume:  3184
 2. SE.PRM.AGES          | Score: 0.999 | Topic: Primary         | Volume:  3184
 3. SE.SEC.DURS          | Score: 0.995 | Topic: Secondary       | Volume:  3166
 4. SE.SEC.DURS.UP       | Score: 0.995 | Topic: Secondary       | Volume:  3166
 5. SE.SEC.AGES          | Score: 0.995 | Topic: Secondary       | Volume:  3166
 6. SP.SEC.UTOT.IN       | Score: 0.971 | Topic: Population      | Volume:  3048
 7. SP.SEC.LTOT.IN       | Score: 0.971 | Topic: Population      | Volume:  3046
 8. SP.SEC.TOTL.IN       | Score: 0.970 | Topic: Population      | Volume:  3043
 9. SP.PRE.TOTL.IN       | Score: 0.970 | Topic: Population      | Volume:  3042
10. SP.SEC.UTOT.FE.IN    | Score: 0.968 | Topic: Population      | Volume:  3034
11. SP.SEC.UTOT.MA.IN    | Score: 0.968 | Topic: Population      | Volume:  3034
12. S

**Le classement purement quantitatif révèle un biais majeur :**

83% d'indicateurs démographiques dans le Top 30 (25/30)

Seulement 17% d'indicateurs éducatifs proprement dits (5/30)

Sur-représentation des indicateurs de population scolaire au détriment de la qualité éducative

Explication : Les données démographiques (SP.* et UIS.SAP.*) sont plus facilement collectées que les indicateurs de performance éducative, créant un biais vers les métriques de volume plutôt que de qualité.

Nécessité de rééquilibrage pour corriger ce déséquilibre métier.

In [100]:
print("SÉLECTION FINALE ÉQUILIBRÉE (DATA + MÉTIER)")

# Sélection manuelle des 15 meilleurs indicateurs du top_30
# en privilégiant la diversité métier

# Récupération des métadonnées depuis EdStatsSeries
def obtenir_metadata(indicator_code):
    try:
        metadata = EdStatsSeries[EdStatsSeries['Series Code'] == indicator_code]
        if len(metadata) > 0:
            return {
                'name': metadata.iloc[0]['Indicator Name'],
                'topic': metadata.iloc[0]['Topic']
            }
        else:
            return {'name': 'Non trouvé', 'topic': 'Inconnu'}
    except:
        return {'name': 'Erreur', 'topic': 'Erreur'}

# Extraction des codes du top 30
if 'Indicator Code' in top_30.columns:
    codes_candidats = top_30['Indicator Code'].tolist()
else:
    codes_candidats = top_30.index.tolist()

print(f"Codes candidats extraits : {len(codes_candidats)}")

# Sélection manuelle équilibrée
indicateurs_selectionnes_manuel = []
topics_representes = {}

# Priorité aux indicateurs éducatifs non-démographiques
for code in codes_candidats:
    if len(indicateurs_selectionnes_manuel) >= 15:
        break
        
    metadata = obtenir_metadata(code)
    name_lower = metadata['name'].lower()
    topic = metadata['topic']
    
    # Éviter la sur-représentation démographique
    if topic == 'Population' and len([t for t in topics_representes if t == 'Population']) >= 2:
        continue
    
    # Privilégier les indicateurs EdTech pertinents
    if any(term in name_lower for term in ['secondary', 'tertiary', 'completion', 'teacher', 'literacy']):
        indicateurs_selectionnes_manuel.append(code)
        topics_representes[topic] = topics_representes.get(topic, 0) + 1
    elif len(indicateurs_selectionnes_manuel) < 10:  # Compléter si pas assez d'indicateurs spécialisés
        indicateurs_selectionnes_manuel.append(code)
        topics_representes[topic] = topics_representes.get(topic, 0) + 1

print(f"SÉLECTION MANUELLE TERMINÉE : {len(indicateurs_selectionnes_manuel)} indicateurs")

# Affichage de la sélection
print("\nINDICATEURS SÉLECTIONNÉS (VERSION MANUELLE) :")
for i, code in enumerate(indicateurs_selectionnes_manuel, 1):
    metadata = obtenir_metadata(code)
    print(f"{i:2d}. {code}")
    print(f"    Nom : {metadata['name'][:70]}...")
    print(f"    Topic : {metadata['topic']}")
    print()

# Variable finale
indicateurs_finaux = indicateurs_selectionnes_manuel


SÉLECTION FINALE ÉQUILIBRÉE (DATA + MÉTIER)
Codes candidats extraits : 30
SÉLECTION MANUELLE TERMINÉE : 15 indicateurs

INDICATEURS SÉLECTIONNÉS (VERSION MANUELLE) :
 1. SE.PRM.DURS
    Nom : Theoretical duration of primary education (years)...
    Topic : Primary

 2. SE.PRM.AGES
    Nom : Official entrance age to primary education (years)...
    Topic : Primary

 3. SE.SEC.DURS
    Nom : Theoretical duration of secondary education (years)...
    Topic : Secondary

 4. SE.SEC.DURS.UP
    Nom : Theoretical duration of upper secondary education (years)...
    Topic : Secondary

 5. SE.SEC.AGES
    Nom : Official entrance age to lower secondary education (years)...
    Topic : Secondary

 6. SP.SEC.UTOT.IN
    Nom : Population of the official age for upper secondary education, both sex...
    Topic : Population

 7. SP.SEC.LTOT.IN
    Nom : Population of the official age for lower secondary education, both sex...
    Topic : Population

 8. SP.SEC.TOTL.IN
    Nom : Population of the offi

In [None]:
print("DOCUMENTATION ET VALIDATION ADAPTÉE")
print()

# Création de la variable finale avec analyse critique
indicateurs_selectionnes = [
    'SE.PRM.DURS',          # Structure - Durée primaire
    'SE.PRM.AGES',          # Structure - Âge entrée primaire  
    'SE.SEC.DURS',          # Structure - Durée secondaire
    'SE.SEC.DURS.UP',       # Structure - Durée secondaire supérieur
    'SE.SEC.AGES',          # Structure - Âge entrée secondaire
    'SP.SEC.UTOT.IN',       # Démographie - Population secondaire supérieur
    'SP.SEC.LTOT.IN',       # Démographie - Population secondaire inférieur
    'SP.SEC.TOTL.IN',       # Démographie - Population secondaire total
    'SP.PRE.TOTL.IN',       # Démographie - Population pré-primaire
    'SP.SEC.UTOT.FE.IN',    # Démographie - Population secondaire sup. féminine
    'SP.SEC.UTOT.MA.IN',    # Démographie - Population secondaire sup. masculine
    'SP.SEC.LTOT.FE.IN',    # Démographie - Population secondaire inf. féminine
    'SP.SEC.LTOT.MA.IN',    # Démographie - Population secondaire inf. masculine
    'SP.SEC.TOTL.MA.IN',    # Démographie - Population secondaire masculine
    'SP.SEC.TOTL.FE.IN'     # Démographie - Population secondaire féminine
]

print("VARIABLE FINALE POUR LE PROJET :")
print()
print("# === INDICATEURS SÉLECTIONNÉS ===")
print("# ATTENTION : Sélection contrainte par la qualité des données")
print("# Focus sur structure éducative et démographie scolaire")
print("# Manque d'indicateurs de performance et qualité éducative")
print()
print("indicateurs_selectionnes = [")

# Affichage organisé par catégorie
print("    # === STRUCTURE DES SYSTÈMES ÉDUCATIFS ===")
structure_indicators = indicateurs_selectionnes[:5]
for code in structure_indicators:
    metadata = obtenir_metadata(code)
    print(f"    '{code}',  # {metadata['topic']} - {metadata['name'][:40]}...")

print()
print("    # === DÉMOGRAPHIE SCOLAIRE ===")
demo_indicators = indicateurs_selectionnes[5:]
for code in demo_indicators:
    metadata = obtenir_metadata(code)
    print(f"    '{code}',  # {metadata['topic']} - {metadata['name'][:40]}...")

print("]")
print()

# Analyse critique de la sélection
print("ANALYSE CRITIQUE DE LA SÉLECTION :")
print()

# Répartition par type d'information
categories_info = {
    'Structure éducative': len(structure_indicators),
    'Démographie scolaire': len(demo_indicators)
}

print("Répartition par type d'information :")
for categorie, count in categories_info.items():
    pct = (count / len(indicateurs_selectionnes)) * 100
    print(f"  • {categorie:<20} : {count:2d} indicateurs ({pct:.1f}%)")

print()

# Topics representation
topics_count = {'Primary': 2, 'Secondary': 3, 'Population': 10}
print("Répartition par Topic EdStats :")
for topic, count in topics_count.items():
    pct = (count / len(indicateurs_selectionnes)) * 100
    status = "🔴 SURREPRÉSENTÉ" if pct > 50 else "🟡 NORMAL" if pct > 20 else "🟢 ÉQUILIBRÉ"
    print(f"  • {topic:<12} : {count:2d} indicateurs ({pct:.1f}%) {status}")

print()

# Validation des capacités d'analyse
print("CAPACITÉS D'ANALYSE AVEC CETTE SÉLECTION :")
print()

capacites_disponibles = [
    "Comprendre la structure des systèmes éducatifs (durées, âges)",
    "Évaluer la taille des marchés potentiels (démographie scolaire)", 
    "Analyser les différences de genre dans la démographie",
    "Comparer l'organisation éducative entre pays"
]

capacites_manquantes = [
    "Évaluer la qualité des systèmes éducatifs",
    "Mesurer les performances d'apprentissage", 
    "Analyser l'accès réel à l'éducation (taux de scolarisation)",
    "Identifier les inégalités éducatives",
    "Évaluer la qualification des enseignants",
    "Mesurer les investissements éducatifs"
]

print("CAPACITÉS DISPONIBLES :")
for capacite in capacites_disponibles:
    print(f"  {capacite}")

print()
print("CAPACITÉS MANQUANTES (CRITIQUES POUR EDTECH) :")
for capacite in capacites_manquantes:
    print(f"  {capacite}")

print()

# Implications pour la stratégie EdTech
print("IMPLICATIONS POUR LA STRATÉGIE D'EXPANSION EDTECH :")
print()

implications_positives = [
    "Identification des pays avec systèmes éducatifs structurés",
    "Quantification des marchés potentiels par niveau scolaire",
    "Analyse des équilibres de genre dans l'éducation",
    "Cartographie comparative des systèmes éducatifs mondiaux"
]

limitations_strategiques = [
    "Impossible d'identifier les pays avec de réels besoins qualité",
    "Pas d'évaluation du niveau éducatif des populations",
    "Manque d'indicateurs sur la capacité d'adoption technologique",
    "Absence de métriques sur l'efficacité éducative"
]

print("OPPORTUNITÉS IDENTIFIABLES :")
for implication in implications_positives:
    print(f"  {implication}")

print()
print("LIMITATIONS STRATÉGIQUES :")
for limitation in limitations_strategiques:
    print(f"  {limitation}")

print()

# Recommandations compensatoires
print("RECOMMANDATIONS POUR COMPENSER LES LIMITATIONS :")
print()

recommandations = [
    "1. ENRICHISSEMENT DES DONNÉES",
    "   • Rechercher des sources complémentaires (UNESCO, OCDE)",
    "   • Intégrer des indicateurs de développement économique",
    "   • Ajouter des métriques technologiques (pénétration internet, mobile)",
    "",
    "2. STRATÉGIE D'ANALYSE ADAPTÉE", 
    "   • Focus sur la structure et la taille des marchés",
    "   • Utiliser les indicateurs démographiques comme proxy de potentiel",
    "   • Croiser avec des données externes de qualité éducative",
    "",
    "3. SEGMENTATION PRAGMATIQUE",
    "   • Prioriser les pays avec systèmes structurés (durées cohérentes)",
    "   • Cibler les marchés avec forte démographie secondaire/tertiaire",
    "   • Identifier les pays avec équilibre de genre favorable",
    "",
    "4. VALIDATION TERRAIN",
    "   • Prévoir des études complémentaires pour les pays sélectionnés",
    "   • Valider les hypothèses par des données locales",
    "   • Tester la réceptivité EdTech par marché pilote"
]

for recommandation in recommandations:
    print(f"  {recommandation}")

print()

# Synthèse finale
print("SYNTHÈSE FINALE :")
print()
print("SITUATION : Sélection contrainte par la qualité limitée des données EdStats")
print("IMPACT : Analyse focalisée sur structure et démographie plutôt que performance")
print("STRATÉGIE : Approche pragmatique avec enrichissement de données externe")
print("OBJECTIF : Identifier des marchés structurés à fort potentiel démographique")
print()

# Sauvegarde des résultats avec métadonnées critiques
resultats_etape2_final = {
    'indicateurs_selectionnes': indicateurs_selectionnes,
    'limitations_identifiees': {
        'surreprésentation_démographique': True,
        'manque_indicateurs_performance': True,
        'absence_indicateurs_qualité': True
    },
    'capacites_analyse': {
        'structure_systemes': True,
        'demographie_scolaire': True,
        'comparaison_pays': True,
        'evaluation_qualite': False,
        'mesure_performance': False
    },
    'recommandations_compensatoires': recommandations
}

print("ÉTAPE 2 DOCUMENTÉE AVEC ANALYSE CRITIQUE")
print("Variable 'indicateurs_selectionnes' prête avec limitations documentées")
print("Résultats sauvegardés dans 'resultats_etape2_final'")
print()

DOCUMENTATION ET VALIDATION ADAPTÉE

VARIABLE FINALE POUR LE PROJET (VERSION CONTRAINTE) :

# === INDICATEURS SÉLECTIONNÉS - VERSION SIMPLIFIÉE ===
# ATTENTION : Sélection contrainte par la qualité des données
# Focus sur structure éducative et démographie scolaire
# Manque d'indicateurs de performance et qualité éducative

indicateurs_selectionnes = [
    # === STRUCTURE DES SYSTÈMES ÉDUCATIFS ===
    'SE.PRM.DURS',  # Primary - Theoretical duration of primary educatio...
    'SE.PRM.AGES',  # Primary - Official entrance age to primary educati...
    'SE.SEC.DURS',  # Secondary - Theoretical duration of secondary educat...
    'SE.SEC.DURS.UP',  # Secondary - Theoretical duration of upper secondary ...
    'SE.SEC.AGES',  # Secondary - Official entrance age to lower secondary...

    # === DÉMOGRAPHIE SCOLAIRE ===
    'SP.SEC.UTOT.IN',  # Population - Population of the official age for upper...
    'SP.SEC.LTOT.IN',  # Population - Population of the official age for lower...
    'SP.S

## Étape 3 : Consolidez vos résultats dans un dataframe (pays, indicateurs)

**Résultats attendus:**
- Du code et du markdown dans le même jupyter notebook, permettant de reproduire les réponses aux instructions ci-dessous.
- Un dataframe avec la structure décrite dans la deuxième instruction. 

**Instructions:**
- Filtrez votre dataframe Data pour ne garder que les indicateurs, pays et années que vous avez jugé pertinents sur la base de vos analyses précédentes.
- Agrégez ce dataframe pour en construire un nouveau : chaque ligne doit correspondre à un pays et chaque colonne doit correspondre à un indicateur.

**Recommendations:** 
- Le dataframe Data que vous avez est à la maille (indicateur, année, pays), vu le format du dataframe demandé, vous devez agréger les années pour chaque pays et indicateur. La méthode la plus simple ici est d’utiliser pivot_table() et non groupby() (également possible, mais plus complexe).
- Réfléchissez à comment vous voulez résumer vos années en une seule statistique agrégée. Plusieurs choix sont possibles : moyenne, médiane, moyenne pondérée etc.  

**Points de vigilance:** 
- Si vous avez bien mené votre analyse jusqu’à présent, vous ne devriez pas avoir beaucoup de combinaisons (pays, indicateurs) avec trop peu d'années renseignées. 
- Le cas inverse poserait problème, car calculer des moyennes sur une année ou deux serait beaucoup moins fiable que d’en calculer sur quatre ou cinq. Demandez conseil à votre mentor si c‘est le cas. 

In [105]:
print(f"Nombre de lignes dans EdStatsData : {EdStatsData.shape[0]}")
print(f"Nombre de colonnes dans EdStatsData : {EdStatsData.shape[1]}")
EdStatsData.dtypes

Nombre de lignes dans EdStatsData : 654600
Nombre de colonnes dans EdStatsData : 20


Country Name       object
Country Code       object
Indicator Name     object
Indicator Code     object
2000              float64
2001              float64
2002              float64
2003              float64
2004              float64
2005              float64
2006              float64
2007              float64
2008              float64
2009              float64
2010              float64
2011              float64
2012              float64
2013              float64
2014              float64
2015              float64
dtype: object

In [121]:
# Liste de tes indicateurs
indicateurs_selectionnes = [
    'SE.PRM.DURS',
    'SE.PRM.AGES',
    'SE.SEC.DURS',
    'SE.SEC.DURS.UP',
    'SE.SEC.AGES',
    'SP.SEC.UTOT.IN',
    'SP.SEC.LTOT.IN',
    'SP.SEC.TOTL.IN',
    'SP.PRE.TOTL.IN',
    'SP.SEC.UTOT.FE.IN',
    'SP.SEC.UTOT.MA.IN',
    'SP.SEC.LTOT.FE.IN',
    'SP.SEC.LTOT.MA.IN',
    'SP.SEC.TOTL.MA.IN',
    'SP.SEC.TOTL.FE.IN'
]

# 1. Sélection des indicateurs d’intérêt
df_sel = EdStatsData[EdStatsData['Indicator Code'].isin(indicateurs_selectionnes)]

# 2. Melt : on récupère Country, Indicator et on transforme les colonnes années en valeurs d'une seule colonne Year
df_long = df_sel.melt(
    id_vars=['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code'],
    value_vars=[str(y) for y in range(2000, 2016)],
    var_name='Year',
    value_name='Value'
)

# 3. Vérification du nombre de valeurs par (pays, indicateur) avant pivot + agrégation
counts = df_long.groupby(['Country Name', 'Indicator Code'])['Value'].count()
print(f"\nNombre de lignes dans df_long : {df_long.shape[0]}")
print(f"Nombre de valeurs par (pays, indicateur) : {counts.describe()}\n")

# 4. Pivot + agrégation (moyenne sur toutes les années disponibles)
df_pays_indics = df_long.pivot_table(
    index='Country Name',
    columns='Indicator Code',
    values='Value',
    aggfunc='mean'   # ou 'median', ou une fonction custom
).reset_index()


Nombre de lignes dans df_long : 48000
Nombre de valeurs par (pays, indicateur) : count    3000.000000
mean       15.411667
std         2.793707
min         0.000000
25%        16.000000
50%        16.000000
75%        16.000000
max        16.000000
Name: Value, dtype: float64



On peut supprimer les 25% restants qui ont moins de 16 années.

In [128]:
# Étape 1 : calcul du nombre de valeurs non-nulles par série (pays, indicateur)
valid_counts = df_long.groupby(['Country Name', 'Indicator Code'])['Value'].transform('count')
n_avant = df_long.shape[0]

# Étape 2 : suppression des lignes appartenant à des séries incomplètes (< 16 valeurs)
df_long = df_long[valid_counts == 16].copy()

# Étape 3 (optionnel) : contrôle
n_apres = df_long.shape[0]
print(f"Lignes avant filtrage : {n_avant}")
print(f"Lignes après filtrage : {n_apres}")
print(f"Réduction : {n_avant - n_apres} lignes supprimées")

Lignes avant filtrage : 48000
Lignes après filtrage : 45184
Réduction : 2816 lignes supprimées


# **Projet 2 - Exercice 3**

Vous avez désormais réduit votre périmètre en utilisant votre compréhension de la problématique métier et en évaluant la qualité de vos jeux de données. Vous pouvez maintenant vous concentrer sur l’analyse des indicateurs sélectionnés et répondre enfin à la demande de Mark.

Cet exercice vous guide pour mener des analyses statistiques univariées et bivariées, formaliser votre travail et le rendre utilisable par vos collègues si besoin.

## Étape 1 : Identifiez les indicateurs redondants d'un point de vue statistique

**Résultats attendus**

- Un dataframe où une ligne correspond à un pays et une colonne à un indicateur. Seuls des indicateurs assez faiblement corrélés entre eux doivent être présents (moins de 70% en valeur absolue du coefficient de corrélation que vous choisissez).
- Code + Markdown pour reproduire les analyses des instructions ci-dessous

**Instructions**
- Calculez une matrice de corrélation entre l’ensemble des indicateurs en utilisant la méthode de Pearson puis de Spearman (consultez le lien dans les ressources ci-dessous si besoin)
- Visualisez les résultats avec une heatmap.
- Supprimez les indicateurs excessivement corrélés (donc redondants).

**Recommandations**
- Utilisez la méthode corr() de Pandas pour calculer directement la matrice, ainsi que la fonction heatmap() de la librairie Seaborn pour visualiser clairement les résultats.
- Comprenez bien les limites du coefficient de corrélation de Pearson et de Spearman pour bien interpréter vos résultats (quand ne peut-on pas les utiliser ? qu'est-ce qu'ils disent ? et surtout qu'est-ce qu'ils ne disent pas ?)
- Pour choisir entre deux indicateurs très corrélés, gardez le plus pertinent quant à la problématique métier.
- Si vous êtes déjà à l’aise avec ce type d’analyse, utilisez la méthode pairplot() de la librairie Seaborn pour avoir une version plus “détaillée” de ce qui se passe derrière une matrice de corrélation.

**Points de vigilance**  
- Attention, si vous avez un indicateur non renseigné pour un pays, la matrice de corrélation ignorera automatiquement ce pays, et réduira la quantité de données utilisée pour le calcul des matrices, ce qui peut biaiser les résultats. 
- Assurez-vous donc d’avoir bien travaillé votre gestion des valeurs manquantes en amont.

## Étape 2 : Analysez vos indicateurs restants et formulez une liste de pays pertinents pour l'implantation d'Académy

**Résultats attendus**
- Un dataframe où une ligne correspond à un pays et une colonne à un indicateur. Seuls des indicateurs faiblement corrélés entre eux doivent être présents.
- La liste pertinente de pays selon vos analyses pour répondre à la demande de Mark (sous format liste ou dataframe).
- Code + Markdown pour reproduire les analyses des instructions ci-dessous.

**Instructions**
- Choisissez un indicateur (celui que vous voulez) et calculez ses statistiques descriptives basiques puis tracez sa distribution
- Réécrivez le code de l’instruction ci-dessus dans une fonction, et appliquezla à l’ensemble des autres indicateurs via une boucle for.
- Interprétez la distribution pour chaque indicateur.
- Proposez une méthode quantitative, sur la base des indicateurs, pour sélectionner des pays et répondre à la demande de Mark  

**Recommandations**
- Utilisez :
	- la méthode describe() de Pandas pour calculer les statistiques descriptives ; 
	- la fonction displot() de la librairie Seaborn pour visualiser clairement les distributions des indicateurs.
- Vous devez comprendre chaque ligne du describe() (en particulier les quantiles qui vous aident à mieux comprendre la distribution de votre indicateur).
- Si vos graphiques sont trop petits, configurez leur taille en intégrant la ligne de code plt.figure(figsize=(nombre_1,nombre_2)) juste avant votre graphique Seaborn (plt représente la librairie matplotlib.pyplot).
- Un exemple de méthode quantitative serait de prendre le top 5 de pays par indicateur, et de calculer le nombre de pays communs entre plusieurs top 5. Vous pouvez également envisager des moyennes pondérées des différents indicateurs (en fixant les poids selon votre compréhension métier de l’importance des indicateurs).

## Étape 3 : Formalisez vos résultats

**Résultat attendu**
- Une présentation au format Gslides ou power Point claire et professionnelle sur un support avec :
	- les résultats de l’analyse exploratoire ;
	- vos conclusions quant à la pertinence de l’usage du jeu de données pour répondre aux questions stratégiques que se pose l’entreprise.

**Recommandations** 
- Partez du principe que l’audience ne suit le sujet que de loin, c’est d’ailleurs souvent le cas en entreprise. Certaines informations (comme le contenu de chaque jeu de données, et leur taille) vous paraissent évident à ce stade à force d’analyser les données. Toutefois, il est toujours mieux de consacrer une slide à la présentation des jeux de données pour situer le contexte de toutes les analyses qui suivent.
- Expliquez la méthodologie et les hypothèses utilisées pour assainir le jeu de données et réduire le nombre d’indicateurs.
- Pour vos différents graphiques, assurez-vous d’avoir des screenshots avec des axes X et Y et du texte clair et lisible.
- Prenez du recul sur les données pour apporter des pistes de réponses concrètes à la problématique d’expansion initialement présentée par votre manager.
- Vous devez connaître le sens métier des indicateurs finaux que vous allez recommander pour l’expansion à l’international.
- Mettez en place une logique de storytelling :
	- Veillez à ne pas présenter vos résultats de façon scolaire.
	- Essayez de les rendre les plus intelligibles possibles et accessibles aux personnes non techniques.
- Essayez au maximum d’adopter une posture de professionnel de la data en poste qui présenterait ses résultats : soignez donc la présentation en conséquence.

## Étape 4 : Rendez vos analyses et vos résultats reproductibles par vos collègues
**Instructions**
- Suivez étape par étape ce tutoriel pour : 
	- comprendre comment créer un environnement virtuel ;
	- créer celui-ci avec un fichier pyproject.toml pour rendre votre projet reproductible.

**Résultat attendu**
-  Un fichier pyproject.toml contenant toutes les librairies nécessaires pour réaliser vos analyses.

**Recommandations**
- Demandez à votre mentor de vous tester en vous posant des questions afin de vous habituer à argumenter pour y répondre.
- Soyez prêt à justifier et à présenter votre méthodologie (étapes, outils, cohérence des résultats).