# Importation de bibliothèques 

In [None]:
import pandas as pd

# Partie 1: 
## Etape 1 : Chargement et aperçu des données
Le fichier CSV a été chargé dans un DataFrame df1 à l’aide de pd.read_csv(). Un aperçu des 10 premières lignes a été affiché pour avoir une première idée de la structure : chaque ligne représente un pays.

## Étape 2 : Analyse préliminaire
Dimensions du jeu de données

On utilise .shape pour afficher le nombre total de lignes et de colonnes. Cela permet de connaître la taille globale du DataFrame.

-Recherche de doublons

Grâce à .duplicated().sum(), on a identifié le nombre de doublons complets.

Si des doublons existent, ils sont supprimés avec .drop_duplicates().

-Valeurs manquantes

-La proportion de valeurs manquantes par colonne a été calculée avec .isna().mean(). Cela permet de repérer les colonnes peu informatives ou inexploitables.

-Colonnes inutiles

On a vérifié si une colonne appelée 'Unnamed: 31' (souvent issue d’un export Excel mal nettoyé) est présente. Si elle est entièrement vide ou non pertinente, elle est supprimée.

-Types des données

On examine les types (dtypes) pour identifier les colonnes numériques et catégorielles.

-Statistiques descriptives

Pour les colonnes numériques, .describe() donne des informations comme la moyenne, l’écart-type, les quartiles, etc.

-Occurrences des catégories

Pour chaque colonne de type object, on affiche les occurrences de chaque valeur avec value_counts(). Cela aide à comprendre la distribution des données textuelles.
## Étape 3 : Nettoyage approfondi
Inspection de la colonne "Region"

On utilise .unique() pour afficher toutes les valeurs uniques dans la colonne "Region".

-Identification des faux pays

Les "faux pays" sont ceux qui n’ont pas de région renseignée (NaN dans "Region"). On extrait leur code via la colonne "Country Code".

-Filtrage du DataFrame

On crée un nouveau DataFrame df_vrai_pays en excluant les lignes correspondant aux faux pays, à l’aide d’un filtre sur "Country Code".



## Fichier EdStatsCountry

In [None]:
# Chargement du fichier
df1 = pd.read_csv('EdStatsCountry.csv')

# Aperçu des premières lignes : un ligne = un pays
display(df1.head(10))

# 1. Nombre de lignes et colonnes
dim_df1 = df1.shape
print("Le nombre de lignes et de colonnes dans df1 est :", dim_df1)

# 2. Nombre de doublons
df1_doublons = df1.duplicated().sum()
print("Le nombre de doublons dans df1 est :", df1_doublons)

# 3. Suppression des doublons (si présents)
if df1_doublons > 0:
    df1 = df1.drop_duplicates()

# 4. Proportion de valeurs manquantes par colonne
print("Proportion de valeurs manquantes par colonne :")
print(df1.isna().mean().sort_values(ascending=False))

#  5. Identifier les colonnes inutilisables (ex. entièrement vides)
print("Types des colonnes :")
print(df1.dtypes)

# Suppression des colonnes vides ou sans information utile
if 'Unnamed: 31' in df1.columns:
    display(df1['Unnamed: 31'])  # Vérification visuelle (souvent NaN)
    df1 = df1.drop(columns=['Unnamed: 31'])

# 6. Statistiques descriptives pour les colonnes numériques
print("Statistiques descriptives des colonnes numériques :")
print(df1.describe())

# 7. Occurrences pour chaque valeur des colonnes catégorielles
print("Valeurs uniques pour les colonnes catégorielles :")
for col in df1.select_dtypes(include='object').columns:
    print(f"Occurrences pour la colonne '{col}' :")
    print(df1[col].value_counts(dropna=False))  # inclut les NaN
    print("-------------")
## Etape 3 : nettoyage ###
# Vérifions les valeurs uniques dans la colonne "Region"
print(df1['Region'].unique())
## Faux pays : ceux qui n'ont pas de vraix regions
faux_pays = df1[df1['Region'].isna()]['Country Code'].tolist()
print("Faux pays détectés :", faux_pays)
df_vrai_pays =df1[~df1['Country Code'].isin(faux_pays)]

## Fichier EdStatsCountry

In [None]:
#chargement du fichier 
df2 = pd.read_csv('EdStatsCountry-Series.csv')  
#Aperçu des premières lignes : table de correspondance, un ligne représente une combinaison des deux (pays/indicateur )
df2.head()
# 1. Nombre de lignes et colonnes 
dim_df2 = df2.shape
print("le nombre de ligne et colone de data Frame 2 df2 est :" ,dim_df2)
# 2. Nombre de doublons
df2_doublons=df2.duplicated().sum()
print ('le nombre de doublons dans la data frame 2 est :',df2_doublons)
# 3. Suppression des doublons (si présents)
if df2_doublons > 0 :
   df2=df2.drop_duplicates() 
   print(f"{df2_doublons} doublons supprimés.")
# 4. Proportion de valeurs manquantes par colonne
print("Proportion de valeurs manquantes par colonne :")
print(df2.isna().mean().sort_values(ascending=False))

#  5. Identifier les colonnes inutilisables (ex. entièrement vides)
print("Types des colonnes :")
print(df2.dtypes)

# Suppression des colonnes vides ou sans information utile
cols_to_drop = df2.columns[df2.isna().mean() > 0.95]
df2.drop(columns=cols_to_drop, inplace=True)

# 6. Statistiques descriptives pour les colonnes numériques
print("Statistiques descriptives des colonnes numériques :")
print(df2.describe())

# 7. Occurrences pour chaque valeur des colonnes catégorielles
print("Valeurs uniques pour les colonnes catégorielles :")
for col in df2.select_dtypes(include='object').columns:
    print(f"Occurrences pour la colonne '{col}' :")
    print(df2[col].value_counts(dropna=False))  # inclut les NaN
    print("-------------")
    
### Nettoyage de country df2 -1er méthode  ###
df2_vrai_pays =df2[~df2['CountryCode'].isin(faux_pays)]

### Nettoyage pays -2eme méthode  ###
df2_data_clean = df2.merge(df_vrai_pays, left_on='CountryCode',right_on='Country Code' ,how='inner')
display(df2.shape[0])
display(df2_data_clean.shape[0])
display(df2_vrai_pays.shape[0])


## Fichier EdStatsData

In [None]:
# chargement du fichier  df3
df3 = pd.read_csv('EdStatsData.csv') 
# Aperçu des premières lignes : Contient les données réelles chiffrées (les valeurs) par pays, indicateur et année
display(df3.head())
# 1. Nombre de lignes et colonnes
dim_df3 = df3.shape
print("le nombre de ligne et colone de data Frame 3 df3 est :" ,dim_df3)
# 2. Nombre de doublons
df3_doublons=df3.duplicated().sum()
print ('le nombre de doublons dans la data frame 3 est :',df3_doublons)

# 3. Suppression des doublons (si présents)

if df3_doublons > 0 :
   df3=df3.drop_duplicates() 
   print(f"{df3_doublons} doublons supprimés.")
    
# 4. Proportion de valeurs manquantes par colonne

print("Proportion de valeurs manquantes par colonne :")
print(df3.isna().mean().sort_values(ascending=False))

#  5. Identifier les colonnes inutilisables (ex. entièrement vides)
print("Types des colonnes :")
print(df3.dtypes)

# Suppression des colonnes vides ou sans information utile
cols_to_drop = df3.columns[df3.isna().mean() > 0.95]
df3.drop(columns=cols_to_drop, inplace=True)

# 6. Statistiques descriptives pour les colonnes numériques
print("Statistiques descriptives des colonnes numériques :")
print(df3.describe())

# 7. Occurrences pour chaque valeur des colonnes catégorielles
print("Valeurs uniques pour les colonnes catégorielles :")
for col in df3.select_dtypes(include='object').columns:
    print(f"Occurrences pour la colonne '{col}' :")
    print(df3[col].value_counts(dropna=True))  # non inclut les NaN
    print("-------------")
  

Nettoyage des pays non valides du fichier EdStatsData
Objectif
Éliminer les lignes du dataframe df3 correspondant à des entités qui ne sont pas de vrais pays (ex. zones géographiques, agrégats régionaux, etc.).

Méthode 1 : Filtrage avec isin() et une liste de faux pays
Une liste de faux pays (faux_pays) a été définie manuellement après l'exploration du fichier Country.

On utilise isin() combiné à ~ pour exclure les lignes où la colonne Country Code fait partie de cette liste.

Cela permet de conserver uniquement les données relatives à de vrais pays.

df3_vrai_pays = df3[~df3['Country Code'].isin(faux_pays)]

==>Cette méthode est directe et flexible, surtout si l'on a déjà une liste précise des codes à exclure.

Méthode 2 : Jointure avec la table des pays valides
Une table nettoyée contenant uniquement les vrais pays (df_vrai_pays) a été créée à partir du fichier Country.

On effectue une jointure interne (inner join) entre cette table et df3 sur la colonne Country Code.

Seules les lignes correspondant à des pays présents dans df_vrai_pays sont conservées.

df3_data_clean = df3.merge(df_vrai_pays[['Country Code']], on='Country Code', how='inner')
==> Cette méthode est plus robuste si la table des vrais pays a été validée correctement, et permet d'automatiser le nettoyage sur plusieurs fichiers.

In [None]:
### Nettoyage pays -1er méthode  ###
#Avant filtrage
display(df3.shape)
df3_vrai_pays =df3[~df3['Country Code'].isin(faux_pays)]
#Aprés filtrage: 
display(df3_vrai_pays.shape[0])
### Nettoyage pays -2eme méthode  ###
df3_data_clean = df3.merge(df_vrai_pays[['Country Code']], on='Country Code', how='inner')
#display(df3_data_clean.shape)
df3_data_clean.info()

Dans cette étape, nous nous concentrons sur les colonnes correspondant aux années dans le fichier EdStatsData.

Les années jouent un rôle central dans l’organisation des données temporelles. Il est donc important de conserver uniquement les années contenant un minimum de données disponibles afin d'assurer la qualité des analyses.
Objectif:
Supprimer les colonnes (années) ayant trop de valeurs manquantes.
Méthodologie:
On calcule la proportion de valeurs manquantes pour chaque colonne représentant une année.
On applique un seuil de 90% :
Toute colonne (année) ayant plus de 90% de valeurs manquantes est supprimée.

In [None]:
## nettoyage des années :
cols_annees = df3_data_clean.iloc[:, 4:] 
print(cols_annees.isna().mean().sort_values(ascending=False))
cols_annees_to_drop = cols_annees.columns[cols_annees.isna().mean() > 0.90]
df3_data_filtre = df3_data_clean.drop(columns=cols_annees_to_drop)
display(df3_data_filtre.shape)

## Fichier EdStatsFootNote

In [None]:
# Chargement du fichier df4
df4 = pd.read_csv('EdStatsFootNote.csv')  
# Aperçu des premières lignes: contient des notes pour des indicateurs par pays et par année
display(df4.head())
# 1. Nombre de lignes et colonnes
dim_df4 = df4.shape
print("le nombre de ligne et colone de data Frame 4 df4 est :" ,dim_df4)
# 2. Nombre de doublons
df4_doublons=df4.duplicated().sum()
print ('le nombre de doublons dans la data frame 4 est :',df4_doublons)
# 3. Suppression des doublons (si présents)
if df4_doublons > 0 :
   df4=df4.drop_duplicates() 
   print(f"{df4_doublons} doublons supprimés.")
    
# 4. Proportion de valeurs manquantes par colonne
print("Proportion de valeurs manquantes par colonne :")
print(df4.isna().mean().sort_values(ascending=False))

#  5. Identifier les colonnes inutilisables (ex. entièrement vides)
print("Types des colonnes :")
print(df4.dtypes)

# Suppression des colonnes vides ou sans information utile
cols_to_drop = df4.columns[df4.isna().mean() > 0.95]
df4.drop(columns=cols_to_drop, inplace=True)

# 6. Statistiques descriptives pour les colonnes numériques
print("Statistiques descriptives des colonnes numériques :")
print(df4.describe())

# 7. Occurrences pour chaque valeur des colonnes catégorielles
print("Valeurs uniques pour les colonnes catégorielles :")
for col in df4.select_dtypes(include='object').columns:
    print(f"Occurrences pour la colonne '{col}' :")
    print(df4[col].value_counts(dropna=False))  # inclut les NaN
    print("-------------")
    
### Nettoyage de pays -1er méthode ###
df4_vrai_pays =df4[~df4['CountryCode'].isin(faux_pays)]
### Nettoyage de pays -2er méthode ###
df4_data_clean = df4.merge(df_vrai_pays[['CountryCode']], on='CountryCode', how='inner')

## Fichier EdStatsSeries 

In [None]:
# Chargement du fichier df5
df5 = pd.read_csv('EdStatsSeries.csv')
# Aperçu des premières lignes : un ligne = un indicateur
display(df5.head())
# 1. Nombre de lignes et colonnes
dim_df5 = df5.shape
print("le nombre de ligne et colone de data Frame 5 df5 est :" ,dim_df5)
# 2. Nombre de doublons
df5_doublons=df5.duplicated().sum()
print ('le nombre de doublons dans la data frame 5 est :',df5_doublons)
# 3. Suppression des doublons (si présents)
if df5_doublons > 0 :
   df5=df5.drop_duplicates() 
   print(f"{df5_doublons} doublons supprimés.")
# 4. Proportion de valeurs manquantes par colonne
print("Proportion de valeurs manquantes par colonne :")
print(df5.isna().mean().sort_values(ascending=False))

# 5. Identifier les colonnes inutilisables (ex. entièrement vides)
print("Types des colonnes :")
print(df5.dtypes)

# Suppression des colonnes vides ou sans information utile
cols_to_drop = df5.columns[df5.isna().mean() > 0.95]
df5.drop(columns=cols_to_drop, inplace=True)

# 6. Statistiques descriptives pour les colonnes numériques
print("Statistiques descriptives des colonnes numériques :")
print(df5.describe())

# 7. Occurrences pour chaque valeur des colonnes catégorielles
print("Valeurs uniques pour les colonnes catégorielles :")
for col in df5.select_dtypes(include='object').columns:
    print(f"Occurrences pour la colonne '{col}' :")
    print(df5[col].value_counts(dropna=False))  # inclut les NaN
    print("-------------")
