# 📘 Exercice 2 – Analyse des données éducatives

## 🔹 Étape 1 – Exploration des données

Nous importons les fichiers fournis :  

- **EdStatsCountry.csv** : métadonnées sur les pays (codes, régions, groupes de revenu, etc.)  
- **EdStatsData.csv** : données principales (indicateurs, valeurs par année et pays)  
- **EdStatsFootNote.csv** : notes de bas de page associées aux données  
- **EdStatsCountry-Series.csv** : métadonnées sur les séries d’indicateurs  


In [None]:

import pandas as pd
import numpy as np
import os

print("\n============================")
print("ETAPE 1 - CHARGEMENT DES FICHIERS CSV")
print("============================")

EdStatsCountry = pd.read_csv("D:/formation/Data_Engineer_Bac_5/Projet_2/Projet+Python_Dataset_Edstats_csv/EdStatsCountry.csv")
EdStatsData = pd.read_csv("D:/formation/Data_Engineer_Bac_5/Projet_2/Projet+Python_Dataset_Edstats_csv/EdStatsData.csv")
EdStatsFootNote = pd.read_csv("D:/formation/Data_Engineer_Bac_5/Projet_2/Projet+Python_Dataset_Edstats_csv/EdStatsFootNote.csv")
EdStatsCountry_Series = pd.read_csv("D:/formation/Data_Engineer_Bac_5/Projet_2/Projet+Python_Dataset_Edstats_csv/EdStatsCountry-Series.csv")

print("✅ Tous les fichiers ont été importés avec succès.")


## 🔹 Étape 2 – Analyse exploratoire

Nous réalisons une **analyse exploratoire** :
- aperçu des 5 premières lignes,  
- dimensions des fichiers,  
- colonnes disponibles,  
- doublons,  
- valeurs manquantes,  
- statistiques descriptives,  
- distribution des valeurs catégorielles.  


In [None]:

print("\n============================")
print("ETAPE 2 - EXPLORATION DES DONNÉES")
print("============================")

# --- Aperçu des fichiers ---
print("\n[1] Aperçu des 5 premières lignes de chaque fichier :")
print("\n-- EdStatsCountry --")
print(EdStatsCountry.head())
print("\n-- EdStatsData --")
print(EdStatsData.head())
print("\n-- EdStatsFootNote --")
print(EdStatsFootNote.head())
print("\n-- EdStatsCountry-Series --")
print(EdStatsCountry_Series.head())

# --- Dimensions des fichiers ---
print("\n[2] Dimensions de chaque fichier (lignes, colonnes) :")
print("EdStatsCountry :", EdStatsCountry.shape)
print("EdStatsData :", EdStatsData.shape)
print("EdStatsFootNote :", EdStatsFootNote.shape)
print("EdStatsCountry-Series :", EdStatsCountry_Series.shape)

# --- Colonnes disponibles ---
print("\n[3] Colonnes de chaque fichier :")
print("EdStatsCountry :", EdStatsCountry.columns)
print("EdStatsData :", EdStatsData.columns)
print("EdStatsFootNote :", EdStatsFootNote.columns)
print("EdStatsCountry-Series :", EdStatsCountry_Series.columns)


In [None]:

print("\n============================")
print("ETAPE 3 - ANALYSE EXPLORATOIRE")
print("============================")

# --- Doublons ---
print("\n[1] Nombre de doublons par fichier :")
print("EdStatsCountry :", EdStatsCountry.duplicated().sum())
print("EdStatsData :", EdStatsData.duplicated().sum())
print("EdStatsFootNote :", EdStatsFootNote.duplicated().sum())
print("EdStatsCountry-Series :", EdStatsCountry_Series.duplicated().sum())

# --- Valeurs manquantes ---
print("\n[2] Valeurs manquantes par fichier :")
print("EdStatsCountry :", EdStatsCountry.isnull().sum())
print("EdStatsData :", EdStatsData.isnull().sum())
print("EdStatsFootNote :", EdStatsFootNote.isnull().sum())
print("EdStatsCountry-Series :", EdStatsCountry_Series.isnull().sum())

# --- Proportion de valeurs manquantes ---
print("\n[3] Proportion de valeurs manquantes (en %) :")
print("EdStatsCountry :", EdStatsCountry.isnull().mean())
print("EdStatsData :", EdStatsData.isnull().mean())
print("EdStatsFootNote :", EdStatsFootNote.isnull().mean())
print("EdStatsCountry-Series :", EdStatsCountry_Series.isnull().mean())

# --- Statistiques descriptives ---
print("\n[4] Statistiques descriptives (colonnes numériques uniquement) :")
print("EdStatsCountry :")
print(EdStatsCountry.describe())
print("EdStatsData :")
print(EdStatsData.describe())

# --- Valeurs uniques sur colonnes catégorielles ---
print("\n[5] Analyse des colonnes catégorielles (value_counts) :")
print("EdStatsCountry - Region :")
print(EdStatsCountry['Region'].value_counts())
print("\nEdStatsCountry - Income Group :")
print(EdStatsCountry['Income Group'].value_counts())
print("\nEdStatsData - Indicator Name (Top 10) :")
print(EdStatsData['Indicator Name'].value_counts().head(10))
print("\nEdStatsFootNote - CountryCode (Top 10) :")
print(EdStatsFootNote['CountryCode'].value_counts().head(10))
print("\nEdStatsCountry-Series - CountryCode (Top 10) :")
print(EdStatsCountry_Series['CountryCode'].value_counts().head(10))

print("\n✅ Analyse exploratoire terminée.")


## 🔹 Étape 4 – Réduction du périmètre (Approche Data)

L’objectif est de **garder uniquement les indicateurs et années les plus riches en données**.  
Nous allons :  
1. Calculer la proportion d’indicateurs renseignés par année,  
2. Calculer la proportion d’années renseignées par indicateur,  
3. Créer un DataFrame `(indicateur, année, nb_pays)`,  
4. Identifier les indicateurs les plus riches,  
5. Sélectionner une quinzaine d’indicateurs pertinents.  


In [None]:

print("\n============================")
print("ETAPE 4 - REDUCTION DU PERIMETRE (APPROCHE DATA)")
print("============================")

# On garde uniquement les colonnes utiles : Country Code, Indicator Name, et les années
annees_colonnes = [col for col in EdStatsData.columns if col.isdigit()]
print(f"Colonnes d'années détectées : {annees_colonnes[:5]} ... {annees_colonnes[-5:]}")

# ============================
# 1. Proportion d’indicateurs renseignés par année
# ============================
print("\n[1] Proportion d’indicateurs renseignés par année")

proportion_indicateurs_par_annee = EdStatsData[annees_colonnes].notnull().mean()
print(proportion_indicateurs_par_annee.head())

# ============================
# 2. Proportion d’années renseignées par indicateur
# ============================
print("\n[2] Proportion d’années renseignées par indicateur")

proportion_annees_par_indicateur = EdStatsData.set_index("Indicator Name")[annees_colonnes].notnull().mean(axis=1)
print(proportion_annees_par_indicateur.head())

# ============================
# 3. DataFrame riche : nombre de pays par indicateur et par année
# ============================
print("\n[3] Création du DataFrame indicateur-année")

EdStatsData_long = EdStatsData.melt(
    id_vars=["Country Code", "Indicator Name"],
    value_vars=annees_colonnes,
    var_name="Annee",
    value_name="Valeur"
)

indicateurs_annees = (
    EdStatsData_long.dropna(subset=["Valeur"])
    .groupby(["Indicator Name", "Annee"])["Country Code"].nunique()
    .reset_index(name="nb_pays")
)

print(indicateurs_annees.head())

# ============================
# 4. Tri des indicateurs les plus riches
# ============================
print("\n[4] Indicateurs les plus riches (top 10 par nb de pays en moyenne)")

indicateurs_riches = (
    indicateurs_annees.groupby("Indicator Name")["nb_pays"]
    .mean()
    .sort_values(ascending=False)
)

print(indicateurs_riches.head(10))

# ============================
# 5. Sélection finale (quinzaine d’indicateurs)
# ============================
print("\n[5] Sélection d'une quinzaine d’indicateurs pertinents")

indicateurs_selectionnes = indicateurs_riches.head(15).index.tolist()
print("Liste des indicateurs sélectionnés :")
for ind in indicateurs_selectionnes:
    print(" -", ind)


## 🔹 Étape 5 – Consolidation des données (pays, indicateur)

Nous restructurons les données pour obtenir un **DataFrame consolidé** :  
- Lignes = pays,  
- Colonnes = indicateurs sélectionnés,  
- Valeurs = moyenne des années disponibles.  


In [None]:

print("\n============================")
print("ETAPE 5 - CONSOLIDATION DES DONNÉES (pays, indicateur)")
print("============================")

EdStatsData_filtre = EdStatsData_long[
    EdStatsData_long["Indicator Name"].isin(indicateurs_selectionnes)
].dropna(subset=["Valeur"])

print(f"Dimensions après filtrage : {EdStatsData_filtre.shape}")
print(EdStatsData_filtre.head())

# Pivot_table pour agréger
df_consolide = EdStatsData_filtre.pivot_table(
    index="Country Code",
    columns="Indicator Name",
    values="Valeur",
    aggfunc="mean"
)

print("\nAperçu du DataFrame final :")
print(df_consolide.head())
print("\nDimensions du DataFrame consolidé :", df_consolide.shape)


## ✅ Conclusion

- Exploration complète des fichiers,  
- Réduction du périmètre (sélection d’indicateurs et d’années riches en données),  
- Consolidation finale `(pays, indicateur)` prête pour l’analyse ou la modélisation.  
