# Analyse des données des systèmes éducatifs
## Objectif
#### Analyser les données des systèmes éducatifs pour comprendre les facteurs qui influencent la qualité de l'éducation.
## Méthode
#### 1. Importation des données
#### 2. Nettoyage des données
#### 3. Analyse exploratoire des données
#### 4. Modélisation des données
#### 5. Visualisation des données
#### 6. Interprétation des résultats
#

# 1. Importation des données et exploration

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [None]:
df_data = pd.read_csv('data/EdStatsData.csv')
df_data.head(20)

In [None]:
df_country_series = pd.read_csv('data/EdStatsCountry-Series.csv')
df_country_series.head()

In [None]:
df_footnote = pd.read_csv('data/EdStatsFootNote.csv')
df_footnote.head()

In [None]:
df_series = pd.read_csv('data/EdStatsSeries.csv')
df_series.head()

## Collecte des informations de chaque jeu de données
#### Maintenant que l'ensemble des données sont importé correctement et définis dans des dataframes, nous allons les
#### explorer pour comprendre les informations qu'elles contiennent.

#### pour que notre collecte d'informations soit plus facile, nous allons créer une fonction qui nous permettra de
#### récupérer les informations de chaque dataframe.

In [None]:
def analyse_dataframe(df, df_name):
    print(f"Analyse du fichier: {df_name}")
    
    # Définir ce que représente une ligne
    print("Définition d'une ligne:")
    if 'Country Name' in df.columns and 'Indicator Name' in df.columns:
        print("Une ligne représente une combinaison de pays et d'indicateur.")
    elif 'Country Name' in df.columns:
        print("Une ligne représente un pays.")
    elif 'Indicator Name' in df.columns:
        print("Une ligne représente un indicateur.")
    elif 'Country Code' in df.columns and 'Description' in df.columns:
        print("Une ligne représente une description spécifique à un pays.")
    else:
        print("Autre chose.")
    
    # Calculer le nombre de lignes et de colonnes
    print(f"Nombre de lignes: {df.shape[0]}")
    print(f"Nombre de colonnes: {df.shape[1]}")
    
    # Calculer le nombre de doublons
    num_duplicates = df.duplicated().sum()
    print(f"Nombre de doublons: {num_duplicates}")
    
    # Supprimer les doublons
    if num_duplicates > 0:
        df = df.drop_duplicates()
        print("Doublons supprimés.")
    
    # Calculer la proportion de valeurs manquantes par colonne
    missing_values = df.isnull().mean() * 100
    print("Proportion de valeurs manquantes par colonne (%):")
    print(missing_values)
    
    # Supprimer les colonnes inutilisables (plus de 20% de valeurs manquantes)
    threshold = 20
    cols_to_drop = missing_values[missing_values > threshold].index
    df = df.drop(columns=cols_to_drop)
    print(f"Colonnes supprimées (plus de {threshold}% de valeurs manquantes): {list(cols_to_drop)}")
    
    # Calculer les statistiques descriptives pour les colonnes numériques
    print("Statistiques descriptives pour les colonnes numériques:")
    print(df.describe())
    
    # Calculer le nombre d'occurrences de chaque valeur possible pour les colonnes catégorielles
    print("Nombre d'occurrences pour les colonnes catégorielles:")
    for col in df.select_dtypes(include=['object']).columns:
        print(f"Colonne: {col}")
        print(df[col].value_counts())
    
    return df

#### Avant de continuer Visualisons les valeurs manquantes dans chaque dataframe. Cela nous permettra de voir
#### rapidement quelles colonnes contiennent des valeurs manquantes et de décider si nous devons les supprimer ou les
#### remplir.


In [None]:
def plot_missing_values_heatmap(df, df_name):
    plt.figure(figsize=(10, 8))
    sns.heatmap(df.isnull(), cmap='cool')
    plt.title(f'Heatmap des valeurs manquantes pour {df_name}')
    plt.show()

In [None]:
plot_missing_values_heatmap(df_data, 'EdStatsData.csv')

In [None]:
plot_missing_values_heatmap(df_country, 'EdStatsCountry.csv')

In [None]:
plot_missing_values_heatmap(df_country_series, 'EdStatsCountry-Series.csv')

In [None]:
plot_missing_values_heatmap(df_footnote, 'EdStatsFootNote.csv')

In [None]:
plot_missing_values_heatmap(df_series, 'EdStatsSeries.csv')

In [None]:
# Exception ici pour le fichier EdStatsData.csv car il contient beaucoup de données manquantes en fonction des indicateurs
# Nous allons donc supprimer les lignes avec plus de 50% de valeurs manquantes
# pour ne garder que les indicateurs les plus pertinents
df_data = df_data.dropna(thresh=df_data.shape[1]//2)
missing_values = df_data.isnull().mean() * 100
print("Proportion de valeurs manquantes par colonne (%):")
print(missing_values)
threshold = 20
cols_to_drop = missing_values[missing_values > threshold].index
df_data = df_data.drop(columns=cols_to_drop)
print(f"Colonnes supprimées (plus de {threshold}% de valeurs manquantes): {list(cols_to_drop)}")

In [None]:
df_data.head()
print(f"Nombre de lignes: {df_data.shape[0]}")
print(f"Nombre de colonnes: {df_data.shape[1]}")
df_data.describe()

In [None]:
df_country = analyse_dataframe(df_country, 'EdStatsCountry.csv')

In [None]:
df_country.head()

In [None]:
df_country_series = analyse_dataframe(df_country_series, 'EdStatsCountry-Series.csv')

In [None]:
df_country_series.head()

In [None]:
df_footnote = analyse_dataframe(df_footnote, 'EdStatsFootNote.csv')

In [None]:
df_footnote.head()

In [None]:
df_series = analyse_dataframe(df_series, 'EdStatsSeries.csv')

In [None]:
df_series.head()

In [None]:
plot_missing_values_heatmap(df_data, 'EdStatsData.csv')

In [None]:
plot_missing_values_heatmap(df_country, 'EdStatsCountry.csv')

In [None]:
plot_missing_values_heatmap(df_country_series, 'EdStatsCountry-Series.csv')

In [None]:
plot_missing_values_heatmap(df_footnote, 'EdStatsFootNote.csv')

In [None]:
plot_missing_values_heatmap(df_series, 'EdStatsSeries.csv')

#### Après avoir analysé les données, nous pouvons voir que les dataframes contiennent des informations sur les pays, les indicateurs, les séries, les données et les notes de bas de page. Nous allons maintenant nettoyer les données pour les rendre plus faciles à analyser.

# 2. Nettoyage des données

### Nettoyage des données des pays
#### Nous allons commencer par nettoyer les données des pays. Nous allons supprimer les colonnes inutiles
#### et remplir les valeurs manquantes.

 


In [None]:
df_country.head()

#### Affichage des données manquantes pour les pays

In [None]:
df_country.isnull().sum()

#### Affichage du contenu unique de la colonne 'Region'

In [None]:
df_country['Region'].unique()

In [None]:
# afficher les pays qui n'ont pas de région
df_country[df_country['Region'].isnull()]['Table Name']

#### Supprimer les pays n'appartenant à aucune région (car ils ne sont pas utiles pour notre analyse)

In [None]:
df_country = df_country.dropna(subset=['Region'])

#### Afficher la heatmap pour vérifier si les valeurs manquantes ont été supprimées

In [None]:

plot_missing_values_heatmap(df_country, 'EdStatsCountry.csv')

In [None]:
# suppression des lignes contenant encore des valeurs manquantes
df_country = df_country.dropna()

In [None]:
# vérifier
plot_missing_values_heatmap(df_country, 'EdStatsCountry.csv')

In [None]:
df_country['Region'].unique()

#### Remplacer les valeurs manquantes dans le df_data par la moyenne de la colonne pour chaque année

In [None]:
df_data.info()

In [None]:
# Select columns except 'Country Name' and 'Indicator Name'
columns_to_fill = df_data.drop(columns=['Country Name', 'Indicator Name', 'Country Code', 'Indicator Code'])

# Fill missing values with the mean for these columns
df_data[columns_to_fill.columns] = columns_to_fill.fillna(columns_to_fill.mean())

# Display the first few rows to verify
print(df_data.head())

In [None]:
plot_missing_values_heatmap(df_data, 'EdStatsData.csv')

In [None]:
df_data.head()
print(f"Nombre de lignes: {df_data.shape[0]}")
print(f"Nombre de colonnes: {df_data.shape[1]}")

### Aggrégation de l'ensemble des datasets en un seul dataframe pour faciliter l'analyse des données des systèmes éducatifs des pays. 

#### Nous allons maintenant fusionner les dataframes pour faciliter l'analyse des données des systèmes éducatifs des pays. Nous allons utiliser les colonnes 'Country Name' et 'Country Code' pour fusionner les dataframes.

#### Nous allons commencer par fusionner les dataframes 'df_data' et 'df_country' en utilisant la colonne 'Country Code'.

In [None]:
#changement du nom de la colonne 'Country Code' en 'CountryCode' pour faciliter la fusion
df_country = df_country.rename(columns={'Country Code': 'CountryCode'})
df_data = df_data.rename(columns={'Country Code': 'CountryCode'})

In [None]:
# Define the chunk size
chunk_size = 10000

# Initialize an empty list to store the processed chunks
chunks = []

# Process the data in chunks
for chunk in pd.read_csv('data/EdStatsData.csv', chunksize=chunk_size):
    # Perform any necessary processing on the chunk
    # For example, fill missing values with the mean
    columns_to_fill = chunk.drop(columns=['Country Name', 'Indicator Name', 'Country Code', 'Indicator Code'])
    chunk[columns_to_fill.columns] = columns_to_fill.fillna(columns_to_fill.mean())
    
    # Append the processed chunk to the list
    chunks.append(chunk)

# Concatenate all the processed chunks into a single dataframe
df_data = pd.concat(chunks, ignore_index=True)

# Save the processed dataframe to a new CSV file
df_data.to_csv('data/Processed_EdStatsData.csv', index=False)

# Display the first few rows to verify
print(df_data.head())