# Préparation des Données - Performance des Étudiants

## Objectifs

Après avoir complété ce notebook, vous serez capable de :

- Gérer les valeurs manquantes dans les ensembles de données
- Corriger les formats de données
- Standardiser et normaliser les données
- Créer des groupes à partir de variables continues
- Générer des variables indicatrices à partir de données catégorielles en utilisant l'encodage one-hot

## Table des Matières

1. [Importation des Données et Bibliothèques](#import-data)
2. [Exploration des Données](#data-exploration)
3. [Gestion des Valeurs Manquantes](#missing-values)
4. [Correction des Formats de Données](#data-formats)
5. [Standardisation des Données](#standardization)
6. [Normalisation des Données](#normalization)
7. [Discrétisation des Données](#binning)
8. [Encodage One-Hot (Variables Indicatrices/Variables Dummy)](#indicator-variables)
9. [Exportation des Données Nettoyées](#export-data)

<a id="import-data"></a>
## 1. Importation des Données et Bibliothèques

In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration du style de visualisation
sns.set_theme(style="whitegrid")
%matplotlib inline

In [None]:
# Lecture du jeu de données
file_path = "StudentsPerformance.csv"
df = pd.read_csv(file_path)

# Affichage des premières lignes du jeu de données
df.head()

<a id="data-exploration"></a>
## 2. Exploration des Données

Avant de commencer le nettoyage et la préparation de nos données, comprenons d'abord ce avec quoi nous travaillons.

In [None]:
# Obtenir des informations de base sur le jeu de données, statistiques, doublons, etc.

Explorons les variables catégorielles dans notre jeu de données :

In [None]:
# Vérifier les valeurs uniques dans chaque colonne catégorielle


<a id="missing-values"></a>
## 3. Gestion des Valeurs Manquantes

Vérifions s'il y a des valeurs manquantes dans notre jeu de données et traitons-les de manière appropriée.

Si nous trouvons des valeurs manquantes, nous pouvons les traiter en utilisant différentes méthodes :

1. **Supprimer les lignes avec des valeurs manquantes**
2. **Remplacer les valeurs manquantes par la moyenne, la médiane ou le mode**
3. **Remplacer les valeurs manquantes selon une stratégie spécifique**

Mettons en œuvre ces stratégies selon les besoins :

In [None]:
# Exemple: S'il y avait des valeurs manquantes dans les colonnes numériques, nous pourrions les remplacer par la moyenne


In [None]:
# Exemple: S'il y avait des valeurs manquantes dans les colonnes catégorielles, nous pourrions les remplacer par le mode


<a id="data-formats"></a>
## 4. Correction des Formats de Données

Vérifions les types de données de nos colonnes et assurons-nous qu'ils sont au format correct.

In [None]:
# Vérifier les types de données


In [None]:
# Convertir les types de données si nécessaire
# Par exemple, s'assurer que les colonnes numériques sont du type correct


<a id="standardization"></a>
## 5. Standardisation des Données

La standardisation des données est le processus de transformation des données en un format commun qui permet une comparaison significative.

In [None]:
# On peut créer une nouvelle feature : score moyen par exemple


In [None]:
# Créer une colonne réussite/échec basée sur le score moyen (exemple de standardisation)
# En supposant que 60 est le score de passage


<a id="normalization"></a>
## 6. Normalisation des Données

La normalisation est le processus de transformation des valeurs de plusieurs variables dans une plage similaire. Les techniques courantes de normalisation comprennent :

1. **Mise à l'échelle Min-Max** : Met les valeurs à l'échelle dans une plage fixe de 0 à 1
2. **Normalisation Z-score** : Standardise les valeurs en fonction de la moyenne et de l'écart-type

Appliquons ces techniques à nos données numériques :

In [None]:
# Mise à l'échelle Min-Max


In [None]:
# Normalisation Z-score


Visualisons la distribution des scores originaux et normalisés :

In [None]:
# Visualisation des données originales vs normalisées pour le score en mathématiques
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
sns.histplot(df['math_score'], kde=True)
plt.title('Scores Mathématiques Originaux')

plt.subplot(1, 3, 2)
sns.histplot(df['math_score_normalized'], kde=True)
plt.title('Scores Mathématiques Normalisés Min-Max')

plt.subplot(1, 3, 3)
sns.histplot(df['math_score_standardized'], kde=True)
plt.title('Scores Mathématiques Standardisés Z-Score')

plt.tight_layout()
plt.show()

<a id="binning"></a>
## 7. Discrétisation

La discrétisation est un processus de transformation des variables numériques continues en 'bins' catégoriels discrets pour une analyse groupée.

In [None]:
# Discrétisation des scores mathématiques en catégories


In [None]:
# Compter le nombre d'étudiants dans chaque groupe


In [None]:
# Visualiser les données regroupées
plt.figure(figsize=(10, 6))
sns.countplot(x='math_score_category', data=df, palette='viridis')
plt.title('Distribution des Catégories de Scores en Mathématiques')
plt.xlabel('Catégorie de Score en Mathématiques')
plt.ylabel('Effectif')
plt.show()

<a id="indicator-variables"></a>
## 8. Encodage One-Hot (Variables Indicatrices/Variables Dummy)

L'encodage one-hot crée des colonnes binaires (0 ou 1) pour chaque catégorie dans les variables catégorielles. Ces variables sont également connues sous le nom de variables indicatrices ou variables dummy. Cette technique est essentielle pour inclure des données catégorielles dans des modèles statistiques qui nécessitent des entrées numériques.

In [None]:
# Créer des variables dummy pour le genre en utilisant l'encodage one-hot


In [None]:
# Créer des variables dummy pour la race/ethnicité en utilisant l'encodage one-hot


In [None]:
# Créer des variables dummy pour le cours de préparation aux tests en utilisant l'encodage one-hot


In [None]:
# Fusionner les variables dummy avec le dataframe original


Nous pouvons supprimer les colonnes catégorielles d'origine si nous voulons ne conserver que les variables dummy :

In [None]:
# Créer une copie du dataframe pour cet exemple


<a id="export-data"></a>
## 9. Exportation des Données Nettoyées

Maintenant que nous avons nettoyé et transformé nos données, nous pouvons les exporter pour une analyse ultérieure.

In [None]:
# Exporter le dataframe original avec les fonctionnalités ajoutées
df.to_csv('cleaned_students_performance_fr.csv', index=False)

# Exporter le dataframe avec les variables dummy
df_with_dummies.to_csv('students_performance_with_dummies_fr.csv', index=False)

# Exporter le dataframe entièrement encodé
df_encoded.to_csv('students_performance_encoded_fr.csv', index=False)

print("Données exportées avec succès !")

## Résumé

Dans ce notebook, nous avons :

1. Importé et exploré le jeu de données de performance des étudiants
2. Vérifié et traité les valeurs manquantes
3. Corrigé les formats de données
4. Standardisé les données en créant de nouvelles fonctionnalités
5. Normalisé les données numériques en utilisant la mise à l'échelle min-max et la standardisation z-score
6. Créé des groupes pour les variables continues
7. Généré des variables indicatrices pour les données catégorielles en utilisant l'encodage one-hot
8. Exporté les données nettoyées et transformées pour une analyse ultérieure

Ces techniques de préparation de données sont essentielles pour préparer les données brutes à l'analyse et à la modélisation.