# **Projet IA: Suivi de la réussite étudiante**

 

**<u>Objectif:</u>**  Déterminer les étudiants à risque d'échec afin de mieux les accompagner en vue de leur réussite académique; 

* Identifier les facteurs importants qui affectent les performances académiques de l'étudiant 
* Prédiction de la note à l'examen finale de l'étudiant 
* Classifier les étudiants en catégories potentielles "Réussite" ou "Échec" 

**<u>Description des caractéristiques:</u>**
* **Student_ID :** Identifiant unique pour chaque étudiant. 

* **Gender :** Sexe de l'étudiant (Homme/Femme). 
* **Study_Hours_per_Week :** Nombre moyen d'heures d'étude par semaine. 
* **Attendance_Rate :** Pourcentage d'assiduité (50% - 100%). 
* **Past_Exam_Scores :** Note moyenne des examens précédents (50 - 100). 
* **Parental_Education_Level :** Niveau d'éducation des parents (Lycée, Licence, Master, Doctorat). 
* **Internet_Access_at_Home :** Indique si l'étudiant a un accès à Internet à la maison (Oui/Non). 
* **Extracurricular_Activities :** Indique si l'étudiant participe à des activités parascolaires (Oui/Non). 
* **Final_Exam_Score (Target) :** La note à l'examen final de l'étudiant (50 - 100, valeurs entières). 
* **Pass_Fail (Target) :** Le statut de l'étudiant (Réussite/Échec). 

## **Analyse Exploratoire des Données (EDA)**

1. **Compréhension des données**
   * Aperću général (dimension du dataset, types de variables, résumé statistiques et autres)
   * Analyse univariée (Étudier les variables une par une)
   * Analyse bivariée (Explorer les relations entre les variables)
   * Détection d'anomalies (Identifier les outliers, valeurs extrêmes ou abérantes)
   * Valeurs manquantes (Réperer les colonnes ou lignes incomplètes)
   * Distribution du jeu de données (Comment les données sont réparties)

In [None]:
# Charger le jeu de données
import pandas as pd
students_df = pd.read_csv("../data/raw/student_performance_dataset.csv")
students_df.head()

In [None]:
# La colonne 'Student_ID' est superflue, non importante
students_df = students_df.drop(columns=['Student_ID'])
students_df.head()

In [None]:
# Informations du jeu de données
students_df.info()

In [None]:
students_df.shape # La taille de notre df

In [None]:
# Résumé statistique des données numériques
students_df.describe()

In [None]:
# Identifions les colonnes catégorielles des numériques
numerical_col = students_df.select_dtypes(include=['int64', 'float64']).columns.to_list()
categorical_col = [col for col in students_df.columns if students_df[col].dtype == 'object']
students_df_col = numerical_col + categorical_col # La fusion des 02.
students_df_col

In [None]:
# Déterminer les valeurs manquantes
students_df.isna().sum()

In [None]:
# Déterminer s'il existe des données dupliquées
students_df.duplicated().sum()

In [None]:
# Filtrer les données dupliquées
students_df[students_df.duplicated()] # Retourne toutes les données qui dupliquées

Tout à fait compréhensible, ces données se retrouvent dupliquées car plusieurs étudiants pourraient avoir les mêmes comportements au niveau scolaire, nombre d'heures de révisions par semaines, mêmes notes etc.

In [None]:
# Déterminons la proportion d'une cible
students_df['Pass_Fail'].value_counts().reset_index()

In [None]:
# Données très équilibrées'assurer de maintenir cette proportion lors de la séparation du jeu de données 

In [None]:
students_df['Gender'].value_counts().reset_index()

In [None]:
#Données plutôt déséquilibrée

Traitement des lignes répétées : 

In [None]:
# Suppression des doublons pour optimiser le dataset en phase de préprocessing machine learning
#
students_df = students_df.drop_duplicates()

print("Nombre de lignes après suppression des doublons :", students_df.shape[0])

# on a deja detecte (208 doublons). Il faut les enlever pour que le modele n’apprenne pas plusieurs fois la meme information.


Encodage des variables catégorielles (One-Hot Encoding)

In [None]:
# Encodage One-Hot
cat_cols = ["Gender", "Parental_Education_Level", 
            "Internet_Access_at_Home", "Extracurricular_Activities"]

students_df = pd.get_dummies(students_df, columns=cat_cols, drop_first=True)

print("Colonnes après encodage :", students_df.columns)



Standardiser les variables numerique :

In [None]:

from sklearn.preprocessing import StandardScaler

# Colonnes numeriques a standardiser
num_cols = ["Study_Hours_per_Week", "Attendance_Rate", "Past_Exam_Scores"]

# Initialisation du scaler
scaler = StandardScaler()

# Application de la standardisation directement sur le DataFrame encode
students_df[num_cols] = scaler.fit_transform(students_df[num_cols])

print("Vérification des données après standardisation :")
print(students_df[num_cols].head())

