

# Projet d'Analyse de Données USSI09 - Habitudes et Performance Académique des Étudiants

## Introduction

Ce notebook présente notre projet d'analyse de données réalisé dans le cadre du module USSI09 "Analyse de données" pour l'année 2024-2025. Nous nous intéressons à l'étude des relations entre les habitudes quotidiennes des étudiants et leur performance académique, un sujet particulièrement pertinent dans le contexte éducatif actuel.

## Équipe

- Alla Mohamed [@Mohamed-A2001](https://github.com/Mohamed-A2001)
- Planche Tom [@TomPlanche](https://github.com/Mohamed-A2001)

## Description du Dataset

Nous avons choisi d'analyser le dataset [Student Habits and Academic Performance](https://www.kaggle.com/datasets/aryan208/student-habits-and-academic-performance) qui contient des données sur les habitudes quotidiennes des étudiants et leurs résultats académiques.

Ce dataset comporte:

- Nombre d'observations: 204 étudiants
- Nombre de variables: 18 variables
- Variables principales:
  - Variables démographiques: Age, Gender, Location
  - Habitudes d'étude: Study Hours, Sleep Hours, Exercise Frequency
  - Utilisation de la technologie: Technology Usage, Social Media Usage
  - Facteurs psychologiques: Stress Level, Anxiety Level
  - Performance académique: Academic Performance (GPA)

## Objectifs du projet

Notre analyse se structure autour de deux axes principaux:

1. **Analyse descriptive et exploratoire**:
   - Extraction de statistiques univariées pour comprendre la distribution des habitudes étudiantes et performances académiques
   - Analyse des relations entre variables (statistiques bivariées) pour identifier les corrélations entre habitudes et résultats
   - Analyse en Composantes Principales (ACP) pour réduire la dimensionnalité et identifier les facteurs principaux influençant la réussite académique
   - Visualisations pertinentes pour illustrer les relations découvertes

2. **Modélisation prédictive**:
   - Développement d'un modèle de régression linéaire pour prédire la performance académique (GPA) à partir des habitudes des étudiants
   - Évaluation des performances du modèle
   - Interprétation des résultats pour identifier les habitudes ayant le plus d'impact sur la réussite académique

## Méthodologie

Notre approche suit les étapes suivantes:

1. Chargement et nettoyage des données du dataset "Student Habits and Academic Performance"
2. Analyse exploratoire des données (EDA) pour comprendre les distributions et relations
3. Prétraitement des données pour l'analyse (standardisation, traitement des valeurs manquantes)
4. Analyse en Composantes Principales pour identifier les facteurs principaux influençant la performance académique
5. Modélisation par régression linéaire pour prédire le GPA des étudiants
6. Interprétation des résultats et identification des habitudes les plus déterminantes pour la réussite académique

## Plan du notebook

1. **Configuration de l'environnement et chargement des données**
2. **Nettoyage et préparation des données**
   - Traitement des valeurs manquantes
   - Encodage des variables catégorielles (Gender, Location, etc.)
   - Normalisation des variables numériques
3. **Analyse exploratoire des données**
   - Statistiques descriptives des habitudes étudiantes et performances
   - Visualisations des distributions (heures d'étude, sommeil, utilisation des médias sociaux)
4. **Statistiques bivariées et corrélations**
   - Corrélations entre les habitudes et la performance académique
   - Analyse des relations entre stress, anxiété et résultats
5. **Analyse en Composantes Principales**
   - Réduction de dimensionnalité
   - Identification des facteurs principaux
   - Visualisation des étudiants dans l'espace réduit
6. **Modélisation prédictive**
   - Régression linéaire pour prédire le GPA
   - Évaluation du modèle (RMSE, R²)
7. **Interprétation des résultats**
   - Identification des habitudes ayant le plus d'impact sur la performance
   - Recommandations basées sur l'analyse
8. **Conclusion et perspectives**

# 1. Configuration de l'environnement et chargement des données

In [20]:
# Importation des bibliothèques nécessaires
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# Configuration pour les visualisations
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Pour afficher toutes les colonnes
pd.set_option('display.max_columns', None)

# Chargement du dataset
data_path = "assets/enhanced_student_habits_performance_dataset.csv"
df = pd.read_csv(data_path)

# Affichage des premières lignes du dataset
df.head()

Unnamed: 0,student_id,age,gender,major,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,previous_gpa,semester,stress_level,dropout_risk,social_activity,screen_time,study_environment,access_to_tutoring,family_income_range,parental_support_level,motivation_level,exam_anxiety_score,learning_style,time_management_score,exam_score
0,100000,26,Male,Computer Science,7.645367,3.0,0.1,Yes,70.3,6.2,Poor,3,Some College,High,6.0,Yes,4.0,5,5.8,No,0,10.9,Co-Learning Group,Yes,High,9,7,8,Reading,3.0,100
1,100001,28,Male,Arts,5.7,0.5,0.4,No,88.4,7.2,Good,4,PhD,Low,6.8,No,4.0,7,5.8,No,5,8.3,Co-Learning Group,Yes,Low,7,2,10,Reading,6.0,99
2,100002,17,Male,Arts,2.4,4.2,0.7,No,82.1,9.2,Good,4,High School,Low,5.7,Yes,3.79,4,8.0,No,5,8.0,Library,Yes,High,3,9,6,Kinesthetic,7.6,98
3,100003,27,Other,Psychology,3.4,4.6,2.3,Yes,79.3,4.2,Fair,3,Master,Medium,8.5,Yes,4.0,6,4.6,No,3,11.7,Co-Learning Group,Yes,Low,5,3,10,Reading,3.2,100
4,100004,25,Female,Business,4.7,0.8,2.7,Yes,62.9,6.5,Good,6,PhD,Low,9.2,No,4.0,4,5.7,No,2,9.4,Quiet Room,Yes,Medium,9,1,10,Reading,7.1,98


# 2. Nettoyage et préparation des données

Des colonne ont des types `yes/no`, préparons les.

In [21]:
# Colonnes à transformer ("Yes/No" -> 1/0
columns_to_transform = [
    "part_time_job",
    "extracurricular_participation",
    "dropout_risk",
    "access_to_tutoring"
]

# Transformation des données
for col in columns_to_transform:
    df[col] = df[col].map(lambda x: int(str(x).lower() == "yes"))

df.head()

Unnamed: 0,student_id,age,gender,major,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,previous_gpa,semester,stress_level,dropout_risk,social_activity,screen_time,study_environment,access_to_tutoring,family_income_range,parental_support_level,motivation_level,exam_anxiety_score,learning_style,time_management_score,exam_score
0,100000,26,Male,Computer Science,7.645367,3.0,0.1,1,70.3,6.2,Poor,3,Some College,High,6.0,1,4.0,5,5.8,0,0,10.9,Co-Learning Group,1,High,9,7,8,Reading,3.0,100
1,100001,28,Male,Arts,5.7,0.5,0.4,0,88.4,7.2,Good,4,PhD,Low,6.8,0,4.0,7,5.8,0,5,8.3,Co-Learning Group,1,Low,7,2,10,Reading,6.0,99
2,100002,17,Male,Arts,2.4,4.2,0.7,0,82.1,9.2,Good,4,High School,Low,5.7,1,3.79,4,8.0,0,5,8.0,Library,1,High,3,9,6,Kinesthetic,7.6,98
3,100003,27,Other,Psychology,3.4,4.6,2.3,1,79.3,4.2,Fair,3,Master,Medium,8.5,1,4.0,6,4.6,0,3,11.7,Co-Learning Group,1,Low,5,3,10,Reading,3.2,100
4,100004,25,Female,Business,4.7,0.8,2.7,1,62.9,6.5,Good,6,PhD,Low,9.2,0,4.0,4,5.7,0,2,9.4,Quiet Room,1,Medium,9,1,10,Reading,7.1,98
