# Sommaire de l'√©tape de Preprocessing

1. [Import des Librairies](#1.-Import-des-Librairies)
2. [Chargement des Donn√©es](#2.-Chargement-des-Donn√©es)
3. [Exploration Initiale](#3.-Exploration-Initiale)
4. [Gestion des Valeurs Manquantes](#4.-Gestion-des-valeurs-manquantes)
5. [D√©tection et Gestion d'Outliers](#5.-D√©tection-et-Gestion-d'Outliers)
6. [Encodage des Variables Cat√©gorielles](#6.-Encodage-des-Variables-Cat√©gorielles)
7. [Mise √† l'√©chelle (Scaling)](#7.-Mise-√†-l'√©chelle-(Scaling))

---

---
## 1. Import des Librairies

In [189]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

---
## 2. Chargement des Donn√©es

In [190]:
# Chargement du dataset
df = pd.read_csv("StudentPerformanceFactors.csv")

print(f"Dimensions du dataset : {df.shape[0]} lignes √ó {df.shape[1]} colonnes")

Dimensions du dataset : 6607 lignes √ó 20 colonnes


---
## 3. Exploration Initiale

Aper√ßu g√©n√©ral du dataset pour comprendre sa structure et identifier les types de variables.

In [191]:
# Premi√®res lignes du dataset
df.head()

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70


In [192]:
# Informations sur les types de donn√©es et valeurs manquantes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Hours_Studied               6607 non-null   int64 
 1   Attendance                  6607 non-null   int64 
 2   Parental_Involvement        6607 non-null   object
 3   Access_to_Resources         6607 non-null   object
 4   Extracurricular_Activities  6607 non-null   object
 5   Sleep_Hours                 6607 non-null   int64 
 6   Previous_Scores             6607 non-null   int64 
 7   Motivation_Level            6607 non-null   object
 8   Internet_Access             6607 non-null   object
 9   Tutoring_Sessions           6607 non-null   int64 
 10  Family_Income               6607 non-null   object
 11  Teacher_Quality             6529 non-null   object
 12  School_Type                 6607 non-null   object
 13  Peer_Influence              6607 non-null   obje

In [193]:
# Statistiques descriptives
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Hours_Studied,6607.0,19.975329,5.990594,1.0,16.0,20.0,24.0,44.0
Attendance,6607.0,79.977448,11.547475,60.0,70.0,80.0,90.0,100.0
Sleep_Hours,6607.0,7.02906,1.46812,4.0,6.0,7.0,8.0,10.0
Previous_Scores,6607.0,75.070531,14.399784,50.0,63.0,75.0,88.0,100.0
Tutoring_Sessions,6607.0,1.493719,1.23057,0.0,1.0,1.0,2.0,8.0
Physical_Activity,6607.0,2.96761,1.031231,0.0,2.0,3.0,4.0,6.0
Exam_Score,6607.0,67.235659,3.890456,55.0,65.0,67.0,69.0,101.0


In [194]:
# V√©rification des doublons
duplicates = df.duplicated().sum()
print(f"Nombre de doublons : {duplicates}")

Nombre de doublons : 0


In [195]:
# Analyse des valeurs manquantes
print("Valeurs manquantes par variable :")
print(df.isna().sum()/len(df)*100)
print(f"\nPourcentage de valeurs manquantes : {(df.isna().sum().sum() / (df.shape[0] * df.shape[1]) * 100):.2f}%")


Valeurs manquantes par variable :
Hours_Studied                 0.000000
Attendance                    0.000000
Parental_Involvement          0.000000
Access_to_Resources           0.000000
Extracurricular_Activities    0.000000
Sleep_Hours                   0.000000
Previous_Scores               0.000000
Motivation_Level              0.000000
Internet_Access               0.000000
Tutoring_Sessions             0.000000
Family_Income                 0.000000
Teacher_Quality               1.180566
School_Type                   0.000000
Peer_Influence                0.000000
Physical_Activity             0.000000
Learning_Disabilities         0.000000
Parental_Education_Level      1.362192
Distance_from_Home            1.014076
Gender                        0.000000
Exam_Score                    0.000000
dtype: float64

Pourcentage de valeurs manquantes : 0.18%


---
## 4. Gestion des valeurs manquantes

In [196]:
# Identification des variables num√©riques et cat√©gorielles
num_vars = df.select_dtypes(include=np.number).columns.tolist()
cat_vars = df.select_dtypes(include=['object']).columns.tolist()

print(f"Variables num√©riques ({len(num_vars)}) : {num_vars}")
print(f"\nVariables cat√©gorielles ({len(cat_vars)}) : {cat_vars}")

Variables num√©riques (7) : ['Hours_Studied', 'Attendance', 'Sleep_Hours', 'Previous_Scores', 'Tutoring_Sessions', 'Physical_Activity', 'Exam_Score']

Variables cat√©gorielles (13) : ['Parental_Involvement', 'Access_to_Resources', 'Extracurricular_Activities', 'Motivation_Level', 'Internet_Access', 'Family_Income', 'Teacher_Quality', 'School_Type', 'Peer_Influence', 'Learning_Disabilities', 'Parental_Education_Level', 'Distance_from_Home', 'Gender']


In [197]:
#split des donn√©es

from sklearn.model_selection import train_test_split

X = df[num_vars + cat_vars]


X_train, X_test = train_test_split(
    X,test_size=0.2, random_state=42
)

print(X_train.shape, X_test.shape)


(5285, 20) (1322, 20)


In [198]:
#Remplacement des valeurs num√©riques manquantes par la moyenne 
for var in num_vars:
    if X_train[var].isnull().sum() > 0:
        print(f"Variable '{var}' contient des valeurs manquantes dans le train.")
        # Imputation par la moyenne
        mean_value = X_train[var].mean()
        X_train[var].fillna(mean_value, inplace=True)
        
        # Imputation par la moyenne dans le test
        X_test[var].fillna(mean_value, inplace=True)

In [199]:
#Remplacement des valeurs cat√©gorielles manquantes par le mode
for var in cat_vars:
    if X_train[var].isnull().sum() > 0:
        print(f"Variable '{var}' contient des valeurs manquantes dans le train.")
        # Imputation par le mode
        mode_value = X_train[var].mode()[0]
        X_train[var].fillna(mode_value, inplace=True)
        
        # Imputation par le mode dans le test
        X_test[var].fillna(mode_value, inplace=True)

Variable 'Teacher_Quality' contient des valeurs manquantes dans le train.
Variable 'Parental_Education_Level' contient des valeurs manquantes dans le train.
Variable 'Distance_from_Home' contient des valeurs manquantes dans le train.


In [200]:
# Rev√©rification des valeurs manquantes dans le train

print("Valeurs manquantes par variable dans le train :")
print(X_train.isna().sum()/len(X_train)*100)
print(f"\nPourcentage de valeurs manquantes dans le train: {(X_train.isna().sum().sum() / (X_train.shape[0] * X_train.shape[1]) * 100):.2f}%")

# Rev√©rification des valeurs manquantes dans le test
print("Valeurs manquantes par variable dans le test :")
print(X_test.isna().sum()/len(X_test)*100)
print(f"\nPourcentage de valeurs manquantes dans le test: {(X_test.isna().sum().sum() / (X_test.shape[0] * X_test.shape[1]) * 100):.2f}%")




Valeurs manquantes par variable dans le train :
Hours_Studied                 0.0
Attendance                    0.0
Sleep_Hours                   0.0
Previous_Scores               0.0
Tutoring_Sessions             0.0
Physical_Activity             0.0
Exam_Score                    0.0
Parental_Involvement          0.0
Access_to_Resources           0.0
Extracurricular_Activities    0.0
Motivation_Level              0.0
Internet_Access               0.0
Family_Income                 0.0
Teacher_Quality               0.0
School_Type                   0.0
Peer_Influence                0.0
Learning_Disabilities         0.0
Parental_Education_Level      0.0
Distance_from_Home            0.0
Gender                        0.0
dtype: float64

Pourcentage de valeurs manquantes dans le train: 0.00%
Valeurs manquantes par variable dans le test :
Hours_Studied                 0.0
Attendance                    0.0
Sleep_Hours                   0.0
Previous_Scores               0.0
Tutoring_Sessions 

---
## 5. D√©tection et Gestion d'Outliers

Identification des valeurs aberrantes dans les variables num√©riques √† l'aide de la m√©thode IQR (Interquartile Range).

In [201]:
#Detection des outliers
# Dictionnaire pour stocker les bornes calcul√©es sur le train
bornes_iqr = {}
outliers_stats = []
 
print("\nüìä Calcul des bornes IQR sur le TRAIN SET:")
print("-" * 80)
 
for var in num_vars:
    # Calculer Q1, Q3, IQR sur le TRAIN uniquement
    Q1 = X_train[var].quantile(0.25)
    Q3 = X_train[var].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # lower_bound = mean - 1.5 * std
    # upper_bound = mean + 1.5 * std
    
    # Stocker les bornes
    bornes_iqr[var] = {'lower': lower_bound, 'upper': upper_bound,
                       'Q1': Q1, 'Q3': Q3, 'IQR': IQR}
    
    # Compter les outliers dans train
    outliers_train = ((X_train[var] < lower_bound) | (X_train[var] > upper_bound)).sum()
    pct_train = (outliers_train / len(X_train)) * 100
    
    # Compter les outliers dans test (avec les bornes du train)
    outliers_test = ((X_test[var] < lower_bound) | (X_test[var] > upper_bound)).sum()
    pct_test = (outliers_test / len(X_test)) * 100
    
    print(f"\nüìå {var.upper()}:")
    print(f"   Bornes calcul√©es sur train: [{lower_bound:.2f}, {upper_bound:.2f}]")
    print(f"   Outliers train: {outliers_train} ({pct_train:.2f}%)")
    print(f"   Outliers test (avec bornes train): {outliers_test} ({pct_test:.2f}%)")
    
    outliers_stats.append({
        'Variable': var,
        'Q1': Q1,
        'Q3': Q3,
        'IQR': IQR,
        'Lower_Bound': lower_bound,
        'Upper_Bound': upper_bound,
        'Outliers_Train': outliers_train,
        'Pct_Train': pct_train,
        'Outliers_Test': outliers_test,
        'Pct_Test': pct_test
    })


üìä Calcul des bornes IQR sur le TRAIN SET:
--------------------------------------------------------------------------------

üìå HOURS_STUDIED:
   Bornes calcul√©es sur train: [4.00, 36.00]
   Outliers train: 31 (0.59%)
   Outliers test (avec bornes train): 12 (0.91%)

üìå ATTENDANCE:
   Bornes calcul√©es sur train: [40.00, 120.00]
   Outliers train: 0 (0.00%)
   Outliers test (avec bornes train): 0 (0.00%)

üìå SLEEP_HOURS:
   Bornes calcul√©es sur train: [3.00, 11.00]
   Outliers train: 0 (0.00%)
   Outliers test (avec bornes train): 0 (0.00%)

üìå PREVIOUS_SCORES:
   Bornes calcul√©es sur train: [25.50, 125.50]
   Outliers train: 0 (0.00%)
   Outliers test (avec bornes train): 0 (0.00%)

üìå TUTORING_SESSIONS:
   Bornes calcul√©es sur train: [-0.50, 3.50]
   Outliers train: 349 (6.60%)
   Outliers test (avec bornes train): 81 (6.13%)

üìå PHYSICAL_ACTIVITY:
   Bornes calcul√©es sur train: [-1.00, 7.00]
   Outliers train: 0 (0.00%)
   Outliers test (avec bornes train): 0 (0.

### D√©cisions sur les outliers par rapport √† l'EDA (voir fichier 01_EDA)

**Exam_Score > 100 :**
- 1 valeur d√©tect√©e et corrig√©e √† 100 (erreur de saisie √©vidente)

**Hours_Studied (43 outliers) :**
- Repr√©sentent des √©tudiants qui √©tudient tr√®s peu (1-5h) ou beaucoup (35-44h)
- **D√©cision : Conserv√©s** - ce sont des cas r√©els qui font partie de la variabilit√© naturelle

**Tutoring_Sessions (430 outliers) :**
- √âtudiants ayant un nombre √©lev√© de sessions de tutorat (5-8 sessions)
- **D√©cision : Conserv√©s** - information pertinente sur les √©tudiants n√©cessitant du soutien

**Exam_Score (104 outliers) :**
- Scores tr√®s bas (<60) ou tr√®s √©lev√©s (>80)
- **D√©cision : Conserv√©s** - ces √©tudiants en difficult√© ou excellents sont justement notre cible de pr√©diction

**Conclusion :**
Seul le score > 100 va √™tre corrig√©. Les autres outliers repr√©sentent des cas r√©els et seront conserv√©s pour l'analyse.

In [202]:
# Correction du score > 100 (erreur de saisie)
print(f"Avant correction : Exam_Score max_train = {X_train['Exam_Score'].max()}")

print(f"Avant correction : Exam_Score max_test = {X_test['Exam_Score'].max()}")


Avant correction : Exam_Score max_train = 101
Avant correction : Exam_Score max_test = 98


In [203]:
#Correction sur le train uniquement
X_train.loc[X_train['Exam_Score'] > 100, 'Exam_Score'] = 100
print(f"Apr√®s correction : Exam_Score max_train = {X_train['Exam_Score'].max()}")


Apr√®s correction : Exam_Score max_train = 100


---
## 6. Encodage des variables cat√©gorielles

One-Hot Encoding et Ordinal Encoding

In [204]:
# 1. D√©finition des mappings ordinaux (Logique de progression)
mapping_levels = {'Low': 0, 'Medium': 1, 'High': 2}
mapping_education = {'High School': 0, 'College': 1, 'Postgraduate': 2}
mapping_peer = {'Negative': 0, 'Neutral': 1, 'Positive': 2}
mapping_distance = {'Near': 0, 'Moderate': 1, 'Far': 2}

# 2. Application de l'encodage ordinal
# On traite Family_Income, Peer_Influence et Distance_from_Home comme des variables √† √©chelle
for dataset in [X_train, X_test]:
    dataset['Parental_Involvement'] = dataset['Parental_Involvement'].map(mapping_levels)
    dataset['Access_to_Resources'] = dataset['Access_to_Resources'].map(mapping_levels)
    dataset['Motivation_Level'] = dataset['Motivation_Level'].map(mapping_levels)
    dataset['Teacher_Quality'] = dataset['Teacher_Quality'].map(mapping_levels)
    dataset['Family_Income'] = dataset['Family_Income'].map(mapping_levels)
    dataset['Parental_Education_Level'] = dataset['Parental_Education_Level'].map(mapping_education)
    dataset['Peer_Influence'] = dataset['Peer_Influence'].map(mapping_peer)
    dataset['Distance_from_Home'] = dataset['Distance_from_Home'].map(mapping_distance)



In [205]:
# 3. One-Hot Encoding pour les variables nominales (sans ordre naturel)
# On utilise drop_first=True pour √©viter le pi√®ge de la colin√©arit√©
vars_to_encode = ['Extracurricular_Activities', 'Internet_Access', 
                  'School_Type', 'Learning_Disabilities', 'Gender']

X_train = pd.get_dummies(X_train, columns=vars_to_encode, drop_first=True)
X_test = pd.get_dummies(X_test, columns=vars_to_encode, drop_first=True)

# S'assurer que les deux sets ont les m√™mes colonnes
X_train, X_test = X_train.align(X_test, join='left', axis=1, fill_value=0)



In [206]:
# 4. Conversion des types bool√©ens en entiers (0/1) pour le calcul matriciel
X_train = X_train.astype({col: int for col in X_train.select_dtypes('bool').columns})
X_test = X_test.astype({col: int for col in X_test.select_dtypes('bool').columns})

print("encodage termin√© avec succ√®s !")
X_train.head()

encodage termin√© avec succ√®s !


Unnamed: 0,Hours_Studied,Attendance,Sleep_Hours,Previous_Scores,Tutoring_Sessions,Physical_Activity,Exam_Score,Parental_Involvement,Access_to_Resources,Motivation_Level,Family_Income,Teacher_Quality,Peer_Influence,Parental_Education_Level,Distance_from_Home,Extracurricular_Activities_Yes,Internet_Access_Yes,School_Type_Public,Learning_Disabilities_Yes,Gender_Male
5810,27,79,8,63,2,5,69,0,2,2,0,1,0,1,1,1,1,1,0,0
1268,16,86,7,94,2,3,69,2,1,1,0,2,1,0,1,1,1,1,0,0
414,22,87,8,83,1,1,66,0,1,0,0,1,1,1,2,0,1,1,0,1
4745,18,100,10,86,1,3,72,2,1,1,1,1,1,0,0,1,1,1,0,1
654,35,78,10,99,1,2,72,2,0,1,0,1,2,0,0,1,1,0,0,1


In [207]:
print('Type des variables dans le train:')
print(X_train.dtypes)
print('---------------------------------------')
print('Type des variables dans le test:')
print(X_train.dtypes)



Type des variables dans le train:
Hours_Studied                     int64
Attendance                        int64
Sleep_Hours                       int64
Previous_Scores                   int64
Tutoring_Sessions                 int64
Physical_Activity                 int64
Exam_Score                        int64
Parental_Involvement              int64
Access_to_Resources               int64
Motivation_Level                  int64
Family_Income                     int64
Teacher_Quality                   int64
Peer_Influence                    int64
Parental_Education_Level          int64
Distance_from_Home                int64
Extracurricular_Activities_Yes    int64
Internet_Access_Yes               int64
School_Type_Public                int64
Learning_Disabilities_Yes         int64
Gender_Male                       int64
dtype: object
---------------------------------------
Type des variables dans le test:
Hours_Studied                     int64
Attendance                        int64

In [208]:
# V√©rifier qu'il n'y a pas de valeurs manquantes apr√®s encodage
print(f"NaN dans X_train : {X_train_final.isna().sum().sum()}")
print(f"NaN dans X_test : {X_test_final.isna().sum().sum()}")

# V√©rifier les dimensions finales
print(f"X_train shape : {X_train_final.shape}")
print(f"X_test shape : {X_test_final.shape}")

NaN dans X_train : 0
NaN dans X_test : 0
X_train shape : (5285, 19)
X_test shape : (1322, 19)


---
## 7. Mise √† l'√©chelle (Feature Scaling)



In [209]:
from sklearn.preprocessing import StandardScaler

# 1. D√©finition des colonnes num√©riques √† scaler
numerical_cols = ['Hours_Studied', 'Attendance', 'Sleep_Hours', 
                  'Previous_Scores', 'Tutoring_Sessions', 'Physical_Activity']

# 2. S√©paration de la cible (y)
y_train = X_train['Exam_Score']
X_train_scaled = X_train.drop(columns=['Exam_Score'])

y_test = X_test['Exam_Score']
X_test_scaled = X_test.drop(columns=['Exam_Score'])

# 3. Application du StandardScaler uniquement sur les colonnes num√©riques
scaler = StandardScaler()

# On √©crase les anciennes valeurs par les valeurs scal√©es (en gardant les noms)
X_train_scaled[numerical_cols] = scaler.fit_transform(X_train_scaled[numerical_cols])
X_test_scaled[numerical_cols] = scaler.transform(X_test_scaled[numerical_cols])

print("Preprocessing termin√© : les colonnes originales ont √©t√© mises √† l'√©chelle sur place.")

Preprocessing termin√© : les colonnes originales ont √©t√© mises √† l'√©chelle sur place.


In [210]:
# Sauvegarder pour r√©utilisation
import pickle

# Sauvegarder le scaler (important pour pr√©dictions futures)
with open('scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)

# Sauvegarder les donn√©es preprocessed
np.save('X_train_scaled.npy', X_train_scaled)
np.save('X_test_scaled.npy', X_test_scaled)
np.save('y_train.npy', y_train)
np.save('y_test.npy', y_test)


---
## Conclusion du Preprocessing

L'√©tape de pr√©paration des donn√©es est d√©sormais termin√©e. Le dataset est pass√© d'un format brut avec des valeurs manquantes et des variables textuelles √† un format num√©rique optimis√© pour la r√©gression lin√©aire :

* **Nettoyage complet** : Les valeurs manquantes ont √©t√© imput√©es (moyenne pour le num√©rique, mode pour le cat√©goriel) et l'erreur de saisie sur l'`Exam_Score` (> 100) a √©t√© corrig√©e.

* **Structuration des donn√©es** : Toutes les variables cat√©gorielles ont √©t√© transform√©es via un encodage ordinal ou One-Hot, garantissant qu'aucune information textuelle ne bloque l'algorithme.

* **Int√©grit√© des types** : Les variables bool√©ennes ont √©t√© converties en entiers (0 et 1) pour une compatibilit√© math√©matique totale.

* **Pr√™t pour la mod√©lisation** : Les donn√©es sont structur√©es en `X_train`, `X_test`, `y_train` et `y_test`, pr√™tes √† √™tre inject√©es dans un mod√®le de r√©gression lin√©aire apr√®s une ultime √©tape de mise √† l'√©chelle (scaling).