In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [5]:
data = pd.read_csv("math.csv", delimiter=";", encoding='ISO-8859-1')
data.head()

Unnamed: 0,Student ID,Student Country,Question ID,Type of Answer,Question Level,Topic,Subtopic,Keywords
0,647,Ireland,77,0,Basic,Statistics,Statistics,"Stem and Leaf diagram,Relative frequency,Sampl..."
1,41,Portugal,77,1,Basic,Statistics,Statistics,"Stem and Leaf diagram,Relative frequency,Sampl..."
2,340,Portugal,77,1,Basic,Statistics,Statistics,"Stem and Leaf diagram,Relative frequency,Sampl..."
3,641,Italy,77,0,Basic,Statistics,Statistics,"Stem and Leaf diagram,Relative frequency,Sampl..."
4,669,Portugal,77,1,Basic,Statistics,Statistics,"Stem and Leaf diagram,Relative frequency,Sampl..."


In [7]:
data.drop(columns="Keywords", axis=1,inplace=True)

In [8]:
data.head()

Unnamed: 0,Student ID,Student Country,Question ID,Type of Answer,Question Level,Topic,Subtopic
0,647,Ireland,77,0,Basic,Statistics,Statistics
1,41,Portugal,77,1,Basic,Statistics,Statistics
2,340,Portugal,77,1,Basic,Statistics,Statistics
3,641,Italy,77,0,Basic,Statistics,Statistics
4,669,Portugal,77,1,Basic,Statistics,Statistics


In [13]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np


# Vérification des valeurs manquantes
print(data.isnull().sum())

# Suppression des valeurs manquantes
data.dropna(inplace=True)

# Séparation des données en variables prédictives (X) et variable cible (y)
X = data.drop('target', axis=1)
y = data['target']

# Séparation des données en ensembles d'entraînement et de test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisation des données avec StandardScaler
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Affichage des statistiques des données normalisées
print("Statistiques des données normalisées :")
print("Moyenne : ", X_train_scaled.mean())
print("Écart-type : ", X_train_scaled.std())



Student ID         0
Student Country    0
Question ID        0
Type of Answer     0
Question Level     0
Topic              0
Subtopic           0
dtype: int64


KeyError: "['target'] not found in axis"

In [14]:
pip install pandas numpy scikit-learn

Note: you may need to restart the kernel to use updated packages.


In [23]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder


print("\nInformations générales :")
data.info()

print("\nValeurs manquantes :")
print(data.isnull().sum())

# 3. Nettoyage des données
## a. Suppression des lignes/colonnes trop vides
threshold = 0.6  # Si plus de 60% des valeurs sont manquantes, on supprime la colonne
data = data.dropna(thresh=int(threshold * len(data)), axis=1)

## b. Remplissage des valeurs manquantes
data.fillna(data.mean(numeric_only=True), inplace=True)  # Remplit avec la moyenne pour les colonnes numériques

## c. Encodage des variables catégorielles
label_encoders = {}
for col in data.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    data[col] = le.fit_transform(data[col].astype(str))
    label_encoders[col] = le

## d. Normalisation des variables numériques
scaler = StandardScaler()
numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns
data[numeric_cols] = scaler.fit_transform(data[numeric_cols])

# 4. Sauvegarde des données prétraitées
data.to_csv("MathE_dataset_cleaned.csv", index=False)
print("\nPrétraitement terminé. Données nettoyées enregistrées sous 'math.csv'.")



Informations générales :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9546 entries, 0 to 9545
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Student ID       9546 non-null   float64
 1   Student Country  9546 non-null   int32  
 2   Question ID      9546 non-null   float64
 3   Type of Answer   9546 non-null   float64
 4   Question Level   9546 non-null   int32  
 5   Topic            9546 non-null   int32  
 6   Subtopic         9546 non-null   int32  
dtypes: float64(3), int32(4)
memory usage: 373.0 KB

Valeurs manquantes :
Student ID         0
Student Country    0
Question ID        0
Type of Answer     0
Question Level     0
Topic              0
Subtopic           0
dtype: int64

Prétraitement terminé. Données nettoyées enregistrées sous 'math.csv'.


In [25]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder

class DataPreprocessor:
    def __init__(self, file_path):
        """
        Initialise l'objet avec le fichier à traiter.
        """
        self.file_path = file_path
        self.data = None
        self.label_encoders = {}
        self.scaler = StandardScaler()

    def load_data(self):
        """
        Charge les données dans un DataFrame pandas.
        """
        try:
            if self.file_path.endswith('.csv'):
                self.data = pd.read_csv(self.file_path)
            elif self.file_path.endswith('.xlsx'):
                self.data = pd.read_excel(self.file_path)
            elif self.file_path.endswith('.json'):
                self.data = pd.read_json(self.file_path)
            else:
                raise ValueError("Format non supporté. Utilisez CSV, Excel ou JSON.")
            print("✅ Données chargées avec succès !")
        except Exception as e:
            print(f"❌ Erreur lors du chargement des données : {e}")

    def explore_data(self):
        """
        Affiche un aperçu et des statistiques générales sur les données.
        """
        if self.df is not None:
            print("\n📌 Aperçu des données :")
            display(self.data.head())

            print("\n🔍 Informations générales :")
            self.data.info()

            print("\n📊 Valeurs manquantes :")
            print(self.data.isnull().sum())
        else:
            print("❌ Les données ne sont pas chargées !")

    def clean_data(self, missing_threshold=0.6):
        """
        Nettoie les données :
        - Supprime les colonnes avec trop de valeurs manquantes
        """