In [4]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
import joblib

# Charger ton dataset
df = pd.read_csv("dataset_final (3).csv", sep=";")

# -------------------------------
# Prétraitement minimal (comme dans ton pipeline)
# -------------------------------
def parse_minutes(s):
    s = str(s).strip()
    if s in ["nan", ""]:
        return np.nan
    if "< 30 min" in s: return 15
    if "30min-1h" in s: return 45
    if "1h-2h" in s: return 90
    if "1h" in s: return 60
    if "2h" in s: return 120
    if "3h" in s: return 180
    if "4h" in s: return 240
    return np.nan

# Colonnes à transformer
df["presence_pct"] = df["Taux de presence moyen aux cours (%)"].str.replace("%","").astype(float) / 100.0
df["study_min"] = df["Heures d'etude personnelle par jour"].map(parse_minutes)
df["implication"] = pd.to_numeric(df["Niveau d'implication dans les travaux de groupe"], errors="coerce")
inter_map = {"faible":0, "moyenne":1, "excellente":2}
df["interaction_ord"] = df["Interaction avec les enseignant"].map(inter_map)
freq_map = {"Jamais":0, "Rarement":1, "Souvent":2, "Toujours":3}
df["Acces a la bibliotheque_ord"] = df["Acces a la bibliotheque"].map(freq_map)

# -------------------------------
# Sélection des colonnes numériques à scaler
# -------------------------------
num_cols = ["presence_pct", "study_min", "implication", "interaction_ord", "Acces a la bibliotheque_ord"]

X = df[num_cols].values

# -------------------------------
# Créer et entraîner le scaler
# -------------------------------
scaler = StandardScaler()
scaler.fit(X)

# -------------------------------
# Sauvegarder le scaler
# -------------------------------
joblib.dump(scaler, "scaler.pkl")
print("✅ Fichier scaler.pkl généré avec succès")


✅ Fichier scaler.pkl généré avec succès
