In [8]:
import pandas as pd
from sklearn.impute import SimpleImputer

In [5]:
# Chargement des données
train = pd.read_csv("../data/train.csv")
test = pd.read_csv("../data/test.csv")

In [6]:
# Colonnes qu’on voulait utiliser à la base
initial_features = [
    'Basic_Demos-Age',
    'Physical-BMI',
    'PCIAT-PCIAT_Total',
    'PreInt_EduHx-computerinternet_hoursday',
    'SDS-SDS_Total_T'
]

# On ne garde que les colonnes disponibles dans les deux datasets
common_features = [col for col in initial_features if col in test.columns]

print("Colonnes communes utilisées :", common_features)

Colonnes communes utilisées : ['Basic_Demos-Age', 'Physical-BMI', 'PreInt_EduHx-computerinternet_hoursday', 'SDS-SDS_Total_T']


In [7]:
# Création des datasets
X = train[common_features]
y = train['sii']
X_test = test[common_features]

# Vérification des NaN
print("\n🔍 Valeurs manquantes dans X :")
print(X.isnull().sum())


🔍 Valeurs manquantes dans X :
Basic_Demos-Age                              0
Physical-BMI                               938
PreInt_EduHx-computerinternet_hoursday     659
SDS-SDS_Total_T                           1354
dtype: int64


In [11]:
# Imputeur avec stratégie "median"
imputer = SimpleImputer(strategy="median")

# Appliquer sur X (train)
X_imputed = pd.DataFrame(imputer.fit_transform(X), columns=X.columns)

# Appliquer sur X_test avec les mêmes médianes
X_test_imputed = pd.DataFrame(imputer.transform(X_test), columns=X_test.columns)

# Vérification
print("Données imputées – valeurs manquantes restantes :")
print(X_imputed.isnull().sum())


Données imputées – valeurs manquantes restantes :
Basic_Demos-Age                           0
Physical-BMI                              0
PreInt_EduHx-computerinternet_hoursday    0
SDS-SDS_Total_T                           0
dtype: int64


## Conclusion – Préparation des données

Dans cette étape, on a préparé un jeu de données propre et directement exploitable pour l’entraînement du modèle :

- On a gardé uniquement les colonnes **disponibles à la fois dans le train et le test**.
- On a détecté et **remplacé les valeurs manquantes** avec la **médiane** de chaque colonne (méthode simple mais efficace).
- On a maintenant deux tableaux bien propres :
  - `X_imputed` pour entraîner le modèle
  - `X_test_imputed` pour faire une prédiction plus tard

Prochaine étape : passer à la modélisation de base avec un premier modèle simple.


In [12]:
# 💾 Sauvegarde des datasets nettoyés
X_imputed.to_csv("../data/X_imputed.csv", index=False)
X_test_imputed.to_csv("../data/X_test_imputed.csv", index=False)
y.to_csv("../data/y.csv", index=False)

print("Données sauvegardées.")


Données sauvegardées.
