In [8]:
import pandas as pd
from sklearn.impute import SimpleImputer

In [5]:
# Chargement des donn√©es
train = pd.read_csv("../data/train.csv")
test = pd.read_csv("../data/test.csv")

In [6]:
# Colonnes qu‚Äôon voulait utiliser √† la base
initial_features = [
    'Basic_Demos-Age',
    'Physical-BMI',
    'PCIAT-PCIAT_Total',
    'PreInt_EduHx-computerinternet_hoursday',
    'SDS-SDS_Total_T'
]

# On ne garde que les colonnes disponibles dans les deux datasets
common_features = [col for col in initial_features if col in test.columns]

print("Colonnes communes utilis√©es :", common_features)

Colonnes communes utilis√©es : ['Basic_Demos-Age', 'Physical-BMI', 'PreInt_EduHx-computerinternet_hoursday', 'SDS-SDS_Total_T']


In [7]:
# Cr√©ation des datasets
X = train[common_features]
y = train['sii']
X_test = test[common_features]

# V√©rification des NaN
print("\nüîç Valeurs manquantes dans X :")
print(X.isnull().sum())


üîç Valeurs manquantes dans X :
Basic_Demos-Age                              0
Physical-BMI                               938
PreInt_EduHx-computerinternet_hoursday     659
SDS-SDS_Total_T                           1354
dtype: int64


In [11]:
# Imputeur avec strat√©gie "median"
imputer = SimpleImputer(strategy="median")

# Appliquer sur X (train)
X_imputed = pd.DataFrame(imputer.fit_transform(X), columns=X.columns)

# Appliquer sur X_test avec les m√™mes m√©dianes
X_test_imputed = pd.DataFrame(imputer.transform(X_test), columns=X_test.columns)

# V√©rification
print("Donn√©es imput√©es ‚Äì valeurs manquantes restantes :")
print(X_imputed.isnull().sum())


Donn√©es imput√©es ‚Äì valeurs manquantes restantes :
Basic_Demos-Age                           0
Physical-BMI                              0
PreInt_EduHx-computerinternet_hoursday    0
SDS-SDS_Total_T                           0
dtype: int64


## Conclusion ‚Äì Pr√©paration des donn√©es

Dans cette √©tape, on a pr√©par√© un jeu de donn√©es propre et directement exploitable pour l‚Äôentra√Ænement du mod√®le :

- On a gard√© uniquement les colonnes **disponibles √† la fois dans le train et le test**.
- On a d√©tect√© et **remplac√© les valeurs manquantes** avec la **m√©diane** de chaque colonne (m√©thode simple mais efficace).
- On a maintenant deux tableaux bien propres :
  - `X_imputed` pour entra√Æner le mod√®le
  - `X_test_imputed` pour faire une pr√©diction plus tard

Prochaine √©tape : passer √† la mod√©lisation de base avec un premier mod√®le simple.


In [12]:
# üíæ Sauvegarde des datasets nettoy√©s
X_imputed.to_csv("../data/X_imputed.csv", index=False)
X_test_imputed.to_csv("../data/X_test_imputed.csv", index=False)
y.to_csv("../data/y.csv", index=False)

print("Donn√©es sauvegard√©es.")


Donn√©es sauvegard√©es.
