# hargement + aperçu des valeurs manquantes

In [1]:
# notebooks/01_preprocessing.ipynb

import pandas as pd
import numpy as np

# Chargement des données d'entraînement
df = pd.read_csv(r'C:\Users\mlkou\Desktop\devopsMops\data\raw\train.csv')

# Aperçu général
print("Shape:", df.shape)
display(df.head())

# Analyse des valeurs manquantes
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'missing_count': missing,
    'missing_percent': missing_percent
}).sort_values(by='missing_percent', ascending=False)

display(missing_df[missing_df['missing_percent'] > 0])


Shape: (1460, 81)


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


Unnamed: 0,missing_count,missing_percent
PoolQC,1453,99.520548
MiscFeature,1406,96.30137
Alley,1369,93.767123
Fence,1179,80.753425
MasVnrType,872,59.726027
FireplaceQu,690,47.260274
LotFrontage,259,17.739726
GarageYrBlt,81,5.547945
GarageCond,81,5.547945
GarageType,81,5.547945


# Suppression des colonnes trop incomplètes

In [2]:
# Suppression des colonnes avec plus de 40% de valeurs manquantes
threshold = 40.0
cols_to_drop = missing_df[missing_df['missing_percent'] > threshold].index.tolist()
print(f"Colonnes supprimées ({len(cols_to_drop)}): {cols_to_drop}")

df_cleaned = df.drop(columns=cols_to_drop)
print("Nouveau shape après suppression :", df_cleaned.shape)


Colonnes supprimées (6): ['PoolQC', 'MiscFeature', 'Alley', 'Fence', 'MasVnrType', 'FireplaceQu']
Nouveau shape après suppression : (1460, 75)


#  Imputation des valeurs manquantes restantes

In [4]:
# Séparation des colonnes numériques et catégorielles restantes
num_cols = df_cleaned.select_dtypes(include=['int64', 'float64']).columns
cat_cols = df_cleaned.select_dtypes(include=['object']).columns

# Imputation des colonnes numériques avec la médiane
for col in num_cols:
    if df_cleaned[col].isnull().sum() > 0:
        median = df_cleaned[col].median()
        df_cleaned[col].fillna(median, inplace=True)

# Imputation des colonnes catégorielles avec "None"
for col in cat_cols:
    if df_cleaned[col].isnull().sum() > 0:
        df_cleaned[col].fillna("None", inplace=True)

# Vérification finale
print("Valeurs manquantes restantes :", df_cleaned.isnull().sum().sum())


Valeurs manquantes restantes : 0


# Encodage des variables catégorielles

In [5]:
# Encodage One-Hot des colonnes catégorielles
df_encoded = pd.get_dummies(df_cleaned, columns=cat_cols, drop_first=True)

print("Shape après encodage :", df_encoded.shape)
display(df_encoded.head())


Shape après encodage : (1460, 241)


Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,SaleType_ConLI,SaleType_ConLw,SaleType_New,SaleType_Oth,SaleType_WD,SaleCondition_AdjLand,SaleCondition_Alloca,SaleCondition_Family,SaleCondition_Normal,SaleCondition_Partial
0,1,60,65.0,8450,7,5,2003,2003,196.0,706,...,False,False,False,False,True,False,False,False,True,False
1,2,20,80.0,9600,6,8,1976,1976,0.0,978,...,False,False,False,False,True,False,False,False,True,False
2,3,60,68.0,11250,7,5,2001,2002,162.0,486,...,False,False,False,False,True,False,False,False,True,False
3,4,70,60.0,9550,7,5,1915,1970,0.0,216,...,False,False,False,False,True,False,False,False,False,False
4,5,60,84.0,14260,8,5,2000,2000,350.0,655,...,False,False,False,False,True,False,False,False,True,False


# Séparation X/y 

In [6]:
import os

# Séparation X (features) et y (target)
X = df_encoded.drop(columns=['SalePrice'])
y = df_encoded['SalePrice']

# Création du dossier processed s'il n'existe pas
processed_dir = '../data/processed'
os.makedirs(processed_dir, exist_ok=True)

# Sauvegarde des fichiers
X.to_csv(os.path.join(processed_dir, 'X_train.csv'), index=False)
y.to_csv(os.path.join(processed_dir, 'y_train.csv'), index=False)

print("Données sauvegardées dans 'data/processed/'")


Données sauvegardées dans 'data/processed/'
