In [2]:
# Importer les bibliothèques nécessaires
import pandas as pd
import numpy as np
import warnings
import os

# Ignorer les avertissements
warnings.filterwarnings("ignore", category=FutureWarning)

# Charger les données brutes
data = pd.read_csv('../data/data_raw/quebec_house_price.csv')

# Supprimer la colonne inutile
if 'Unnamed: 0' in data.columns:
    data = data.drop(columns=['Unnamed: 0'])

# Nettoyage des colonnes contenant des symboles monétaires ou des virgules
cols_to_clean = ['prix', 'Taxes_municipales', 'Taxes_scolaires', 'Electricite', 'Assurances']
for col in cols_to_clean:
    if col in data.columns:
        data[col] = data[col].replace('[\$,]', '', regex=True).replace('[\,]', '.', regex=True).astype(float)

# Imputation des valeurs manquantes pour les colonnes financières (par médiane)
financial_cols = ['Taxes_municipales', 'Taxes_scolaires', 'Electricite', 'Assurances']
for col in financial_cols:
    if col in data.columns:
        median_value = data[col].median()
        data[col].fillna(median_value, inplace=True)

# Imputation des colonnes numériques par médiane
num_cols = ['chambres', 'salle_de_bain', 'salle_d_eau', 'etage', 'Aire_habitable', 'Taille_du_terrain']
for col in num_cols:
    if col in data.columns:
        data[col].fillna(data[col].median(), inplace=True)

# Imputation des colonnes catégoriques par mode (la valeur la plus fréquente)
cat_cols = ['ville', 'region']
for col in cat_cols:
    if col in data.columns:
        data[col].fillna(data[col].mode()[0], inplace=True)

# Vérification finale des valeurs manquantes
print("\nValeurs manquantes après imputation :")
print(data.isnull().sum())

# Statistiques descriptives après correction
print("\nStatistiques descriptives après correction :")
print(data.describe())

# Enregistrement des données nettoyées
os.makedirs('../data/data_processed/', exist_ok=True)
data.to_csv('../data/data_processed/cleaned_quebec_house_price.csv', index=False)

# Aperçu des données nettoyées
print("\nAperçu des données nettoyées :")
print(data.head())



Valeurs manquantes après imputation :
prix                 0
Taxes_municipales    0
Taxes_scolaires      0
Electricite          0
Assurances           0
ville                0
region               0
adresse              0
chambres             0
salle_de_bain        0
salle_d_eau          0
etage                0
Aire_habitable       0
Taille_du_terrain    0
dtype: int64

Statistiques descriptives après correction :
               prix  Taxes_municipales  Taxes_scolaires   Electricite  \
count  1.035100e+04       1.035100e+04     1.035100e+04  1.035100e+04   
mean   1.758693e+06       3.063490e+05     3.469022e+04  1.820068e+05   
std    9.840292e+07       4.692883e+05     1.668644e+05  1.202259e+05   
min    1.000000e+00       1.000000e+02     1.000000e+00  1.000000e+00   
25%    2.999000e+05       2.244285e+05     2.234550e+04  1.698390e+05   
50%    4.459000e+05       2.699600e+05     2.758300e+04  1.700000e+05   
75%    6.499000e+05       3.234500e+05     3.420000e+04  1.728000e+05