# Prétraitement des Données

Ce notebook contient les étapes de prétraitement des données pour la segmentation des clients.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

In [None]:
# Chargement des données brutes
df = pd.read_csv('../data/raw/donnees_clients.csv')

# Affichage des premières lignes
print("Aperçu des données :")
display(df.head())

# Informations sur le dataset
print("
Informations sur le dataset :")
display(df.info())

In [None]:
# Analyse des valeurs manquantes
missing_data = df.isnull().sum()
missing_percentages = (missing_data / len(df)) * 100

# Création d'un DataFrame pour l'affichage
missing_df = pd.DataFrame({
    'Valeurs manquantes': missing_data,
    'Pourcentage': missing_percentages
})

# Affichage des résultats
print("Analyse des valeurs manquantes :")
display(missing_df)

# Visualisation des valeurs manquantes
plt.figure(figsize=(10, 6))
sns.heatmap(df.isnull(), yticklabels=False, cbar=False, cmap='viridis')
plt.title('Carte des valeurs manquantes')
plt.show()

In [None]:
# Création de l'imputer
imputer = SimpleImputer(strategy='mean')

# Sélection des colonnes numériques
numeric_columns = df.select_dtypes(include=[np.number]).columns

# Imputation des valeurs manquantes
df[numeric_columns] = imputer.fit_transform(df[numeric_columns])

# Vérification qu'il n'y a plus de valeurs manquantes
print("Vérification des valeurs manquantes après imputation :")
display(df.isnull().sum())

In [None]:
# Création du scaler
scaler = StandardScaler()

# Normalisation des données
df_scaled = pd.DataFrame(
    scaler.fit_transform(df[numeric_columns]),
    columns=numeric_columns
)

# Affichage des statistiques avant et après normalisation
print("Statistiques avant normalisation :")
display(df[numeric_columns].describe())

print("
Statistiques après normalisation :")
display(df_scaled.describe())

In [None]:
# Sauvegarde des données prétraitées
df_scaled.to_csv('../data/processed/donnees_pretraitees.csv', index=False)
print("Données prétraitées sauvegardées avec succès !")