### Importation des librairies


In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

### Définition de la fonction de chargement des données

In [22]:
def load_data(file_path):
    """
    Charge le fichier CSV et retourne un DataFrame.
    """
    try:
        df = pd.read_csv(file_path, sep=',')
        print(f"Fichier chargé avec succès. Dimensions : {df.shape}")
        
        return df 
    except FileNotFoundError:
        print(f"Erreur : Le fichier à l'emplacement {file_path} est introuvable.")
        return None


### Fonction de Nettoyage

In [28]:
def clean_data(df):
    """
    Nettoie les données :
    - Supprime les doublons
    - Supprime les colonnes constantes
    """
    # Suppression des doublons
    initial_shape = df.shape
    df = df.drop_duplicates()
    print(f"Doublons supprimés. Dimensions : {initial_shape} -> {df.shape}")
    
    # Suppression des colonnes constantes
    constant_cols = [col for col in df.columns if df[col].nunique() == 1]
    df.drop(constant_cols, axis=1, inplace=True)
    print(f"Colonnes supprimées (variables constantes) : {constant_cols}")
    
    return df


### Fonction de tranformation

In [29]:
def transform_data(df):
    """
    Effectue les transformations : suppression colonnes inutiles, normalisation.
    """
    # Suppression des colonnes cle et type_client (on doit faire une segmentation donc on a pas besoin type_client)
    if 'cle' in df.columns and 'type_client' in df.columns:
        df.drop(['cle', 'type_client'], axis=1, inplace=True) 
        print("Colonnes 'cle' et 'type_client' supprimées.")
    
    # Normalisation des données numériques
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    scaler = StandardScaler()
    df[numeric_cols] = scaler.fit_transform(df[numeric_cols])
    print("Colonnes numériques normalisées.")

    return df


### Définition des chemins

In [30]:
# Chemins des fichiers
input_path = 'C:/Users/Visiteur/Desktop/Projets Data/data-science-portfolio/Scoring-et-Segmentation-Client/data/assurance1.csv'
output_path = 'C:/Users/Visiteur/Desktop/Projets Data/data-science-portfolio/Scoring-et-Segmentation-Client/data/processed_data.csv'


### Chargement des données

In [31]:
# Chargement des données
df = load_data(input_path)
if df is not None:
    print("Données chargées avec succès.")
else:
    print("Échec du chargement des données.")


Fichier chargé avec succès. Dimensions : (5822, 37)
Données chargées avec succès.


### Nettoyage des données


In [32]:
if df is not None:
    df = clean_data(df)
    print("Nettoyage terminé.")

Doublons supprimés. Dimensions : (5822, 37) -> (5822, 37)
Colonnes supprimées (variables constantes) : []
Nettoyage terminé.


### Tranformation des données

In [25]:
if df is not None:
    df = transform_data(df)
    print("Transformation terminée.")


Colonnes 'cle' et 'type_client' supprimées.
Colonnes numériques normalisées.
Transformation terminée.


### Sauvegarde des données nettoyées

In [26]:
if df is not None:
    df.to_csv(output_path, index=False)
    print(f"Données sauvegardées avec succès à : {output_path}")


Données sauvegardées avec succès à : C:/Users/Visiteur/Desktop/Projets Data/data-science-portfolio/Scoring-et-Segmentation-Client/data/processed_data.csv
