In [135]:
import numpy as np
import pandas as pd
import datetime
import matplotlib.pyplot as plt

# Path of our data
path = r"C:\Users\Zakaria-Laptop\FirstStepWithGit\data\customer_data.csv"

In [136]:
def read_data(path: str)-> pd.DataFrame:
    return pd.read_csv(path)

df = read_data(path)
df.head(2)

Unnamed: 0,CustomerID,Name,Gender,Age,Email,JoinDate,PurchaseAmount,LastLogin
0,1001,Customer 1,,65.0,customer1@example.com,2020-07-23,909.33,2024-03-14
1,1002,Customer 2,,18.0,customer2@example.com,,771.89,


## La base de données

- CustomerID : Identifiant unique du client
- Name : Nom du client
- Gender : Genre du client (M, F, null)
- Age : Âge du client (peut contenir des valeurs aberrantes ou manquantes)
- Email : Adresse e-mail du client
- JoinDate : Date d'inscription au service (peut contenir des formats incorrects)
- PurchaseAmount : Montant des achats (peut contenir des valeurs manquantes ou incorrectes)
- LastLogin : Dernière date de connexion (peut contenir des valeurs nulles)

## Niveau - 1: Basique

In [137]:
# Combien de lignes et de colonnes contient la base de données
print(f"le nombre de lignes dans cette base de données est: {df.shape[0]} et le nombre des colonnes est: {df.shape[1]}")

# Identifie s'il y'a des valeurs manquantes dans chaque colonne
print("les valeurs manquantes de chaques colonnes: \n", df.isna().sum())

# Gestion des valeurs manquantes

# 1- Remplacez les valeurs manquantes de la colonne "Gender" par "Unknown"
df["Gender"].fillna("Unknown", inplace=True)
# 2- Remplacez Nan sur Age par la médiane des ages
df["Age"].fillna(df["Age"].median(), inplace=True)
# 3- Remplissez les Nans de "PurchaseAmount" par la moyenne.
df["PurchaseAmount"].fillna(df["PurchaseAmount"].median(), inplace=True)

# Vérifier les modifications
print("\nAprès remplacement des valeurs manquantes :")
print(df.isna().sum())

le nombre de lignes dans cette base de données est: 50 et le nombre des colonnes est: 8
les valeurs manquantes de chaques colonnes: 
 CustomerID         0
Name               0
Gender            14
Age               12
Email              0
JoinDate          20
PurchaseAmount    18
LastLogin         29
dtype: int64

Après remplacement des valeurs manquantes :
CustomerID         0
Name               0
Gender             0
Age                0
Email              0
JoinDate          20
PurchaseAmount     0
LastLogin         29
dtype: int64


## Niveau 2: Intermédiaire


In [138]:
# 1 - Suppression des doublons
print("Le nombre des doublons dans la colonne 'CustomerID' est: ", df["CustomerID"].duplicated().sum())
df.drop_duplicates(subset="CustomerID", inplace=True)

# 2 - Formatage des colonnes
# Assurez que la colonne "JoinDate" soit bien au format datetime
df["JoinDate"] = pd.to_datetime(df["JoinDate"], errors="coerce")

# Convertis la colonne "LastLogin" en datetime et remplace Nans par la date la plus ancienne.
df["LastLogin"] = pd.to_datetime(df["LastLogin"], errors="coerce")
last_date = df["LastLogin"].min()
df["LastLogin"].fillna(last_date, inplace=True)

# Correction des erreurs dans les données
# 1- Identifie et supprime les valeurs aberrantes dans la colonne "Age" (ex. : âges négatifs ou trop élevés).

Q1 = df["Age"].quantile(0.25)
Q3 = df["Age"].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5*IQR
upper_bound = Q3 + 1.5*IQR

print(f"Lower_bound is equal: {lower_bound} and our upper bound is: {upper_bound}")
df = df[(df["Age"]>lower_bound)&(df["Age"]<upper_bound)]

# Normaliser les montants d'achat : rendre tous les montants négatifs positifs
df['PurchaseAmount'] = df['PurchaseAmount'].abs()

print("\nValeurs aberrantes corrigées dans 'Age' et 'PurchaseAmount' :")
print(df[['Age', 'PurchaseAmount']].describe())

Le nombre des doublons dans la colonne 'CustomerID' est:  0
Lower_bound is equal: -18.25 and our upper bound is: 105.75

Valeurs aberrantes corrigées dans 'Age' et 'PurchaseAmount' :
             Age  PurchaseAmount
count  50.000000       50.000000
mean   45.840000      503.857800
std    21.688293      246.192552
min     3.000000       40.380000
25%    28.250000      382.007500
50%    48.000000      525.540000
75%    59.250000      594.942500
max    95.000000      981.010000


- __errors="raise"__ : Par défaut, cela provoque une erreur si une date invalide est rencontrée.

- __errors="ignore"__ : Ignore les erreurs et renvoie les valeurs d'origine non modifiées.

- __errors="coerce"__ : Remplace les valeurs invalides par NaT.

## Niveau 3: Avancé

In [139]:
# Crée une nouvelle colonne "Tenure" qui représente le nombre de jours depuis la date d'inscription jusqu'à aujourd'hui.
df["Tenure"] = abs((df["JoinDate"] - pd.Timestamp.now()).dt.days)

# Crée "PurchaseCategory" qui catégorise le montant des achats en faible (moins de 100), moyen (entre 100 et 500), et élevé (plus de 500).
def categorize_purchase(amount):
    if amount>500:
        return "élevé"
    if amount<100:
        return "faible"
    return "moyen"

df["PurchaseCategory"] = df["PurchaseAmount"].apply(categorize_purchase)
df.head(2)

Unnamed: 0,CustomerID,Name,Gender,Age,Email,JoinDate,PurchaseAmount,LastLogin,Tenure,PurchaseCategory
0,1001,Customer 1,Unknown,65.0,customer1@example.com,2020-07-23,909.33,2024-03-14,1536.0,élevé
1,1002,Customer 2,Unknown,18.0,customer2@example.com,NaT,771.89,2024-01-09,,élevé


Transformation et regroupement :

In [159]:
#Regroupe les clients par genre et trouve l'âge moyen, le montant total des achats, et le nombre de clients dans chaque groupe.
df_grouped = df.groupby("Gender").agg({"Age": "mean", "PurchaseAmount": "sum", "CustomerID": "count"}).rename(
    columns={"Age": "Age moyen", "PurchaseAmount": "Total Amount", "CustomerID": "Nbr of clients"})
df_grouped

Unnamed: 0_level_0,Age moyen,Total Amount,Nbr of clients
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,42.909091,11012.8,22
M,46.785714,5164.26,14
Unknown,49.5,9015.83,14


In [156]:
#Calcule le montant moyen des achats pour les clients qui se sont inscrits en 2023.
df["JoinYear"] = df["JoinDate"].dt.year.where(df["JoinDate"].notna(), 0).astype(int)
mean_amount = df[df["JoinYear"]==2020]["PurchaseAmount"].mean()
print(f"\nMontant moyen des achats pour les clients inscrits en 2020 : {mean_amount:.2f}")


Montant moyen des achats pour les clients inscrits en 2020 : 538.06


## Niveau 4: expert

Utilise une technique de détection des anomalies (par exemple, isolation forest ou un simple z-score) pour identifier les clients avec des montants d'achat très anormaux.

In [167]:
mean = df["PurchaseAmount"].mean()
std = df["PurchaseAmount"].std()
df["z_score"] = (df["PurchaseAmount"]-mean)/std
anomalies = df[df["z_score"].abs()>1.5]
print("\nAnomalies détectées dans 'PurchaseAmount' :")
print(anomalies[['CustomerID', 'PurchaseAmount', 'z_score']])



Anomalies détectées dans 'PurchaseAmount' :
    CustomerID  PurchaseAmount   z_score
0         1001          909.33  1.646972
4         1005          936.94  1.759120
9         1010           77.18 -1.733106
18        1019           97.18 -1.651869
20        1021           98.73 -1.645573
21        1022           40.38 -1.882583
25        1026          882.04  1.536124
26        1027          973.42  1.907297
33        1034          109.67 -1.601136
39        1040           63.45 -1.788875
46        1047          981.01  1.938126
49        1050          108.71 -1.605036


#### Pipeline de nettoyage de données :

Crée un pipeline complet de nettoyage de données avec scikit-learn ou pandas, qui inclut les étapes suivantes :

- Traitement des valeurs manquantes.

- Conversion des types de données.

- Détection et correction des valeurs aberrantes.

- Normalisation des montants d'achat.