#  Objectif du notebook : Feature Engineering
L'objectif de cette étape est de créer des variables dérivées à partir des colonnes existantes afin d’enrichir l'information disponible pour les modèles de machine learning. Ce processus vise à renforcer la capacité prédictive des modèles en capturant des motifs ou relations non directement visibles dans les données brutes.
Nous procéderons également à la suppression de certaines variables jugées peu informatives, redondantes ou non pertinentes pour la détection de la fraude. Cette phase est donc essentielle pour améliorer la performance, la robustesse et la lisibilité du modèle final.

In [2]:
from pathlib import Path
import dill
import matplotlib.pyplot as plt
import missingno as msno
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
import seaborn as sns
from imblearn.pipeline import Pipeline as imb_Pipeline
from loguru import logger
from sklearn import set_config
from sklearn.compose import make_column_transformer, ColumnTransformer
from sklearn.dummy import DummyClassifier
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (confusion_matrix,
                             classification_report,
                             ConfusionMatrixDisplay,
                             roc_auc_score,
                             accuracy_score,
                             precision_score,
                             recall_score,
                             f1_score,
                             RocCurveDisplay,
                             PrecisionRecallDisplay,
                            )
from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, OrdinalEncoder, OneHotEncoder
from ucimlrepo import fetch_ucirepo, list_available_datasets
from yellowbrick.classifier import DiscriminationThreshold

In [10]:
HOME_DIR = Path("data")
DATA_TRAIN = HOME_DIR / "training.csv"
HOME_DIR.mkdir(parents=True, exist_ok=True)

# Traitement des variables catégorielles

In [12]:
# Conversion de la variable 'PricingStrategy' en type string (catégorielle)
# Cette variable représente une stratégie tarifaire appliquée par Xente. 
# Même si elle est codée sous forme de chiffres (ex : 0, 1, 2...), elle ne représente pas une quantité ou un ordre logique,
# mais plutôt des catégories distinctes. Il est donc plus pertinent de la traiter comme une variable catégorielle.
df['PricingStrategy'] = df['PricingStrategy'].astype('str')


In [14]:
categorical_columns = df.select_dtypes(include="object").columns
categorical_columns

Index(['TransactionId', 'BatchId', 'AccountId', 'SubscriptionId', 'CustomerId',
       'CurrencyCode', 'ProviderId', 'ProductId', 'ProductCategory',
       'ChannelId', 'TransactionStartTime', 'PricingStrategy'],
      dtype='object')

In [16]:

# --- Création de variables dérivées à partir des colonnes 'AccountId', 'SubscriptionId' et 'CustomerId' ---

# 1. Somme des montants absolus par client
# Cela permet de capturer le volume total de transactions (débits + crédits) réalisé par chaque client.
# Un comportement anormalement élevé peut être un indicateur de fraude.
df['CustomerId_abs_amount_sum'] = df.groupby('CustomerId')['Amount'].transform(lambda x: x.abs().sum())

# 2. Nombre total de transactions par abonnement
# Une activité trop fréquente sur une même souscription peut indiquer une anomalie.
df['SubscriptionId_transaction_count'] = df.groupby('SubscriptionId')['TransactionId'].transform('count')

# 3. Écart-type des montants absolus par client
# Cette statistique mesure la variation des montants dépensés par un client.
# Une grande variabilité peut indiquer un comportement irrégulier ou suspect.
df['CustomerId_abs_amount_std'] = df.groupby('CustomerId')['Amount'].transform(lambda x: x.abs().std())

# 4. Remplacement des valeurs manquantes dans l'écart-type par 0
# Certaines séries peuvent contenir une seule transaction, ce qui rend impossible le calcul de l’écart-type.
# Dans ce cas, on considère qu’il n’y a pas de variabilité.
df['CustomerId_abs_amount_std'] = df['CustomerId_abs_amount_std'].fillna(0)


In [18]:
# --- Création de variables dérivées à partir de la colonne temporelle 'TransactionStartTime' ---

# 1. Création d'une variable catégorielle pour le type de transaction : crédit ou débit
# Cela permet de différencier les flux sortants (débits) des flux entrants (crédits),
# ce qui peut s’avérer utile pour détecter certains comportements suspects.
df['TransactionType'] = df['Amount'].apply(lambda x: 'Credit' if x < 0 else 'Debit').astype('object')

# 2. Conversion de la variable temporelle au format datetime
# Nécessaire pour pouvoir extraire correctement des composantes temporelles.
df['TransactionStartTime'] = pd.to_datetime(df['TransactionStartTime'])

# 3. Extraction de l’heure et du jour de la semaine à partir de la date de transaction
# L’heure (TransactionHour) peut révéler des comportements atypiques (ex : transactions la nuit).
# Le jour (TransactionDay) peut également être pertinent si certaines fraudes surviennent plus souvent certains jours.
df['TransactionHour'] = df['TransactionStartTime'].dt.hour
df['TransactionDay'] = df['TransactionStartTime'].dt.day_name(locale='fr_FR')

# 4. Création d'une variable 'MomentOfDay' pour catégoriser l'heure en périodes de la journée
# Cela permet de simplifier la variable horaire en trois grandes plages horaires :
# matin (6h-13h), après-midi (13h-20h), et nuit (20h-6h),
# ce qui peut rendre l’information plus facilement exploitable dans un modèle.
def get_moment(hour):
    if 6 <= hour < 13:
        return 'matin'
    elif 13 <= hour <= 20:
        return 'apres-midi'
    else:
        return 'nuit'

df['MomentOfDay'] = df['TransactionHour'].apply(get_moment)


In [20]:
# --- Vérification avant suppression de 'ProductCategory' ---

# Avant de supprimer la variable 'ProductCategory', on s'assure qu'elle est redondante avec 'ProductId'.
# Concrètement, on veut vérifier qu'à chaque 'ProductId' correspond une seule et unique 'ProductCategory'.
# Si cette condition est remplie, alors 'ProductCategory' n’apporte pas d’information supplémentaire
# et peut être supprimée sans perte d’information (car elle est entièrement déterminée par 'ProductId').

mapping_check = df.groupby("ProductId")["ProductCategory"].nunique()
print("Nombre de ProductId ayant plus d'une catégorie :", (mapping_check > 1).sum())


Nombre de ProductId ayant plus d'une catégorie : 0


In [22]:
# Ces colonnes n’apportent plus d'information utile au modèle
cols_to_drop = ['TransactionId', 'BatchId', 'CustomerId','AccountId', 'SubscriptionId', 
                'CountryCode', 'CurrencyCode','TransactionStartTime','TransactionHour','ProductCategory']
df.drop(columns=cols_to_drop, inplace=True)

In [24]:
# les variables categorielles obtenues apres traitement 
categorical_columns = df.select_dtypes(include="object").columns
categorical_columns

Index(['ProviderId', 'ProductId', 'ChannelId', 'PricingStrategy',
       'TransactionType', 'TransactionDay', 'MomentOfDay'],
      dtype='object')

## Recodage de certaines variables catégorielles 
Nous avons procédé à un regroupement des modalités des variables ProviderId, ProductId, ChannelId et PricingStrategy dans le but de réduire leur cardinalité. Cette étape est essentielle en prévision d’un encodage one-hot, afin d’éviter une explosion du nombre de variables qui pourrait nuire à la performance et à l’interprétabilité du modèle.

In [26]:
# Recoder la variable ProduitId 
# Calculer la fréquence des produits
frequencies_product = df['ProductId'].value_counts(normalize=True) * 100

# Sélectionner les produits dont la fréquence dépasse 12%
products_above_12 = frequencies_product[frequencies_product > 12]
products_list = products_above_12.index.tolist()
def recode_product(X):
  try:
        if 'ProductId' in X.columns:
            X = X.copy()
            X['ProductId'] = X['ProductId'].apply(lambda x: x if x in products_list else 'Other')
        return X
  except:
        print("Vérifier la liste des colonnes")

df = recode_product(df)


In [28]:
# Recoder la variable providerID 
frequencies_provider = df['ProviderId'].value_counts(normalize=True) * 100

# Sélectionner les provider dont la fréquence dépasse 12%
provider_above_12 = frequencies_provider[frequencies_provider > 12]

provider_list = provider_above_12.index.tolist()

def recode_provider(X):
  try:
        if 'ProviderId' in X.columns:
            X = X.copy()
            X['ProviderId'] = X['ProviderId'].apply(lambda x: x if x in provider_list else 'Other')
        return X
  except:
        print("Vérifier la liste des colonnes")

df = recode_provider(df)


In [30]:
# Recoder la variable ChannelId

channel_list = ['ChannelId_2','ChannelId_3']
def recode_channel(X):
  try:
        if 'ChannelId' in X.columns:
            X = X.copy()
            X['ChannelId'] = X['ChannelId'].apply(lambda x: x if x in channel_list else 'Other')
        return X
  except:
        print("Vérifier la liste des colonnes")

df = recode_channel(df)


In [32]:
# Recoder la variable PricingStrategy
Pricing_list = ["2","4"]

def recode_pricing(X):
  try:
        if 'PricingStrategy' in X.columns:
            X = X.copy()
            X['PricingStrategy'] = X['PricingStrategy'].apply(lambda x: x if x in Pricing_list else 'Other')
        return X
  except:
        print("Vérifier la liste des colonnes")

df = recode_pricing(df)


# Traitement des variables numériques 

In [34]:
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
numeric_columns = [col for col in numeric_columns if col != 'FraudResult']
numeric_columns

['Amount',
 'Value',
 'CustomerId_abs_amount_sum',
 'SubscriptionId_transaction_count',
 'CustomerId_abs_amount_std']

In [36]:
# Transformation logarithmique de la somme absolue des montants par client.
# Cette variable présente une meilleure distribution que la variable d'origine (selon le F-test),
# ce qui améliore la significativité dans les modèles et atténue l'effet des valeurs extrêmes.
df['log_CustomerId_abs_amount_sum'] = np.log1p(df['CustomerId_abs_amount_sum'])

# Création d'une variable capturant l’écart entre la valeur estimée d’une transaction (Value)
# et le montant réellement débité/crédité (Amount). Un écart inhabituel peut indiquer une incohérence,
# potentiellement liée à une fraude
df['Amount_Value_Ecart'] = df['Value'] - df['Amount'].abs()


In [40]:
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
numeric_columns = [col for col in numeric_columns if col != 'FraudResult']
numeric_columns


['Value',
 'SubscriptionId_transaction_count',
 'CustomerId_abs_amount_std',
 'log_CustomerId_abs_amount_sum',
 'Amount_Value_Ecart']

In [38]:
# Suppression de certaines variables devenues redondantes ou moins informatives.
# La variable 'Amount' est fortement corrélée à 'Value', or cette dernière s'est révélée plus significative selon les tests statistiques
# Quant à 'CustomerId_abs_amount_sum', sa version transformée en logarithme 
# ('log_CustomerId_abs_amount_sum') est plus discriminante pour capturer les comportements frauduleux selon les tests statistiques.
cols_to_drop = ['Amount', 'CustomerId_abs_amount_sum']
df.drop(columns=cols_to_drop, inplace=True)


# Encodage des Variables Catégorielles
Les variables catégorielles sont encodées à l'aide de la méthode One-Hot Encoding. Cette méthode est utilisée pour transformer les variables qualitatives en variables numériques binaires. Concrètement, chaque catégorie d'une variable est convertie en une colonne distincte avec des valeurs 0 ou 1, indiquant la présence ou l'absence de cette catégorie. Cette technique permet aux modèles de comprendre les relations entre les différentes catégories, en évitant de leur attribuer une notion d'ordre ou de distance qui pourrait fausser les résultats si elles étaient simplement codées numériquement. L'encodage One-Hot est essentiel pour garantir que le modèle n'interprète pas les catégories comme ayant une hiérarchie ou des valeurs numériques implicites.

# Standardisation des Variables Numériques
Les variables numériques sont standardisées. Cette opération consiste à transformer les variables pour qu'elles aient une moyenne de 0 et un écart-type de 1. Cela permet d'harmoniser les échelles des différentes variables numériques, ce qui est crucial pour certains algorithmes d'apprentissage automatique, tels que les régressions, les k-plus proches voisins (k-NN), ou les réseaux neuronaux, qui sont sensibles à l'échelle des données. En standardisant les données, nous nous assurons que toutes les variables contribuent de manière égale à la modélisation, ce qui permet d'éviter qu'une variable avec une grande échelle n'éclipse l'impact d'une autre variable.

# Application dans les Pipelines des Modèles
Ces transformations, à savoir l'encodage One-Hot des variables catégorielles et la standardisation des variables numériques, sont intégrées directement dans les pipelines des modèles. Cela permet d'assurer que chaque donnée passe par ces étapes de transformation avant d'être utilisée pour l'entraînement du modèle, ce qui garantit une gestion cohérente et reproductible des prétraitements des données.

