# Features Engineering

Dans cette section, nous allons effectuer l'ingénierie des caractéristiques sur notre dataset. Cette étape est cruciale pour transformer et créer de nouvelles variables qui pourront améliorer les performances de nos modèles. Nous allons créer des features pertinentes, normaliser les données si nécessaire, et préparer notre dataset pour la phase de modélisation.

In [14]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

data = pd.read_csv('..\RAW_data\clean_data\commandes_merged.csv', sep=",")
data.head()

Unnamed: 0,id_commande,date_commande,id_produit,quantité,entrepôt,statut,date_retour,motif
0,O000001,03/09/2024,P00413,2,Marseille,Livré,,
1,O000002,09/11/2024,P00778,15,Lyon,Expédié,,
2,O000004,03/11/2024,P00535,8,Lyon,Livré,,
3,O000006,24/01/2024,P00898,3,Paris,Livré,,
4,O000007,15/02/2024,P00445,1,Lyon,Livré,,


In [15]:
data['date_commande'] = pd.to_datetime(data['date_commande'], format='%d/%m/%Y')    #  format prêt pour calculs temporels
data['date_retour']   = pd.to_datetime(data['date_retour'], format='%d/%m/%Y')      #  permet de calculer return_time_days


In [17]:
# Create return_flag: 1 if the order was returned (has return date), 0 otherwise
data['return_flag'] = (~data['date_retour'].isna()).astype(int)

data.head()

Unnamed: 0,id_commande,date_commande,id_produit,quantité,entrepôt,statut,date_retour,motif,return_flag
0,O000001,2024-09-03,P00413,2,Marseille,Livré,NaT,,0
1,O000002,2024-11-09,P00778,15,Lyon,Expédié,NaT,,0
2,O000004,2024-11-03,P00535,8,Lyon,Livré,NaT,,0
3,O000006,2024-01-24,P00898,3,Paris,Livré,NaT,,0
4,O000007,2024-02-15,P00445,1,Lyon,Livré,NaT,,0


In [19]:
data['order_month']   = data['date_commande'].dt.month           # → mois (1–12)

data.head()

Unnamed: 0,id_commande,date_commande,id_produit,quantité,entrepôt,statut,date_retour,motif,return_flag,order_month
0,O000001,2024-09-03,P00413,2,Marseille,Livré,NaT,,0,9
1,O000002,2024-11-09,P00778,15,Lyon,Expédié,NaT,,0,11
2,O000004,2024-11-03,P00535,8,Lyon,Livré,NaT,,0,11
3,O000006,2024-01-24,P00898,3,Paris,Livré,NaT,,0,1
4,O000007,2024-02-15,P00445,1,Lyon,Livré,NaT,,0,2


In [20]:
data.to_csv('Export_fe_data/commandes_merged_features.csv', index=False, sep=',')