# Features Engineering

Dans cette section, nous allons effectuer l'ingénierie des caractéristiques sur notre dataset. Cette étape est cruciale pour transformer et créer de nouvelles variables qui pourront améliorer les performances de nos modèles. Nous allons créer des features pertinentes, normaliser les données si nécessaire, et préparer notre dataset pour la phase de modélisation.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np


data = pd.read_csv('../Merged_data/achats_merged.csv', sep=",")
data.head()

Unnamed: 0,id_achat,date_achat,id_produit,quantité,id_fournisseur,prix_unitaire,délai_livraison_jours,nom_fournisseur,ville,pays,fiabilité,délai_moyen_jours
0,PO000001,22/03/2024,P00627,150,S029,129.62,14,Fontaine Lopes S.A.,Helsinki,Finlande,0.54,6
1,PO000002,12/06/2024,P00469,50,S028,110.81,8,Delattre Blot S.A.,Berlin,Allemagne,0.74,8
2,PO000003,19/01/2024,P00849,75,S001,140.58,8,Lecomte et Fils,Zurich,Suisse,0.84,10
3,PO000004,20/11/2024,P00484,500,S028,120.77,9,Delattre Blot S.A.,Berlin,Allemagne,0.74,8
4,PO000005,07/06/2024,P00196,50,S025,256.05,13,Techer SA,Varsovie,Pologne,0.92,12


In [25]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id_achat               10000 non-null  object 
 1   date_achat             10000 non-null  object 
 2   id_produit             10000 non-null  object 
 3   quantité               10000 non-null  int64  
 4   id_fournisseur         10000 non-null  object 
 5   prix_unitaire          10000 non-null  float64
 6   délai_livraison_jours  10000 non-null  int64  
 7   nom_fournisseur        10000 non-null  object 
 8   ville                  10000 non-null  object 
 9   pays                   10000 non-null  object 
 10  fiabilité              10000 non-null  float64
 11  délai_moyen_jours      10000 non-null  int64  
dtypes: float64(2), int64(3), object(7)
memory usage: 937.6+ KB


In [26]:
data['cout_total'] = data['quantité'] * data['prix_unitaire']
data.head()


Unnamed: 0,id_achat,date_achat,id_produit,quantité,id_fournisseur,prix_unitaire,délai_livraison_jours,nom_fournisseur,ville,pays,fiabilité,délai_moyen_jours,cout_total
0,PO000001,22/03/2024,P00627,150,S029,129.62,14,Fontaine Lopes S.A.,Helsinki,Finlande,0.54,6,19443.0
1,PO000002,12/06/2024,P00469,50,S028,110.81,8,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,5540.5
2,PO000003,19/01/2024,P00849,75,S001,140.58,8,Lecomte et Fils,Zurich,Suisse,0.84,10,10543.5
3,PO000004,20/11/2024,P00484,500,S028,120.77,9,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,60385.0
4,PO000005,07/06/2024,P00196,50,S025,256.05,13,Techer SA,Varsovie,Pologne,0.92,12,12802.5


In [27]:
data['delai_deviation'] = data['délai_livraison_jours'] - data['délai_moyen_jours']

# Mesure l’écart entre le délai réel et le délai moyen attendu


In [28]:
data['retard_jours'] = data['delai_deviation'].clip(lower=0)
# Met à zéro les écarts négatifs pour ne conserver que les retards positifs


data.head()

Unnamed: 0,id_achat,date_achat,id_produit,quantité,id_fournisseur,prix_unitaire,délai_livraison_jours,nom_fournisseur,ville,pays,fiabilité,délai_moyen_jours,cout_total,delai_deviation,retard_jours
0,PO000001,22/03/2024,P00627,150,S029,129.62,14,Fontaine Lopes S.A.,Helsinki,Finlande,0.54,6,19443.0,8,8
1,PO000002,12/06/2024,P00469,50,S028,110.81,8,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,5540.5,0,0
2,PO000003,19/01/2024,P00849,75,S001,140.58,8,Lecomte et Fils,Zurich,Suisse,0.84,10,10543.5,-2,0
3,PO000004,20/11/2024,P00484,500,S028,120.77,9,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,60385.0,1,1
4,PO000005,07/06/2024,P00196,50,S025,256.05,13,Techer SA,Varsovie,Pologne,0.92,12,12802.5,1,1


In [29]:

data['date_achat'] = pd.to_datetime(data['date_achat'], format='%d/%m/%Y')
data['mois_achat'] = data['date_achat'].dt.month
#  Extrait le mois (1–12) de la date d’achat pour analyses saisonnières

data.head()

Unnamed: 0,id_achat,date_achat,id_produit,quantité,id_fournisseur,prix_unitaire,délai_livraison_jours,nom_fournisseur,ville,pays,fiabilité,délai_moyen_jours,cout_total,delai_deviation,retard_jours,mois_achat
0,PO000001,2024-03-22,P00627,150,S029,129.62,14,Fontaine Lopes S.A.,Helsinki,Finlande,0.54,6,19443.0,8,8,3
1,PO000002,2024-06-12,P00469,50,S028,110.81,8,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,5540.5,0,0,6
2,PO000003,2024-01-19,P00849,75,S001,140.58,8,Lecomte et Fils,Zurich,Suisse,0.84,10,10543.5,-2,0,1
3,PO000004,2024-11-20,P00484,500,S028,120.77,9,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,60385.0,1,1,11
4,PO000005,2024-06-07,P00196,50,S025,256.05,13,Techer SA,Varsovie,Pologne,0.92,12,12802.5,1,1,6


In [30]:
data['on_time_delivery'] = (data['délai_livraison_jours'] <= data['délai_moyen_jours']).astype(int)  
# Indicateur binaire : 1 si livré dans les temps, sinon 0

data.head()

Unnamed: 0,id_achat,date_achat,id_produit,quantité,id_fournisseur,prix_unitaire,délai_livraison_jours,nom_fournisseur,ville,pays,fiabilité,délai_moyen_jours,cout_total,delai_deviation,retard_jours,mois_achat,on_time_delivery
0,PO000001,2024-03-22,P00627,150,S029,129.62,14,Fontaine Lopes S.A.,Helsinki,Finlande,0.54,6,19443.0,8,8,3,0
1,PO000002,2024-06-12,P00469,50,S028,110.81,8,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,5540.5,0,0,6,1
2,PO000003,2024-01-19,P00849,75,S001,140.58,8,Lecomte et Fils,Zurich,Suisse,0.84,10,10543.5,-2,0,1,1
3,PO000004,2024-11-20,P00484,500,S028,120.77,9,Delattre Blot S.A.,Berlin,Allemagne,0.74,8,60385.0,1,1,11,0
4,PO000005,2024-06-07,P00196,50,S025,256.05,13,Techer SA,Varsovie,Pologne,0.92,12,12802.5,1,1,6,0
