In [7]:
import pandas as pd  # pour la manipulation et l’analyse de données
import numpy as np  # pour les opérations numériques
from datetime import datetime  # pour manipuler les dates et heures
from sklearn.preprocessing import StandardScaler  # pour normaliser les données
from sklearn.model_selection import train_test_split  # pour diviser les données en train et test
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
import warnings  # pour gérer les messages d'avertissement
warnings.filterwarnings('ignore')  # ignorer les avertissements pour ne pas encombrer la sortie


In [2]:
# Importer le dataset
df = pd.read_excel("data\cheque-overview.xls")

# Vérifier les premières lignes
df.head()

# Vérifier les informations sur le dataset
df.info()

# Vérifier les statistiques descriptives
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50253 entries, 0 to 50252
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   NBRE         50213 non-null  float64       
 1   MCR          50213 non-null  float64       
 2   MDB          50213 non-null  float64       
 3   VALEUR       50253 non-null  int64         
 4   DATECPS      50253 non-null  datetime64[ns]
 5   NUM          50253 non-null  int64         
 6   MNT          49521 non-null  float64       
 7   ID           50253 non-null  int64         
 8   DNA          31752 non-null  object        
 9   PROVISIONNE  21391 non-null  float64       
 10  PROFESSION   41528 non-null  object        
 11  LIBCCL       50236 non-null  object        
 12  SORT         50253 non-null  object        
dtypes: datetime64[ns](1), float64(5), int64(3), object(4)
memory usage: 5.0+ MB


Unnamed: 0,NBRE,MCR,MDB,VALEUR,DATECPS,NUM,MNT,ID,PROVISIONNE
count,50213.0,50213.0,50213.0,50253.0,50253,50253.0,49521.0,50253.0,21391.0
mean,312.347639,4417925.0,5428699.0,30.0,2024-12-15 07:52:26.104710144,6497059.0,34374.51,3877509.0,1.0
min,13.0,0.0,1149.248,30.0,2024-10-01 00:00:00,19.0,0.06,369.0,1.0
25%,54.0,46464.2,45602.94,30.0,2024-11-04 00:00:00,6351813.0,465.6,1097830.0,1.0
50%,69.0,91107.1,91242.24,30.0,2024-12-09 00:00:00,6733913.0,2754.2,4590973.0,1.0
75%,141.0,278686.9,282748.9,30.0,2025-01-15 00:00:00,7000649.0,4986.7,6192783.0,1.0
max,113018.0,2541437000.0,2537465000.0,30.0,2025-04-25 00:00:00,7995979.0,46000000.0,6988269.0,1.0
std,2121.423428,49980410.0,52672350.0,0.0,,981279.0,729076.8,2477617.0,0.0


In [3]:
# Vérification du type des colonnes
df['MCR'] = df['MCR'].astype(str).str.replace(' ', '').str.replace(',', '.')
df['MDB'] = df['MDB'].astype(str).str.replace(' ', '').str.replace(',', '.')
df['MNT'] = df['MNT'].astype(str).str.replace(',', '.')

# Conversion en float
df['MCR'] = pd.to_numeric(df['MCR'], errors='coerce')
df['MDB'] = pd.to_numeric(df['MDB'], errors='coerce')
df['MNT'] = pd.to_numeric(df['MNT'], errors='coerce')

# Calculer l'âge à partir de la date de naissance (DNA)
df['DNA'] = pd.to_datetime(df['DNA'], errors='coerce')
df['AGE'] = (pd.Timestamp.today() - df['DNA']).dt.days // 365

In [4]:
# Remplacer NaN dans la colonne PROVISIONNE par 0
df['PROVISIONNE'] = df['PROVISIONNE'].fillna(0).astype(int)

In [8]:
# Encodage des variables catégorielles (PROFESSION, LIBCCL)
le_profession = LabelEncoder()  # Création de l'encodeur
df['le_PROFESSION'] = le_profession.fit_transform(df['PROFESSION'].fillna(''))

le_libccl = LabelEncoder()  # Création de l'encodeur pour LIBCCL
df['le_LIBCCL'] = le_libccl.fit_transform(df['LIBCCL'].fillna(''))

# Encoder la variable cible 'SORT'
df['SORT'] = df['SORT'].map({'P': 0, 'CNP': 1, 'AUTRE REJET': 1, 'PREAVIS': 1})

In [9]:
# Sélectionner les variables explicatives (X) et la cible (y)
X = df[['NBRE', 'MCR', 'MDB', 'VALEUR', 'MNT', 'AGE', 'PROVISIONNE', 'le_PROFESSION', 'le_LIBCCL']]
y = df['SORT']

In [10]:
# Diviser les données en ensemble d'entraînement et de test, en stratifiant pour équilibrer les classes
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

In [None]:
# client_table = cheque_overview[["ID","NBRE", "MCR", "MDB", "AGE", "PROFESSION", "LIBCCL"]]
# client_table.drop_duplicates(subset="ID", inplace=True)
# client_table.shape

# client_table.to_excel("data/client_table.xlsx", index=False)
