## <div align='center'><h1><span style="font-size: 2em;"><font color="blue">Projet:Credit_Card_Fraud</font></span></h1></div>

#### <div align='center'><h1><span style="font-size: 1em;"><font color="red">Réalisé par : Boubacar Zeidan (ESBD) </font></span></h1></div>
#### <div align='center'><h1><span style="font-size: 1em;"><font color="red">Encadré par :  Pr. B . BENYACOUB </font></span></h1></div>
     

## <font color="blue">Contexte de l'étude :</font>

Dos nos jours, les fraudes par carte de crédit sont des cibles faciles et conviviales. Il est important que les banques et les organismes financiers qui délivrent les cartes de crédit soient en mesure de reconnaître les transactions frauduleuses par carte de crédit afin que les clients ne soient pas facturés pour les articles qu'ils n'ont pas achetés. Le commerce électronique à travers les sites en ligne a augmenté les modes de paiement en ligne et le risque de fraudes en ligne se pose comme une problématique intéressante pour l’étudier. D’où la nécessité de mise en place d’un modèle de prédiction a pour objectif identifié les fraudes.   

## 1-Prétraitement des données :
Pour garantir l'intégrité de notre analyse, nous avons d'abord vérifié la présence de valeurs manquantes dans notre ensemble de données. Si des valeurs manquantes étaient détectées, nous les avons traitées de manière appropriée pour éviter toute influence indue sur nos résultats. Nous avons opté pour l'imputation en remplaçant les valeurs manquantes par la médiane des données disponibles.
## 2-Équilibrage des données :
Comme l'ensemble de données est très déséquilibré, utilisez des techniques de suréchantillonnage pour équilibrer les classes. 
## 3-Division des données :
Divisez l'ensemble de données en un ensemble d'apprentissage et un ensemble de test.  on réserve environ 80 % des données pour l'apprentissage et le reste pour le test.
## 4-Construction des modèles de classification :
j'utilise différents algorithmes de classification supervisée tels que la régression logistique, les arbres de décision, les forêts aléatoires, etc.
Entraînez ces modèles sur l'ensemble de données d'apprentissage équilibré.
## 5-Évaluation des modèles :
Évaluez les performances de chaque modèle en utilisant des mesures appropriées telles que la précision, le rappel, le score F1, etc., sur l'ensemble de test.
Comparez les performances des différents modèles pour voir lequel fonctionne le mieux pour l'ensemble de données.
## 6-Optimisation des hyperparamètres (facultatif) :
effectuez une recherche d'hyperparamètres pour optimiser les performances des modèles sélectionnés.

# 0-Importez les librairies usuelles

In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV
import warnings
warnings.filterwarnings('ignore')
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=DeprecationWarning)


# 1-Prétraitement des données :

In [2]:
# Chargement des données
df = pd.read_csv("C:/Users/hp/Desktop/INSEA-S4/Apprentisage_non sup & sup 2024/Credit_Card_Fraud/Credit_Card_Fraud/creditcard.csv")

# Vérification des valeurs manquantes
print(df.isnull().sum())
# Discrétisation de la variable 'Amount'
bins = [0, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000]
labels = list(range(len(bins)-1))
df['Amount_bin'] = pd.cut(df['Amount'], bins=bins, labels=labels)

# Suppression de la colonne 'Amount' originale
df.drop('Amount', axis=1, inplace=True)

print(df.head())


Time      0
V1        0
V2        0
V3        0
V4        0
V5        0
V6        0
V7        0
V8        0
V9        0
V10       0
V11       0
V12       0
V13       0
V14       0
V15       0
V16       0
V17       0
V18       0
V19       0
V20       0
V21       0
V22       0
V23       0
V24       0
V25       0
V26       0
V27       0
V28       0
Amount    0
Class     0
dtype: int64
   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -

# 2-Équilibrage des données :

In [3]:
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE

# Définition des variables indépendantes (X) et dépendante (y)
X = df.drop('Class', axis=1)
y = df['Class']

# Imputation des valeurs manquantes avec la médiane
imputer = SimpleImputer(strategy='median')
X_imputed = imputer.fit_transform(X)

# Suréchantillonnage avec SMOTE
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_imputed, y)

# Création d'un nouveau DataFrame pour les données équilibrées
balanced_df = pd.DataFrame(X_resampled, columns=X.columns)
balanced_df['Class'] = y_resampled

print(balanced_df['Class'].value_counts())



0    284315
1    284315
Name: Class, dtype: int64


# 3-Division des données :

In [4]:
from sklearn.model_selection import train_test_split

# Division des données équilibrées en ensemble d'apprentissage et ensemble de test
X_train, X_test, y_train, y_test = train_test_split(balanced_df.drop('Class', axis=1), balanced_df['Class'], test_size=0.2, random_state=42)

print("Taille de l'ensemble d'apprentissage :", len(X_train))
print("Taille de l'ensemble de test :", len(X_test))


Taille de l'ensemble d'apprentissage : 454904
Taille de l'ensemble de test : 113726


# 4-Construction des modèles de classification :

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Initialisation des modèles
models = {
    'Logistic Regression': LogisticRegression(),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier()
}

# Entraînement des modèles
for name, model in models.items():
    model.fit(X_train, y_train)

# 5. **Évaluation des modèles** :
for name, model in models.items():
    y_pred = model.predict(X_test)
    print(f"--- {name} ---")
    print(classification_report(y_test, y_pred))


# 5-Évaluation des modèles :

In [14]:
from sklearn.metrics import classification_report

# Fonction pour l'évaluation des modèles
def evaluate_models(models, X_test, y_test):
    for name, model in models.items():
        y_pred = model.predict(X_test)
        print(f"--- {name} ---")
        print(classification_report(y_test, y_pred))

# Appel de la fonction pour évaluer les modèles
evaluate_models(models, X_test, y_test)


--- Logistic Regression ---
              precision    recall  f1-score   support

           0       0.97      0.98      0.98     56750
           1       0.98      0.97      0.98     56976

    accuracy                           0.98    113726
   macro avg       0.98      0.98      0.98    113726
weighted avg       0.98      0.98      0.98    113726

--- Decision Tree ---
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56750
           1       1.00      1.00      1.00     56976

    accuracy                           1.00    113726
   macro avg       1.00      1.00      1.00    113726
weighted avg       1.00      1.00      1.00    113726

--- Random Forest ---
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56750
           1       1.00      1.00      1.00     56976

    accuracy                           1.00    113726
   macro avg       1.00      1.00      1.00    113726
we

# 6-Optimisation des hyperparamètres (facultatif) :

In [None]:
from sklearn.model_selection import GridSearchCV

# Définition des hyperparamètres à optimiser pour chaque modèle
param_grid = {
    'Logistic Regression': {'C': [0.001, 0.01, 0.1, 1, 10, 100]},
    'Decision Tree': {'max_depth': [None, 10, 20, 30, 40, 50]},
    'Random Forest': {'n_estimators': [50, 100, 200], 'max_depth': [None, 10, 20, 30, 40, 50]}
}

# Initialisation de GridSearchCV pour chaque modèle
grid_searches = {}
for name, model in models.items():
    grid_search = GridSearchCV(model, param_grid[name], cv=5, scoring='f1', n_jobs=-1)
    grid_search.fit(X_train, y_train)
    grid_searches[name] = grid_search

# Affichage des meilleurs paramètres pour chaque modèle
for name, grid_search in grid_searches.items():
    print(f"--- {name} ---")
    print("Meilleurs paramètres :", grid_search.best_params_)

# Sélection des meilleurs modèles après optimisation
best_models = {name: grid_search.best_estimator_ for name, grid_search in grid_searches.items()}

# Évaluation des meilleurs modèles sur les données de test
print("\n--- Évaluation des meilleurs modèles sur les données de test ---")
evaluate_models(best_models, X_test, y_test)
