# Import librairies et jeux de données

In [1]:
import pandas as pd
import numpy as np

#pour les représentations graphiques
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.graph_objects as go

#pour centrer-réduire
from sklearn.preprocessing import MinMaxScaler, StandardScaler

#pour les test statistiques
from scipy.stats import ttest_ind, shapiro

#pour les modèles non-supervisés
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

#pour les modèles supervisés
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.model_selection import train_test_split

#Pour évaluer les performances des modèles
from sklearn.metrics import confusion_matrix, mean_squared_error, mean_absolute_percentage_error, accuracy_score, precision_score, recall_score, roc_auc_score, roc_curve
from scipy.optimize import linear_sum_assignment

In [2]:
df_scaled = pd.read_csv("df_scaled.csv", sep=',')
df = pd.read_csv("df.csv", sep=';')

In [4]:
df.head()

Unnamed: 0,"is_genuine,diagonal,height_left,height_right,margin_low,margin_up,length"
0,"1.0,0.3908629441624498,0.988505747126446,1.0,0..."
1,"1.0,0.21319796954315962,0.12643678160920047,0...."
2,"1.0,0.8375634517766599,0.7701149425287426,0.31..."
3,"1.0,0.1624365482233685,0.4425287356321874,0.52..."
4,"1.0,0.35025380710659704,0.6551724137931103,0.3..."


# Clustering

## Application du Kmeans

In [3]:
#on supprime la colonne is_genuine
df_kmeans = df_scaled.drop(columns='is_genuine')
df_kmeans.head()

KeyError: "['is_genuine'] not found in axis"

Sachant que l'on cherche à dvisier nos individus selon 2 modalités (vrai/faux billet), j'effectue mon kmeans pour 2 clusters.

In [None]:
# On instancie notre Kmeans avec 2 clusters : 
kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)

# On l'entraine : 
kmeans.fit(df_kmeans)

# On peut stocker nos clusters dans une variable labels : 
labels = kmeans.labels_
labels

In [None]:
#creer une colonne pour mettre les clusters generés et ré-intégrer la colonne is_genuine
df_kmeans['label_kmeans'] = labels
df_kmeans['is_genuine'] = df['is_genuine']
df_kmeans.head()

In [None]:
df_kmeans['label_kmeans'].value_counts()

## Tableau de contingence

A cette étape, nous voulons nous assurer que chaque cluster obtenu avec le kmeans correspond bien à la même catégorie de la colonne is_genuine.

In [None]:
#Création des listes de clusters
list_label_is_genuine = list(int(label) for label in df_kmeans['is_genuine'])
list_label_kmeans = list(int(label) for label in df_kmeans['label_kmeans'])

In [None]:
# Je crée une matrice de confusion entre les deux clusterings
conf_mat = confusion_matrix(list_label_is_genuine, list_label_kmeans)

# Je cherche l’appariement optimal
row_ind, col_ind = linear_sum_assignment(-conf_mat)  # le "-" car c'est un problème de maximisation

# Je crée un mapping entre les labels
label_mapping = {col: row for row, col in zip(row_ind, col_ind)}

# Je recalibre les labels KMeans
aligned_kmeans_labels = np.array([label_mapping[label] for label in list_label_kmeans])

#j'attribue les nouveaux clusters
df_kmeans['label_kmeans'] = aligned_kmeans_labels

In [None]:
df_kmeans['label_kmeans'].value_counts()

In [None]:
y_pred = df_kmeans['label_kmeans'].astype(int)
y_true = df_kmeans['is_genuine'].astype(int)

# Puis affiche la matrice
cm = confusion_matrix(y_true, y_pred)
cm

## Calcul des centroïdes

In [None]:
df_kmeans.drop(columns='is_genuine', inplace=True)
mean_values_kmeans = df_kmeans.groupby('label_kmeans').mean()
mean_values_kmeans

## Exemple avec un nouveau billet

In [None]:
nouveau_billet = np.array([[0.48, 0.46, 0.46, 0.28, 0.48, 0.75]])

In [None]:
# Prédiction du cluster
cluster = kmeans.predict(nouveau_billet)

In [None]:
cluster

Sachant que lors de l'entrainement de Kmeans, 0 correspondant aux vrais billets et 1 aux faux billets, ce billet est vrai.

# Régression logistique

In [None]:
df_scaled.head()

In [None]:
df_scaled.loc[df_scaled['is_genuine'] == 0].head()

## Entraînement du modèle

In [None]:
#définition X et y
X = df_scaled.drop(columns='is_genuine').to_numpy()
y = df_scaled['is_genuine'].to_numpy()

In [None]:
#séparation train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

In [None]:
#initialisation et entraînement du modèle
clf = LogisticRegression(random_state=808).fit(X_train, y_train)

In [None]:
# Prediction d'un échantillon
print("Prédiction",clf.predict([X[1000, :]])[0])

print("Probabilité",clf.predict_proba([X[1000, :]])[0][0])

Soit 82.51 % de chance d'appartenir à la classe 0.

In [None]:
print("Classe réelle du billet: ", y[1000])

In [None]:
# Prediction d'un échantillon
print("Prédiction",clf.predict([X[0, :]])[0])

print("Probabilité",clf.predict_proba([X[0, :]])[0][0])

In [None]:
Soit 54.83 % de chance d'appartenir à la classe 0.

In [None]:
print("Classe réelle du billet: ", y[0])

## Mesures de perfomance

In [None]:
#histogramme des probabilités de prédiction
y_hat_proba = clf.predict_proba(X_test)[:,1]
sns.histplot(y_hat_proba)

Le modèle est assez confiant de ses prédiction, la plupart des prédictions ont une probabilité proche de 0 ou de 1

In [None]:
#Accuracy 
y_pred = clf.predict(X_test)

print("accuracy",accuracy_score(y_test, y_pred))

L'accuracy mesure le nombre d'échantillons qui ont été bien classés sur le nombre d'échantillons total. 98.7% est un très bon score.

In [None]:
#matrice de confusion

confusion_matrix(y_test, y_pred)

4 faux positifs (faux billets classés comme vrais billets)

## Test avec d'autres seuils de classification

Dans le cas de la détection de fraude, il y a un fort déséquilibre entre les cas positifs et les cas négatifs dans le dataset.
On obtient ici une accuracy de 98.7% mais il faut faire intervenir d'autres métriques de classification adaptées à ce type de situation pour adapter notre modèle.

In [None]:
y_hat_proba = clf.predict_proba(X_test)[:,1]

In [None]:
#On obtient les catégories relatives pour les 2 seuils :
y_pred_03 = [ 0 if value < 0.3 else 1 for value in y_hat_proba ]
y_pred_07 = [ 0 if value < 0.7 else 1 for value in y_hat_proba ]

In [None]:
#On a alors les matrices de confusion suivantes :

#pour 0.3:
confusion_matrix(y_test, y_pred_03)

12 faux positifs (faux billets classés comme vrais billets)

In [None]:
#pour 0.7:
confusion_matrix(y_test, y_pred_07)

1 faux positif (faux billet classé comme vrai) et 3 faux négatifs (vrais billets classés comme faux)

In [None]:
#Autres métriques de classification
print("Accuracy:",accuracy_score(y_test, y_pred))
print("Precision:",precision_score(y_test, y_pred))
print("Recall:",recall_score(y_test, y_pred))

In [None]:
print("Accuracy:",accuracy_score(y_test, y_pred_03))
print("Precision:",precision_score(y_test, y_pred_03))
print("Recall:",recall_score(y_test, y_pred_03))

In [None]:
print("Accuracy:",accuracy_score(y_test, y_pred_07))
print("Precision:",precision_score(y_test, y_pred_07))
print("Recall:",recall_score(y_test, y_pred_07))

In [None]:
#On peut tracer la courbe ROC pour visualiser cela.

#Pour seuil de classification = 0.5
fpr, tpr, thresholds = roc_curve(y_test, y_hat_proba)
plt.plot(fpr, tpr)
plt.title("ROC curve 0.5")

In [None]:
#Pour seuil de classification = 0.3
fpr, tpr, thresholds = roc_curve(y_test, y_pred_03)
plt.plot(fpr, tpr)
plt.title("ROC curve 0.3")

In [None]:
#Pour seuil de classification = 0.7
fpr, tpr, thresholds = roc_curve(y_test, y_pred_07)
plt.plot(fpr, tpr)
plt.title("ROC curve 0.7")

In [None]:
"Plus la courbe se rapproche du coin en haut à gauche, meilleur est le modèle.": le meilleur modèle est donc celui avec le seuil de classification 0.7.