# Détection des faux billets avec Python

## 1. Preliminary

Contexte : 

* Identification des contrefaçons des billets en euros
* Les billets d'euro ont des valeurs nominales de 5, 10, 20, 50, 100, 200 et 500 euros. 

# 1.2 Importation

## 1.2.1 Importation des librairies

In [None]:
#builtin
import os

In [None]:
#data
import pandas as pd
import numpy as np

In [None]:

#visualisation 
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
%matplotlib inline

In [None]:
#stat
import scipy.stats as stats
from statsmodels.stats.diagnostic import het_breuschpagan
from statsmodels.stats.outliers_influence import variance_inflation_factor

In [None]:
#machine learning
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn.dummy import DummyRegressor
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score
from sklearn import svm
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.model_selection import LearningCurveDisplay, ShuffleSplit
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import precision_score, make_scorer

## 2.1 chargement des fichiers

In [None]:
input_folder = "../data/source/"
# Read CSV train data file into DataFrame
train_df= pd.read_csv(os.path.join(input_folder, "billets.csv"), dtype=float, sep=';')
# Read CSV test data file into DataFrame
test_df = pd.read_csv(os.path.join(input_folder, "billets_production.csv"), sep=',')

## 2. Prétraitement des données

## 2.2 Exploration

In [None]:
#Affichage des 5 premieres lignes
train_df.head()

In [None]:
print('Le nombre des itemes dans le DataFrame train_df est {}.'.format(train_df.shape[0]))

In [None]:
# preview test data
test_df

test DataFrame contient 5 lignes sans valeurs manquantes.

In [None]:
print('Le nombre des itemes dans le DataFrame train_df est {}.'.format(test_df.shape[0]))

Note: On ne voit pas la colonne 'is_genuine' (la target) dans le dataset test_df. Notre objectif est alors de prédire la target par differentes algorithmes de machine learning comme la regression logistique.

### Transform is_geniune into is_fake (revserse 0 and 1)

In [None]:
train_df['is_fake'] = 1 - train_df['is_genuine']
train_df['is_fake'].astype(int)
train_df.drop(columns=['is_genuine'], inplace=True)

In [None]:
#Affichage des 5 dernieres lignes
train_df.tail()

In [None]:
#Affichage de 5 lignes arbitrairement
train_df.sample(5)

In [None]:
#Dimensions du DataFrame
train_df.shape

In [None]:
#Information sur les colonnes
train_df.dtypes

In [None]:
#Statistiques descriptives
train_df.describe().round(2)

In [None]:
#Nombre des doublons dans le DataFrame
train_df.duplicated().sum()

In [None]:
#Nombre des doublons sans le target
train_df.drop(columns="is_fake").duplicated().sum()

In [None]:
#Information sur les valeurs unique dans chaque colonne
train_df.nunique()

In [None]:
#Nombre des valeurs dans la target
train_df['is_fake'].value_counts()

In [None]:
#creation de la colonne target
train_df.rename(columns={'is_fake':'target'}, inplace=True)

In [None]:
data=train_df['target'].value_counts()
labels=data.index
plt.pie(data, labels=labels, autopct='%1.1f%%')
plt.title('Nombre des vrais et faux billets')
plt.show()

1=faux
0=vrai

## 2.3 Nettoyage des données

In [None]:
#Nombre des valeurs manquantes dans chaque colonne
train_df.isnull().sum()

In [None]:
#Nombre des valeurs manquantes dans chaque colonne
tmp = train_df.isnull().mean()
tmp[tmp > 0]

On a 37 valeurs manquantes dans la colonne margin_low

In [None]:
# Pourçentage des valeurs manquantes 
print('Percent of missing "margin_low" records is %.2f%%' %((train_df['margin_low'].isnull().sum()/train_df.shape[0])*100))

~2,5% des données dans la colonne margin_low est manquantes. -> voir la distribution de cette variable

In [None]:
# la distribution de la variable 'margin_low'
ax = train_df["margin_low"].hist(bins=15, density=True, stacked=True, color='teal', alpha=0.6)
train_df["margin_low"].plot(kind='density', color='teal')
ax.set(xlabel='margin_low')
plt.xlim(0,10)
plt.show()

### 2.3.1 Imputation des valeurs manquantes

In [None]:
train_df

On a un DataFrame qui contient X=6 (features)

## Imputation des valeurs manquantes

## les valeurs manquantes sont de type numerique

*** 1. La methode regression lineaire de sklearn ***

In [None]:
# Séparer les données en deux ensembles : avec et sans valeurs manquantes

test= train_df[train_df['margin_low'].isna()] #DataFrame qui contient que des valeurs manquantes dans la colonne margin_low

train = train_df[~train_df['margin_low'].isna()] #dataframe sans valeurs manquantes

In [None]:
test.shape

In [None]:
train.shape

In [None]:
#les variables explicative (X)
X_train = train.drop(columns=['margin_low', 'target'])
X_train.head()

In [None]:
# Création d'une instance de StandardScaler
scaler_1 = StandardScaler()
# Adapter le scaler aux données
scaler_1.fit(X_train)

# Standardiser les données
X_train_scaled = scaler_1.transform(X_train)
X_train_scaled[:5]

In [None]:
#la variable cible (y) (target)
y_train= train['margin_low']
y_train.shape

In [None]:
# Initialiser les modèles
models = {
    'Linear Regression': LinearRegression(),
    'Naive Model (median)': DummyRegressor(strategy='median'),
    'Naive Model (Mean)': DummyRegressor(strategy='mean')
}

# La validation croisée et les scores RMSE pour chaque modèle
results = {}

for model_name, model in models.items():
    scores = cross_val_score(model, X_train_scaled, y_train, cv=5, scoring='neg_mean_squared_error')
    rmse_scores = (-scores) ** 0.5
    results[model_name] = {'mean_rmse': rmse_scores.mean(), 'std_rmse': rmse_scores.std()}

# Affichage des résultats
for model_name, result in results.items():
    print(f"Model: {model_name}")
    print(f"Mean RMSE: {result['mean_rmse']}")
    print(f"Standard deviation of RMSE: {result['std_rmse']}\n")


Selon les métriques de RMSE (erreur), le modèle de régression linéaire démontre la meilleure performance parmi les trois modèles testés.

In [None]:
## Model_1: Régression linéaire
# Créer et entraîner le modèle de régression linéaire
model_1 = LinearRegression()
model_1.fit(X_train_scaled, y_train)

In [None]:
#creation de la variable X_test
X_test = test.drop(columns=['margin_low', 'target'])

In [None]:
X_test.head()

In [None]:
# Standardisation des données de X_test
X_test_scaled = scaler_1.transform(X_test)
X_test_scaled[:5]

In [None]:
# Prédire les valeurs manquantes
y_predicted = model_1.predict(X_test_scaled)

In [None]:
y_predicted.shape

In [None]:
y_predicted

In [None]:
#Creation d'une copy de notre DataFrame
df_reg=train_df.copy()

In [None]:
# Remplacement des valeurs manquantes par les valeurs prédites
df_reg.loc[df_reg['margin_low'].isna(), 'margin_low'] = y_predicted

In [None]:
#Verification
df_reg.isnull().sum()

In [None]:
# preview adjusted train data
df_reg.head()

In [None]:
#Verification avec visualisation
plt.figure(figsize=(15,8))
ax = train_df["margin_low"].hist(bins=15, density=True, stacked=True, color='teal', alpha=0.6)
train_df["margin_low"].plot(kind='density', color='teal')
ax = df_reg["margin_low"].hist(bins=15, density=True, stacked=True, color='orange', alpha=0.5)
df_reg["margin_low"].plot(kind='density', color='orange')
ax.legend(['Raw margin_low', 'Adjusted margin_low'])
ax.set(xlabel='margin_low')
plt.xlim(0,10)
plt.show()

2. La méthode de régression linéaire de Statsmodels

In [None]:
# Créer et ajuster le modèle aux données d'entraînement
model_2 = sm.OLS(y_train, X_train_scaled)
model_fit = model_2.fit()

# Faire des prédictions sur les données de test mises à l'échelle
predicted_values = model_fit.predict(X_test_scaled)

# Afficher les valeurs prédites
print(predicted_values)

Avec Statsmodels, on doit ajouter manuellement une colonne qui contient une constante

In [None]:
#On a besoin d'une constante dans ce maodéle
X_train_scaled_with_const = sm.add_constant(X_train_scaled)
X_test_scaled_with_const = sm.add_constant(X_test_scaled)
X_test_scaled_with_const[:5]

In [None]:
model_2 = sm.OLS(y_train, X_train_scaled_with_const).fit()

In [None]:
model_2.params

In [None]:
model_2.summary()

In [None]:
model_2.pvalues

In [None]:
#Pour déterminer quelles variables éliminer, nous devons examiner leurs valeurs p.
significant_variables = model_2.pvalues[model_2.pvalues < 0.05].index
significant_variables

Toutes les variables sont considérées comme significatives au seuil de valeur p actuel (0,05), donc on doit les conserver toutes.

In [None]:
y_train.mean()

In [None]:
predicted_values = model_2.predict(X_test_scaled_with_const)

In [None]:
predicted_values

In [None]:
df_stat=train_df.copy()

In [None]:
df_stat.loc[df_stat['margin_low'].isnull(), 'margin_low'] = predicted_values

In [None]:
#Verification avec visualisation
plt.figure(figsize=(15,8))
ax = train_df["margin_low"].hist(bins=15, density=True, stacked=True, color='teal', alpha=0.6)
train_df["margin_low"].plot(kind='density', color='teal')
ax = df_stat["margin_low"].hist(bins=15, density=True, stacked=True, color='orange', alpha=0.5)
df_stat["margin_low"].plot(kind='density', color='orange')
ax.legend(['Raw margin_low', 'Adjusted margin_low'])
ax.set(xlabel='margin_low')
plt.xlim(0,10)
plt.show()

### Tests statistiques

Pour confirmer que la distribution, la moyenne et la variance de la colonne 'margin_low' restent les mêmes après l'imputation des valeurs nulles

Distribution test : On peut utiliser un test statistique non paramétrique comme le test de Kolmogorov-Smirnov pour comparer la distribution de la colonne originale avec celle de la colonne remplie.

Test de moyenne : On peut effectuer un test t pour comparer les moyennes de la colonne originale et de la colonne remplie. Assurez-vous que vos données répondent aux hypothèses du test t (distribution normale ou échantillon suffisamment grand).

Test de variance : On peut utiliser un test de F pour comparer les variances de la colonne originale et de la colonne remplie. Encore une fois, assurez-vous que vos données répondent aux hypothèses du test de F (distribution normale ou échantillon suffisamment grand).

In [None]:
df_reg["margin_low"].shape, y_train.shape

In [None]:
# Test de distribution
def test_distribution(original, filled):
    _, p_value = stats.ks_2samp(original, filled)
    if p_value < 0.05:
        print(p_value, " -> La distribution n'est pas la même.")
    else:
        print(p_value, " -> La distribution est similaire.")

# Test de moyenne
def test_moyenne(original, filled):
    _, p_value = stats.ttest_ind(original, filled)
    if p_value < 0.05:
        print(p_value, " -> Les moyennes ne sont pas les mêmes.")
    else:
        print(p_value, " -> Les moyennes sont similaires.")

# Test de variance
def test_variance(original, filled):
    _, p_value = stats.levene(original, filled)
    if p_value < 0.05:
        print(p_value, " -> Les variances ne sont pas les mêmes.")
    else:
        print(p_value, " -> Les variances sont similaires.")

# Exécution des tests
test_distribution(y_train, df_reg["margin_low"])
test_moyenne(y_train, df_reg["margin_low"])
test_variance(y_train, df_reg["margin_low"])


### Residuals

In [None]:
X_train_scaled.shape, y_train.shape

In [None]:
# y_pred = model_1.predict(X_train_scaled)
# residuals = y_train - y_pred
residuals = model_2.resid
residuals

In [None]:
sns.scatterplot(x=train_df.margin_low, y=residuals)

In [None]:
sns.displot(data=residuals, kde=True)
plt.show()


Le test de Shapiro-Wilk est un test statistique utilisé pour déterminer si un échantillon de données suit une distribution normale (gaussienne). Il est basé sur la comparaison entre les moments observés des données et ceux attendus sous l'hypothèse de normalité.

In [None]:
# Calculer la moyenne et la variance
mean = 0
variance = np.var(residuals)

# Créer une distribution normale
normal_dist = stats.norm(loc=0, scale=1)
# Créer une distribution gaussienne
gaussian_dist = stats.norm(loc=mean, scale=np.sqrt(variance))

# Visualiser les données et la distribution gaussienne
plt.hist(residuals, bins=30, density=True, alpha=0.5, label='Données observées')
x = np.linspace(np.min(residuals), np.max(residuals), 100)
plt.plot(x, gaussian_dist.pdf(x), 'r', label='Distribution gaussienne')
plt.plot(x, normal_dist.pdf(x), 'g', label='Distribution normale')
plt.legend()
plt.show()

# Tester l'ajustement
kstest_result = stats.kstest(residuals, 'norm', args=(mean, np.sqrt(variance)))
shapiro_result = stats.shapiro(residuals)

print("Test de Kolmogorov-Smirnov:")
print("Statistique de test:", kstest_result.statistic)
p_value = kstest_result.pvalue
print("P-value:", p_value)
if p_value < 0.05:
    print(p_value, " -> Les résidus ne suivent pas une distribution normale")
else:
    print(p_value, " -> Les résidus suivent une distribution normale")
print("\nTest de Shapiro-Wilk:")
print("Statistique de test:", shapiro_result.statistic)
p_value = shapiro_result.pvalue
print("P-value:", p_value)
if p_value < 0.05:
    print(p_value, " -> Les résidus ne suivent pas une distribution normale")
else:
    print(p_value, " -> Les résidus suivent une distribution normale")


Pour évaluer l'homoscédasticité des résidus, nous utilisons le test statistique de Breusch-Pagan. Ce test compare la variance des résidus avec une ou plusieurs variables indépendantes pour déterminer s'ils présentent une homoscédasticité. En d'autres termes, il examine l'uniformité de la dispersion des résidus sur toute la plage des valeurs prises par les variables indépendantes. <br>L'hétéroscédasticité, qui est le contraire de l'homoscédasticité, se manifeste lorsque la variance des résidus varie de manière non constante à travers les valeurs prédites de la variable dépendante.

In [None]:
# Test de Breusch-Pagan
test_bp = het_breuschpagan(residuals, X_train_scaled_with_const)
print("Test de Breusch-Pagan:")
print("Statistique de test:", test_bp[0])
p_value = test_bp[1]
print("P-value:", p_value)
if p_value < 0.05:
    print(p_value, " -> Les résidus présentent une hétéroscédasticité")
else:
    print(p_value, " -> Les résidus présentent une homoscédasticité")

La multicollinéarité: C'est une condition dans laquelle deux ou plus de deux variables indépendantes (ou prédictives) dans un modèle de régression sont fortement corrélées entre elles. En d'autres termes, il existe une relation linéaire élevée entre au moins deux des variables indépendantes.<br>plusieurs méthodes pour vérifier la multicollinéarité dans un modèle de régression,parmi les quelles:<br>
Variance Inflation Factor (VIF) : Le VIF mesure l'importance de la multicollinéarité dans une régression. Un VIF élevé (généralement supérieur à 10) indique une multicollinéarité problématique.<br>Les variable avec un vif relativement faible contribue de manière unique à expliquer la variation dans la variable dépendante, ce qui est souhaitable dans de nombreux modèles statistiques.

In [None]:
vif_data = pd.DataFrame()
vif_data["feature"] = X_train.columns
vif_data["VIF"] = [variance_inflation_factor(X_train_scaled, i) for i in range(X_train_scaled.shape[1])]
print(vif_data, '\n')

seuil = 10 # Un seuil de 10 est couramment utilisé
for index, row in vif_data.iterrows():
    feature = row['feature']
    vif = row['VIF']
    if vif > seuil:
        print(f"La variable '{feature}' a un VIF élevé de {vif:.2f}, ce qui indique une forte corrélation avec d'autres variables explicatives.")
    else:
        print(f"La variable '{feature}' a un VIF de {vif:.2f}, ce qui indique qu'elle est indépendante des autres variables explicatives.")

***Exploration des données***

In [None]:
sns.pairplot(df_reg, hue='target', corner=True)
plt.show()

In [None]:
correlation_matrix = df_reg.corr()
masque=np.triu(correlation_matrix)
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", mask=masque, vmin=-1, vmax=1)
plt.show()

la target est tres correlée avec la longeur des billets

## 2.3.2 Detection des outliers

In [None]:
plt.figure(figsize=(20, 20))
sns.set_theme(style="whitegrid")

plt.subplot(321)
sns.boxplot(data=df_reg, x='diagonal')

plt.subplot(322)
sns.boxplot(data=df_reg, x='height_left')

plt.subplot(323)
sns.boxplot(data=df_reg, x='height_right')

plt.subplot(324)
sns.boxplot(data=df_reg, x='margin_low')

plt.subplot(325)
sns.boxplot(data=df_reg, x='margin_up')

plt.subplot(326)
sns.boxplot(data=df_reg, x='length')

plt.show()

Les boxplots révèlent la présence d'outliers dans plusieurs features. <br> Cela suggère que ces valeurs pourraient être liées à des faux billets, caractérisés par des dimensions non conformes, ou bien à des billets de grande valeur, comme les billets de 500€, ou de petites valeurs comme celles de 5€. <br> Ainsi, il est prévu de conserver les outliers afin de poursuivre l'analyse.

## 2.3.1.1 Data mining

## 2.4 Preparation des données

## Choix du modéle

Type de données categorielles


2.5 Modelisation avec split

2.5.1 Dummy clussifier

In [None]:
X=df_reg.drop(columns='target')
y=df_reg['target']

In [None]:
train_X, test_X, train_y, test_y = train_test_split (X, y, test_size=0.3, random_state=42)

In [None]:
estimator_1= DummyClassifier(strategy="most_frequent")
estimator_1.fit(train_X, train_y)

In [None]:
y_pred_1 = estimator_1.predict(test_X)
y_pred_1[:5]

In [None]:
pd.Series(y_pred_1).value_counts()

In [None]:
test_y.value_counts(normalize=True)

In [None]:
test_y.value_counts()

In [None]:
train_X.head()

In [None]:
tr_score= estimator_1.score(train_X, train_y)
te_score= estimator_1.score(test_X, test_y)
print(f"le score de train est {tr_score}, et de test est {te_score}")

In [None]:
y_pred_1 = estimator_1.predict(test_X)
y_pred_1[:5]

In [None]:
test_y.values

In [None]:
1 - abs(y_pred_1 - test_y.values).mean()

In [None]:
mat=confusion_matrix(test_y, y_pred_1, labels=estimator_1.classes_)
mat

In [None]:
test_y.value_counts()

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix
disp = ConfusionMatrixDisplay(confusion_matrix=mat, display_labels= estimator_1.classes_)
disp.plot()
plt.show()

## 2. Regression logistique

In [None]:
estimator_2 = LogisticRegression(solver='liblinear') #small dataset

In [None]:
estimator_2.fit(train_X, train_y)

In [None]:
y_pred_2=estimator_2.predict(test_X)
y_pred_2[:5]

In [None]:
y_prob = estimator_2.predict_proba(test_X).round(2) #La probabilité de l'appartenance à tel ou tel classe
y_prob[:5]

In [None]:

conf=confusion_matrix(test_y, y_pred_2, labels=estimator_2.classes_)
conf

In [None]:

disp = ConfusionMatrixDisplay(confusion_matrix=conf, display_labels= estimator_2.classes_)
disp.plot()
plt.show()

## SVM

In [None]:
estimator_3 = LinearSVC()

In [None]:
estimator_3.fit(train_X, train_y)

In [None]:
y_pred_3=estimator_3.predict(test_X)
y_pred_3[:5]

In [None]:
conf=confusion_matrix(test_y, y_pred_3, labels=estimator_3.classes_)
conf

In [None]:
disp = ConfusionMatrixDisplay(confusion_matrix=conf, display_labels= estimator_3.classes_)
disp.plot()
plt.show()

Modelisation avec cross_validation

In [None]:
X=df_reg.drop(columns=['target'])
y=df_reg['target']

In [None]:
# Création d'une instance de StandardScaler
scaler_2 = StandardScaler()
# Adapter le scaler aux données
scaler_2.fit(X)

# Standardiser les données
X_scaled = scaler_2.transform(X)
X_scaled[:5]

In [None]:
#Choix du modele
Logistic_Regression = LogisticRegression()
svc = SVC()
Majority_Model = DummyClassifier(strategy='most_frequent')

# Initialiser les modèles
models = {
    'Logistic Regression': Logistic_Regression,
    'SVC': svc,
    'Majority Model': Majority_Model
}

# La validation croisée et les scores de précision pour chaque modèle
results = {}

for model_name, model in models.items():
    scores = cross_val_score(model, X_scaled, y, cv=5, scoring='accuracy')
    results[model_name] = {'mean_accuracy': scores.mean(), 'std_accuracy': scores.std()}

# Affichage des résultats
for model_name, result in results.items():
    print(f"Model: {model_name}")
    print(f"Mean Accuracy: {result['mean_accuracy']}")
    print(f"Standard deviation of Accuracy: {result['std_accuracy']}\n")


In [None]:
# Évaluation de la performance du modèle

fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(10, 6), sharey=True)

common_params = {
    "X": X_scaled,
    "y": y,
    "train_sizes": np.linspace(0.1, 1.0, 5),
    "cv": ShuffleSplit(n_splits=50, test_size=0.2, random_state=0),
    "score_type": "both",
    "n_jobs": 4,
    "line_kw": {"marker": "o"},
    "std_display_style": "fill_between",
    "score_name": "Accuracy",
}

for ax_idx, estimator in enumerate([Logistic_Regression, svc, Majority_Model]):
    LearningCurveDisplay.from_estimator(estimator, **common_params, ax=ax[ax_idx])
    handles, label = ax[ax_idx].get_legend_handles_labels()
    ax[ax_idx].legend(handles[:2], ["Training Score", "Test Score"])
    ax[ax_idx].set_title(f"Learning Curve for {estimator.__class__.__name__}")

En observant les courbes d'apprentissage, on peut déterminer que le modèle DummyClassifier montre un sous-apprentissage (underfitting) tandis que les deux modèles Logistic Regression et SVC sont comparables et montrent de bons résultats. <br> On a choisi d'optimiser le modele de Logistic Regression.

In [None]:
#Optimisation des hyperparamètres

# Définir la grille des hyperparamètres à rechercher
param_grid = {
    'C': [0.001, 0.01, 0.1, 1, 10, 100],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

# Initialiser LogisticRegression
logistic_regression = LogisticRegression()

# Créer l'objet GridSearchCV
grid_search = GridSearchCV(logistic_regression, param_grid, cv=5, scoring='accuracy', n_jobs=4, verbose=1, return_train_score=True)

# Exécuter la recherche sur grille sur les données d'entraînement
grid_search.fit(X_scaled, y)

# Afficher les meilleurs hyperparamètres et le score associé
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)

In [None]:
def resultize(grid_search) : 
    """build a DataFrame from the results of a GridSearchCV"""

    res = pd.DataFrame(grid_search.cv_results_)
    cols = [i for i in res.columns if 'split' not in i]
    res = res[cols]
    res = res.round(2).iloc[:, 4:].sort_values('mean_test_score', ascending=False)

    return res

In [None]:
resultize(grid_search).head(10)

In [None]:
#Choisir le bon modele
best_model = grid_search.best_estimator_

In [None]:
#matrice du confusion
y_pred = best_model.predict(X_scaled)
mat=confusion_matrix(y, y_pred)
mat

In [None]:
pd.DataFrame({"y_true" : y, "y_pred" : y_pred})

In [None]:
sns.heatmap(mat, annot=True, cmap='coolwarm', fmt='d', cbar=False, vmax=1000, vmin=-1000)

In [None]:
disp = ConfusionMatrixDisplay(confusion_matrix=mat)
disp.plot()
plt.show()

On voit que nous avons 10 faux négatifs (10 faux billets classés comme vrais) et 4 faux positifs (4 vrais billets classés comme faux). <br> Nous allons changer la métrique de scoring afin d'avoir moins de faux négatifs.

### Choix metric

In [None]:
for sco in ['accuracy', 'recall', 'f1']: # , 'roc_auc', 'average_precision'
    print(sco)
    # Définir la grille des hyperparamètres à rechercher
    param_grid = {
        'C': [0.001, 0.01, 0.1, 1, 10, 100],
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear', 'saga']
    }

    # Initialiser LogisticRegression
    logistic_regression = LogisticRegression()

    # Créer l'objet GridSearchCV
    grid_search = GridSearchCV(logistic_regression, param_grid, cv=5, scoring=sco)

    # Exécuter la recherche sur grille sur les données d'entraînement
    grid_search.fit(X_scaled, y)

    # Afficher les meilleurs hyperparamètres et le score associé
    print("Best Parameters:", grid_search.best_params_)
    print("Best Score:", grid_search.best_score_)

    best_model = grid_search.best_estimator_

    #matrice de confusion
    y_pred = best_model.predict(X_scaled)
    mat=confusion_matrix(y, y_pred)
    print(mat)

    disp = ConfusionMatrixDisplay(confusion_matrix=mat)
    disp.plot()
    plt.show()


on choisit la metric f1 qui a le meilleur compromis et le moins de faux négatifs

### Choix du seuil de décision

In [None]:
# Définir la grille des hyperparamètres à rechercher
param_grid = {
    'C': [0.001, 0.01, 0.1, 1, 10, 100],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

# Initialiser LogisticRegression
logistic_regression = LogisticRegression()

# Créer l'objet GridSearchCV
grid_search = GridSearchCV(logistic_regression, param_grid, cv=5, scoring='f1')

# Exécuter la recherche sur grille sur les données d'entraînement
grid_search.fit(X_scaled, y)

# Afficher les meilleurs hyperparamètres et le score associé
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)

best_model = grid_search.best_estimator_

#matrice de confusion
y_pred = best_model.predict(X_scaled)
mat=confusion_matrix(y, y_pred)
print(mat)

disp = ConfusionMatrixDisplay(confusion_matrix=mat)
disp.plot()
plt.show()


In [None]:
y_proba = best_model.predict_proba(X_scaled)
nouveau_seuil = 0.25
y_pred = (y_proba[:, 1] > nouveau_seuil).astype(int) #Faux billet si la probabilité est supérieure au seuil
mat=confusion_matrix(y, y_pred)
print(mat)

disp = ConfusionMatrixDisplay(confusion_matrix=mat)
disp.plot()
plt.show()

0.25 est le seuil qui a le meilleur compromis