## Préparation du notebook

## chargement librairies

In [7]:
import pandas as pd


ModuleNotFoundError: No module named 'pandas'

In [None]:
# import librairies
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples, davies_bouldin_score

from scipy import stats
from yellowbrick.cluster import KElbowVisualizer, SilhouetteVisualizer

import warnings

ModuleNotFoundError: No module named 'pandas'

In [None]:
warnings.filterwarnings("ignore")

: 

## chargement jeu de données

In [None]:
# Chargement des données avec pandas
data = pd.read_csv('billets.csv', sep=';')

: 

In [None]:
print(data.shape)

: 

In [None]:
data.info()

: 

In [None]:
data.head(2)

: 

In [None]:
# On affiche le taux de vrais et faux billets du df avec la variable "is_genuine"
data[['is_genuine']].value_counts().plot.pie(autopct='%.2f')
plt.title('Taux de vrais et faux billets')
plt.show()

: 

# Préparation des données

## Data cleaning (manquantes, aberrantes, extrêmes)

In [None]:
data.describe().transpose()

: 

### Manquantes

In [None]:
pd.isnull(data).sum()

: 

In [None]:
import seaborn as sns

import matplotlib.pyplot as plt

# nous definissons la couleur 
color = 'viridis' 

# visualisons à travers un heatmap
sns.heatmap(data.isnull(), cmap = color, cbar = False)

plt.show()

: 

In [None]:
data.corr()

: 

In [None]:
# Matrice de corrélation
correlation_matrix = data[["diagonal","height_left","height_right","margin_low","margin_up","length"]].corr().round(2)

sns.heatmap(correlation_matrix,annot=True, cmap='Spectral', vmin=-1, vmax=1)

: 

**Remarques :**
> 
> Les plus fortes corrélations sont :
> * positive entre la longueur et l'authenticité du billet
> * négative entre la marge du bas et l'authenticité du billet

## Régression linéaire pour valeurs manquantes

Les valeurs manquantes appartiennent toutes à une variable dépendante continue : on peut calculer les valeurs avec une régression linéaire.

In [None]:
data.sample(5)

: 

In [None]:
# On prépare les données
df = data.copy()

# On convertit les bool en int
df["is_genuine"] = df["is_genuine"].astype(int)

: 

In [None]:
# on recupere lignes nan sur 'df_na'
df_na = df[df["margin_low"].isnull()]

# suppression des nan de 'df'
df.dropna(inplace=True)

: 

In [None]:
pd.isnull(df).sum()

: 

In [None]:
df.info()

: 

### Recherche modèle avec le meilleur r2

In [None]:
# Choix du model de régression
y = df["margin_low"]

X = df[["margin_up", "is_genuine"]]

# Splitting the data into train and test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

: 

In [None]:
from sklearn.linear_model import LogisticRegression, LinearRegression, Ridge, Lasso, SGDRegressor
from time import time
from sklearn import metrics
regressors = [LinearRegression(), Lasso()]

: 

In [None]:
head = 10
for model in regressors[:head]:
    start = time()
    model.fit(X_train, y_train)
    train_time = time() - start
    start = time()
    y_pred = model.predict(X_test)
    predict_time = time()-start    
    print(model)
    print("\tTraining time: %0.3fs" % train_time)
    print("\tPrediction time: %0.3fs" % predict_time)
    print("\tExplained variance:", metrics.explained_variance_score(y_test, y_pred))
    print("\tMean absolute error:", metrics.mean_absolute_error(y_test, y_pred))
    print("\tR2 score:", metrics.r2_score(y_test, y_pred))
    print()

: 

### Optimisation linear regression

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import GridSearchCV

# Define the pipeline
pipeline = Pipeline([('scaler', StandardScaler()), ("estimator", LinearRegression())])

# Define the parameters to search
params = {}  # No regularization parameters for Linear Regression

# Define the grid search
model_linear = GridSearchCV(pipeline, param_grid=params, cv=5)
model_linear.fit(X_train, y_train)

: 

In [None]:
model_linear_opti = model_linear.best_estimator_

model_linear_opti.score(X_test, y_test)

: 

In [None]:
# prediction des nan avec la linear regression
predict_na = model_linear_opti.predict(df_na[["margin_up", "is_genuine"]])

: 

### Validation de la régression linéaire

* Test de Variance Inflation Factor (VIF) pour détecter la collinéarité

In [None]:
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Ajouter une constante de statsmodels
X_train_const = sm.add_constant(X_train)

# Calcul du VIF pour chaque variable
vif_data = pd.DataFrame()
vif_data["Feature"] = ["const"] + [f"X{i}" for i in range(X_train.shape[1])]
vif_data["VIF"] = [variance_inflation_factor(X_train_const, i) for i in range(X_train_const.shape[1])]

print(vif_data)


: 

>**Remarque :**
>
>Le VIF de 1.64 pour X0 et X1 est faible (inférieurs à 5) c'est-à-dire que les variables explicatives ne sont pas fortement corrélées entre elles et donc il n'y a pas de problème de multicollinéarité dans le modèle. 

* Test de normalité des résidus

In [None]:
# Calcul des résidus
residuals = y_test - y_pred

# Test de normalité de Shapiro-Wilk
shapiro_test = stats.shapiro(residuals)
print(f"Statistique de Shapiro-Wilk: {shapiro_test[0]}, p-value: {shapiro_test[1]}")

# Q-Q plot des résidus
sm.qqplot(residuals, line ='45')
plt.title("Q-Q plot des résidus")
plt.show()

: 

La p-value est bien inférieure à 0.05, ce qui signifie qu'on peut rejeter l'hypothèse nulle selon laquelle les résidus suivent une distribution normale.

Cela indique donc que les résidus ne sont pas normalement distribués

* Test de l'homoscédasticité

In [None]:
# Graphique des résidus vs valeurs prédites
plt.scatter(y_pred, residuals)
plt.axhline(y=0, color='r', linestyle='--')
plt.title("Résidus vs Valeurs prédites")
plt.xlabel("Valeurs prédites")
plt.ylabel("Résidus")
plt.show()

: 

Le graphique montre que les valeurs prédites sont presque toutes concentrées autour de 4.5, ce qui indique un manque de variabilité dans les prédictions du modèle.

Cela suggère que le modèle sous-apprend et ne capture pas bien les relations entre les variables.

Il pourrait être nécessaire d'utiliser un modèle plus complexe ou d'ajouter des variables explicatives pour améliorer la performance du modèle.


### Imputation des NaN avec la linear regression

In [None]:
data.info()

: 

In [None]:
data["margin_low"][data["margin_low"].isnull()] = predict_na

: 

In [None]:
data.info()

: 

# Analyse Univariée du jeu de données

In [None]:
features = data[['diagonal', 'height_left', 'height_right', 'margin_low','margin_up', 'length']]

target = data[['is_genuine']]

: 

## analyse des features

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Define feature and target names
features_names = ['diagonal', 'height_left', 'height_right', 'margin_low', 'margin_up', 'length']
target_name = 'is_genuine'

# Iterate over each feature
for var in features_names:
    print("Variable", '\033[1m', var, '\033[0m', "\n")
    
    plt.figure(figsize=(15, 5))
    
    # Plot histogram with KDE
    plt.subplot(121)
    sns.histplot(data=data, x=var, hue=target_name, legend=False)
    plt.axvline(data[var].mean(), color='g', linewidth=2, label='Mean')
    plt.axvline(data[var].median(), color='r', linewidth=2, label='Median')
    plt.legend()
    
    # Plot boxplot
    plt.subplot(122)
    sns.boxplot(data=data, x=var, y=target_name, hue=target_name, orient='h', showmeans=True, showfliers=True)
    
    plt.show()
    
    # Print statistics
    print('\033[1m', "Moyenne :", '\033[0m', round(data[var].mean(), 2))
    print('\033[1m', "Médiane :", '\033[0m', round(data[var].median(), 2))
    print('\033[1m', "Kurtosis :", '\033[0m', round(data[var].kurtosis(), 2))
    print('\033[1m', "Écart-type :", '\033[0m', round(data[var].std(), 2))
    print("\n", "*"*50, "\n")

: 

: 

## analyse de la target

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

palette = ["steelblue", "lightblue"]

plt.figure(figsize=(15, 5))
plt.subplot(121)
sns.countplot(x="is_genuine", data=data, palette=palette, hue="is_genuine", legend=False)

plt.show()

: 

# Machine Learning non supervisé : Clusterisation

### standardisation

In [None]:
data.columns

: 

In [None]:
data_features = data[['diagonal', 'height_left', 'height_right', 'margin_low',
       'margin_up', 'length']]

: 

In [None]:
X = data_features

# Réduction et centrage de données
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
pd.DataFrame(X_scaled, columns=X.columns).describe().round(2)

: 

> **Remarques :** 
> * La moyenne est ramennée à 0
> * La déviation standard est 1

### Réduction de dimensionnalités par ACP

In [None]:
# Import de la fonction PCA depuis Scikit Learn
from sklearn.decomposition import PCA

# Create the PCA model
model_pca = PCA(n_components = 6)

# Fit the model with the standardised data
X_reduced = model_pca.fit_transform(X_scaled)

: 

In [None]:
def display_scree_plot(pca):
    '''Visualisons du scree plot pour PCA'''

    scree = pca.explained_variance_ratio_*100
    plt.bar(np.arange(len(scree))+1, scree)
    plt.plot(np.arange(len(scree))+1, scree.cumsum(),c="red",marker='o')
    plt.xlabel("Nombre de composantes principales")
    plt.ylabel("Variance expliquée en pourcentage")
    plt.title("Scree plot : Eboulis des valeurs propres")
    plt.show(block=False)

: 

In [None]:
# Scree plot
display_scree_plot(model_pca)

# Explained variance ratio cumsum
print('\033[1m' +"Variance expliquée cumulée :"+'\033[0m', model_pca.explained_variance_ratio_.cumsum().round(2))

# Nombre de composantes à étudier
num_components = 6
pcs = model_pca.components_ 
pc1 = model_pca.components_[0]
pc2 = model_pca.components_[1]
pc3 = model_pca.components_[2]
pc4 = model_pca.components_[3]
pc5 = model_pca.components_[4]
pc6 = model_pca.components_[5]


classed_data = data.copy()
rank_band = [classed_data.loc[note_id, "is_genuine"] for note_id in classed_data.index]
X_projected = model_pca.transform(X_scaled)

: 

## K-Means

### Méthode du coude

In [None]:
from yellowbrick.cluster import KElbowVisualizer
from sklearn.cluster import KMeans

# Instantiate the clustering model and visualizer
model = KMeans(n_init=10)
visualizer = KElbowVisualizer(model, k=(1, 6), timings=False)

# Fit the data to the visualizer
visualizer.fit(X_scaled)

# Display the visualizer
visualizer.show()

: 

### Score Silhouette

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

range_n_clusters = list(range(2, 10))
for n_clusters in range_n_clusters:
    clusterer = KMeans(n_clusters=n_clusters, n_init=10) 
    preds = clusterer.fit_predict(X_scaled)
    score = silhouette_score(X_scaled, preds)
    print("For n_clusters = {}, silhouette score is {})".format(n_clusters, score))

: 

### Algorythme K-means

In [None]:
model_kmeans = KMeans(n_clusters=2,random_state = 0, n_init=10)

model_kmeans.fit_predict(X_scaled)

: 

In [None]:
clusters =  model_kmeans.labels_

# Add the cluster number to the original scaled data
X_clustered = pd.DataFrame(X_scaled, index=X.index, columns=X.columns)

X_clustered["cluster"] = clusters

: 

In [None]:
X_clustered.head()

: 

In [None]:
import joblib

# Enregistrer le modèle KMeans
joblib.dump(model_kmeans, 'model_kmeans.joblib')

: 

In [None]:
from sklearn.preprocessing import StandardScaler, LabelEncoder

: 

In [None]:
encoder = LabelEncoder()

def converter(cluster):
    if cluster==True:
        return 1
    else:
        return 0
    
data_kmeans = data.copy()   
data_kmeans['cluster_origin'] = encoder.fit_transform(np.invert(data_kmeans["is_genuine"]))
data_kmeans['cluster_kmeans'] = model_kmeans.labels_


: 

In [None]:
data_kmeans.sample(5)

: 

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Create confusion matrix
conf_matrix = pd.crosstab(data_kmeans['cluster_origin'], model_kmeans.labels_)

# Plot heatmap with customized colors
plt.figure(figsize=(7, 5))
sns.heatmap(conf_matrix, annot=True, fmt=".3g", linewidths=0.3, cmap="YlGnBu")  
plt.xlabel("Cluster")
plt.title("Matrice de confusion Kmeans\n")
plt.show()

: 

In [None]:
print(metrics.classification_report(data_kmeans['cluster_origin'],data_kmeans['cluster_kmeans']))

: 

### Caractéristiques des centroïdes 

In [None]:
# grouper par cluster avec la moyenne
df_kmeans_clusters = X_clustered.groupby("cluster").mean().round(2).reset_index()
df_kmeans_clusters

: 

In [None]:
# Fonction de traçage de coordonnées parallèles
def display_parallel_coordinates_centroids(df, num_clusters):
    '''Affiche un graphique de coordonnées parallèles pour les centroïdes dans df'''

    # Créer le graphique
    fig = plt.figure(figsize=(12, 5))
    title = fig.suptitle("Graphique de coordonnées parallèles pour les Centroïdes", fontsize=18)
    fig.subplots_adjust(top=0.9, wspace=0)

    # Dessiner le graphique
    parallel_coordinates(df, 'cluster', color=palette)

    # Espacer les axes
    ax = plt.gca()
    for tick in ax.xaxis.get_major_ticks()[1::2]:
        tick.set_pad(20)

: 

In [None]:
from pandas.plotting import parallel_coordinates
kmeans_ =  X_clustered.groupby(by="cluster").mean()
display_parallel_coordinates_centroids(kmeans_.reset_index(), 5)

: 

# Machine learning supervisé 

## Régression logistique 

In [None]:
# Faire une copie
df = data.copy()
# Afficher les données
df.head(3)

: 

In [None]:
# Remplacer les données de la colonne "is_genuine"
df["is_genuine"] = df["is_genuine"].astype(int)
# Affichage après remplacement des données
df.sample(5)

: 

In [None]:
# features
X = df.drop(columns = ["is_genuine"], axis = 1)

# variable cible            
y = df["is_genuine"]   

print(X.shape)
print(y.shape)

: 

In [None]:
# Données d'entrainement et de test
seed = 42
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = seed)
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)
print("y_train shape:", y_train.shape)
print("y_test shape:", y_test.shape)

: 

In [None]:
# Standardisation
scaler = StandardScaler()
scaler.fit(X_train)
X_train = pd.DataFrame(scaler.transform(X_train), columns = X.columns)
X_test = pd.DataFrame(scaler.transform(X_test), columns = X.columns)

: 

In [None]:
# Instanciation du modèle
lr_model = LogisticRegression(random_state = 42, solver = 'liblinear', multi_class = 'auto')

# Appliquer le modèle (entrainement)
lr_model.fit(X_train, y_train)

: 

In [None]:
# Prédiction
y_pred = lr_model.predict(X_test)

: 

In [None]:
# Précision globale du modèle
print("Le score sur les données d'entraînement est :", lr_model.score(X_train, y_train))
print("Le score sur les données d'évaluation est :", lr_model.score(X_test, y_test))

: 

In [None]:
print(metrics.classification_report(y_test, y_pred))

: 

In [None]:
# Visualisation des données de la matrice 
cont_table_rl = pd.crosstab(y_test, y_pred)
cont_table_rl

: 

In [None]:
# Visualisation du tableau de contigence
plt.figure(figsize = (6, 4))
sns.heatmap(cont_table_rl, annot = cont_table_rl, fmt=".3g", linewidths=0.3, cmap="YlGnBu")
plt.xlabel("Prédictions")
plt.title("Matrice de confusion avec la régression logistique", fontsize = 15, fontweight = "bold")
plt.plot()
plt.show()

: 

In [None]:
# Sauvegarde du modèle 
import pickle
pickle.dump(lr_model, open("classification_model.pkl", "wb"))

: 

: 

# prédiction sur de nouvelles données

In [None]:
# Chargement du modèle pour faire de nouvelles prédictions
pickle_model_lr = pickle.load(open("classification_model.pkl", "rb"))

: 

In [None]:
# Création de la fonction pour automatiser la production du modèle
def detect_billet(data):
    data_test = data[['diagonal', 'height_left', 'height_right', 'margin_low', 'margin_up','length']]

    # Standardisation
    scaler = StandardScaler()
    scaler.fit(data_test)
    data_prod = pd.DataFrame(scaler.transform(data_test), columns = data_test.columns)
    # Prédictions
    data_test["prediction"] = pickle_model_lr.predict(data_prod)
    data_test[["proba_faux","proba_vrai"]] = pickle_model_lr.predict_proba(data_prod)
    data_test["authentification"] = pickle_model_lr.predict(data_prod[["diagonal","height_left","height_right","margin_low","margin_up","length"]])
    data_test["authentification"].replace([0,1],["Faux billet", "Vrai billet"], inplace=True)
    
    # Afficher les résultats
    display(data_test)
    print("\n")
    print("Nombre total de billets : ", len(data_test))
    print("Nombre de vrais billets : ", len(data_test[data_test["prediction"] == 1]))
    print("Nombre de faux billets : ", len(data_test[data_test["prediction"] == 0]), "\n")
    
    
    # Visualisation
    labels=["Faux billet", "Vrai billet"]
    sns.countplot(x = "authentification", data = data_test, palette = palette)
    plt.ylabel("Nombre de billets")
    plt.title("Détection du nombre des faux/vrais billets", fontsize = 15, fontweight = "bold")
    plt.show()
    print("\n")

: 

In [None]:
data_production = pd.read_csv('billets_test.csv', sep =",")

data_production = data_production[["diagonal","height_left","height_right","margin_low","margin_up","length"]]

# Appel de la fonction
detect_billet(data_production)

: 

In [None]:
data_final = pd.read_csv('billets_test.csv', sep =",")

data_final = data_final[["diagonal","height_left","height_right","margin_low","margin_up","length"]]

# Appel de la fonction
detect_billet(data_final)

: 

In [None]:
# Sauvegarder le scaler dans un fichier
with open("scaler.pkl", "wb") as file:
    pickle.dump(scaler, file)

print("Scaler sauvegardé dans scaler.pkl")


: 

: 

: 