<p><center><h1>üí∂ Algorithme de d√©tection automatique de faux billets</h1></center></p>
<p><center><h1>Partie 1 - Analyse</h1></center></p>

**ONCFM - Organisation nationale de lutte contre le faux-monnayage** est une organisation publique ayant pour objectif de mettre en place des m√©thodes d'identification des contrefa√ßons des billets en euros.
Dans le cadre de cette lutte, nous souhaitons mettre en place un algorithme qui soit capable de diff√©rencier automatiquement les vrais des faux billets.

## Objectifs

Lorsqu'un billet arrive, nous avons une machine qui consigne l'ensemble de ses caract√©ristiques g√©om√©triques. Au fil de nos ann√©es de lutte, nous avons observ√© des diff√©rences de dimensions entre les vrais et les faux billets. Ces diff√©rences sont difficilement visibles √† l'oeil nu, mais une machine devrait sans probl√®me arriver √† les diff√©rencier.

Ainsi, il faudrait construire un algorithme qui, √† partir des caract√©ristiques g√©om√©triques d'un billet, serait capable de d√©finir si ce dernier est un vrai ou un faux billet.

<img src="../gfx/sep.jpg" alt="Barre">

## Chargement

***

In [1]:
# Chargement des librairies
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.color_palette("colorblind")
sns.set_theme(style="darkgrid")

from scipy import stats

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
from sklearn.preprocessing import MinMaxScaler

In [2]:
# Chargement des donn√©es
df = pd.read_csv("../data/billets.csv", sep=';')
df.head()

Unnamed: 0,is_genuine,diagonal,height_left,height_right,margin_low,margin_up,length
0,True,171.81,104.86,104.95,4.52,2.89,112.83
1,True,171.46,103.36,103.66,3.77,2.99,113.09
2,True,172.69,104.48,103.5,4.4,2.94,113.16
3,True,171.36,103.91,103.94,3.62,3.01,113.51
4,True,171.73,104.28,103.46,4.04,3.48,112.54


<img src="../gfx/sep.jpg" alt="Barre">

## 1 - Analyse descriptive

***

### 1.1 - Description du jeu de donn√©es

Les donn√©es sont compos√©es d'une variable cible : 
- **is_genuine**, d√©termine si le billet est vrai ou faux (true/false)

In [3]:
df['is_genuine'].value_counts()

is_genuine
True     1000
False     500
Name: count, dtype: int64

Le jeu de donn√©es est compos√© de 1500 billets, r√©partis de la sorte :
- 1000 vrais billets
- 500 faux billets

Les donn√©es comportent √©galement 6 variables predictifs, correspondant aux dimensions g√©om√©triques des billets :
- **diagonal**, la diagonal du billet (en mm)
- **height_left**, la hauteur du billet mesur√©e sur le c√¥t√© gauche (en mm)
- **height_right**, la hauteur du billet mesur√©e sur le c√¥t√© droit (en mm)
- **margin_low**, la marge entre le bord inf√©rieur du billet et l'image de celui-ci (en mm)
- **margin_up**, la marge entre le bord sup√©rieur du billet et l'image de celui-ci (en mm)
- **length**, la longueur du billet (en mm)

In [4]:
df.describe()

Unnamed: 0,diagonal,height_left,height_right,margin_low,margin_up,length
count,1500.0,1500.0,1500.0,1463.0,1500.0,1500.0
mean,171.95844,104.029533,103.920307,4.485967,3.151473,112.6785
std,0.305195,0.299462,0.325627,0.663813,0.231813,0.87273
min,171.04,103.14,102.82,2.98,2.27,109.49
25%,171.75,103.82,103.71,4.015,2.99,112.03
50%,171.96,104.04,103.92,4.31,3.14,112.96
75%,172.17,104.23,104.15,4.87,3.31,113.34
max,173.01,104.88,104.95,6.9,3.91,114.44


In [5]:
# R√©cup√©ration du dataframe ne comportant que des variables num√©riques
df_num = df.select_dtypes(include='number')
indicateurs = df_num.columns

### 1.2 - Valeurs manquantes

In [6]:
# V√©rification des valeurs manquantes
df.isna().sum()

is_genuine       0
diagonal         0
height_left      0
height_right     0
margin_low      37
margin_up        0
length           0
dtype: int64

Seule la dimension **margin_low** comporte des valeurs manquantes.

Il nous faut inf√©rer ces valeurs manquantes √† l'aide d'une ***r√©gression lin√©aire*** √† partir des autres variables.

In [7]:
# Copie du dataframe sans les manquants de margin_low
df_mlna = df.copy()
df_mlna.dropna(subset=['margin_low'], inplace=True)

# V√©rification des valeurs manquantes
df_mlna.isna().sum()

is_genuine      0
diagonal        0
height_left     0
height_right    0
margin_low      0
margin_up       0
length          0
dtype: int64

In [8]:
# Conversion de la variable is_genuine en variable binaire
df_mlna['is_genuine'] = df_mlna['is_genuine'].astype('int')
df_mlna['is_genuine'].value_counts()

is_genuine
1    971
0    492
Name: count, dtype: int64

In [9]:
# R√©gression lin√©aire
reg = LinearRegression()
X = df_mlna[['is_genuine', 'diagonal', 'height_left', 'height_right', 'margin_up', 'length']]
y = df_mlna['margin_low']
reg.fit(X,y)

In [14]:
print(f"R^2 : {np.round(reg.score(X,y), 3)}")
print(f"margin_low = {np.round(reg.coef_[0], 2)} * is_genuine + {np.round(reg.coef_[1], 2)} * diagonal + {np.round(reg.coef_[2], 2)} * height_left + {np.round(reg.coef_[3], 2)} * height_right + {np.round(reg.coef_[4], 2)} * margin_up + {np.round(reg.coef_[5], 2)} * length + bruit")

R^2 : 0.617
margin_low = -1.14 * is_genuine + -0.01 * diagonal + 0.03 * height_left + 0.03 * height_right + -0.21 * margin_up + -0.0 * length + bruit


### 1.3 - Valeurs aberrantes ou atypiques

In [None]:
# R√©partition des dimensions des billets
ind_j = 2
ind_i = int(len(indicateurs)/ind_j)
fig, ax = plt.subplots(ind_i, ind_j, figsize=(6,10))

for i in range(ind_i):
    for j in range(ind_j):
        sns.boxplot(data=df_num[indicateurs[ind_j*i+j]], ax=ax[i,j], width=0.5)

fig.tight_layout(pad=0.5)
plt.show()

In [7]:
# Copie du dataframe pour v√©rification par stats
df_stats = df_num.copy()
z_indicateurs = ['z_diagonal', 'z_height_left', 'z_height_right', 'z_margin_low', 'z_margin_up', 'z_length']

# V√©rification avec le Z-Score
df_stats['z_diagonal'] = stats.zscore(df_stats.diagonal)
df_stats['z_height_left'] = stats.zscore(df_stats.height_left)
df_stats['z_height_right'] = stats.zscore(df_stats.height_right)
df_stats['z_margin_low'] = stats.zscore(df_stats.margin_low)
df_stats['z_margin_up'] = stats.zscore(df_stats.margin_up)
df_stats['z_length'] = stats.zscore(df_stats.length)

In [None]:
# Histogramme des Z-Scores
fig, ax = plt.subplots(ind_i, ind_j, figsize=(6,8))

for i in range(ind_i):
    for j in range(ind_j):
        sns.histplot(data=df_stats[z_indicateurs[ind_j*i+j]], ax=ax[i,j])

fig.tight_layout(pad=0.5)
plt.show()

Les donn√©es dimensionnelles ne comportent ***pas de valeurs aberrantes ou atypiques***.