# Projet P10 - DÃ©tectez des faux billets avec R ou Python
*OPENCLASSROOMS - Parcours Data Analyst V2 - Adeline Le Ray - Juin 2023*
<hr>

![ONCFM_logo.png](attachment:ONCFM_logo.png)

# <font color='blue'>ModÃ¨le final</font>

LâOrganisation nationale de lutte contre le faux-monnayage, ou ONCFM, est une organisation publique ayant pour objectif de mettre en place des mÃ©thodes dâidentification des contrefaÃ§ons des billets en euros. Dans le cadre de cette lutte, ils souhaitent mettre en place un algorithme qui soit capable de diffÃ©rencier automatiquement les vrais des faux billets.

Lorsquâun billet arrive, une machine consigne lâensemble de ses caractÃ©ristiques gÃ©omÃ©triques. Au travers de ses annÃ©es de lutte, ONCFM a observÃ© des diffÃ©rences de dimensions entre les vrais et les faux billets. Ces diffÃ©rences sont difficilement notables Ã  lâoeil nu, mais une machine peut sans problÃ¨me arriver Ã  les diffÃ©rencier.
Ainsi, l'objectif de la mission est de construire un algorithme qui, Ã  partir des caractÃ©ristiques gÃ©omÃ©triques dâun billet, serait capable de dÃ©finir automatiquement si ce dernier est un vrai ou un faux billet.

## <font color='green'>1. Importation des librairies<a class="anchor" id="1_1"></a></font>

In [1]:
# Importation des librairies
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

## <font color='green'>2. EntraÃ®nement du modÃ¨le<a class="anchor" id="1_2"></a></font>

In [2]:
# Importation du fichier complet
billets_mlr = pd.read_csv('billets_mlr.csv', index_col=0)
billets_mlr.head()

Unnamed: 0,is_genuine,diagonal,height_left,height_right,margin_low,margin_up,length
0,True,171.81,104.86,104.95,4.52,2.89,112.83
1,True,171.46,103.36,103.66,3.77,2.99,113.09
2,True,172.69,104.48,103.5,4.4,2.94,113.16
3,True,171.36,103.91,103.94,3.62,3.01,113.51
4,True,171.73,104.28,103.46,4.04,3.48,112.54


In [3]:
billets_mlr.shape

(1500, 7)

In [4]:
# CrÃ©ation de l'Ã©chantillon d'entraÃ®nement et de l'Ã©chantillon de test
# Stratify = rÃ©partition homogÃ¨ne de vrais et faux billets dans les Ã©chantillons des tests et entraÃ®nement
X = billets_mlr[['height_right','margin_low','margin_up', 'length']]
y = billets_mlr['is_genuine']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y,random_state=42)
# Standardisation des donnÃ©es
scaler = StandardScaler()
X_train_s = scaler.fit_transform(X_train.values)

In [5]:
# Instanciation et entraÃ®nement du modÃ¨le de rÃ©gression logistique
reg_log = LogisticRegression(penalty=None,solver='lbfgs',random_state=42)
reg_log.fit(X_train_s,y_train)

## <font color='green'>3. Fonction de dÃ©tection des faux billets<a class="anchor" id="1_3"></a></font>


In [6]:
def detection_fx_billets(model, nom_fichier):
    """
    Fonction permettant la dÃ©tection de faux billets Ã  partir d'un algorithme de classification dÃ©jÃ  entraÃ®nÃ©
    """
    
    # Importation des donnÃ©es
    df = pd.read_csv(nom_fichier)
    
    # SÃ©lection des donnÃ©es significatives de la rÃ©gression logistique
    X = df[['height_right','margin_low','margin_up','length']]
    
    # Standardisation des donnÃ©es
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X.values)
    
    # PrÃ©dictions et probabilitÃ©s
    pred = model.predict(X_scaled)
    predict_proba = model.predict_proba(X_scaled)[:,1]
    threshold_optim = 0.6 # DÃ©finition du seuil
    y_pred = (predict_proba >= threshold_optim) # Classification en fonction du seuil
    
    # Affichage des rÃ©sultats
    df_pred = df.copy()
    df_pred['prediction'] = y_pred
    df_pred['probabilitÃ© vrai %'] = np.round(predict_proba*100,2)

    return df_pred

In [7]:
detection_fx_billets(reg_log, 'billets_production.csv')

Unnamed: 0,diagonal,height_left,height_right,margin_low,margin_up,length,id,prediction,probabilitÃ© vrai %
0,171.76,104.01,103.54,5.21,3.3,111.42,A_1,False,0.23
1,171.87,104.17,104.13,6.0,3.31,112.09,A_2,False,0.09
2,172.0,104.58,104.29,4.99,3.39,111.57,A_3,False,0.07
3,172.49,104.55,104.34,4.44,3.03,113.2,A_4,True,100.0
4,171.65,103.63,103.56,3.77,3.16,113.33,A_5,True,100.0
