# Projet : reconnaissance biométrique au clavier (novelty)
_Un projet d'Olivier Baurain, Romain Ceccoti, Jules Micho, Baptiste Millot et Hao Zhu_

_Avril 2019_

---

L'objectif de ce notebook est de proposer une première approche à la reconnaissance comportementale avec un Rubik's Cube, voir si l'on peut discerner un utilisateur légitime d'un imposteur à sa manière d'utiliser un Rubik's Cube.
Pour ce faire nous allons utiliser un alogrithme de novelty issue de la bibliothèque [scikit-learn](https://scikit-learn.org/stable/index.html).

![novelty_detection](https://scikit-learn.org/stable/_images/sphx_glr_plot_lof_novelty_detection_001.png)

<p style="text-align: center;"><b><i>Novelty Detection Example</i></b></p>

Voici les trois grandes étapes de ce notebook:

1. Récolte de données qui vont etre utilisé par notre algorithme
2. Exploitation des données
3. Interpretation de nos résultats


In [1]:
import pandas as pd
import sklearn
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
from sklearn.model_selection import train_test_split

In [2]:
# Load dataset
ds = pd.read_csv('DatasetLURU.csv')

In [3]:
ds.iloc[0,:]

date      1553159921339
user           baptiste
device         Gi161124
0                     0
1                  1376
2                  1140
3                   660
4                   962
5                  1020
6                   840
7                  1259
Name: 0, dtype: object

In [4]:
# Création des data de test et de train pour Olivier
X = ds.loc[ds['user'] == 'olivier'].drop(['date', 'user', 'device', '0'], axis=1)
y = ds.loc[ds['user'] == 'olivier'].user

X_train, X_test, _, _ = train_test_split(X, y, test_size=0.20, shuffle=True)
X_outliers= ds.loc[ds['user'] != 'olivier'].drop(['date', 'user', 'device', '0'], axis=1)


In [5]:
#Creation du model
clf = LocalOutlierFactor(contamination='auto', novelty=True, algorithm='auto')

#Fitting du model
clf.fit(X_train)

LocalOutlierFactor(algorithm='auto', contamination='auto', leaf_size=30,
          metric='minkowski', metric_params=None, n_jobs=None,
          n_neighbors=20, novelty=True, p=2)

In [6]:
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)
n_error_test = y_pred_test[y_pred_test == -1].size
n_error_outliers = y_pred_outliers[y_pred_outliers == 1].size

In [7]:
print("Errors novel regular: %d/%d (%d%%)" % (n_error_test, len(y_pred_test), n_error_test*100/len(y_pred_test)))
print("Errors novel abnormal: %d/%d (%d%%)"% (n_error_outliers, len(y_pred_outliers), n_error_outliers*100/len(y_pred_outliers)))

Errors novel regular: 2/10 (20%)
Errors novel abnormal: 28/150 (18%)
