# Détection de fraud au payement

Ce jeu de données vous propose un nouveau problème de classification binaire : décider si un payement est une FRAUDE ou non.

### Objectifs 
* Récapituler les notions vues jusqu'à présent : classification binaire, validation, mesure de performance, hyper-optimisation.
* Découvrir une nouvelle famille d'algorithmes : les boosting trees
* Appréhender un problème de classification bianaire "déséquilibré"

Ce notebook va réutiliser les concepts déjà vu jusqu'à présent. Il contient moins de code et vous laisse plus libre dans l'implémentation. Réutilisez le code des notebooks précédents !

### Contexte 
Vous travaillez en tant que *Machine Learning Engineer* pour une **banque**. Les équipes de lutte contre la fraude souhaîte mettre en place un **algorithme pour arrêter la fraude** en temps réel : l'algorithme doit être capable de détecter si un virement est frauduleux ou non afin de le bloquer.

A partir d'un jeu de données qu'on vous fournit, il vous est demandé de mettre en place un tel algorithme. Dans ce jeu, un certain nombre de virements frauduleux a été préalablement détecté.

L'analyse des performances d'un tel algorithme permettra de décider de la mise en place ou non d'un tel moteur de détection en temps réel, qui se basera sur votre algorithme.

Par ailleurs, un de vos collègues a mis en place 2 modèles de détection auxquels il va falloir vous comparer.


(faire le coup de la fonction qui renvoie 0, ou 1 aléatoirement !! Montrer que courbe ROC pas fou, et montrer d'autres mesures.)

## Modèle de comparaison

Les 2 modèles suivants sont des modèles "naïf" de détection de fraude. Serez-vous capable d'obtenir un meilleur modèle ?

Ces modèles s'utilisent de la même manière que les modèles vus précédemment : ils ont une méthode _fit_ pour l'entraînement et _predict_ ou _predict_proba_ pour la prédiction.


In [1]:
import numpy as np

In [2]:
# Model 1

class RandomFraudDetector:
    def __init__(self, p):
        self.p = p
        assert 0 <= p <= 1

    def fit(self, X, y):
        return self

    def predict(self, X):
        scores = self.predict_proba(X)
        return scores > 0.5 
    
    def predict_proba(self, X):
        scores =  self.p * 2 * np.random.rand(X.shape[0])
        scores[scores<0] = 0
        scores[scores>1] = 1
        return scores

randomFraudDetector = RandomFraudDetector(0.1)

In [3]:
# Model 2

class NaiveFraudDetector:
    def __init__(self):
        pass

    def fit(self, X, y):
        return self

    def predict(self, X):
        return np.zeros((X.shape[0],)) 
    
    def predict_proba(self, X):
        return np.zeros((X.shape[0],))

naiveFraudDetector = NaiveFraudDetector()

# Lecture du dataset

Dans cette première section :
* Lecture du dataset
* Quelle est la cible ? Quelles sont les features exploitables ?
* Effectuer quelques visualisation
  * Quelle est la durée pendant laquelle les données ont été collectées ?
  * Est-ce que les fraudes sont réparties dans le temps ?
  * Quel est le montant des transactions en général et des fraudes en particulier ?

Les colonnes du jeu de données sont : 
* _Class_ : est-ce que c'est une fraude ?
* _Time_ : moment de la transaction
* _Amount_ : montant de la transaction
* _V1_ à _V28_ : des features numériques anonymisées

In [15]:
import pandas as pd
dataset = pd.read_csv("./datasets/CreditCardFraud_short.csv")
dataset

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,406.0,-2.312227,1.951992,-1.609851,3.997906,-0.522188,-1.426545,-2.537387,1.391657,-2.770089,...,0.517232,-0.035049,-0.465211,0.320198,0.044519,0.177840,0.261145,-0.143276,0.00,1
1,472.0,-3.043541,-3.157307,1.088463,2.288644,1.359805,-1.064823,0.325574,-0.067794,-0.270953,...,0.661696,0.435477,1.375966,-0.293803,0.279798,-0.145362,-0.252773,0.035764,529.00,1
2,4462.0,-2.303350,1.759247,-0.359745,2.330243,-0.821628,-0.075788,0.562320,-0.399147,-0.238253,...,-0.294166,-0.932391,0.172726,-0.087330,-0.156114,-0.542628,0.039566,-0.153029,239.93,1
3,6986.0,-4.397974,1.358367,-2.592844,2.679787,-1.128131,-1.706536,-3.496197,-0.248778,-0.247768,...,0.573574,0.176968,-0.436207,-0.053502,0.252405,-0.657488,-0.827136,0.849573,59.00,1
4,7519.0,1.234235,3.019740,-4.304597,4.732795,3.624201,-1.357746,1.713445,-0.496358,-1.282858,...,-0.379068,-0.704181,-0.656805,-1.632653,1.488901,0.566797,-0.010016,0.146793,1.00,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
142645,163942.0,-1.019203,0.481492,2.274583,4.241325,1.574835,1.261159,-0.642177,0.504488,-2.209828,...,0.310800,0.633903,-0.249594,0.219320,0.270599,0.546483,0.083095,0.110002,0.76,0
142646,63899.0,-0.370668,0.988509,2.608039,2.110778,-0.256008,0.272036,0.118741,0.193841,-0.587576,...,-0.002159,0.146565,-0.123053,0.406696,-0.110622,-0.087303,0.074957,0.044112,0.00,0
142647,41231.0,-0.428687,0.948979,1.287959,-0.028794,0.032788,-0.698476,0.539625,0.126356,-0.518914,...,-0.214565,-0.653256,0.008115,0.252761,-0.215620,0.057347,0.231959,0.087622,9.99,0
142648,35059.0,-1.075405,1.338826,0.117071,-0.204691,-0.524877,-1.261053,0.435116,0.439694,-1.098636,...,-0.151833,-0.721981,0.147504,0.459192,-0.685286,0.718542,-0.275357,-0.044909,53.80,0


## Premiers modèles

Dans cette partie, il vous est demandé :
* d'effectuer un premier modèle à partir d'un randomForest. Quelle est la meilleure précision que vous pouvez atteindre ?
* comparer ce score avec le score des modèles naïfs.

Qu'en pensez-vous ?



In [None]:
# TODO

# Modèle Boosting Tree

On a utilisé précédemment le random Forest. L'algorithme se base sur les arbres de décisions. La stratégie de l'algorithme consiste à utiliser un grand nombre d'estimateurs (les arbres) qui ont tendance à overfitté individuellement, mais collectivement le comportement sera beaucoup moins variables (des tirages aléatoires permettant d'avoir des arbres toujours légèrement différents.)


Les Boosting Tree partent sur une autre stratégie : l'idée est d'utiliser une série d'arbre, construit successivement, dont chacun va tenter de réduire l'erreur d'estimation des précédents arbres.

En comparaison :
* Random Forest : minimisation de la variance en construisant des arbres aléatoires et indépendant
* Boosting Tree : minimisation du biais en construisant successivement des arbres liés entre eux

Il existe plusieurs implémentations avec des différences.
Dans le package scikit-learn : Gradient Boosting Tree & AdaBoost.

Exceptionnellement nous allons utiliser un algorithme d'un autre package, mais qui est très populaire : **xgboost**

Voir la documentation : https://xgboost.readthedocs.io/en/latest/get_started.html

La ligne suivante permet de vérifier que le package est bien installé.


In [None]:
import xgboost as xgb

Dans la suite, nous vous proposer de créer un modèle xgboost et de l'évaluer. Est-ce que le résultat est meilleur ou moins bon ?

In [None]:
# TODO

# Rééquilibrage des classes


Dans le cas comme ici avec un grand déséquilibre entre les classes, une technique courante et de les rééquilibrer. Il existe plusieurs possibilités, par exemple : 
* Supprimer des observations de la classe trop représentée pour avoir une partié correcte
* Générer des éléments de la classe sous-représentés à partir des éléments existants

Pouvez-vous essayer l'une ou l'autre de ces approches ?


In [None]:
# TODO