# Comparaison de LOF, OC-SVM et Isolation Forest

## Jeu de données

Nous utilisons le jeu de données KDD99CUP

## Métriques de comparaison

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from time import time
from sklearn.ensemble import IsolationForest
from sklearn.svm import OneClassSVM
from sklearn.neighbors import LocalOutlierFactor
from sklearn.metrics import confusion_matrix
from sklearn.metrics import roc_auc_score
from matplotlib.mlab import frange
import statistics
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_curve


## Chargement du jeu de données KDD99-Cup HTTP

KDD99-Cup HTTP contient 30 attributs dont le dernier est la classe à expliquer.
Il y a 620098 observations dont 1052 anormales.
Avec le dernier attribut, nous avons les classes "o" pour les anomalies et "n" pour les observations normales.

In [2]:
data_brut_KDD99CUP = pd.read_csv('/Users/thesard/Doctorat/These2018/ISEP/Developpements/EspaceIntelliJ/LearningAllInPython/Learning_IHM_Features/datasets/imported_datasets/kdd99-unsupervised-ad_2019-06-24 16:08:29.815617.csv', header=None, index_col=None)
X_KDD99CUP = data_brut_KDD99CUP[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 ,14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28]]
y_brut_KDD99CUP = data_brut_KDD99CUP[[29]]
data_brut_KDD99CUP.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
count,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,...,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0,620098.0
mean,0.62767,280.374673,4099.298,0.005012,0.912428,0.000947,0.000318,1.3e-05,1e-05,0.005409,...,127.698101,244.485422,0.996744,0.000796,0.074723,0.03182,0.00192,0.001473,0.087651,0.086732
std,53.972528,1509.901935,23693.88,0.098271,0.282671,0.045654,0.017821,0.003592,0.003111,0.073346,...,105.897233,40.458619,0.033137,0.009522,0.185812,0.050689,0.030694,0.028037,0.274777,0.268543
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,210.0,458.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,22.0,255.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,0.0,240.0,1425.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,96.0,255.0,1.0,0.0,0.01,0.02,0.0,0.0,0.0,0.0
75%,0.0,302.0,3731.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,255.0,255.0,1.0,0.0,0.05,0.04,0.0,0.0,0.0,0.0
max,41065.0,54540.0,11730590.0,21.0,1.0,21.0,1.0,1.0,1.0,1.0,...,255.0,255.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [16]:
# Nombre d'anomalies
n_outliers = data_brut_KDD99CUP[data_brut_KDD99CUP[29] == 'o']
len(n_outliers)/6

175.33333333333334

In [26]:
#Pourcentage d'anomalies
pourcentage_anomalies = len(n_outliers)/len(data_brut_KDD99CUP)
pourcentage_anomalies

0.0016965060361426743

In [15]:
# Nombre de données normales
n_normals = data_brut_KDD99CUP[data_brut_KDD99CUP[29] == 'n']
len(n_normals)/6

103174.33333333333

In [12]:
#Pourcentage de données normales
pourcentage_normales = len(n_normals)/len(data_brut_KDD99CUP)
pourcentage_normales

0.9983034939638573

## Spliter le jeu de donner pour réduire la taille
Ceci sera fait en tenant compte du taux d'anomalies dans le jeu de données principale.
On aura au final 6 sous jeux de données sur lesquels chaque méthode sera appliquée. 
La moyenne des résultats sera alors le résultat à retenir pour tout le jeu de données.
NB: 
    - CPU Time = Somme
    - Précion  = Moyenne ou Somme des différentes matrices de confusion
    - Rappel   = Moyenne ou Somme des différentes matrices de confusion
    - ROC AUC  = Moyenne
    - f1-score = Moyenne
    - TNBC     = Moyenne ou Somme des différentes matrices de confusion
    - TPBC     = Moyenne ou Somme des différentes matrices de confusion

In [27]:
# Spliter à l'aide Stratifield mais ça ne donne pas le résultat que je veux. ça donne 6 jeux d'entrainement et
# et de test, tous de même taille dont la somme des jeux de test et d'entrainement donne la taille du jeu de 
# données original.
#from sklearn.model_selection import StratifiedShuffleSplit
#split = StratifiedShuffleSplit(n_splits=6, test_size=0.16965060361426743, random_state=42)
#i = 0
#for train_index, test_index in split.split(data_brut_KDD99CUP, data_brut_KDD99CUP[29]):
#    i=i+1
#    strat_train_set = data_brut_KDD99CUP.loc[train_index]
#    print("train :"+str(i))
#    #print(strat_train_set)
#    print("Taille ="+str(len(strat_train_set)))
#    strat_train_outliers = strat_train_set[strat_train_set[29] == 'o']
#    strat_train_normals  = strat_train_set[strat_train_set[29] == 'n']
#    print("n_outliers ="+str(len(strat_train_outliers)/(len(strat_train_outliers) + len(strat_train_normals))))
#    print("%_outliers ="+str(len(strat_train_outliers)))
#    print("n_normals  ="+str(len(strat_train_normals)))
#    print("%_normals  ="+str(len(strat_train_normals)/(len(strat_train_outliers) + len(strat_train_normals))))
#    strat_test_set = data_brut_KDD99CUP.loc[test_index]
#    print("test :"+str(i))
#    #print(strat_test_set)
#    print("Taille ="+str(len(strat_test_set)))
#    strat_test_outliers = strat_test_set[strat_test_set[29] == 'o']
#    strat_test_normals  = strat_test_set[strat_test_set[29] == 'n']
#    print("n_outliers ="+str(len(strat_test_outliers)))
#    print("%_outliers ="+str(len(strat_test_outliers)/(len(strat_test_outliers) + len(strat_test_normals))))
#    print("n_normals  ="+str(len(strat_test_normals)))
#    print("%_normals  ="+str(len(strat_test_normals)/(len(strat_test_outliers) + len(strat_test_normals))))
#    print("\n")

train :1
Taille =514898
n_outliers =0.001697423567386162
%_outliers =874
n_normals  =514024
%_normals  =0.9983025764326139
test :1
Taille =105200
n_outliers =178
%_outliers =0.0016920152091254752
n_normals  =105022
%_normals  =0.9983079847908746


train :2
Taille =514898
n_outliers =0.001697423567386162
%_outliers =874
n_normals  =514024
%_normals  =0.9983025764326139
test :2
Taille =105200
n_outliers =178
%_outliers =0.0016920152091254752
n_normals  =105022
%_normals  =0.9983079847908746


train :3
Taille =514898
n_outliers =0.001697423567386162
%_outliers =874
n_normals  =514024
%_normals  =0.9983025764326139
test :3
Taille =105200
n_outliers =178
%_outliers =0.0016920152091254752
n_normals  =105022
%_normals  =0.9983079847908746


train :4
Taille =514898
n_outliers =0.001697423567386162
%_outliers =874
n_normals  =514024
%_normals  =0.9983025764326139
test :4
Taille =105200
n_outliers =178
%_outliers =0.0016920152091254752
n_normals  =105022
%_normals  =0.9983079847908746


train :5

In [31]:
# Subset the dataset by myself
import math
n_i_min = 0
o_i_min = 0
n_i_max = math.ceil(len(n_normals)/6)
o_i_max = math.ceil(len(n_outliers)/6)
n_sub_dataset_1 = n_normals[n_i_min:n_i_max]
print("Length normals subset 1 = "+str(len(n_sub_dataset_1)))
o_sub_dataset_1 = n_outliers[o_i_min:o_i_max]
print("Length outliers subset 1 = "+str(len(o_sub_dataset_1)))

n_i_min = n_i_max
o_i_min = o_i_max
n_i_max = n_i_max + math.ceil(len(n_normals)/6)
o_i_max = o_i_max + math.ceil(len(n_outliers)/6)
n_sub_dataset_2 = n_normals[n_i_min:n_i_max]
print("Length normals subset 2 = "+str(len(n_sub_dataset_2)))
o_sub_dataset_2 = n_outliers[o_i_min:o_i_max]
print("Length outliers subset 2 = "+str(len(o_sub_dataset_2)))

n_i_min = n_i_max
o_i_min = o_i_max
n_i_max = n_i_max + math.ceil(len(n_normals)/6)
o_i_max = o_i_max + math.ceil(len(n_outliers)/6)
n_sub_dataset_3 = n_normals[n_i_min:n_i_max]
print("Length normals subset 3 = "+str(len(n_sub_dataset_3)))
o_sub_dataset_3 = n_outliers[o_i_min:o_i_max]
print("Length outliers subset 3 = "+str(len(o_sub_dataset_3)))

n_i_min = n_i_max
o_i_min = o_i_max
n_i_max = n_i_max + math.ceil(len(n_normals)/6)
o_i_max = o_i_max + math.ceil(len(n_outliers)/6)
n_sub_dataset_4 = n_normals[n_i_min:n_i_max]
print("Length normals subset 4 = "+str(len(n_sub_dataset_4)))
o_sub_dataset_4 = n_outliers[o_i_min:o_i_max]
print("Length outliers subset 4 = "+str(len(o_sub_dataset_4)))

n_i_min = n_i_max
o_i_min = o_i_max
n_i_max = n_i_max + math.ceil(len(n_normals)/6)
o_i_max = o_i_max + math.ceil(len(n_outliers)/6)
n_sub_dataset_5 = n_normals[n_i_min:n_i_max]
print("Length normals subset 5 = "+str(len(n_sub_dataset_5)))
o_sub_dataset_5 = n_outliers[o_i_min:o_i_max]
print("Length outliers subset 5 = "+str(len(o_sub_dataset_5)))

n_i_min = n_i_max
o_i_min = o_i_max
n_i_max = n_i_max + math.ceil(len(n_normals)/6)
o_i_max = o_i_max + math.ceil(len(n_outliers)/6)
n_sub_dataset_6 = n_normals[n_i_min:n_i_max]
print("Length normals subset 6 = "+str(len(n_sub_dataset_6)))
o_sub_dataset_6 = n_outliers[o_i_min:o_i_max]
print("Length outliers subset 6 = "+str(len(o_sub_dataset_6)))

Length normals subset 1 = 103175
Length outliers subset 1 = 176
Length normals subset 2 = 103175
Length outliers subset 2 = 176
Length normals subset 3 = 103175
Length outliers subset 3 = 176
Length normals subset 4 = 103175
Length outliers subset 4 = 176
Length normals subset 5 = 103175
Length outliers subset 5 = 176
Length normals subset 6 = 103171
Length outliers subset 6 = 172


## Transformation de la classe à expliquer

L'objectif ici est de remplacer les "o" par -1 et les "n" par 1 afin de faire les matrices de confusion avec la fonction dédiée de scikit-learn.

In [3]:
y_transform_KDD99CUP = y_brut_KDD99CUP
y_transform_KDD99CUP = np.where(y_transform_KDD99CUP=='o',-1,1)
#y_transform_KDD99CUP

## KDD99CUP

### Exécution de Isolation Forest sur le jeux de données KDD99CUP.

In [None]:

max_samples = 'auto'

averages_executions_time_IF_KDD99CUP = []
averages_roc_auc_IF_KDD99CUP = []

for j in range(50, 300, 10):
    n_estimators = j
    executions_time_IF_KDD99CUP = []
    roc_auc_IF_KDD99CUP = []
    for i in range(5):
        start_IF_KDD99CUP = time()
        
        func_IF_KDD99CUP = IsolationForest(n_estimators=n_estimators, max_samples=max_samples)
        func_IF_KDD99CUP.fit(X_KDD99CUP)
        y_pred_IF_KDD99CUP = func_IF_KDD99CUP.predict(X_KDD99CUP)

        # Calcul du temps d'exécution
        exec_time_IF_KDD99CUP = time() - start_IF_KDD99CUP
        executions_time_IF_KDD99CUP.append(exec_time_IF_KDD99CUP)

        # Calcul de l'aire sous la courbe ROC
        auc_IF_KDD99CUP = roc_auc_score(y_transform_KDD99CUP, y_pred_IF_KDD99CUP)
        roc_auc_IF_KDD99CUP.append(auc_IF_KDD99CUP)
        #print("ROC AUC for Isolation Forest applied on KDD99CUP")
        #print(roc_auc_IF_KDD99CUP)
    print("Execution time of IsolationForest applied on KDD99CUP (in second)")
    print(executions_time_IF_KDD99CUP)
    print("ROC AUC for Isolation Forest applied on KDD99CUP")
    print(roc_auc_IF_KDD99CUP)
    averages_executions_time_IF_KDD99CUP.append(statistics.mean(executions_time_IF_KDD99CUP))
    averages_roc_auc_IF_KDD99CUP.append(statistics.mean(roc_auc_IF_KDD99CUP))



Execution time of IsolationForest applied on KDD99CUP (in second)
[28.578444957733154, 25.23741888999939, 26.253039121627808, 26.557228088378906, 25.413676023483276]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8450864858915931, 0.7922296777911022, 0.9245794559343361, 0.9031552769858107, 0.7946295267847991]




Execution time of IsolationForest applied on KDD99CUP (in second)
[32.12448501586914, 31.418391942977905, 31.097649097442627, 31.948478937149048, 30.568878889083862]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8817407903703269, 0.8065092329791054, 0.8260282327711195, 0.8507996002778665, 0.9117257562596409]




Execution time of IsolationForest applied on KDD99CUP (in second)
[38.14598083496094, 37.418251037597656, 44.79720091819763, 39.68713903427124, 38.50747895240784]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8222194898469373, 0.8869681195580359, 0.9255324493598017, 0.7874647106637738, 0.8379321697980294]




Execution time of IsolationForest applied on KDD99CUP (in second)
[43.53395199775696, 42.9637188911438, 42.42531418800354, 2413.4515421390533, 46.22988796234131]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8574576311454045, 0.8331736642260618, 0.8189046090655204, 0.8288896361307769, 0.8450719473920308]




Execution time of IsolationForest applied on KDD99CUP (in second)
[50.52204370498657, 53.32582712173462, 51.25532388687134, 51.63784694671631, 52.04144906997681]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.862687383416374, 0.8284305048480767, 0.8879203052890816, 0.8455480402575537, 0.829360882829779]




Execution time of IsolationForest applied on KDD99CUP (in second)
[58.189512968063354, 58.905966997146606, 57.215025901794434, 57.94588804244995, 56.69113206863403]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8903048080887961, 0.8883963981546044, 0.8317413471573929, 0.8084281429407587, 0.8217450123702547]




Execution time of IsolationForest applied on KDD99CUP (in second)
[65.2770323753357, 62.49529814720154, 72.73045182228088, 60.568933963775635, 65.7337999343872]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8141259111330499, 0.847460488663846, 0.8779223551131031, 0.8131737254020043, 0.8498336837416789]




Execution time of IsolationForest applied on KDD99CUP (in second)
[72.28583407402039, 71.4216058254242, 70.92204213142395, 70.46928000450134, 71.7974009513855]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8412648198566888, 0.7746102032946586, 0.9507677943157697, 0.8903056157832163, 0.8645917548784652]




Execution time of IsolationForest applied on KDD99CUP (in second)
[78.22773122787476, 77.31982827186584, 79.50273704528809, 78.3724479675293, 80.76118206977844]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8265043256366422, 0.841742528111052, 0.8855923410987756, 0.8160383595393422, 0.8265043256366422]




Execution time of IsolationForest applied on KDD99CUP (in second)
[96.24979090690613, 7291.083167076111, 80.78714179992676, 84.79337215423584, 85.67209005355835]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8307891614263474, 0.8655625175811735, 0.8546010739522677, 0.8255521399055967, 0.8507850617783043]




Execution time of IsolationForest applied on KDD99CUP (in second)
[87.57765007019043, 90.4934458732605, 89.70446372032166, 89.89395928382874, 88.34788703918457]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8241238613090283, 0.8212842656987143, 0.8274565113676878, 0.8022235894949802, 0.8193685865147413]




Execution time of IsolationForest applied on KDD99CUP (in second)
[95.1180739402771, 98.68663716316223, 101.15723490715027, 101.64820575714111, 96.10984110832214]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8593547333577144, 0.9074417281643559, 0.8331696257539614, 0.842691483064417, 0.8203175414681064]




Execution time of IsolationForest applied on KDD99CUP (in second)
[105.49329996109009, 103.28959894180298, 113.2011251449585, 101.37057995796204, 127.49997687339783]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8922237180504495, 0.8355500900815751, 0.8788745408441487, 0.8593547333577144, 0.8879203052890816]




Execution time of IsolationForest applied on KDD99CUP (in second)
[111.95659804344177, 116.10405206680298, 119.842276096344, 109.70163917541504, 138.028470993042]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8522181865413935, 0.8488806903162132, 0.8307956229817083, 0.8265043256366422, 0.8107932610743903]




Execution time of IsolationForest applied on KDD99CUP (in second)
[121.04788827896118, 139.44130206108093, 129.9001898765564, 132.86240911483765, 882.0305919647217]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8217450123702547, 0.8450719473920308, 0.8788745408441487, 0.8560236986878952, 0.8512651931159276]




Execution time of IsolationForest applied on KDD99CUP (in second)
[118.24994111061096, 118.40295720100403, 121.6698157787323, 117.88239789009094, 2271.690814256668]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8174585611917092, 0.8046137461556356, 0.8236590761653874, 0.8155541897296181, 0.873637519323398]




Execution time of IsolationForest applied on KDD99CUP (in second)
[142.8746407032013, 136.85456895828247, 133.71830582618713, 133.80428504943848, 132.49020266532898]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8607830119542828, 0.8893566608298512, 0.8417562589161939, 0.8379305544091892, 0.8441197616609852]




Execution time of IsolationForest applied on KDD99CUP (in second)
[144.77427291870117, 145.76168823242188, 145.24584913253784, 140.4933660030365, 148.19745302200317]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8812606590327035, 0.8236526146100264, 0.8417392973333715, 0.8469779342429622, 0.8788745408441487]




Execution time of IsolationForest applied on KDD99CUP (in second)
[179.91518592834473, 186.57715606689453, 7377.467443227768, 177.55832695960999, 207.07640290260315]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8365022758126208, 0.8327209944987226, 0.8303138762552447, 0.8207920189447889, 0.9341110055778332]




Execution time of IsolationForest applied on KDD99CUP (in second)
[174.26962089538574, 153.11498498916626, 164.19093990325928, 150.89710521697998, 153.8516607284546]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8450743704752913, 0.853641618971441, 0.8436436687954626, 0.8846191553128069, 0.9031585077634912]




Execution time of IsolationForest applied on KDD99CUP (in second)
[178.47839522361755, 200.08902502059937, 2006.485151052475, 301.3784410953522, 2107.085215806961]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8874458278123991, 0.846976318854122, 0.8460241331230763, 0.8650678477439878, 0.8612841433468296]




Execution time of IsolationForest applied on KDD99CUP (in second)
[178.5103828907013, 158.48068594932556, 164.1363172531128, 169.21148896217346, 1750.728420972824]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8503089689127815, 0.8541177118369638, 0.8274565113676878, 0.8365022758126208, 0.8203151183848459]




Execution time of IsolationForest applied on KDD99CUP (in second)
[764.371738910675, 193.20265579223633, 189.09385180473328, 185.24283504486084, 211.38799500465393]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8907768624822183, 0.8431683836243599, 0.8341218114850067, 0.8298369756953017, 0.8969668774284346]




Execution time of IsolationForest applied on KDD99CUP (in second)
[209.19160890579224, 202.19053626060486, 209.57726192474365, 200.8908610343933, 202.2378649711609]
ROC AUC for Isolation Forest applied on KDD99CUP
[0.8974421625995372, 0.8969846467056773, 0.827954411982554, 0.8241238613090283, 0.9270083819271574]




### Résultat de Isolation Forest sur KDD99CUP

In [None]:
print("Execution time of IsolationForest applied on KDD99CUP (in second)")
print(averages_executions_time_IF_KDD99CUP)
plt.plot(range(50, 300, 10), averages_executions_time_IF_KDD99CUP,  "g-", label="IForest on KDD99CUP")
#plt.axis([0, 1, 0, 1])
plt.xlabel('n_estimators')
plt.ylabel('Execution time')
plt.legend(loc="best")
plt.show()

In [None]:
print("ROC AUC for Isolation Forest applied on KDD99CUP")
print(averages_roc_auc_IF_KDD99CUP)
print("La valeur max est "+str(max(averages_roc_auc_IF_KDD99CUP))+" à l'index "+str(averages_roc_auc_IF_KDD99CUP.index(max(averages_roc_auc_IF_KDD99CUP))))
plt.plot(range(50, 300, 10), averages_roc_auc_IF_KDD99CUP,  "g-", label="ROC AUC of IForest on KDD99CUP")
#plt.axis([0, 1, 0, 1])
plt.xlabel('n_estimators')
plt.ylabel('AUC')
plt.legend(loc="best")
plt.show()

### Interprétation du résultat de IsolationForest sur KDD99CUP

Le temps d'exécution de IForest n'est pas lié à la variation de contamination (le taux d'anomalies dans le jeu de données).
Par contre en ce qui concerne l'aire sous la coube ROC, la meilleure performance est arrivée quand contamination est à 0,1. 0,1 est d'ailleurs la valeur par défaut de contamination au niveau de scikit-learn.
Conclusion: Refaire l'exercice en faisant varier cette fois-ci n_estimators (le nombre d'estimateurs de l'emsemble à utiliser pour tester l'aberrance des observations).

Avec n_estimators entre 50 et 300, on remarque que le temps d'exécution augmente au fur et à mesure que le nombre d'estimateurs augmente. Concernant la performance, la meilleure estimation a été obtenu pour un taux de AUC = 0.9530882878060613 avec n_estimators = 70 ===> (50+2*10)
A noter que quelque soit la valeur de n_estimators, la AUC est toujours supérieure à 0,95

### Exécution de LOF sur KDD99CUP

In [None]:
averages_executions_time_LOF_KDD99CUP = []
averages_roc_auc_LOF_KDD99CUP = []

for j in range(5, 200, 5):
    n_neighbors = j
    executions_time_LOF_KDD99CUP = []
    roc_auc_LOF_KDD99CUP = []
    for i in range(5):
        start_LOF_KDD99CUP = time()
        
        func_LOF_KDD99CUP = LocalOutlierFactor(n_neighbors=n_neighbors,novelty=True)
        func_LOF_KDD99CUP.fit(X_KDD99CUP)
        y_pred_LOF_KDD99CUP = func_LOF_KDD99CUP.predict(X_KDD99CUP)

        # Calcul du temps d'exécution
        exec_time_LOF_KDD99CUP = time() - start_LOF_KDD99CUP
        executions_time_LOF_KDD99CUP.append(exec_time_LOF_KDD99CUP)

        # Calcul de l'aire sous la courbe ROC
        auc_LOF_KDD99CUP = roc_auc_score(y_transform_KDD99CUP, y_pred_LOF_KDD99CUP)
        roc_auc_LOF_KDD99CUP.append(auc_LOF_KDD99CUP)
        
    print("Execution time of LOF applied on KDD99CUP (in second)")
    print(executions_time_LOF_KDD99CUP)
    print("ROC AUC for LOF applied on KDD99CUP")
    print(roc_auc_LOF_KDD99CUP)
    averages_executions_time_LOF_KDD99CUP.append(statistics.mean(executions_time_LOF_KDD99CUP))
    averages_roc_auc_LOF_KDD99CUP.append(statistics.mean(roc_auc_LOF_KDD99CUP))


### Résultat de LOF sur KDD99CUP

In [None]:
print("Execution time of LOF applied on KDD99CUP (in second)")
print(averages_executions_time_LOF_KDD99CUP)
plt.plot(range(5, 200, 5), averages_executions_time_LOF_KDD99CUP,  "g-", label="LOF on KDD99CUP")
#plt.axis([0, 200, 0, 200])
plt.xlabel('k')
plt.ylabel('Execution time')
plt.legend(loc="best")
plt.show()

In [None]:
print("ROC AUC for LOF applied on KDD99CUP")
print(averages_roc_auc_LOF_KDD99CUP)
print("La valeur max est "+str(max(averages_roc_auc_LOF_KDD99CUP))+" à l'index "+str(averages_roc_auc_LOF_KDD99CUP.index(max(averages_roc_auc_LOF_KDD99CUP))))
plt.plot(range(5, 200, 5), averages_roc_auc_LOF_KDD99CUP,  "g-", label="ROC AUC of LOF on KDD99CUP")
#plt.axis([0, 1, 0, 1])
plt.xlabel('k')
plt.ylabel('AUC')
plt.legend(loc="best")
plt.show()

### Interprétation du résultat de LOF sur KDD99CUP

Plus le nombre de n_neighbors augmente, plus de temps d'éxécution est important. Ceci s'explique par le fait que plus le nombre de voisins à considérer est grand plus il faudra calculer les distances et les densité afin d'estimer le degré d'abberrance d'une observation.
Concernant la performance de la méthode, elle atteint son plus fort (AUC = 0.6455513956598792) à taux à n_estimators= 80 ((15+1)*5) pour un temps d'exécution de 22.768262100219726

### Exécution de OC-SVM sur KDD99CUP

In [None]:
averages_executions_time_OCSVM_KDD99CUP = []
averages_roc_auc_OCSVM_KDD99CUP = []

for j in frange(0.1, 1., 0.1):
    nu = j
    executions_time_OCSVM_KDD99CUP = []
    roc_auc_OCSVM_KDD99CUP = []
    for i in range(5):
        start_OCSVM_KDD99CUP = time()
        
        func_OCSVM_KDD99CUP = OneClassSVM(nu=nu)
        func_OCSVM_KDD99CUP.fit(X_KDD99CUP)
        y_pred_OCSVM_KDD99CUP = func_OCSVM_KDD99CUP.predict(X_KDD99CUP)

        # Calcul du temps d'exécution
        exec_time_OCSVM_KDD99CUP = time() - start_OCSVM_KDD99CUP
        executions_time_OCSVM_KDD99CUP.append(exec_time_OCSVM_KDD99CUP)

        # Calcul de l'aire sous la courbe ROC
        auc_OCSVM_KDD99CUP = roc_auc_score(y_transform_KDD99CUP, y_pred_OCSVM_KDD99CUP)
        roc_auc_OCSVM_KDD99CUP.append(auc_OCSVM_KDD99CUP)
        
    print("Execution time of OC-SVM applied on KDD99CUP (in second)")
    print(executions_time_OCSVM_KDD99CUP)
    print("ROC AUC for OC-SVM applied on KDD99CUP")
    print(roc_auc_OCSVM_KDD99CUP)
    averages_executions_time_OCSVM_KDD99CUP.append(statistics.mean(executions_time_OCSVM_KDD99CUP))
    averages_roc_auc_OCSVM_KDD99CUP.append(statistics.mean(roc_auc_OCSVM_KDD99CUP))

### Résultat de OC-SVM sur KDD99CUP

In [None]:
print("Execution time of OC-SVM applied on KDD99CUP (in second)")
print(averages_executions_time_OCSVM_KDD99CUP)
plt.plot(frange(0.1, 1., 0.1), averages_executions_time_OCSVM_KDD99CUP,  "g-", label="OC-SVM on KDD99CUP")
#plt.axis([0, 1, 0, 1])
plt.xlabel('nu')
plt.ylabel('Execution time')
plt.legend(loc="best")
plt.show()

In [None]:
print("ROC AUC for OC-SVM applied on KDD99CUP")
print(averages_roc_auc_OCSVM_KDD99CUP)
plt.plot(frange(0.1, 1., 0.1), averages_roc_auc_OCSVM_KDD99CUP,  "g-", label="ROC AUC of OCSVM on KDD99CUP")
#plt.axis([0, 1, 0, 1])
plt.xlabel('nu')
plt.ylabel('AUC')
plt.legend(loc="best")
plt.show()

### Interprétation du résultat de OC-SVM sur KDD99CUP

Plus la valeur de nu augmente plus le temps d'exécution diminue. OC-SVM est donc plus rapide sur KDD99CUP avec un nu plus grand.
Mais, celà n'entraîne pas un bon résultat de la méthode. Puisqu'à partir d'un nu de 0.5, la prédiction de l'algorithme devient de plus en plus aléatoire. La meilleure performance est atteinte à nu= 0.4

## Exécution des méthodes avec les meilleurs paramètres trouvés sur KDD99CUP

In [None]:
executions_time_KDD99CUP = []
precisions_KDD99CUP = []
recalls_KDD99CUP = []
roc_aucs_KDD99CUP = []
f1_scores_KDD99CUP = []
methods = []

# Isolation Forest
methods.append('IForest')
start_time = time()
n_estimators = 70
func_IF_KDD99CUP = IsolationForest(n_estimators=n_estimators, max_samples=max_samples)
func_IF_KDD99CUP.fit(X_KDD99CUP)
y_pred_IF_KDD99CUP = func_IF_KDD99CUP.predict(X_KDD99CUP)
# Calcul du temps d'exécution
executions_time_KDD99CUP.append(time() - start_time)
# Precision
precisions_KDD99CUP.append(precision_score(y_transform_KDD99CUP, y_pred_IF_KDD99CUP))
# Recall
recalls_KDD99CUP.append(recall_score(y_transform_KDD99CUP, y_pred_IF_KDD99CUP))
# f1_score
f1_scores_KDD99CUP.append(f1_score(y_transform_KDD99CUP, y_pred_IF_KDD99CUP))
# Calcul de l'aire sous la courbe ROC
auc_IF_KDD99CUP = roc_auc_score(y_transform_KDD99CUP, y_pred_IF_KDD99CUP)
roc_aucs_KDD99CUP.append(auc_IF_KDD99CUP)
print("Confusion Matrice IForest")
print(confusion_matrix(y_transform_KDD99CUP, y_pred_IF_KDD99CUP))

# LOF
methods.append('LOF')
start_time = time()
n_neighbors = 80
func_LOF_KDD99CUP = LocalOutlierFactor(n_neighbors=n_neighbors,novelty=True)
func_LOF_KDD99CUP.fit(X_KDD99CUP)
y_pred_LOF_KDD99CUP = func_LOF_KDD99CUP.predict(X_KDD99CUP)
# Calcul du temps d'exécution
executions_time_KDD99CUP.append(time() - start_time)
# Precision
precisions_KDD99CUP.append(precision_score(y_transform_KDD99CUP, y_pred_LOF_KDD99CUP))
# Recall
recalls_KDD99CUP.append(recall_score(y_transform_KDD99CUP, y_pred_LOF_KDD99CUP))
# f1_score
f1_scores_KDD99CUP.append(f1_score(y_transform_KDD99CUP, y_pred_LOF_KDD99CUP))
# Calcul de l'aire sous la courbe ROC
auc_LOF_KDD99CUP = roc_auc_score(y_transform_KDD99CUP, y_pred_LOF_KDD99CUP)
roc_aucs_KDD99CUP.append(auc_LOF_KDD99CUP)
print("Confusion Matrice LOF")
print(confusion_matrix(y_transform_KDD99CUP, y_pred_LOF_KDD99CUP))

# OC-SVM
methods.append('OC-SVM')
start_time = time()
nu = 0.4
func_OCSVM_KDD99CUP = OneClassSVM(nu=nu)
func_OCSVM_KDD99CUP.fit(X_KDD99CUP)
y_pred_OCSVM_KDD99CUP = func_OCSVM_KDD99CUP.predict(X_KDD99CUP)
# Calcul du temps d'exécution
executions_time_KDD99CUP.append(time() - start_time)
# Precision
precisions_KDD99CUP.append(precision_score(y_transform_KDD99CUP, y_pred_OCSVM_KDD99CUP))
# Recall
recalls_KDD99CUP.append(recall_score(y_transform_KDD99CUP, y_pred_OCSVM_KDD99CUP))
# f1_score
f1_scores_KDD99CUP.append(f1_score(y_transform_KDD99CUP, y_pred_OCSVM_KDD99CUP))
# Calcul de l'aire sous la courbe ROC
auc_OCSVM_KDD99CUP = roc_auc_score(y_transform_KDD99CUP, y_pred_OCSVM_KDD99CUP)
roc_aucs_KDD99CUP.append(auc_OCSVM_KDD99CUP)
print("Confusion Matrice OC-SVM")
print(confusion_matrix(y_transform_KDD99CUP, y_pred_OCSVM_KDD99CUP))

## Présentation des résultats sur KDD99CUP

### Résultat : Temps d'exécution, précision, rappel, score f1, AUC

In [None]:
print("Methods ===>")
print(methods)
print("Execution Time ===>")
print(executions_time_KDD99CUP)
print("Precision ===>")
print(precisions_KDD99CUP)
print("Recall ===>")
print(recalls_KDD99CUP)
print("f1_score ===>")
print(f1_scores_KDD99CUP)
print("ROC AUC ===>")
print(roc_aucs_KDD99CUP)

### Interprétation des résultats en fonction du Temps d'exécution, précision, rappel, score f1, AUC sur KDD99CUP
IsolationForest a eu de meilleures performances que les autres.
Entre OC-SVM et LOF : OC-SVM a découvert et bien classé plus d'anomalies que LOF. Par contre, LOF a découvert et bien placé plus d'observations normales que OC-SVM.
La question est donc de savoir ce qui importe le plus entre la découverte des anomalies et celle des observations normales car c'est en fonction de l'importance que nous donnons à l'un ou à l'autre que nous pourront dire la méthode la meilleure entre OC-SVM et LOF.
Cette question fait remarquer qu'en réalité, toutes les méthodes ont sont performantes dans des conditions données en fonction de ce que l'on souhaite obtenir comme résultat. Dans ce cas précis, OC-SVM lance beaucoup de fausse alertes mais attrappe beaucoup d'anomalies. Par contre, LOF n'attrappe pas beaucoup d'anomalies mais reconnais beaucoup de données normales.
On peut peut-être se dire que dans le cas espèce OC-SVM est mieux dans la mesure où une méthode de détection d'anomalies a pour but principal de détecter les anomalies et donc laisser passer des anomalies en ferait une méthode moins bonne et que les observations normales que OC-SVM aurait classé comme anormales sont peut être des nouveautés.
Considérant l'aire sous la courbe ROC, nous avons l'ordre suivant IForest - OC-SVM et LOF

### Resultat: Courbe ROC pour KDD99CUP

In [None]:
fpr_IF_KDD99CUP, tpr_IF_KDD99CUP, thresholds_IF_KDD99CUP = roc_curve(y_transform_KDD99CUP, y_pred_IF_KDD99CUP)
fpr_LOF_KDD99CUP, tpr_LOF_KDD99CUP, thresholds_LOF_KDD99CUP = roc_curve(y_transform_KDD99CUP, y_pred_LOF_KDD99CUP)
fpr_OCSVM_KDD99CUP, tpr_OCSVM_KDD99CUP, thresholds_OCSVM_KDD99CUP = roc_curve(y_transform_KDD99CUP, y_pred_OCSVM_KDD99CUP)

In [None]:
plt.plot(fpr_IF_KDD99CUP, tpr_IF_KDD99CUP, "g-", label="IForest") 
plt.plot(fpr_LOF_KDD99CUP, tpr_LOF_KDD99CUP, "b--", label="LOF") 
plt.plot(fpr_OCSVM_KDD99CUP, tpr_OCSVM_KDD99CUP, "r-", label="OC-SVM") 
plt.plot([0, 1], [0, 1], 'k--') 
plt.axis([0, 1, 0, 1])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.legend(loc="lower right")
    
plt.show()

### Interprétation de la courbe ROC
La courbe ROC mesurant le taux de faux positif par rapport au taux de vrai positif, plus la courbe s'éloigne de celle oblique en noir, mieux c'est.
Ainsi, on peut dire que pour KDD99CUP, IForest est la meilleure méthode de détection d'anomalies suivi par OC-SVM. Le classement de LOF pourrait s'expliquer par le fait que les anomalies qui y sont présentes sont des anomalies global alors que LOF est doué pour les anomalies locales. POur vérifier ça peut être qu'on peut utiliser une méthode de clustering comme K-means pour voir comment les anomalies seront classées par cette méthode.

## Conclusion KDD99CUP
Pour un petit jeu de données statique de faible dimension, Isolation forest a tendance à mieux performer et semble être plus rapide que OC-SVM et LOF. OC-SVM détecte beaucoup d'anomalies avec un fort taux de fausses alertes et un temps d'exécution plus grand que LOF. Par contre, LOF détecte moins d'anomalies avec un faible taux de fausses alertes.
Notons que la performance des méthodes dépends non seulement du jeu de données considéré mais aussi des valeurs des hypermaramètres. Pour LOF et IsolationForest, le temps d'exécution semble être en correlation positive avec respectivement le nombre de voisins et nombre de d'estimateurs. Par contre, le temps d'exécution serait en correlation négative avec nu.