# Cours PCD – Labo 2 : Détection de données aberrantes (outliers)

Dans le cadre de ce laboratoire il nous a été demandé de trouver les données atypiques (ou aberrantes) dans plusieurs jeux de données en appliquant la méthode LOF.  Ces jeux de données sont disponibles en ligne et comportent une annotation des données atypiques.  Cette annotation va nous permettre d’évaluer la méthode LOF en calculant son score F1, avec divers paramètres, sur chaque jeu.

In [1]:
import numpy as np
import pandas as pd

from os import path
from scipy.io import arff

from sklearn.neighbors import LocalOutlierFactor

## Chemins des données

In [2]:
data_folder = "data/literature/"

In [3]:
data_files = {
    "aloi": "ALOI/ALOI_withoutdupl_norm.arff",
    "glass": "Glass/Glass_withoutdupl_norm.arff",
    "ionosphere": "Ionosphere/Ionosphere_withoutdupl_norm.arff"
}

## Fonctions

In [4]:
def arff_to_dataframe(path):
    return pd.DataFrame(arff.loadarff(path)[0])

In [5]:
def outlier_report(df):
    df_outlier_count = df["outlier"].value_counts()

    print(f"Nombre de valeurs:\t{len(df)}")
    print(f"Nombre d'inliers:\t{df_outlier_count[b'no']}")
    print(f"Nombre d'outliers:\t{df_outlier_count[b'yes']}")

## 1. Détermination du plus petit jeu de données

À première vue on constate que jeu de données "Glass" est le plus petit en termes de taille de fichier :

```shell
$ du -h
19M	./ALOI
20K	./Glass
88K	./Ionosphere
19M	.
```

Cela est confirmé par le nombre de lignes dans chaque DataFrame chargé :

In [6]:
for (data_name, data_file) in data_files.items():
    print(f"{data_name:20}: {len(arff_to_dataframe(path.join(data_folder, data_file)))}")

aloi                : 49534
glass               : 214
ionosphere          : 351


## 2. Nature des données

### ALOI
ALOI est ....

In [7]:
aloi = arff_to_dataframe(path.join(data_folder, data_files["aloi"]))
outlier_report(aloi)

Nombre de valeurs:	49534
Nombre d'inliers:	48026
Nombre d'outliers:	1508


Cela correspond aux valeurs du site web: 48026 inliers et 1508 outliers

### Glass
Glass est ...

In [8]:
glass = arff_to_dataframe(path.join(data_folder, data_files["glass"]))
outlier_report(glass)

Nombre de valeurs:	214
Nombre d'inliers:	205
Nombre d'outliers:	9


Cela correspond aux valeurs du site web: 205 inliers et 9 outliers

### Ionosphere
Ionosphere est ...

In [9]:
ionosphere = arff_to_dataframe(path.join(data_folder, data_files["ionosphere"]))
outlier_report(ionosphere)

Nombre de valeurs:	351
Nombre d'inliers:	225
Nombre d'outliers:	126


Cela correspond aux valeurs du site web: 225 inliers et 126 outliers

## 3. Détection avec Local Outlier Factor (LOF)