# Avancement projet Anomalies, 2 avril

## Téléchargement des librairies

In [None]:
import pandas as pd
import numpy as np
import os
import pickle

#Fonctions statistiques 
import scipy.stats

# ACP
import sklearn.decomposition as sd
import sklearn.preprocessing as sp
# FFT
from scipy.fftpack import fft
# Hierarchical clustering
import scipy.cluster.hierarchy as sch
#Wavelet
import pywt
from pywt import wavedec
from statsmodels.robust import mad
# LOF
import sklearn.neighbors as sn
# Isolation Forest
import sklearn.ensemble as se
#One Class SVM
import sklearn.svm as ssvm

# Plot et Display
from IPython.display import display
%matplotlib inline
import matplotlib.pyplot as plt
from matplotlib.lines import Line2D
import seaborn as sb
sb.set()
sb.set_style("darkgrid", {"axes.facecolor": ".9"})

# Interactive display
from ipywidgets import interact, widgets, interactive, fixed, interact_manual
from IPython.display import display

## Lecture des données

On lit directement les données nettoyées et dont la longueur a été modifiée à 1024.

In [None]:
import pickle
with open('X_1024', 'rb') as fichier:
    mon_depickler = pickle.Unpickler(fichier)
    X_1024, ind = mon_depickler.load() #X_1024 : données  #ind : liste des indices des signaux
n = len(X_1024) #nb de signaux
liste_appr = list(np.asarray(X_1024)[np.asarray(ind) <= 299])
liste_test = list(np.asarray(X_1024)[np.asarray(ind) > 299])
n_appr = len(liste_appr)

In [None]:
fig = plt.figure(figsize=(25, 10))
for x in X_1024:
    plt.plot(x)

# Coefficients de Fourier

In [None]:
fftCoeff = []

for x in X_1024 :
    mx = np.mean(x)
    x_centre = x - mx
    #Apply fast Fourier transform
    coeffsfft = np.abs(fft(x_centre))
    coeffsfft_flatten = np.hstack(coeffsfft)
    fftCoeff.append(coeffsfft_flatten)

fftCoeff = np.array(fftCoeff)
print(fftCoeff.shape)

#Coefficients seuillés
prop_a_garder = 0.1
nb_coeffs = int(fftCoeff.shape[1] * prop_a_garder)
somme = np.sum(fftCoeff**2, axis=0)
fftCoeff_seuil = np.zeros((0, nb_coeffs))
ind_grands = np.argsort(somme)[-nb_coeffs :]
fftCoeff_seuil = fftCoeff[:, ind_grands]

print(fftCoeff_seuil.shape)

# Décomposition en ondelettes

On effectue la décomposition en ondelettes pour chaque signal et on récupère 2 tableaux de coefficients, l'un avec tous les coefficients de chaque signal, l'autre avec les coefficients seuillés. On pourra réaliser la décomposition en ondelettes seuillés avec les modes `hard`, `soft`, `greater` ou `less`.

In [None]:
wavelist=['haar','db2'] 
wf = 'haar' #Choix de l'ondelette

Coeff_ond = []
Coeff_ondT = []
for x in X_1024:
    #Apply wavelet decomposition
    coeffs = pywt.wavedec(x,wf,level=8) 
    coeffs_flatten = np.hstack(coeffs)
    Coeff_ond.append(coeffs_flatten)
    # Compute universal Threshold http://jseabold.net/blog/2012/02/23/wavelet-regression-in-python/
    sigma = mad(coeffs[-1])
    uthresh = sigma*np.sqrt(2*np.log(1024))
    # Apply Threshold on 4 first levels
    coeffs_thresh = [pywt.threshold(c, uthresh, mode="hard") if j<=3 else c for j,c in enumerate(coeffs[::-1])]
    coeffs_thresh_flatten = np.hstack(coeffs_thresh[::-1])
    Coeff_ondT.append(coeffs_thresh_flatten)
    
Coeff_ond = np.array(Coeff_ond)
Coeff_ondT = np.array(Coeff_ondT)
print(Coeff_ond.shape, Coeff_ondT.shape)
print(np.sum(Coeff_ond!=0), np.sum(Coeff_ondT!=0))

#### Choix des coefficients d'ondelettes

In [None]:
#Coefficient de niveau 7 à 10:
Coeff_ond7=Coeff_ond[:,128:]
#Coefficient de niveau 1 à 6 : 
Coeff_ondA6=Coeff_ond[:,:128]
#Coefficient de niveau 1 à 4 : 
Coeff_ondA4=Coeff_ond[:,:16]

## Features

In [None]:
with open('liste_propre', 'rb') as fichier:
    mon_depickler = pickle.Unpickler(fichier)
    liste_comp, ind = mon_depickler.load() #liste_comp : données  #ind : liste des indices des signaux
n = len(liste_comp) #nb de signaux
liste_appr = list(np.asarray(liste_comp)[np.asarray(ind) <= 299])
liste_test = list(np.asarray(liste_comp)[np.asarray(ind) > 299])

## Liste des features  

- min, max
- mean 
- écart type 
- Skewness 
- Kurtosis 
- Energy 
- Average Crossing 

A ajouter ?

- Distribution spectrale d'énergie 
- Pourcentage d'extrema locaux 

https://arc.aiaa.org/doi/pdf/10.2514/6.2016-2430

In [None]:
listeMin = [min(liste) for liste in liste_comp]
listeMax = [max(liste) for liste in liste_comp]
listeMean = [np.mean(liste) for liste in liste_comp]
listeStd = [np.std(liste) for liste in liste_comp]
listeSkewness = [scipy.stats.skew(liste) for liste in liste_comp]
listeKurtosis = [scipy.stats.kurtosis(liste) for liste in liste_comp]
listeEnergy = [sum(np.asarray(liste)**2)/len(liste) for liste in liste_comp]
listeAverageCross = [sum(1*(liste > np.mean(liste)))/len(liste) for liste in liste_comp]

### Construction du DataFrame

In [None]:
dico = {"Min": listeMin, "Max": listeMax, "Moyenne": listeMean, "Ecart-type": listeStd, "Skewness" : listeSkewness, "Kurtosis": listeKurtosis, "Energie": listeEnergy, "Average_Crossing": listeAverageCross}
DataFeatures = pd.DataFrame(dico)

In [None]:
data_train = DataFeatures.iloc[: len(liste_appr), :]
data_test = DataFeatures.iloc[len(liste_appr) :, :]
data_test.describe()

## ACP 

In [None]:
pca = sd.PCA()
data = DataFeatures[["Min","Max","Moyenne","Ecart-type","Skewness","Kurtosis","Energie", "Average_Crossing"]]
C = pca.fit_transform(sp.scale(data))

In [None]:
def plot_var_ACP(X_acp,acp) :
    fig = plt.figure(figsize=(15,7))
    ax = fig.add_subplot(1,2,1)
    ax.bar(range(5), acp.explained_variance_ratio_[:5]*100, align='center', color='grey', ecolor='black')
    ax.set_xticks(range(10))
    ax.set_ylabel("Variance")
    ax.set_title("Pourcentage de variance expliquée \n des premières composantes", fontsize=20)

    ax = fig.add_subplot(1,2,2)
    box = ax.boxplot(X_acp[:, 0:10])
    ax.set_title("Distribution des premières composantes", fontsize=20)
    plt.show()
    
def plot_proj_ACP(X_acp, axe_1=0, axe_2=1, etiq=True) :
    fig = plt.figure(figsize=(13,8))
    ax = fig.add_subplot(1,1,1)
    dict_color = {True : "blue", False : "red"}

    for x, y, s in zip(X_acp[:,axe_1], X_acp[:,axe_2], range(n)) :
        ax.plot(x,y,marker=".", color=dict_color[s < len(liste_appr)])
        if etiq :
            ax.text(x, y, str(s))
       
    ax.set_title("Projection des invididus sur les \n  deux premières composantes", fontsize=20)

    legend_elements = [Line2D([0], [0], marker='.', color='blue', label='Série du jeu d\'apprentissage', markersize=10, linewidth=0),
                       Line2D([0], [0], marker='.', color='red', label='Série du jeu de test', markersize=10, linewidth=0)]

    ax.legend(handles=legend_elements)

    plt.show()

In [None]:
plot_var_ACP(C,pca)

In [None]:
# coordonnées des variables
coord1=pca.components_[0]*np.sqrt(pca.explained_variance_[0])
coord2=pca.components_[1]*np.sqrt(pca.explained_variance_[1])
fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(1, 1, 1)
for i, j, nom in zip(coord1,coord2, data.columns):
    plt.text(i, j, nom)
    plt.arrow(0,0,i,j,color='r')
plt.axis((-1.2,1.2,-1.2,1.2))
# cercle
c=plt.Circle((0,0), radius=1, color='b', fill=False)
ax.add_patch(c)
ax.set_xlabel("Dim1 : " + str(round(pca.explained_variance_ratio_[:10][0]*100,2))+ "%" ,size=25)
ax.set_ylabel("Dim2 : " + str(round(pca.explained_variance_ratio_[:10][1]*100,2)) + "%",size=25)
ax.set_title("ACP des deux premières composantes",size=25)
plt.show()

In [None]:
plot_proj_ACP(C)

## OC-SVM 

### Calibration du paramètre nu par recherche dichotomique

In [None]:
outlier_prop = 30 / 297  # Pourcentage estimé d'outliers dans le jeu d'apprentissage
a = 1.e-13
b = 1
gamma = (a + b) / 2
niter = 0
OCSVM = ssvm.OneClassSVM(kernel='rbf', nu=outlier_prop, gamma=gamma)
y_pred = OCSVM.fit(data_train).predict(data_test)
nb_out = np.asarray(y_pred)[np.asarray(y_pred) == 1].shape[0]
while nb_out != 20 and niter < 1e3:
    if nb_out < 20 :
        b = gamma
    else :
        a = gamma
    gamma = (a + b) / 2
    OCSVM = ssvm.OneClassSVM(kernel='rbf', nu=outlier_prop, gamma=gamma)
    y_pred = OCSVM.fit(data_train).predict(data_test)
    nb_out = np.asarray(y_pred)[np.asarray(y_pred) == 1].shape[0]
    niter += 1
print(gamma)

In [None]:
OCSVM = ssvm.OneClassSVM(kernel='rbf', nu=outlier_prop, gamma=gamma)
y_pred = OCSVM.fit(data_train).predict(data_test)

In [None]:
anom = []
for i, serie in enumerate(liste_test):
    if y_pred[i] == 1:
        anom.append(300 + i)
        plt.plot(serie)
        plt.title("Série numéro " + str(300+i) + ", anomalie détectée")
        plt.show()
    elif False:
        plt.plot(serie)
        plt.title("Série numéro " + str(300+i))
        plt.show()
print(anom)

In [None]:
Coeff_features = DataFeatures.values.tolist()
#Coeff_appr = DataFeatures.iloc[: n_appr].values.tolist()
#Coeff_test = DataFeatures.iloc[n_appr :].values.tolist()

## Liste des différents coefficients sur lesquels appliquer les différentes méthodes

In [None]:
#Liste et dictionnaire des coefficients #Utile pour les fonctions interactives
Coeff_liste=["Tous les coefficients d'ondelettes",
             "Coefficients d'ondelettes, niveau 7",
             "Coefficients d'ondelettes, niveaux 1 à 6",
             "Coefficients d'ondelettes, niveau 1 à 4",
             "Coefficients d'ondelettes seuillés",
             "Coefficients de Fourier",
             "Coefficients de Fourier seuillés",
             "X_1024",
             "Coeffs features"]

dict_coeff ={"Tous les coefficients d'ondelettes" : Coeff_ond,
             "Coefficients d'ondelettes, niveau 7" : Coeff_ond7,
             "Coefficients d'ondelettes, niveaux 1 à 6" : Coeff_ondA6,
             "Coefficients d'ondelettes, niveau 1 à 4" : Coeff_ondA4, 
             "Coefficients d'ondelettes seuillés" : Coeff_ondT,
             "Coefficients de Fourier" : fftCoeff,
             "Coefficients de Fourier seuillés" : fftCoeff_seuil,
             "X_1024" : X_1024,
             "Coeffs features" : Coeff_features}

## Analyse en composantes principales

#### Fonctions d'affichage

In [None]:
def plot_var_ACP(X_acp, acp) :
    fig = plt.figure(figsize=(15,10))
    ax = fig.add_subplot(1,2,1)
    ax.bar(range(10), acp.explained_variance_ratio_[:10]*100, align='center', color='grey', ecolor='black')
    ax.set_xticks(range(10))
    ax.set_ylabel("Variance")
    ax.set_title("Pourcentage de variance expliquée \n des premières composantes", fontsize=20)

    ax = fig.add_subplot(1,2,2)
    box = ax.boxplot(X_acp[:, 0:10])
    ax.set_title("Distribution des premières composantes", fontsize=20)
    plt.show()
    
def plot_proj_ACP(X_acp, axe_1=0, axe_2=1, etiq=True) :
    fig = plt.figure(figsize=(15,10))
    ax = fig.add_subplot(1,1,1)
    dict_color = {True : "blue", False : "red"}

    for x, y, s in zip(X_acp[:,axe_1], X_acp[:,axe_2], ind) :
        ax.plot(x,y,marker=".", color=dict_color[s < 300]) #300 : longueur liste apprentissage
        if etiq :
            ax.text(x, y, str(s))
       
    ax.set_title("Projection des invididus sur les \n  deux premières composantes", fontsize=20)

    legend_elements = [Line2D([0], [0], marker='.', color='blue', label='Série du jeu d\'apprentissage', markersize=10, linewidth=0),
                       Line2D([0], [0], marker='.', color='red', label='Série du jeu de test', markersize=10, linewidth=0)]

    ax.legend(handles=legend_elements)

    plt.show()
    

#### Visualisation des résultats

In [None]:
@interact(Choix_coeff=Coeff_liste)
def ACP(Choix_coeff):
    Coeff=dict_coeff[Choix_coeff]
    acp = sd.PCA()
    X_acp = acp.fit_transform(sp.scale(Coeff))
    plot_var_ACP(X_acp, acp)
    plot_proj_ACP(X_acp, axe_1=0, axe_2=1)

## Classification ascendante hierarchique

#### Fonction d'affichage

In [None]:
def plot_dendrogram(Z,p):
    fig = plt.figure(figsize=(25, 10))
    sch.dendrogram(Z, p, leaf_rotation=45.,leaf_font_size=15, truncate_mode="level", labels=ind)  # font size for the x axis labels
    plt.title('Hierarchical Clustering Dendrogram')
    plt.xlabel('sample index')
    plt.ylabel('distance')
    plt.show()

#### Visualisation des résultats

In [None]:
@interact(Choix_coeff=Coeff_liste,p=widgets.IntSlider(min=1,max=50,step=1,value=20,continuous_update=False))
def CAH(Choix_coeff,p):
    Coeff=dict_coeff[Choix_coeff]
    Z = sch.linkage(Coeff, 'single')
    C = np.array([c[0] for c in sch.cut_tree(Z,5)])
    CT = pd.DataFrame(list(C), columns=["HCA_cluster"])
    plot_dendrogram(Z,p)
    

### Fonction d'affichage des anomalies

In [None]:
def print_anomalies(ind_anomalies,ind_data = ind):
    """Permet d'afficher le bon indice de la série dans le cas où des series ont été supprimées du jeu de données"""
    return [ind_data[i] for i in ind_anomalies]

## Isolation Forest

#### Visualisation des résultats

In [None]:
contamination=20/len(liste_test)
n_estimators=100

@interact(Choix_coeff=Coeff_liste)
def plot_IF_anomaly(Choix_coeff):
    Coeff=dict_coeff[Choix_coeff]
    Coeff_appr = Coeff[: n_appr]
    Coeff_test = Coeff[n_appr :]
    clf = se.IsolationForest(n_estimators=n_estimators, contamination=contamination, bootstrap=True, behaviour="new", n_jobs=-1)
    pred = clf.fit(Coeff_appr).predict(Coeff_test)
    acp_ond = sd.PCA()
    X_acp_ond = acp_ond.fit_transform(sp.scale(Coeff))
    
    fig = plt.figure(figsize=(15,10))
    ax = fig.add_subplot(1,1,1)
    
    pred_complet = [1] * n_appr + list(pred)
    
    for i, j, nom, s in zip(X_acp_ond[:,0], X_acp_ond[:,1], pred_complet, ind):
        color = "red" if nom!=1  else "grey"
        plt.plot(i, j, "o", color=color) 
        if nom!=1:
            ax.text(i,j,str(s))
    ax.set_title("Repésentation des atypiques sur la projection des 2 premières composantes de l'ACP", fontsize=20)
    plt.show()
    
    print("Anomalies détectées : ", print_anomalies([i for i, x in enumerate(pred_complet) if x!=1]))

## One Class SVM

#### Visualisation des résultats

In [None]:
kernel="rbf"
#nu=30/len(liste_appr) # Pourcentage estimé d'outliers dans le jeu d'apprentissage
gamma=1e-11

@interact(Choix_coeff=Coeff_liste,nu=widgets.FloatSlider(min=0.01,max=1.0,step=0.01,value=0.05))
def plot_OCSVM_anomaly(Choix_coeff,nu):
    Coeff=dict_coeff[Choix_coeff]
    Coeff_appr = Coeff[: n_appr]
    Coeff_test = Coeff[n_appr :]
    
    OCS = ssvm.OneClassSVM(kernel=kernel, nu=nu, gamma=gamma)
    pred = OCS.fit(Coeff_appr).predict(Coeff_test)
    pred_complet = [1] * n_appr + list(pred)

    acp_ond = sd.PCA()
    X_acp_ond = acp_ond.fit_transform(sp.scale(Coeff))
    
    fig = plt.figure(figsize=(15,10))
    ax = fig.add_subplot(1,1,1)
    for i, j, nom, s in zip(X_acp_ond[:,0], X_acp_ond[:,1], pred_complet, ind):
        color = "red" if nom!=1  else "grey"
        plt.plot(i, j, "o",color=color) 
        if nom!=1:
            ax.text(i,j,str(s))
    ax.set_title("Repésentation des atypiques sur la projection des 2 premières composantes de l'ACP", fontsize=20)
    plt.show()
    
    print("Anomalies détectées : ", print_anomalies([i for i, x in enumerate(pred_complet) if x!=1]))

## Local Outlier Factor

#### Visualisation des résultats

In [None]:
contamination=20/len(liste_test)
metric = "euclidean"
#n_neighbors = 15

@interact(Choix_coeff=Coeff_liste,n_neighbors=widgets.IntSlider(min=1,max=30,step=1,value=15))
def plot_LOF_anomaly(Choix_coeff,n_neighbors):
    Coeff=dict_coeff[Choix_coeff]
    Coeff_appr = Coeff[: n_appr]
    Coeff_test = Coeff[n_appr :]
    
    clf = sn.LocalOutlierFactor(n_neighbors=n_neighbors, contamination=contamination, metric=metric, novelty=True)
    pred = clf.fit(Coeff_appr).predict(Coeff_test)
    pred_complet = [1] * n_appr + list(pred)

    acp_ond = sd.PCA()
    X_acp_ond = acp_ond.fit_transform(sp.scale(Coeff))
    
    fig = plt.figure(figsize=(15,10))
    ax = fig.add_subplot(1,1,1)
    for i, j, nom, s in zip(X_acp_ond[:,0], X_acp_ond[:,1], pred_complet, ind):
        color = "red" if nom!=1  else "grey"
        plt.plot(i, j, "o",color=color) 
        if nom!=1:
            ax.text(i,j,str(s))
    ax.set_title("Repésentation des atypiques sur la projection des 2 premières composantes de l'ACP", fontsize=20)
    plt.show()
    
    print("Anomalies détectées : ", print_anomalies([i for i,x in enumerate(pred_complet) if x!=1]))

## Comparaison des méthodes IF, OC-SVM et LOF

In [None]:
methode_liste = ["Classification ascendante hierarchique","Isolation Forest", "One-Class SVM", "Local Outlier Factor"]
p=20 #CAH
contamination = 20 / len(liste_test) #IF, LOF
n_neighbors = 15 #LOF
nu = 0.05 #OC-SVM
gamma= 1e-11#OC-SVM

#A CONSERVER : peut etre utile pour faire le choix des parametres
def f(**args):
    return args

@interact(Choix_coeff=Coeff_liste, methode=methode_liste)
def plot_anomaly(Choix_coeff, methode):
    Coeff=dict_coeff[Choix_coeff]
    Coeff_appr = Coeff[: n_appr]
    Coeff_test = Coeff[n_appr :]
    
    if methode=="Classification ascendante hierarchique":
        Coeff=dict_coeff[Choix_coeff]
        Z = sch.linkage(Coeff, 'single')
        C = np.array([c[0] for c in sch.cut_tree(Z,5)])
        plot_dendrogram(Z,p)
    else :
        
        if methode=="Local Outlier Factor":
            clf = sn.LocalOutlierFactor(n_neighbors=n_neighbors, contamination=contamination, metric=metric, novelty=True)
            pred = clf.fit(Coeff_appr).predict(Coeff_test)
        elif methode=="Isolation Forest":
            clf = se.IsolationForest(n_estimators=n_estimators, contamination=contamination, bootstrap=True, behaviour="new", n_jobs=-1)
            pred = clf.fit(Coeff_appr).predict(Coeff_test)
        elif methode=="One-Class SVM":
            OCS = ssvm.OneClassSVM(kernel=kernel, nu=nu, gamma=gamma)
            pred = OCS.fit(Coeff_appr).predict(Coeff_test)
        
        pred_complet = [1] * n_appr + list(pred)

        acp_ond = sd.PCA()
        X_acp_ond = acp_ond.fit_transform(sp.scale(Coeff))
    
        fig = plt.figure(figsize=(15,10))
        ax = fig.add_subplot(1,1,1)
        for i, j, nom, s in zip(X_acp_ond[:,0], X_acp_ond[:,1], pred_complet, ind):
            color = "red" if nom!=1  else "grey"
            plt.plot(i, j, "o",color=color) 
            if nom!=1:
                ax.text(i,j,str(s))
        plt.show()
    
        print("Anomalies détectées : ", print_anomalies([i for i, x in enumerate(pred_complet) if x!=1]))