# Data generator for anomaly and trend time series

In [None]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
np.random.seed(42)
import libs.Models.KernelDensityEstimator as KDE
from libs.DataBaseHandler import DatabaseHandler as dbHandler

### Functions

In [None]:
#Trend Functions
def exp(x, a, b, c):
    return a * np.exp(-b * x) + c

def sigmoid(x, L ,x0, k, b):
    y = L / (1 + np.exp(-k*(x-x0)))+b
    return (y)

def lin(x, a):
    y = a*x
    return y

def quad(x, a):
    return a*x**2 + b

# seasonality
def sin(x, a, b):
    return a*np.sin(b*(x/(np.pi)))

def productioncycle(x, deviation):
    measurement = 1
    shift = 1
    result = []
    for e in x:
        if shift == 1:
            if measurement < 4:
                e += ((measurement/4) * deviation)
                result.append(e)
            else:
                e += e*deviation
                result.append(e)
            measurement += 1
            if measurement > 8:
                measurement = 1
                shift += 1
                continue
        if shift == 2:
            if measurement > 5:
                e += (((9 -measurement)/4) * deviation)
                result.append(e)
            else:
                e += e*deviation
                result.append(e)
            measurement += 1
            if measurement > 8:
                measurement = 1
                shift += 1
                continue
        if shift == 3:
            result.append(e)
            measurement += 1
            if measurement > 8:
                measurement = 1
                shift = 1
                continue
    return np.array(result)

# Noise functions
def gaussianNoise(x, var):
    noise =  np.random.normal(0, var, len(x))
    return noise

def uniformNoise(x, height):
    noise = np.random.uniform(-height, height, len(x))
    return noise

# Anomaly
def pointAnomaly(x, locations, magnifier):
    result = [0 if e not in locations else magnifier for e in x]
    return np.array(result)

def collectiveAnomaly(x, locations, lengths, magnifier):
    result = []
    check = False
    counter = 0
    for e in x:
        if e not in locations and check == False:
            result.append(0)
        if e in locations:
            result.append(magnifier)
            check = True
            counter += 1
            continue
        if check:
            if counter <= lengths:
                result.append(magnifier)
                counter +=1
            else:
                check = False
                counter = 0
                result.append(0)
    return np.array(result)

#Get Parametersteps
def getSteps(mini, maxi, steps):
    return np.arange(mini, maxi, (maxi-mini)/steps)

#Get Femto Score- von Tobi übernommen
def FemtoScore(Anomaly,Prediction): 
    #Inputs sind arrays mit Bools
    Anomaly = np.asarray(Anomaly)
    Prediction = np.asarray(Prediction)
    if len(Anomaly)!=len(Prediction):
        raise ValueError("Input must have same length. "+str(len(Anomaly))+" vs. "+str(len(Prediction)))
    else:
        APosition = np.where(Anomaly==1)[0][0]
        PPosition = np.where(Prediction==1)[0][0]
        Error = 100*(APosition-PPosition)/APosition        
        if Error <= 0:
            Score = np.exp(-np.log(0.5)*(Error/5))
        elif Error > 0:
            Score= np.exp(np.log(0.5)*(Error/20))
    return Score  

#Spanne das Parameterset für die Zeitserien auf
def getParamsets():
    trendparams = {"lin":[2/(24*7*52*0.5),2/(24*7)], 
               "quad":[2/((24*7*52*0.5)**2), 2/((24*7)**2)],
               #"exp":[2/np.e**(24*7*365*0.5), 2/np.e**(24*7)], --> too large values
               #"sigmoid":[2]
              }
    anomalymagnitudes = [1.01, 2]
    anomalytypes =["point", "collective"]
    anomalypositions = [e for e in np.floor(np.random.uniform(24*7*12, 24*7*26, 20))]
    anomalypositions2 = [e for e in np.floor(np.random.uniform(24*7*52*0.5, 24*7*52, 20))]
    anomalypositions = [int(e) for e in np.concatenate((anomalypositions, anomalypositions2))]
    anomalylenghts = [5, 20]
    seasoningfactor = {"prodCycle":[1.1, 2], "sine": [0.15, 3]}
    noiseranges = {"uniform":[0.15, 1], "gaussian":[0.03, 0.8]}
    
    
    trendsteps = {key: getSteps(trendparams[key][0], trendparams[key][1], 20) for key in trendparams}
    anomalymagnitudessteps = getSteps(anomalymagnitudes[0], anomalymagnitudes[1], 20)
    anomalylengthssteps = getSteps(anomalylenghts[0], anomalylenghts[1], 20)
    seasoningfactorsteps = {key: getSteps(seasoningfactor[key][0], 
                                          seasoningfactor[key][1], 20) for key in seasoningfactor}
    noiserangessteps = {key: getSteps(noiseranges[key][0], 
                                          noiseranges[key][1], 20) for key in noiseranges}
    params = {}
    i = 0
    for trendtype in trendsteps:
        for trendstep in trendsteps[trendtype]:
            for ams in anomalymagnitudessteps:
                    for anomalytype in anomalytypes:
                            for sft in seasoningfactorsteps:
                                for sfs in seasoningfactorsteps[sft]:
                                    for nrt in noiserangessteps:
                                        for nrs in noiserangessteps[nrt]:
                                            if anomalytype == "collective":
                                                for als in anomalylengthssteps:
                                                    params[i] = {
                                                        "trendtype": trendtype,
                                                        "trendstep": trendstep,
                                                        "anomalymagnitude": ams,
                                                        "anomalyposition": anomalypositions,
                                                        "anomalytype": anomalytype,
                                                        "anomalylengthstep": als,
                                                        "seasoningfactortype": sft,
                                                        "seasoningfactorstep": sfs,
                                                        "noisetype": nrt,
                                                        "noiseamp": nrs
                                                    }
                                                    i += 1
                                            else:
                                                params[i] = {
                                                        "trendtype": trendtype,
                                                        "trendstep": trendstep,
                                                        "anomalymagnitude": ams,
                                                        "anomalyposition": anomalypositions,
                                                        "anomalytype": anomalytype,
                                                        "anomalylengthstep": 0,
                                                        "seasoningfactortype": sft,
                                                        "seasoningfactorstep": sfs,
                                                        "noisetype": nrt,
                                                        "noiseamp": nrs
                                                    }
                                                i += 1
    return params

#Pushe die Ergebnisse (Recall, Precision, delay und Femto Score in die Datenbank für alle Anomaliemodelle)
def getAnomalyResults(params, modelparams):
    dbClient = dbHandler("mongodb://localhost", 27017, "ModelExperiments", "AnomalyandTrendMixed")
    for i in params:
        paramset = params[i]
        models = {}
        result = []
        timeseries = getTimeSeries(paramset)
        trainX = timeseries[:2016]
        meanTrain = np.mean(trainX)
        meanStd = np.std(trainX)
        testX = timeseries[2016:]
        testy = [1 if e in paramset['anomalyposition'] or np.abs(timeseries[e]) > meanTrain + 2*meanStd
                else 0 for e in range(8736)][2016:]
        #Init models
        percentage = 0.05
        models["KDE"] = KDE.KDE(trainX.reshape(-1,1), testX.reshape(-1,1), testy, 
                                  modelparams["KDE"]["percentage"])
        
        for model in models:
            result.append(getScores(models[model], timeseries, paramset, model, modelparams[model]))
        dbClient.writeData(result)

# Erstelle eine Zeitserie aus einem Parameterset
def getTimeSeries(paramset):
    testrange =np.array([e for e in range(0,24*7*52)])
    #for i in params:
    trend = np.array([0 for e in range(int(len(testrange)/2))])
    if paramset["trendtype"] == "lin":
        newtrend = lin(testrange[0:int(len(testrange)/2)], paramset["trendstep"])
    if paramset["trendtype"] == "quad":
        newtrend = quad(testrange[0:int(len(testrange)/2)], paramset["trendstep"])
    trend = np.concatenate((trend, newtrend))
    #trend = sigmoid(testrange, 2, 168, 1, 0)
    if paramset["seasoningfactortype"] == "prodCycle":
        seas = productioncycle([1 for e in testrange], paramset["seasoningfactorstep"])
    if paramset["seasoningfactortype"] == "sine":
        seas = sin(testrange, paramset["seasoningfactorstep"], 100)
    if paramset["noisetype"] == "uniform":
        noise = uniformNoise(testrange, paramset["noiseamp"])
    if paramset["noisetype"] == "gaussian":
        noise = gaussianNoise(testrange, paramset["noiseamp"])
    if paramset["anomalytype"] == "point":
        anomaly = pointAnomaly(testrange, paramset["anomalyposition"], paramset["anomalymagnitude"])
    if paramset["anomalytype"] == "collective":
        anomaly = collectiveAnomaly(testrange, paramset["anomalyposition"], 
                                   paramset["anomalylengthstep"], paramset["anomalymagnitude"])
    signal = trend + seas + noise + anomaly
    return signal

# Bestimme Precision, Recall, Delay und Femto Score für ein Modell und eine Zeitserie
def getScores(model, timeseries, paramset, modelname, modelparameters):
    model.fit()
    distances = []
    femtoscores = []
    for pos in paramset['anomalyposition']:
        #print(pos)
        for i in range(1,85):
            #print(i)
            #Es kann passieren, dass das Label der nächsten Anomalie mit betrachtet wird
            preds, scores = model.predict(timeseries[pos-168+i:pos+i].reshape(-1,1))
            if 1 in list(set(preds)):
                labels = [0 if e not in paramset['anomalyposition'] else 1 for e in range(pos-168+i,pos+i)]
                #print(labels)
                femtoscore = FemtoScore(labels,preds)
                #Nach wie vielen Schritten erkennt es das ganze überhaupt?
                distances.append(i)
                #Wie viele Schritte ist der Offset zwischen prädizierter und tatsächlicher Anomalie
                femtoscores.append(femtoscore)
                break
    distancemean = float(np.mean(np.array(distances)))
    femtoscoremean = float(np.mean(np.array(femtoscores)))
    result = {"paramset": paramset, "model": modelname, "precision": float(model.precision),
              "recall": float(model.recall), "distancemean": float(distancemean), 
              "femtoscoremean": float(femtoscoremean), "modelparameters":modelparameters}
    # hier kommt der Datenbankaufruf
    return result

In [None]:
testrange =np.array([e for e in range(0,1000)])
#trend = lin(testrange, 0.01)
trend = sigmoid(testrange, 2, 168, 1, 0)
seas = sin(testrange, 5, 100)
#seas = productioncycle([1 for e in testrange], 0.5)
#noise = gaussianNoise(testrange, 4)
noise = uniformNoise(testrange, 2)
#anomaly = pointAnomaly(testrange, [500, 750, 765], 30)
anomaly = collectiveAnomaly(testrange, [500, 750, 800], 10, 30)
fig = go.Figure(go.Scatter(x = testrange, y = trend, name = "trend"))
fig.add_trace(go.Scatter(x = testrange, y = seas, name = "seas"))
fig.add_trace(go.Scatter(x = testrange, y = noise, name = "noise"))
fig.add_trace(go.Scatter(x = testrange, y = anomaly, name = "anomaly"))
fig.show()
signal = trend + seas + noise + anomaly
fig2 = go.Figure(go.Scatter(x = testrange, y = signal, name = "Superpositioned signal"))
fig2.show()

### Annahmen
 Measurements last 1 year -> 24*365  
 Data w/o trend w/o anomaly or both  
 Data for the first half of the year without anomaly/ trend  
 Verdopplung der Werte in spätestens einem halben Jahr, frühestens nach einer Woche  
 Anomalien im Bereich von 1 % bis 100%  
 Seasoning im Bereich? --> Analyse der Z-Scores bei Vib-Daten TUM 0.3 - 9   
 Periodizität über 16 Messungen bei sine
 Streuung im Bereich? --> 0.03 - 1.55 geschätzt aus   F:/KIVIPycharmProject/kivi/Playground/TUM/TempAndZscoreVib.ipynb
 10 Schritte pro Parameter
 Zunehmende Varianz in den Daten nicht betrachtet, da das ja shcon von unserem Health Indicator abgebildet wird

### Create parameter grid

In [None]:
params = getParamsets()

### Parametersets für kombinierte Trend und Anomalieerkennung

Anzahl der Parametersätze

In [None]:
len(params)

So schaut ein Parametersatz aus

In [None]:
params[3000000]

In [None]:
fig = go.Figure(go.Scatter(x = testrange, y = trend, name = "trend"))
fig.add_trace(go.Scatter(x = testrange, y = seas, name = "seas"))
fig.add_trace(go.Scatter(x = testrange, y = noise, name = "noise"))
fig.add_trace(go.Scatter(x = testrange, y = anomaly, name = "anomaly"))
fig.show()
signal = trend + seas + noise + anomaly
fig2 = go.Figure(go.Scatter(x = testrange, y = signal, name = "Superpositioned signal"))
fig2.show()

### Annahmen Erkennung:
Messungen der letzten Woche bis zum letzten Jahr verfügbar (168 - 61320)  
Referenzdaten von einer Woche bis 3 Monaten verfügbar (168 - 15330)  
20 Fenster im i.O. 20 Fenster im n.i.O. Bereich -> 20 Anomalien


### Fitting of model
Fit model on specific time series with data from three months

In [None]:
modelparams = {"KDE":{"percentage":0.05, "kernel":"gaussian", "bandwidth": 0.5}}
getAnomalyResults(params, modelparams)

### Getting scores
Gehe durch alle Anomalien  
Schau, nach wie vielen Schritten die Anomalie erkannt wird (der Algorithmus bekommt ein Fenster zu sehen, eine Woche vor der Anomalie bis zur Anomalie - eine halbe Woche davor bis eine halbe Woche danach)  
Wenn er eine Anomalie erkannt hat, berechne den FEmto Score, er gibt eine Aussage wie sehr die Aussage zeitlich daneben liegt für alle Anomalien  
Danach  bilde die mittleren Zeitschritte, die benötigt werden bis die Anomalie erkannt wird und den mittleren Femto Score für alle Anomalien  