# Predictive Maintenance Example Use Case

Wir benötigen in einem ersten Schritt zwei Komponenten:

* *Eine Maschine* (M1) die wir überwachen können
* *Ein Machine Learning Modell* (MLM) das bewertet, ob die Maschine gut oder schlecht läuft

Nimm an dass M1 einen integrierten Sensor aufweist, der alle 1/10 Sekunden einen Wert ausgibt. Wir benutzen die Gamma Verteilung um diesen Vorgang zu simulieren (diese Verteilung wird typischerweise für Fehler-Prognosen verwendet).

# Aufgaben

1. Plotte die Verteilung for jede Machinen-Konfiguration wie unten aufgeführt (working ok, fail more often, constantly failing)
2. Schaue Dir die unterschiedlichen Verteilung nach Konfiguration an (was siehst Du?)
3. Beschreibe wie wir Ausreisser mit einem ML Algorithmus oder mit einem statistischem Verfahren erkennen können
4. Implementiere ein einfaches ML Modell das aus den "Sensor-Daten" Ausreisser erkennt

References:

* https://towardsdatascience.com/5-ways-to-detect-outliers-that-every-data-scientist-should-know-python-code-70a54335a623
* https://scikit-learn.org/stable/modules/outlier_detection.html


In [None]:
# generates example "sensor" values with outliers
# we use a gamma distribution to generate mostly "good" data, and a few "bad" outliers to signal failure
import matplotlib
import numpy as np
import pandas as pd
%matplotlib inline

rnd = np.random.default_rng()

# Different machine configurations

# Configuration 1: working ok, intermittent failure
shape, scale = 1., .1  
# Configuration 2: fail more often
# shape, scale = 5., .1  
# Configuration 3: constantly failing
#shape, scale = 10., .1  

size = 1000
data = rnd.gamma(shape, scale, size)
# plot distribution
df = pd.Series(data)
df.hist(bins=10)

# Plot distributions for Configurations 2, 3

In [None]:
# Configuration 1: Working ok, intermittent failure
<INSERT YOUR CODE>

In [None]:
# Configuration 2: fail more often
shape, scale = 5., .1 

data = rnd.gamma(shape, scale, size)
# plot distribution
df = pd.Series(data)
df.hist(bins=10)

In [None]:
# Configuration 3: constantly failing
shape, scale = 10., .1

data = rnd.gamma(shape, scale, size)
# plot distribution
df = pd.Series(data)
df.hist(bins=10)

# How can we detect anomalies? 

* Using statistical methods?
* Why use a machine learning model?

# Train a machine learning model

In [None]:
# use an isolation forest
from <IMPORT IsolationForest>

# Configuration 1: working ok, intermittent failure
shape, scale = 1., .1  
df_train = pd.Series(rnd.gamma(shape, scale, size))

clf = IsolationForest(contamination=.01)

y_test = clf.fit_predict(df_train.values.reshape(-1, 1))
counts = pd.Series(y_test).value_counts(normalize=True)
counts.plot(kind='bar')
counts

In [None]:
# test the model performance
test_data = rnd.gamma(shape, scale, size)

predictions = clf.predict(test_data.reshape((-1, 1)))
counts = pd.Series(predictions).value_counts(normalize=True)
counts.plot(kind='bar')
counts

In [None]:
# Let's save the model and the training data for later use
from util import save_model

pd.DataFrame({'value': df_train}).to_csv('datasets/traindata.csv', index=False)
save_model(clf, 'models/mymodel')