In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import ipympl
import datetime, time
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from sklearn.metrics import roc_curve, auc #for model evaluation
from sklearn.metrics import classification_report #for model evaluation
from sklearn.metrics import confusion_matrix #for model evaluation
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
import chart_studio.plotly as pltly
import plotly.graph_objects as go
import plotly.offline as poff
from plotly.subplots import make_subplots
import plotly.figure_factory as ff
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import psutil
import qgrid   
from ipywidgets import interact, interact_manual, Layout
import ipywidgets as widgets
import warnings

init_notebook_mode(connected=True)
warnings.filterwarnings("ignore", category=FutureWarning)

ModuleNotFoundError: No module named 'ipympl'

### Tooltip

Um die Interaktiven Grafiken voll ausnutzen zu können für Sie ein paar Infos. Die Grafiken welche eine Auswahlmöglichkeit bieten, ermöglichen es Ihnen mehrere sogenannte "Features" gleichzeitig auszuwählen. Eine Multiselektion können sie mit ```Strg + linksklick```erreichen. <img src="s.png" width="200">

Innerhalb der Grafiken können Sie einzelne Elemente genauer ansehen, sie können mit halten der linken Maustaste einfach einen gewünschten Ausschnitt auswählen. Um die Auswahl zurücksetzen zu können, gibt es rechts oben eine Leiste mit Icons. Klicken Sie einfach auf das Icon mit dem Haus, damit wird die Grafik auf Ihren Ursprungszustand zurückgesetzt.

<img src="icons.png" width="200">

Sollten Sie noch Fragen haben können Sie uns gerne persönlich Fragen!

# Projektbeschreibung
## Entwicklung eines innovativen Geschäftsmodells in der Digitalen Wirtschaft –
## Masterprojekt

Um die Theorie des Studiums mit der Praxis des Arbeitsalltags zu verknüpfen, soll dieses
Projekt dazu dienen, Einblicke und neue Erkenntnisse der digitalen Welt, insbesondere dem
Bereich der Industrie 4.0 zu erlangen. Durch die Arbeitsumgebung des Digital Laboratory
werden Grundlagen und Hilfsmittel zur Durchführung des Projekts bereitgestellt.
Die vorhandene 5-Achs-Fräsmaschine der Firma DMG Mori liefert dafür den Use-Case und
die dazu benötigte Datengrundlage für das Projekt.
Hierbei gilt es die Welt des Maschinenbaus mit der Welt der Informatik zu verknüpfen. Dies
soll durch Nutzung von Machine Learning Technologien geschehen.


Um das Projekt fachlich korrekt durchzuführen, müssen sich die Studierenden Wissen aus
beiden Bereichen aneignen. Diese Wissensaneignung erfolgt durch individuelle Erkundung
einer Thematik und dem anschließenden Austausch des gewonnen Wissens mit dem
restlichen Projektteam in Form eines Knowledge-Sheets. Zu diesen Grundlagen gehören
neben Technologien wie TensorFlow und Python auch die zum Machine Learning gehörigen
Lernmethoden Supervised-/Unsupervised-/Reinforcement-Learning und deren Algorithmen
wie Random Forest, k-Nearest-Neighbour, Support Vector Machines, Lineare Regression und
viele weitere. Neben den Informatikinhalten muss aber auch Wissen über die
Funktionsweise der Maschine angeeignet und vermittelt werden.


Sind die Grundlagen vermittelt worden, wird der Versuchsaufbau, welcher die Grundlage der
Anwendung von Machine Learning darstellt, beschrieben und anschließend durchgeführt.
Hier sollen mit der 5-Achs-Fräsmaschine und mehrere hundert Passungen nacheinander aus
einem Stahlblock gefräst werden. Dazu soll die Toleranz jeder Passung mit dem Messmittel
der Maschine ermittelt werden, um festzustellen, ab welchem Zeitpunkt bzw. welche
Umstände dazu führen, dass die gefrästen Löcher außerhalb des Toleranzbereichs liegen. Die
Beurteilung erfolgt später über die Kennzeichnung (Labeling) der Löcher in die Kategorien
IO/NIO.


Die gewonnen Daten werden in einer Datenbank gespeichert. Hierbei werden ETL-Prozesse
herangezogen um die Daten von der Datenbank zum DataLake transferieren zu können. Auf
einem Server sollen die Daten dann extrahiert und in ein DataWarehouse gespeichert
werden, um diese später auswerten zu können. Nachdem der ETL-Prozess abgeschlossen ist
können die Daten verwendet werden, um Vorhersagen mit Machine Learning Algorithmen
zu treffen. Um die Rohdaten passend aufzubereiten, gilt es zuerst geeignete Parameter zu
finden. Nachdem die Parameter identifiziert wurden und die zugehörigen Daten verarbeitet
sind können diese den verschiedenen Machine Learning Algorithmen zur Verfügung gestellt
werden.


Um einen reibungslosen Ablauf der Trainings für die Machine Learning Prozesse zu
gewährleisten soll eine ML-Umgebung aufgebaut werden, damit nicht jeder Algorithmus
individuell konfiguriert werden muss. Diese Umgebung soll möglichst stabil sein, sodass es
im laufenden Prozess zu möglichst wenigen Störungen kommt.


Das Ziel des Machine Learning soll sein eine Identifizierung der Einflussfaktoren zu erhalten,
soll heißen welche Parameter einen starken, aktiven Einfluss auf den Fräsprozess haben und
somit das Fräsergebnis beeinflussen. Diese Informationen können genutzt werden um später
Machine Learning Modelle in Echtzeit für Fräsprozesse einsetzen zu können.

In [None]:
masterprojekt_daten = pd.read_csv("./Messergebnisse_merged.csv")
masterprojekt_daten = masterprojekt_daten.drop(columns=['Unnamed: 0'], axis=0)
#print(masterprojekt_daten.columns, masterprojekt_daten.dtypes)

#print(masterprojekt_daten.dtypes)

In [None]:
masterprojekt_daten

# Machine Learning

Machine Learning ist ein Teilbereich der Künstlichen Intelligenz, der es einem System ermöglicht, mit Hilfe von lernenden Algorithmen zusammenhänge in Daten zu erkennen. Diese zusammenhänge bezeichnet man als Muster, diese haben einen gleichförmige Struktur. Um Muster in Daten erkennen zu können benötigt Daten um in solchen bestimmte Gesetzmäßigkeiten zu erkennen und entsprechende Schlüsse ziehen zu können. 

<img src="mluebersicht.png" width="300">

Damit die Algorithmen erfolgreich Muster erkennen können, wird eine repräsentative Stichprobe des Anwendungsgebiets benötigt. Um eine repräsentative Stichprobe zu erhalten müssen Daten gesammelt werden. Nachdem die Stichprobe ermittelt und validiert wurde, werden Merkmale gewählt. Die Merkmalauswahl ist nicht einfach, da man die Anzahl der Merkmale beachten muss. Da bei mehr als drei Merkmalen die Visualisierung nicht mehr möglich ist, ist das finden von Mustern eine komplexe Aufgabe. Außerdem beinhalten nicht alle Merkmale wichtige Informationen zur Klassifikation, diese können dann entfernt werden. Anhand der Datenstrukturen und Eigenschaften kann ein Modell gewählt werden. Dabei kann man zwischen Klassifikatoren und Regressoren unterscheiden.



# Multiple und Logistische Regression

## Was ist Regression?

Bei linearer Regression sucht man nach Beziehungen zwischen einer Zielgröße $Y$ und den zugehörigen Einflussgrößen, den abhängigen Variablen $X$, wobei die Anzahl der Einflussgrößen $X$ kontinuierlich ist. Das dabei entstehende lineare Modell wird auf seine Zusammenhänge zwischen abhängigen Variablen der Linearkombination geprüft. Wenn man Regression nutzt möchte man meist Wissen wie sich bestimmte Einflussgrößen auf das Verhalten, bzw. auf den Zusammenhang auswirken. Dafür müssen alle Einflussgrößen $X$ auch **tatsächlich** unabhängig von der Zielvariablen sein.
Was hierbei schnell hervorgeht, es muss eine **Abhängigkeit** vorliegen. Die dabei gängige Formel lautet: 

$ Y \approx \alpha + \beta X + \varepsilon $

Es gibt mehrere Notationen, welche alle dieselbe Aussage haben und wie folgt aussehen können:

- $a + b X$,
- $\beta_0 + \beta_1 X$.

Die Variablen $\alpha$ und $\beta$ geben den Achsenabschnitt und die Steigung an. $\varepsilon$ gibt den Fehler der vorhersage an. Hier kann die Fehlerfunktion beliebig gewählt werden, am häufigsten ist der MSE (Mean-Squared-Error) zu finden. Die Formel lautet:

$MSE = \frac{\sum^n_{i=1}{(y_i - y_i^p)}^2}{n} $

Wie jedoch an unseren Daten erkennbar, ist für wenige, bis keine Features eine Linearität gegeben. Folglich ist die Anwendung von Linearer und Multipler Linearer Regression wenig sinnvoll. Jedoch kann an dieser Stelle die Logistische Regression angewendet werden.


In [None]:
init_notebook_mode(connected=True) 
classes=np.unique(masterprojekt_daten.columns).tolist()
class_code={classes[k]: k for k in range(len(masterprojekt_daten.columns))}
color_vals=[class_code[cl] for cl in masterprojekt_daten.columns]

selection = widgets.SelectMultiple(
    options=masterprojekt_daten.columns,
    rows=5,
    value=['Energy_Savings.Active_Power_Spindle'],
    description='Spalten',
    disabled=False,
    layout=Layout(width="40%")
)

@interact(selection=selection)
def splotMatrix(selection):
    dimension = [dict(label=str(x), values=masterprojekt_daten[x]) for x in selection]
    splom_matrix = go.Splom(dimensions=[column for column in dimension], 
                            marker=dict(color=masterprojekt_daten['Label'], colorscale="cividis"))

    fig = go.Figure(dict(data=[splom_matrix]))
    fig.update_layout(font=dict(size=8),
            yaxis=dict(
            autorange=True,
            type="linear",
            showticklabels=False
        ),
            xaxis=dict(
            autorange=True))
    
    fig['layout'].update(height=1000, width=1000)

    iplot(fig)


# poff.plot(fig, filename='splom.html')

## Logistische Regression

In der Logistischen Regression gibt es nicht wie bei der Linearen Regression unendlich viele, sondern endlich viele Möglichkeiten. Das Ziel ist, das Finden von Beziehungen (Abhängigkeiten) zwischen der Zielvariablen (independent) und den abhängigen Variablen (dependent), die Zielvariable muss kategorisch binär sein. Heißt sie darf nur as zwei Klassen bestehen, wie in unserem Beispiel:

- Werkzeugzustand (worn | new)
- Bewertung durch visuelle Inspektion (i.O. | n.i.O.)
- Fertiggestellt (ja | nein)


Für diese Klassen wird die Wahrscheinlichkeit ermittelt.
Die Logistische Regression ist eine spezielle Form der Linearen Regression, wobei die Zielvariable von kategorischer Natur ist. Bedeutet hier; Lineare Regression gibt einen kontinuierlichen Output, Logistische Regression hingegen einen konstanten Output. Für die Wahrscheinlichkeitsberechnung wird eine Logit-Funktion verwendet, dabei gibt es einige Eigenschaften:

- Die Zielvariable entspricht einer Bernoulliverteilung
- Die Schätzung erfolgt über Maximum-Likelihood 


$y = \beta 0 + \beta 1 X1 + \beta 2 X2 + ... + \beta nXn$

Die Zielvariable ist $y$, welche wir minimieren möchten. $\beta$ beschreibt den Y-Achsenabschnitt, der Punkt an dem die Strecke den Achsenabschnitt schneidet. $\beta 1$ ist die Steigung der Strecke und $X$ repräsentiert die unabhängigen Variable, die man nutzt um eine voraussage zu treffen.

In [None]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression

x, y = make_classification(
    n_samples=500,
    n_features=1,
    n_classes=2,
    n_clusters_per_class=1,
    flip_y=0.03,
    n_informative=1,
    n_redundant=0,
    n_repeated=0
)

x_train_example, x_test_example, y_train_example, y_test_example = train_test_split(x, y, random_state=1)

lr = LogisticRegression()
lr.fit(x_train_example, y_train_example)

y_pred = lr.predict(x_test_example)

df_example = pd.DataFrame({'x': x_test_example[:,0], 'y': y_test_example})
df_example = df_example.sort_values(by='x')
from scipy.special import expit
sigmoid_function = expit(df_example['x'] * lr.coef_[0][0] + lr.intercept_[0]).ravel()
plt.plot(df_example['x'], sigmoid_function)
plt.scatter(df_example['x'], df_example['y'], c=df_example['y'], cmap='rainbow', edgecolors='b')

# Daten und deren Bedeutung (2. Daten aufbereiten)

Wie im Beschreibungstext ersichtlich wird sind die gesammelten Daten nicht Fehlerfrei. Dieser Schluss kommt nicht überraschend. Daten aus der realen Welt sind nie Fehlerfrei. Da Daten selten eine hohe *Reinheit* besitzen oder *Homogen* (gleiche Eigenschaften, Typen) sind, muss viel Zeit darauf verwendet werden diese entweder zu bereinigen oder zu entfernen. Generell gibt es zwei Arten von problematischen Daten:

1. Fehlende Daten
2. Falsche Daten

Fehlende Daten sind ein Problem das bei jeder Datenerhebung entseht. Manchmal ist bekannt weshalb Daten fehlen, manchmal nicht. Der Knackpunkt ist jedoch der Umgang mit den fehlenden Daten (manchmal kann es jedoch auch helfen wenn man weiß wieso Daten fehlen, dies kann dann bei der nächsten Erhebung mit einbezogen werden). Das Problem an fehlenden Daten ist der verfälschte, bzw. nicht vorhandene Informationswert. Fehlende Daten können von ganzen Messreihen, bis zu einzelnen Messergebnissen etc. reichen. Der Umgang mit solchen soll hier kurz Umrissen werden:

- Allgemeine Ansätze:
    - Löschen der fehlenden Daten, dieser Ansatz sollte aber nur bei einer sehr kleinen Menge von fehlenden Daten oder bei einem insignifikanten Datensatz verwendet werden
    - Ersetzen der fehlenden Daten durch vorherigen/folgenden Wert, auch hier sollte der Ansatz nur bei einer kleinen Menge von Daten gewählt werden
    - Ersetzen der fehlenden Daten durch eine globale Konstante, kann hilfreich sein um fehlende Daten besser Filtern und extrahieren zu können


- Behandlung von fehlenden Numerischen Werten
    - Ersetzen der Daten durch den Mittelwert. Der Mittelwert bietet sich für fortlaufende Daten an, sofern diese keine Ausreißer besitzen (positiv/negativ)
    - Ersetzen der Daten durch den Median. Der Median sollte gewählt werden wenn die Daten Ausreißer besitzen.


- Behandlung von kategorischen Werten
    - Ersetzen der Daten durch die am meisten vorkommende Kategorie
    - Ersetzen der Daten durch eine eigene Kategorie
    - Ersetzen der Daten durch vorhersagende Modelle, welche versuchen die fehlenden Daten zu schätzen
    

Das andere Problem sind Fehlerhafte Daten. Oft ist nicht bekannt ob die vorliegenden Daten fehlerhaft sind, was das korrekte Verständnis der erhobenen Daten voraussetzt. Quellen solcher fehlerhafter Daten können von falscher Erhebung über Fremdquellen (Maschine schreibt falsche Werte), bis zu Übertragungsfehlern reichen. Oft kann man nichts gegen diese Fehler unternehmen. Wie auch fehlende Daten, können fehlerhafte Daten ebenfalls verarbeitet werden. Die oben genannten Ansätze sind im gleichen Maße anwendbar.

Deshalb müssen Daten, bevor ein Maschinelles Lernen-Modell erstellt wird, verstanden und bereinigt werden. Dieser Teil nimmt oft am meisten Zeit in Anspruch.

Interessant ist jedoch, wie unser eigener Datensatz aussieht. Dazu wollen wir diesen näher betrachten:


Die Dokumentation des vorliegenden Datensatzes zeigt sehr schön welche Daten vorhanden sind, woher deren Ursprung ist und wie der Datensatz erhoben wurde. Jedoch sind dort auch Unstimmigkeiten im Datensatz, welche sich die erhebenden nicht einmal erklären können. Trotz allem müssen die Fehlerhaften Daten entfernt oder bereinigt werden. Sollten diese Fehlerhaften Datensätze nicht weiter verarbeitet werden, so kann es sein, dass die Algorithmen Fehlerhaftes und falsches Verhalten lernen und dieses auf Produktionsdaten anwenden. Bedeutet, der Algorithmus gibt Falsche Lösungen vor.

In [None]:
output = widgets.Output()
def show_grid(b):
    with output:
        grid = qgrid.show_grid(masterprojekt_daten, show_toolbar=False, grid_options={'forceFitColumns': False, 'editable': False})
        display(grid)

In [None]:
button_layout = widgets.Layout(width='auto', height='auto')
button = widgets.Button(description='Daten anzeigen', layout=button_layout)
print('Messdaten:')
display(button, output)
button.on_click(show_grid)

In [None]:
%matplotlib inline

@interact
def plotAllColumnsPlotly(column=masterprojekt_daten.columns): 
    hist = go.Histogram(x=masterprojekt_daten[column].values, nbinsx=50, showlegend=False)
    scatter = go.Scatter(x=masterprojekt_daten[column].values, marker=dict(size=0.05), showlegend=False)
    line = go.Scatter(x=masterprojekt_daten[column].values, y=masterprojekt_daten[column].values, mode='lines', showlegend=False)
    dist_data = [masterprojekt_daten[column].values]
    dist = ff.create_distplot(dist_data, group_labels=[column])
    density = go.Figure(data=dist, layout=dict(title=str('Distribution ' + column)))
    
        
    # specs=[[{}, {}], [{'colspan': 2}, None]],
    fig = make_subplots(rows=2, cols=2, specs=[[{}, {}], [{'colspan': 2}, None]],\
                              subplot_titles=(str('Histogram ' + column), str('Line ' + column), str('Scatter ' + column)))
    
    fig.append_trace(hist, 1,1)
    fig.append_trace(line, 1,2)
    fig.append_trace(scatter, 2,1)
    #fig.append_trace(fig2.show(), 2,2)

    fig['layout'].update(height=800, width=950)
    iplot(fig)
    iplot(density)
    

In [None]:
import plotly.figure_factory as ff

selection = widgets.SelectMultiple(
    options=masterprojekt_daten.columns,
    rows=5,
    value=['Energy_Savings.Active_Power_Spindle'],
    description='Spalten',
    disabled=False,
    layout=Layout(width="40%")
)

@interact(selection=selection)
def confusionMatrix(selection):
    df_correlation=masterprojekt_daten.corr()
    df_correlation.dropna(thresh=1,inplace=True)
    # df_correlation = df_correlation.drop(columns=['Label'])
    plt.figure(figsize=(20,20))
    fig = go.Figure(data=go.Heatmap(z=df_correlation, x=selection, y=selection))

    iplot(fig)
# poff.plot(fig, './correlation.html')

In [None]:
selection = widgets.SelectMultiple(
    options=masterprojekt_daten.columns,
    rows=5,
    value=['Energy_Savings.Active_Power_Spindle'],
    description='Spalten',
    disabled=False,
    layout=Layout(width="40%")
)


#@widgets.interact_manual(selection=selection)
@interact(selection=selection)
def pairPlot(selection):
    ax = sns.pairplot(masterprojekt_daten, hue='Label', vars=[x for x in selection], 
                palette='husl', height=3)
    ax.map(sns.regplot)
    
