# Data Mining in der technischen Anwendung
## Übungsblatt 02

### Aufgabe 1: Einrichten von Anaconda

Wir werden im Laufe des Kurses mit Jupyter Notebooks arbeiten.

#### Installation Anaconda:

Sie finden auf ihrem Desktop eine Datei zur Installation von Anaconda (./start_anaconda.sh). Starten Sie diese und folgen Sie den Installationsanweisungen.
Schließen und öffnen Sie die Konsole und geben Sie anschließend den Befehl "anaconda-navigator" ein. Daraufhin sollte sich der Anaconda Navigator öffnen, mit dem Sie Jupyter installieren und anschließend Starten können.

Für die Installation auf ihrem eigenen PC laden Sie sich die Python 3.6 Version über https://www.anaconda.com/download/#linux und folgen Sie den Anweisungen bzw. der Anleitung https://docs.anaconda.com/anaconda/install/linux

### Aufgabe 2:

$a)$
Laden Sie die Datei *Iris.csv* aus Moodle herunter und kopieren Sie den Datensatz in ihren *data* Ordner.

Der Datensatz enthält 150 Messungen der Pflanzengattung Iris(Schwertlilie), der in 3 Gattungen mit jeweils 50 Messungen aufgeteilt ist. Anhand von 4 Attributen können diese Gattungen mit einem Klassifikationsverfahren getrennt werden und unbekannte Messungen identifiziert werden.

Mithilfe des nachfolgenden Codes sollte sich ein *Scatter Plot* öffnen, der den Datensatz und seine verschiedenen Klassen anzeigt.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import itertools
from collections import Counter

from ipywidgets import interact
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn import svm
from sklearn.ensemble import BaggingClassifier

%matplotlib inline

In [None]:
#Importieren des Iris-Datensatzes
iris = pd.read_csv('data/Iris.csv', sep=';', )
iris.rename(columns = {'class':'label'}, inplace = True)

In [None]:
def iris_plot(x_variable, y_variable):
    groups = iris.groupby('label')
    fig, ax = plt.subplots()
    
    for name, group in groups:
        ax.plot(group[x_variable], group[y_variable], marker='o', linestyle='', ms=5, label=name)
    
    ax.legend()
    plt.xlabel(x_variable)
    plt.ylabel(y_variable)
    plt.show()

Trennen Sie nun die Klassen im Scatter Plot, indem Sie die geplotteten Attribute für die X und Y-Achse geeignet wählen.

In [None]:
interact(iris_plot, 
         x_variable=iris.columns[0:4], 
         y_variable=iris.columns[0:4]);

$b)$
Im Folgenden soll der Classification Learner trainiert werden, indem Sie das Lernverfahren *Decision Tree* anwenden.
Der Classification Learner teilt den Datensatz in Trainings- und Testdatensätze auf und kann somit die Güte des Trainings bestimmen. Wie der Datensatz aufgeteilt wird, lässt sich über den Parameter *fold_param* einstellen. Standardmäßig sind 3 folds eingestellt.

Bei der Kreuzvalidierung wird der Datensatz in *k* möglichst gleich große Teilmengen aufgeteilt. Anschließend wird *k*-mal trainiert und getestet, wobei immer eine Teilmenge zum Testen verwendet wird und die restlichen Teilmengen zum Trainieren verwendet werden.  

Schauen Sie sich anschließend die *Confusion Matrix* an, welche prädizierte und tatsächliche Klassen gegenüberstellt. In den Spalten stehe die prädizierten Klassen und in den Zeilen die tatsächlichen Klassen. Findet sich bspw. ein Eintrag in der Spalte *Iris-versicolor* und der Zeile *Iris-virginica*, bedeutet dies, dass eine Prädiktion die Klasse *Iris-versicolor* vorhergesagt hat, tatsächlich aber die Klasse *Iris-virginica* vorlag.

In [None]:
def confusion_matrix_plot(cm, classes, title):

    plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Greys)
    plt.title(title)
    plt.colorbar()
    
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes, rotation=45)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j]),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.ylabel('tatsächliche Klasse')
    plt.xlabel('prädizierte Klasse')
    plt.show()

In [None]:
#Anteil der Daten, die für den Test verwendet werden
folds = 0.33

#Matrix der auswertbaren Daten
X = iris.values[:,:4]

#Vektor der tatsächlichen Klassen, codiert
y = iris.label

#Bezeichnungen der Klassen
class_names = np.asarray(['setosa', 'versicolor', 'virginica'])

#Aufteilung der Daten in Test- und Trainingsdatensätze
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = folds)

#Wahl des Klassifikators
classifier = tree.DecisionTreeClassifier()
classifier = classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

#Erstellung der Confusion-Matrix
cnf_matrix = confusion_matrix(y_test, y_pred)

#Graphische Darstellung der Confusion-Matrix
confusion_matrix_plot(cnf_matrix, classes=class_names, title="Iris")

Beantworten Sie nun folgende Fragen:

1. Wieviele Muster werden falsch klassifiziert?
2. Welches Label besitzen diese Muster?
3. Wie groß ist der Klassifikationsfehler des Decision Trees?
4. Welche zwei Klassen sind schwerer voneinander zu trennen? Warum?
5. Starten Sie eine neue Session mit gleichen Parametern und Daten, erhalten Sie nicht notwendigerweise das gleiche Ergebnis nach dem Trainieren. Woran liegt das?


Sie können weiterhin andere Parameter oder Verfahren testen.

$c)$
Laden Sie sich den Datensatz *labor-negotiations* von Moodle. Der Datensatz enthält unvollständige Informationen über Arbeitsverhältnisse mit Attributen wie der Dauer der Beschäftigung, der Gehaltserhöung im ersten, zweiten und dritten Arbeitsjahr oder der genommenen Urlaubstage.


1. Welche Ausprägung des Attributes *vacation* tritt im Datensatz am häufigsten auf? 
2. Wie heißen die beiden Klassen des Datensatzes?

In [None]:
labor_neg = pd.read_csv('data/labor-negotiations.csv', sep=";")
labor_neg.rename(columns = {'class':'label'}, inplace = True)

$d)$
Benutzen Sie nun wieder den gegebenen Code und laden Sie den labor-negotations Datensatz. Versuchen Sie zunächst, die Klassen visuell durch geeignete Variablenwahl der Achsen zu trennen.

In [None]:
def labor_neg_plot(x_variable, y_variable):
    groups = labor_neg.groupby('label')
    fig, ax = plt.subplots()
    
    for name, group in groups:
        ax.plot(group[x_variable], group[y_variable], marker='o', linestyle='', ms=5, label=name)
    ax.legend()

    plt.xlabel(x_variable)
    plt.ylabel(y_variable)
    plt.show()

In [None]:
interact(labor_neg_plot, 
         x_variable=labor_neg.columns[[0, 1, 2, 3, 5, 7, 8, 10]], 
         y_variable=labor_neg.columns[[0, 1, 2, 3, 5, 7, 8, 10]]);

Führen Sie anschließend jeweils mindestens ein Training mit einem Decision Tree, einer SVM und einem Ensemble-Classifier durch und testen Sie dabei verschiedene Einstellungen für die jeweiligen Klassifikatoren. Notieren Sie sich gegebenenfalls Auffälligkeiten.