### Produkt Classification

#### Ausgangslage
Wir haben von der Firma Biral den Auftrag erhalten die Produkte (Pumpen im Bereich Heizung, Kälte und Brauchwasser) automatisch anhand ihrer Merkmale zu kategorisieren. Es gibt drei Kategorien RED (Heizung), GREEN (Klima) und BLUE (Brauchwasser), die bestehenden Daten sind bereits einer Kategorie zugewiesen.

#### Aufgabe
Die Pumpen der Firma Biral anhand ihrer Merkmalen mittels Supervised Learning Algorithmen einer der oben genannten Kategorien zuweisen. Testen von verschiedenen Algorithmen und anhand der Metriken miteinander vergleichen.

In [None]:
# Upgrade von pandas ausführen und dann unter Kernel den Link Restart klicken.
!pip install pandas --upgrade

In [None]:
%matplotlib inline
import itertools
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import numpy as np
import pandas as pd

from sklearn.preprocessing import Imputer
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import RFE

from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#### Helper Methode für die Ausgabe der Metriken

In [None]:
def plot_report(classifier_name, x, y, clf_model, clf_prediction):
    print(classifier_name + ":")
    print("Test Score: {:.3%}\n".format(clf_model.score(x, y)))
    print(classification_report(y, clf_pred))

#### Helper Methode für die Confusion Matrix

In [None]:
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

#### Laden der Produkt Daten
Die Daten werden aus dem CSV in ein Pandas DataFrame geladen. Das Dataset hat 222 Rows und 19 Features

In [None]:
csv = pd.read_csv("Biral_Products_csv.csv", delimiter=",", header=0)
print(csv.shape)

#### Ausgabe der Verteilung der verschiedenen Features

In [None]:
pd.plotting.scatter_matrix(csv, figsize=(15, 15), marker="o", alpha=.2)
plt.show()

#### Gruppenbezeichnug extrahieren und Textfeatures entfernen

In [None]:
labels = csv.Gruppenbezeichnung
csv.drop(columns=["Bezeichnung", "Gruppenbezeichnung", "Beschreibung", "Anwendungsgebiet"], inplace=True)
print(csv.shape)

#### Umwandlung in ein numpy Array

In [None]:
data = np.array(csv)
print(data.shape)

#### Missing Values mit most frequent ersetzen

In [None]:
imputer_scaler = Imputer(missing_values="NaN", strategy="most_frequent", verbose=1)
data = imputer_scaler.fit_transform(data)
print(data.shape)

#### Daten in Test und Train aufteilen

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.33)

#### TODO: Classifier Vergleich
Folgende Classifier sollten miteinander verglichen werden. Die benötigten Imports sind bereits vorhanden.
* Naive Bayes http://scikit-learn.org/stable/modules/naive_bayes.html
* KNN http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
* Decision Tree http://scikit-learn.org/stable/modules/tree.html#classification
* Linear Support Vector Machine http://scikit-learn.org/stable/modules/svm.html

Der Classification Report kann folgendermassen ausgegeben werden

```python
plot_report("Naive Bayes", X_test, y_test, model, prediction)
```

In [None]:
# TODO: Code hier einfügen