# Nachbearbeitung PVA2 - Klassifikator für den Kreuz-Kreis-Plus Datensatz
In dieser Nachbearbeitung wird ein Klassifikator für den Kreuz-Kreis-Plus Datensatz erstellt.

In [129]:
import os
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

## 1. Kreation eines Decision-Tree Klassifikators mit den eigenen Daten

Die Daten werden preprocesst, um sie in die Form zu bringen, in welcher sie mit einem Klassifikator verwendet werden können. Danach wird ein Decision-Tree-Klassifikator mit Zweidrittel der Daten trainiert und mit dem restlichen Drittel getestet.

In [76]:
data = pd.read_csv("data/output-lorenz.vonlanthen-dana.shmaria.csv") 

In [69]:
data.head()

Unnamed: 0,#-0-lorenz.vonlanthen-dana.shmaria.png,1,1.1,1.2,1.3,1.4,1.5,1.6,1.7,1.8,...,1.56,1.57,0.34,1.58,1.59,1.60,1.61,1.62,1.63,1.64
0,#-1-lorenz.vonlanthen-dana.shmaria.png,1,1,1,1,1,1,1,1,1,...,1,1,1,0,1,1,1,1,1,1
1,#-2-lorenz.vonlanthen-dana.shmaria.png,1,1,1,1,1,1,1,1,1,...,1,1,1,1,1,1,0,1,1,1
2,#-3-lorenz.vonlanthen-dana.shmaria.png,1,1,0,1,1,1,1,1,1,...,1,1,0,1,1,0,1,1,1,1
3,#-4-lorenz.vonlanthen-dana.shmaria.png,1,1,1,1,1,1,1,1,1,...,1,1,0,1,1,0,1,1,1,1
4,#-5-lorenz.vonlanthen-dana.shmaria.png,1,1,1,1,1,1,1,1,1,...,1,1,1,0,1,1,0,1,1,1


In [70]:
MAP_SYMBOL_TO_INTEGER = {
    '#': 0,
    '+': 1,
    'o': 2,
    'x': 3
}

In [152]:
def preprocess_data(data):    
    df = data.drop(data.columns[0], axis=1)
    classifier_features = df.to_numpy()

    df = data[data.columns[0]].to_numpy()

    vfunc = np.vectorize(lambda x: MAP_SYMBOL_TO_INTEGER[x[0][:1]])
    classifier_labels = vfunc(df)
    return classifier_features, classifier_labels

In [100]:
clf = DecisionTreeClassifier()
X, y = preprocess_data(data)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

clf = clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
print(predictions)
print(y_test)
accuracy_score(predictions, y_test)

[3 3 0 1 3 2 0 2 2 2 1 0 1]
[3 3 0 1 3 2 0 2 2 1 1 0 1]


0.9230769230769231

Die Accuracy ist ziemlich gut und fast bei 1.

## 2. Verwendung der kollaborativ gesammelten Daten
Der zuvor gefittete Decision-Tree-Classifier wird für weitere Daten des kollaborativ gesammelten Datensatzes getestet. Dabei werden nur die Datensätze genommen, welche dieselbe Formattierung wie unser eigener Datensetz verwendet.

In [102]:
test_data = []
for root,dirs,files in os.walk("data"):
    for file in files:
        if file.endswith('csv'):
            test_data.append([file,pd.read_csv("data/" + file)])

In [104]:
for file_name, data in test_data:
    print(file_name)
    X, y = preprocess_data(data)
    predictions = clf.predict(X)
    print(predictions)
    print(y)
    print(accuracy_score(predictions, y))
    print()
    print()

output-daniel.zimmermann.csv
[2 2 2 2 2 2 2 2 0 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
 3 3]
0.3076923076923077


output-nicolasMueller-matthiasFuhrimann-cedricAebi.csv
[0 0 0 2 2 0 2 0 2 1 1 1 1 2 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 1
 2 2]
[0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
 3 3]
0.5897435897435898


output-marco.hirsbrunner.csv
[2 2 0 2 2 2 2 0 2 2 1 2 2 1 1 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 2 2
 2 2]
[0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
 3 3]
0.5384615384615384


output-joel.boschung.csv
[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3
 3 3]
0.2564102564102564


output-pascal.steiger.csv
[2 2 2 2 0 2 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 1 2 2
 1 2]
[0 0 0 0 0 0 0 0 0 1 1 

Nur für unseren eigenen Datensatz (siehe letzter Output) funktioniert der Classifier gut. Die anderen Daten/Zeichnungen sind zu unterschiedlich zu unseren. Deshalb wird im nächsten Teil ein Classifier mit Daten aus allen Datensätzen gefittet, um eine höhere allgemeine Accuracy zu erhalten.

## 3. Fitten des Classifiers aus allen Datensätzen

In [111]:
clf = DecisionTreeClassifier()
X_all_data, y_all_data = preprocess_data(test_data[0][1])

for num in range(1,len(test_data)):    
    X, y = preprocess_data(test_data[num][1])
    X_all_data = np.concatenate((X_all_data, X), axis=0)
    y_all_data = np.concatenate((y_all_data, y), axis=0)

In [123]:
X_train, X_test, y_train, y_test = train_test_split(X_all_data, y_all_data, test_size=0.33, random_state=22)

In [124]:
clf = clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
print(predictions)
print(y_test)
accuracy_score(predictions, y_test)

[1 2 1 2 0 1 2 1 0 0 2 2 2 0 0 1 2 1 2 2 2 2 2 3 0 1 2 2 0 2 1 1 1 2 2 1 2
 0 2 2 1 3 3 2 1 2 3 0 3 2 2 2 0 2 3 2 0 1 0 2 1 1 3 3 1 2 0 3 2 1 2 2 3 2
 1 2 1 2 2 2 2 2 2 0 2 2 1 3 0 1 0 1 2 0 2 2 2 3 1 3 3 0 1 2]
[2 2 1 0 0 1 2 3 0 0 1 0 1 0 0 0 2 1 3 2 0 2 1 3 3 1 2 2 0 2 1 1 0 1 1 0 1
 0 3 2 3 2 2 1 1 1 3 1 0 3 2 2 3 2 3 2 1 1 3 1 3 3 3 3 3 3 0 3 2 1 0 2 0 2
 0 1 1 0 2 3 1 2 0 0 0 1 0 2 0 1 2 1 3 0 2 2 0 0 1 3 3 0 2 3]


0.5096153846153846

Wir erhalten eine etwas bessere Accuracy von 0.5, welche aber immer noch ziemlich klein ist.

## 4. Verwendung verschiedener Classifier
Um zu sehen, ob der Accuracy-Score noch verbessert werden kann, werden verschiedene Classifier verwendet:

- Decision Tree
- k Nearest Neighbors
- Linear SVM
- Random Forest
- Neural Net
- Naive Bayes

In [130]:
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB

In [153]:
names = ["Decision Tree", "k Nearest Neighbors", "Linear SVM", 
         "Random Forest", "Neural Net", "Naive Bayes"]

classifiers = [
    DecisionTreeClassifier(max_depth=5),
    KNeighborsClassifier(3),
    SVC(kernel="linear", C=0.025),
    RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),
    MLPClassifier(alpha=1, max_iter=1000),
    GaussianNB(),
]

X_train, X_test, y_train, y_test = train_test_split(X_all_data, y_all_data, test_size=0.33, random_state=42)


for index in range(0,len(classifiers)):
    print(names[index])
    clf = classifiers[index]
    clf = clf.fit(X_train, y_train)
    predictions = clf.predict(X_test)
    print(accuracy_score(predictions, y_test))
    print()

Decision Tree
0.5769230769230769

k Nearest Neighbors
0.6153846153846154

Linear SVM
0.40384615384615385

Random Forest
0.5384615384615384

Neural Net
0.5961538461538461

Naive Bayes
0.4423076923076923



- Der k-nearest-neighbors erzielt höhere Werte (höher als 0.6) als der Decision-Tree Klassifikator nach auch nach mehreren Ausführungen. 
- Der Neural net und random forest Klassifikator erzielt ähnliche Werte wie der Decision-Tree Klassifikator.
- Der Naive Bayes und Linear SVM haben mit einem Wert von etwas 0.4 - 0.45 tiefer als der Decision-Tree Klassifikator.

### 5. Schlussfolgerung
Die Accuracy hat einen maximal Wert um 0.6, was noch nicht wünschenswert ist. 

Grund dafür kann sein, dass die Zeichnungen von den Symbolen in einer verschiedenen Strichstärke gemacht wurden und die Daten deshalb trotz gleichem Symbol sehr unterschiedlich sind. Um dem entgegen zu wirken, müssten für alle Datensätze die gleiche Stiftstärke verwendet werden. 

Ebenfalls kann durch eine grössere Sammlung an Trainingsdaten mehr Variationen abgedeckt und die Accuracy erhöht werden.
Information der Daten reicht nicht aus für diese Methode.

In einem weiteren Schritt könnten Bilder zuerst durch die Strichstärke in verschiedene Gruppen eingeteilt werden und je ein Klassifikator pro Strichstärke erstellt werden.