# Test Klassifikation mit Decision Tree
Nachfolgend klassifizieren wir die statistischen Daten über die Qualität von Rotwein mit einem Decision Tree. Wir wollen den uUnterschied bzw. die Vor- und Nachteile des DEcision Tree Verfahren gegenünber einer SVM evaluieren.

## Testdaten
Als Testdaten verwenden wir ein Set aus dem UCI Machine Learning Repository. Es handelt sich dabei um statistische Daten über die Qualität von Rotwein mit 4898 samples: https://archive.ics.uci.edu/ml/datasets/Wine+Quality. 
Die Testdaten haben 11 Features: 
* fixed acidity
* volatile acidity
* citric acid
* residual sugar
* chlorides
* free sulfur dioxide
* total sulfur dioxide
* density
* pH
* sulphates
* alcohol

Die Klassifikation entspricht der letzten Spalte:
* quality [0..10]

### Aufbereitung
Bei der Aufbereitung laden wir zuerst die Daten in eine Numpy-Matrix. Als Target-Vector nutzen wir die letzte Spalte und als Test-Set die letzten zwei Zeilen der Rohdaten.

In [8]:
from sklearn import tree
from numpy import genfromtxt


data = genfromtxt('data/winequality-red.csv', delimiter=';')
target = data[:, 11]
data = data[:, range(11)]

clf = tree.DecisionTreeClassifier()
clf = clf.fit(data[:-2], target[:-2])

predictions = clf.predict(data[-2:])

print("test entries: {}".format(target[-2:]))
print("predictions: {}".format(predictions))

test entries: [ 5.  6.]
predictions: [ 7.  6.]


In [40]:
from sklearn import tree
from numpy import genfromtxt
import time

data = genfromtxt('data/winequality-white.csv', delimiter=';')
target = data[:, 11]
data = data[:, range(11)]

# create the DT classifier
clf = tree.DecisionTreeClassifier()

iterations = 20

print("test entries:  {}".format(target[-2:]))
print("------------------------")

errors = 0

t = time.time()

for i in range(0, iterations):
    # Fit classifier to the model
    clf = clf.fit(data[:-2], target[:-2])
    # Predict the digit for the remaining data
    predictions = clf.predict(data[-2:])
    if (predictions[0] != target[-2:][0] or predictions[1] != target[-2:][1]):
        errors += 1
    print("predictions {}: {}".format(i, predictions))
    
elapsed = time.time() - t

print("------------------------")
print("Errors: {}/{}".format(errors, iterations))
print("Time per prediction: {}ms".format(round(elapsed / iterations, 4)))

test entries:  [ 7.  6.]
------------------------
predictions 0: [ 4.  6.]
predictions 1: [ 7.  6.]
predictions 2: [ 5.  6.]
predictions 3: [ 7.  7.]
predictions 4: [ 4.  6.]
predictions 5: [ 7.  7.]
predictions 6: [ 7.  7.]
predictions 7: [ 4.  6.]
predictions 8: [ 7.  7.]
predictions 9: [ 7.  7.]
predictions 10: [ 7.  6.]
predictions 11: [ 7.  6.]
predictions 12: [ 5.  6.]
predictions 13: [ 7.  6.]
predictions 14: [ 7.  6.]
predictions 15: [ 4.  6.]
predictions 16: [ 7.  6.]
predictions 17: [ 7.  6.]
predictions 18: [ 7.  6.]
predictions 19: [ 4.  7.]
------------------------
Errors: 12/20
Time per prediction: 0.0358ms
