# Test Klassifikation mit SVM
Bei folgendem Skript handelt es sich um einen ersten Versuch, Daten mit einer SVM zu klassifizieren. Wir wollen damit den allgemeinen Umgang mit Machine Learning, sowie der spezifischen Implementation von scikit-learn, erlernen.

## Testdaten
Als Testdaten verwenden wir ein Set aus dem UCI Machine Learning Repository. Es handelt sich dabei um statistische Daten über die Qualität von Rotwein mit 4898 samples: https://archive.ics.uci.edu/ml/datasets/Wine+Quality. 
Die Testdaten haben 11 Features: 
* fixed acidity
* volatile acidity
* citric acid
* residual sugar
* chlorides
* free sulfur dioxide
* total sulfur dioxide
* density
* pH
* sulphates
* alcohol

Die Klassifikation entspricht der letzten Spalte:
* quality [0..10]

### Aufbereitung
Bei der Aufbereitung laden wir zuerst die Daten in eine Numpy-Matrix. Als Target-Vector nutzen wir die letzte Spalte und als Test-Set die letzten zwei Zeilen der Rohdaten.



In [5]:
from sklearn import datasets, svm
from numpy import genfromtxt

data = genfromtxt('data/winequality-red.csv', delimiter=';')
target = data[:, 11]
data = data[:, range(11)]

# Create SVM classifier
clf = svm.SVC(gamma=0.001, C=100.)

# Fit classifier to the model
clf.fit(data[:-2], target[:-2])

# Predict the digit for the remaining data
predictions = clf.predict(data[-2:])

print("test entries: {}".format(target[-2:]))
print("predictions: {}".format(predictions))

[ 5.  5.  5. ...,  5.  6.  6.]
test entries: [ 5.  6.]
predictions: [ 5.  6.]


In [4]:
from sklearn import datasets, svm
from numpy import genfromtxt
import time

data = genfromtxt('data/winequality-red.csv', delimiter=';')
target = data[:, 11]
data = data[:, range(11)]

# Create SVM classifier
clf = svm.SVC(gamma=0.001, C=100.)

iterations = 20

print("test entries:  {}".format(target[-2:]))
print("------------------------")

errors = 0

t = time.time()

for i in range(0, iterations):
    # Fit classifier to the model
    clf.fit(data[:-2], target[:-2])
    # Predict the digit for the remaining data
    predictions = clf.predict(data[-2:])
    if (predictions[0] != target[-2:][0] or predictions[1] != target[-2:][1]):
        errors += 1
    print("predictions {}: {}".format(i, predictions))

elapsed = time.time() - t

print("------------------------")
print("Errors: {}/{}".format(errors, iterations))
print("Time per prediction: {}ms".format(round(elapsed / iterations, 4)))

test entries:  [ 5.  6.]
------------------------
predictions 0: [ 5.  6.]
predictions 1: [ 5.  6.]
predictions 2: [ 5.  6.]
predictions 3: [ 5.  6.]
predictions 4: [ 5.  6.]
predictions 5: [ 5.  6.]
predictions 6: [ 5.  6.]
predictions 7: [ 5.  6.]
predictions 8: [ 5.  6.]
predictions 9: [ 5.  6.]
predictions 10: [ 5.  6.]
predictions 11: [ 5.  6.]
predictions 12: [ 5.  6.]
predictions 13: [ 5.  6.]
predictions 14: [ 5.  6.]
predictions 15: [ 5.  6.]
predictions 16: [ 5.  6.]
predictions 17: [ 5.  6.]
predictions 18: [ 5.  6.]
predictions 19: [ 5.  6.]
------------------------
Errors: 0/20
Time per prediction: 0.2549ms
