# Kreuzvalidierung
Zur Erinnerung: Häufig möchte man eine feste Aufteilung in Trainings- und Validierungsdaten vermeiden (die Validierungs-Performance soll nicht von der Wahl der Daten-Aufteilung abhängen). Außerdem möchte man möglichst viele Daten zum Training benutzen. Diese Ziele lasssen sich mit einer Kreuzvalidierung erreichen:
Dabei werden die Daten $S$ in die Teilmengen $S_i,\dots,S_n$ aufgeteilt. In Lauf $i$ wird $S \setminus S_i$ als Trainingsdaten und $S_i$ als Validierungsdaten verwendet. Die Klassifikationsgüte ist die durchschnittliche Klassifikationsgüte jedes Laufs. 

## Aufgabe
* Implementieren Sie die Funktion `cv(clf,features,classes,n)`, die eine n-fache Kreuzvalidierung mit dem jeweiligen Klassifikator durchführt und die mittlere Accuracy zurückgibt. 
* Klassifizieren Sie die Daten anhand der Accelerometer-Daten des rechten Arms. Verwenden Sie dazu eine LDA und eine SVM. Bestimmen Sie die Accuracy mit einer 10-fachen Kreuzvalidierung. Welcher Klassifikator liefert das bessere Ergebnis?
* Verwenden Sie weitere Features auf weiteren vorhandenen Daten. Mit welcher Kombination erreichen Sie das beste Ergebnis?

In [33]:
import numpy as np
import pandas as pd
from scipy.io import arff
from sklearn.tree import DecisionTreeClassifier 
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.svm import LinearSVC
import matplotlib.pyplot as plt

def cv(clf,features,classes,n):
    folds = np.random.choice(np.arange(n),features.shape[0],replace=True)
    acc = np.arange(n).astype("double")
    for i in range(n):
        train = features.loc[folds != i,:]
        ytrain = classes.loc[folds != i].astype("str")
        clf = clf.fit(train,ytrain)
        
        val = features.loc[folds == i,:]
        yval = classes.loc[folds == i].astype("str")
        
        p = clf.predict(val)
        acc[i]=sum(p == yval)/len(p)
    return np.mean(acc)

data = arff.loadarff('features1.arff')
df = pd.DataFrame(data[0])
features = df[["AccX_mean","AccY_mean","AccZ_mean"]]
classes = df["class"]
accsvc = cv(LinearSVC(),features,classes,10)
acclda = cv(LinearDiscriminantAnalysis(),features,classes,10)
accqda = cv(QuadraticDiscriminantAnalysis(),features,classes,10)
accdt = cv(DecisionTreeClassifier(),features,classes,10)
print(accsvc)
print(acclda)
print(accqda)
print(accdt)



0.30852519213039303
0.745706369514483
0.8381174770351599
0.8490560181814898
