# Evaluation von Klassifikatoren

 Häufig möchte man eine feste Aufteilung in Trainings- und Validierungsdaten vermeiden (die Validierungs-Performance soll nicht von der Wahl der Daten-Aufteilung abhängen). Außerdem möchte man möglichst viele Daten zum Training benutzen. Diese Ziele lasssen sich mit einer Kreuzvalidierung erreichen:
Dabei werden die Daten $S$ in die Teilmengen $S_i,\dots,S_n$ aufgeteilt. In Lauf $i$ wird $S \setminus S_i$ als Trainingsdaten und $S_i$ als Validierungsdaten verwendet. Die Klassifikationsgüte ist die durchschnittliche Klassifikationsgüte jedes Laufs. 
 
## Aufgabe 1
* Implementieren Sie die Funktion `cv(clf,features,classes,n)`, die eine n-fache Kreuzvalidierung mit dem jeweiligen Klassifikator durchführt und die mittlere Accuracy zurückgibt. 
* Klassifizieren Sie den Pima-Datensatz. Verwenden Sie dazu einen Entscheidungsbaum. Welcher Klassifikator liefert das bessere Ergebnis?

In [20]:
import numpy as np
import pandas as pd
from scipy.io import arff
from sklearn.tree import DecisionTreeClassifier 
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.svm import LinearSVC
import matplotlib.pyplot as plt
from numpy import loadtxt
from sklearn import tree


def cv(clf,features,classes,n):
    folds = np.random.choice(np.arange(n),features.shape[0],replace=True)
    acc = np.arange(n).astype("double")
    for i in range(n):
        train = features.loc[folds != i,:]
        ytrain = classes.loc[folds != i].astype("str")
        clf.fit(train,ytrain)
        
        val = features.loc[folds == i,:]
        yval = classes.loc[folds == i].astype("str")
        
        p = clf.predict(val)
        acc[i]=sum(p == yval)/len(p)
    return np.mean(acc)

dataset = pd.DataFrame(loadtxt('pima-indians-diabetes.csv', delimiter=','))
# split into input (X) and output (y) variables
X = dataset.iloc[:,0:8]
y = dataset.iloc[:,8]

acctree = cv(tree.DecisionTreeClassifier(),X,y,10)
acclda = cv(LinearDiscriminantAnalysis(),X,y,10)
accqda = cv(QuadraticDiscriminantAnalysis(),X,y,10)
print(acctree)
print(acclda)
print(accqda)

0.6932765695993837
0.768390781796271
0.7390485142346825


## Aufgabe 2
In Scipy sind verschiedene Klassifikatoren bereits implementiert. Im Folgenden sollen die Klassifikatoren miteinander verglichen werden. Vergleichen Sie die folgenden Klassifikatoren mit 10-fold CV anhand der Accuracy:  Decision Trees, Lineare Diskriminantenanalyse, Quadratische Diskriminantenanalyse, Support Vector Machine, sowie das neuronale Netz aus Übung 6.1b.

In [None]:
from sklearn.tree import DecisionTreeClassifier 
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.svm import LinearSVC
import matplotlib.pyplot as plt

tt = round(3/4 * df.shape[0])
train = df.iloc[range(0,tt),:]
test = df.iloc[range(tt,df.shape[0])]

y = train["class"].astype("str")
y_test = test["class"].astype("str")

classfs = [DecisionTreeClassifier(),LinearDiscriminantAnalysis(),QuadraticDiscriminantAnalysis(),LinearSVC()]
def getAcc(clf):
    clf = clf.fit(train.iloc[:,range(0,12)],y)
    y_pred = clf.predict(test.iloc[:,range(0,12)])
    cm = cfm(y_test,y_pred)
    plt.matshow(cm,cmap='hot')
    
    return (sum(y_test == y_pred)/len(y_pred))

accs = [getAcc(clf) for clf in classfs]
accs