# Quadratische Diskriminantenanalyse

In dieser Übung werden Sie selbst eine quadratische Diskriminantenanalyse (QDA) implementieren. Zur Erinnerung: Die QDA berechnet $p(x|y)=\frac{p(y|x)*p(x)}{p(y)}$. Die Likelihood $p(y|x)$ wird als normalverteilt angenommen.

## Aufgabe 1
Implementieren Sie eine Funktion `priors(classes)`, die für einen Vektor von Klassen-Labels den Prior $p(x)$ für jede Klasse ausgibt.
Die Eingabe soll ein Array von Klassen sein (z.b. `np.array(["stand","sit","sit","stand"])`). Die Ausgabe soll ein Data Frame mit den Spalten `class` und `prior` sein.

In [39]:
import numpy as np
import pandas as pd

def priors(classes):
    unique, counts = np.unique(classes, return_counts=True)
    counts = counts/counts.sum()
    df = pd.DataFrame(np.array([unique,counts]).transpose(),columns=["class","prior"])
    return(df)
    
pp = priors(np.array(["stand","sit","sit","sit","stand"]))
print(pp)
np.array(pp["class"])

   class prior
0    sit   0.6
1  stand   0.4


array(['sit', 'stand'], dtype=object)

## Aufgabe 2
Implementieren Sie eine Funktion `likelihood(data)`, die für ein Data Frame, bestehend aus einer Spalte $y$ und einer Spalte $x$, die Likelihood $p(y|x)$ für jede Klasse $x$ mit einer Normalverteilung approximiert, d.h. es soll für jede Klasse ein Mittelwert und eine Varianz ausgegeben werden.
Die Ausgabe soll also die Spalten `class`, `mean` und `variance` besitzen.

Plotten Sie die Likelihood für jede Klasse.

In [38]:
def likelihood(data):
    uc = np.unique(data["class"])
    def getMV(c):
        dsub = data.loc[data["class"]==c,"x"]
        return([dsub.mean(),dsub.var()])
    mvs = list(map(getMV, uc))
    r = pd.DataFrame(mvs,columns = ["mean","variance"])
    r["class"] = uc
    return r
    

Unnamed: 0,mean,variance,class
0,523.545587,15.843081,b'bike'
1,517.316002,18.523919,b'downstairs'
2,467.870175,56.697558,b'lie'
3,527.009294,96.483175,b'run'
4,486.721946,71.790221,b'sit'
5,528.594727,1.057665,b'stand'
6,545.413484,62.520043,b'upstairs'
7,525.170962,1.221023,b'walk'


## Aufgabe 3
Implementieren Sie eine Funktion mylda(newdat,lik,priors), die für eine neue Beobachtung `newdat` die wahrscheinlichste Klasse zurückgibt.

Testen Sie Ihre Implementierung auf dem Datensatz `features1.arff`. „Trainieren“ Sie die QDA (d.h. berechnen Sie likelihood und prior), und führen Sie dann für die gleichen Daten eine Klassifikation durch. Wie gut ist die Klassifikation?

In [111]:
from scipy.io import arff
import scipy.stats

def mylda(newdat,lik,prior):
    #Berechne für jeden Datenpunkt: Wahrscheinlichkeit pro Klasse als prior*likelihood, waehle wahrscheinlichste
    def getClass(d):
        def getProb(c,d):
            pr = prior.loc[prior["class"]==c,"prior"].values[0]
            m = lik.loc[lik["class"] == c,"mean"].values[0]
            v = lik.loc[lik["class"] == c,"variance"].values[0]
            li = scipy.stats.norm(m, v).pdf(d)
            return(li*pr)
        probs = np.array([getProb(c,d) for c in prior["class"].values])
        return prior.loc[np.argmax(probs),"class"]
    newclasses = np.array([getClass(dat) for dat in newdat])
    return newclasses


data = arff.loadarff('features1.arff')
df = pd.DataFrame(data[0])

dat = df.loc[:, ["AccX_mean","class"]]
dat.columns = ["x","class"]

lik = likelihood(dat)
prior = priors(dat["class"])

nc = mylda(dat["x"][1:100],lik,prior)
print(sum(nc == dat["class"][1:100])/100)

0.47
