# Naiver Bayes-Klassifikator


Datengrundlage für die folgende Aufgabenstellung ist der Titanic-Datensatz, unter /Data abgelegt.

In dieser Aufgabe sollen Sie einen Klassifikator auf Basis des Bayes-Theorem's selbst implementieren. Wir nehmen für diese Aufgabe an, dass die einzelnen Merkmale unabhängig voneinander sind. Man spricht in der Literatur von einem naiven Bayes-Klassifikator. Formal lässt sich der naive Bayes-Klassifikator wie folgt beschreiben:

Gegeben sei ein Merkmalsvektor $\vec x = (x_1,\dots, x_n)$  bestehend aus $n$ Merkmalen. Des Weiteren sei $L = \{C_1,\dots,C_K\}$ die Menge von möglichen Klassen. Dann berechnet sich nach Bayes die a posteriori Wahrscheinlichkeit 

$p(C_k \vert \vec{x}) = \frac{P(C_k) \ p(\vec{x} \vert C_k)}{p(\vec{x})} \,$ mit $p(\vec x) = \sum_{k\in L} P(C_k) \ p(\vec{x} \vert C_k) .$

Nimmt man an, dass die einzenen Merkmale $x_1,\dots,x_i$ unabhängig voneinander sind, lässt sich die a posteriori Wahrscheinlichkeit wie folgt berechnen:

$p(C_k \vert x_1, \dots, x_n) = \frac{P(C_k) \prod_{i=1}^n p(x_i \vert C_k)}{p(\vec x)}$

Da $p(x)$ für ein gegebenen Merkmalsvektor $\vec x$ konstant ist, und somit die Entscheidung nicht beeinflusst, kann der naive Bayes-Klassifikator wie folgt formuliert werden:

$C_y = \operatorname{argmax}_{k \in L} P(C_k) \prod_{i=1}^n p(x_i \vert C_k)$ 


Ziel dieser Aufgabe ist einen solchen naiven Bayes-Klassifikator für die konkrete Anwendung zu implementieren. Idealerweise verwendet man dafür einen großen Datensatz. Für das Verständnis des Algorithmus erfolgt die Implementierung anhand des bereits bekannten Titanic-Datensatzes. 

## 1.) Vorbereitungen


In [10]:
# TODO: implement
df= None

Gerne können Sie zum Füllen der Datenlücken auch Ihre Implementierung aus den vorherigen Aufgabe einsetzen...

In [11]:
import itertools
def prepareData(df):
    pass
    # TODO implement
    
df = prepareData(df)

## 1.1) A Priori Wahrscheinlichkeiten
Bestimmen Sie die A-Priori Wahrscheinlichkeiten $P(C_{survived})$ sowie $P(C_{\neg survived})$ anhand der Stichprobe.

In [12]:
# TODO implement

## 1.2) Klassenbedingte Wahrscheinlichkeiten (likelihood)
Ziel dieser Aufgabe ist es die klassenbedingten Wahrscheinlichkeiten $p(\vec{x} \vert C_k)$ für die Merkmale *Age, Fare, Sex und Pclass* zu bestimmen.

### Quantitative Merkmale
Im folgenden sollen die Parameter der normalverteilen Wahrscheinlichkeitsdichtefunktion (WDF) für die Merkmal *Age* und *Fare* geschätzt werden. 

Visualisieren Sie zuerst die diskrete klassenbedingte Verteilung des Merkmales *Fare*.

In [13]:
# TODO implement

Schätzen Sie die Parameter der klassenbedingten Wahrscheinlichkeitsdichtefunktion $p(Fare \vert C_{survived}),p(Fare \vert C_{\neg survived})$ (Maximum-Likelihood Methode). Gehen Sie dabei von einer Normalverteilung aus. Visualisieren Sie die WDFs. Wie bewerten Sie die Trennungswirksamkeit dieses Merkmales?


Dichtefunktion:$ \frac{1}{\sqrt{2\pi\sigma^2}} exp \{- \frac{(x-\mu)^2}{2\sigma^2} \} $

In [14]:
#define a generic gaussian function.
def gaussian(x, mu, sig):
    pass # TODO implement

def pFareSurvived(fare): 
    pass # TODO implement

def pFareNotSurvived(fare):
    pass # TODO implement

Schätzen Sie analog die Parameter der klassenbedingten Wahrscheinlichkeitsdichtefunktion $p(Age \vert C_{survived}),p(Age \vert C_{\neg survived})$ (Maximum-Likelihood Methode). Gehen Sie auch hier von einer Normalverteilung aus. Visualisieren Sie die WDFs. Wie bewerten Sie die Trennungswirksamkeit dieses Merkmales?

In [15]:
def pAgeSurvived(age): 
    pass # TODO implement
 
def pAgeNotSurvived(age):    
    pass # TODO implement

### Kategoriale Merkmale
In dem vorliegenden Datensatz sind einige kategoriale (qualitative) Merkmale enthalten. Da die klassenbedingten Wahrscheinlichkeiten für diese Merkmale nicht mit kontinuierlichen Dichtefunktionen geschätzt werden können, wird die relative Häufigkeit eingesetzt.


Visualisieren sie die absolute Häufigkeiten für das Merkmal *Pclass* für die Klassenzugehörigkeit *Survived* und *Not Survived*. 




In [16]:
# TODO implement

Bestimmen Sie die klassenbedingten Wahrscheinlichkeiten $p(Pclass \vert C_{survived}),p(Pclass \vert C_{\neg survived})$ anhand der entsprechenden relativen Häufigkeiten und geben Sie das Ergebniss aus. Wie bewerten Sie die Trennungswirksamkeit dieses Merkmales?

In [17]:
def pPClassSurvived(x):
    pass # TODO implement

def pPClassNotSurvived(x):
    pass # TODO implement

In [18]:
for pc in (1,2,3):
    print("class %d:  p(Pclass|surv): %f\tp(Pclass|notSurv): %f" % (pc,pPClassSurvived(pc),pPClassNotSurvived(pc)))

TypeError: must be real number, not NoneType

Bestimmen sie analog die klassenbedingten Wahrscheinlichkeiten $p(Sex \vert C_{survived}),p(Sex \vert C_{\neg survived})$. Wie bewerten Sie die Trennungswirksamkeit dieses Merkmales?

In [None]:
def pSexSurvived(x):
    pass # TODO implement

def pSexNotSurvived(x):
    pass # TODO implement


## 1.3) Klassifikator implementieren

Fügen Sie nun alle Bestandteile für den naiven Bayes-Klassifikator zusammen. Berechnen Sie zuerst die a posteriori Wahrscheinlichkeiten $p(C_k \vert x_1, \dots, x_n) = \frac{P(C_k) \prod_{i=1}^n p(x_i \vert C_k)}{p(\vec x)}$ für die beiden Klassen. Geben Sie die Ergebnisse für einen exemplarischen Merkmalsvektor $\vec x = (x_1,\dots, x_n)$ aus. 

In [None]:
#example feature vector. 
x=dict(age=25,sex='female',pclass=1,fare=100)

In [None]:
def numeratorPosteriorSurvived(x):
    # TODO implement
    pass

def numeratorPosteriorNotSurvived(x):
    # TODO implement
    pass

#the evidence is the dominator p(x) of the posterior
def evidence(x):
    # TODO implement
    pass
    
def posteriorSurvived(x): 
    # TODO implement
    return 0.0                    
    
def posteriorNotSurvived(x):
    # TODO implement
    return 0.0

In [None]:
print ("p(survived|x) = %f " % (posteriorSurvived(x) ))
print ("p(notSurvived|x) = %f " % (posteriorNotSurvived(x)))

Da $p(\vec x)$ für ein gegebenen Merkmalsvektor $\vec x$ konstant ist und somit die Entscheidung nicht beeinflusst muss $p(\vec x)$ für die finale Klassifikation nicht berechnet werden. Des weiteren wird aus nummerischen Gründen typischerweise der Logarithmus der Wahrscheinlichkeiten eingesetzt (https://en.wikipedia.org/wiki/Log_probability).

Der naive Bayes-Klassifikator läst sich somit auch wie folgt formulieren:

\begin{equation}
\begin{aligned}
C_y &= \operatorname{argmax}_{k \in L} \log{( P(C_k) \prod_{i=1}^n p(x_i \vert C_k))} \\
    &= \operatorname{argmax}_{k \in L}  \log{P(C_k)} + \sum_{i=1}^n \log{p(x_i \vert C_k)}
\end{aligned}
\end{equation}


Implementieren und testen Sie die entsprechende Entscheidungsfunktion.

In [None]:
def logPosteriorSurvived(x):      
    # TODO implement
    pass
    
def logPosteriorNotSurvived(x):   
    # TODO implement
    pass 
    
def predict(x):
    # TODO implement
    return 0

In [None]:
predict(x)

Wenden Sie den von Ihnen implementierten Algorithmus auf den Datensatz an und ermitteln Sie die Korrektklassifizierungsrate.

In [None]:
# TODO implement