# Naive Bayes

De Naive Bayes techniek is een **supervised** machine learning techniek voor **classificatie** problemen op te lossen.
Dit is een redelijke oude techniek en wordt tegenwoordig al iets minder gebruikt.
Echter is het een zeer snelle techniek, zelfs als er heel veel features zijn.
Hierdoor is deze techniek wel nog nuttig in real-time toepassingen.

Het verschil met de SVM of logistische regressie classifiers is dat dit een **Generative classifier** is in plaats van een Discriminatieve classifier.
Een discriminatieve classifier is een classifier die de grens leer tussen twee verschillende klassen.
Dit wil zeggen dat er een scheidingslijn gezocht wordt die geoptimaliseerd wordt op basis van misclassificaties.
Bij discriminative wordt er dus vooral gekeken naar wat de klassen verschillend maakt.
Een generative classifier echter gaat vooral kijken naar wat observaties van dezelfde klassen gemeenschappelijk hebben (welke features maken een observatie tot die klasse)
Hierbij worden de verschillende features bekeken en er wordt gezocht naar een algemene verdeling van de observaties die tot elke klasse hoort. 

De benaming komt voort uit het feit dat Naive Bayes gebruikt maakt van de Bayes regel over conditionele probabiliteiten waarbij gebruik gemaakt wordt van de naieve veronderstelling dat de features onafhankelijk zijn van elkaar.

## Werking: Bayes rule

**Voorbeeld:**

Kans dat je kanker hebt $1\%$ ($P(Kanker) = 1\% = 0.01$)

Stel dat er een test is om kanker op te sporen die:
* In 90% van de gevallen is de test positief als je kanker hebt (sensitiviteit)
* In 90% van de gevallen is de test negatief als je geen kanker hebt (specificiteit)

Wat is nu de kans dat je kanker hebt als deze test positief blijkt te zijn?

Deze kans is niet 90% omdat er ook rekening gehouden moet worden met de kans dat iemand kanker heeft.
We zijn dus echter op zoek naar $P(\text{Kanker}|\text{Positief})$.
Door gebruik te maken van de Bayes regel kan dit uitgeschreven worden als volgt:

$P(\text{Kanker}|\text{Positief}) = \frac{P(\text{Positief}|\text{Kanker})P(\text{Kanker})}{P(\text{Positief})}$

$P(\text{Kanker}|\text{Positief}) = \frac{0.9 * 0.01}{0.01 * 0.9 + 0.1*0.99} = 0.08333$

De verschillende kansen in deze uitdrukking hebben de volgende definities:
* Prior: $P(\text{Kanker})$: Kans dat iemand kanker heeft (zonder te testen)
* Likelihood: $P(\text{Positief}|\text{Kanker})$: De kans dat je positief test als je kanker hebt
* Marginal: $P(\text{Positief})$: De kans dat je positief test
* Posterior: $P(\text{Kanker}|\text{Positief})$: De kans dat je kanker hebt als je positief test

De algemene vorm van bovenstaande berekening kan geschreven worden als

$P(\text{H}|\text{e}) = \frac{P(\text{e}|\text{H})P(\text{H})}{P(\text{e})}$

waar: 
* e de evidence voorstelt (de features)
* H de hypothese voorstelt (de features horen bij klasse $i$)

Dit type classifier kan geimplementeerd worden door gebruik te maken van de [GaussianNB klasse](https://scikit-learn.org/stable/modules/naive_bayes.html) uit sklearn.

In [5]:
from sklearn import datasets
from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import GaussianNB
from sklearn import metrics

In [6]:
wine = datasets.load_wine()

X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.2)

naiveBayes = GaussianNB()
naiveBayes.fit(X_train, y_train)
y_pred = naiveBayes.predict(X_test)
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9444444444444444
