**Naive Bayes**

Naive Bayes-Klassifizierung ist eine maschinelle Lernmethode und geht auf den Mathematiker Bayes zurück. Es geht darum, dass man aufgrund von vorliegenden Daten, eine Aussage über die Wahrscheinlichkeit eines zukünftigen Ereignis treffen möchte. Die Basisdaten nennt man Aussagen oder auch Beweise. 


$$P(B/A) = \frac{(P A and B)}{PA}$$

Es gibt drei Arten von Naive Bayes-Modellen, zumindest drei wichtige Arten. Einmal das sogenannte Multinomiale-Modell, in dem Fall sind die Merkmale kategorial oder kontinuierlich und sie beschreiben diskrete Häufigkeitszählungen. 

Diskret heißt abzählbar, zum Beispiel die Anzahl von Worten in einer Menge von Daten. Es gibt das Bernouilli-Modell, das ist eine Vorhersage aufgrund binärer Feautures. 

Und es gibt die Gaußsche-Vorhersage, dabei haben wir Normalverteilung als Basis der Aussage. 

Für Naive Bayes-Modelle gibt es diverse Anwendungsfälle, beispielsweise die Spam- Erkennung bei E-Mails, die Kundenklassifizierung, eine Prognose über das Kreditrisiko bei Kunden oder auch Aussagen über gesundheitliche Risiken.


Damit man solche bedingten Wahrscheinlichkeiten nach dem Naive Bayes-Modell treffen kann, müssen gewisse Voraussetzungen erfüllt sein, es muss also Annahmen geben, die erfüllt sind. 


Die Prädikatoren müssen unabhängig voneinander sein. Und wir haben eine sogenannte A-priori-Annahme, das bedeutet vereinfacht, dass die historischen Bedingungen auch heute noch zutreffen müssen. Wenn die Bedingungen als die historischen Daten ermittelt wurden, heutzutage nicht mehr zutreffen, dann erhält man einfach auch falsche Aussagen. 



In [1]:
import numpy as np
import pandas as pd

import urllib.request

import sklearn
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.metrics import accuracy_score

## Naive Bayes
#### Naive Bayes zum Schutz vor Spam

Beim Projekt zu einer Naive Bayes-Klassifikation wird eine Art Spam-Schutz implementiert, dass aufgrund einer Basisdatenquelle versucht wird, Spam-Mails  zu erkennen. Das bedeutet, dass bestimmte Datensätze aufgrund gewisser Kriterien als eine Spam-Mail identifiziert werden. Andere werden als Nicht-Spam durchgehen. Die Vorhersagefunktionen werden als Beweis herangezogen. Es werden verschiedene Möglichkeiten für eine Naive Bayes Modelle zu erzeugen.

Dazu müssen die Häufigkeiten der Wörter und die Frequenzzählung in Binärwerte umgewandelt werden. Es werden die drei Klassen für den Bernoulli-, den Gauß- und den Multinomial-Test verwendet.


Die Basis für die Spam-Erkennung stammt aus einer bereits vorhandenen Datenbank( https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.data ).

Relevant für die **Spam-Erkennung** sind die ersten 48 Merkmale.

Die ersten 48 Spalten erhalten Nullen und Einsen und die andere Spalten erhalten irgendwelche Informationen, die in keiner Weise standardisiert sind und die auch in dem Modell keine weitere Berücksichtigung bekommen sollen.

Die Logik ist die Häufigkeit der Wortzählung und diese sind hier in dieser Datenquelle bereits standardisiert und auch skaliert. Das hat den wesentlichen Vorteil, dass wir hier diese Datenquelle nicht weiter aufbereiten werden müssen.





In [2]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.data"
raw_data = urllib.request.urlopen(url)
dataset = np.loadtxt(raw_data, delimiter=",")

pf=pd.DataFrame(dataset)

pf.head()


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,48,49,50,51,52,53,54,55,56,57
0,0.0,0.64,0.64,0.0,0.32,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.778,0.0,0.0,3.756,61.0,278.0,1.0
1,0.21,0.28,0.5,0.0,0.14,0.28,0.21,0.07,0.0,0.94,...,0.0,0.132,0.0,0.372,0.18,0.048,5.114,101.0,1028.0,1.0
2,0.06,0.0,0.71,0.0,1.23,0.19,0.19,0.12,0.64,0.25,...,0.01,0.143,0.0,0.276,0.184,0.01,9.821,485.0,2259.0,1.0
3,0.0,0.0,0.0,0.0,0.63,0.0,0.31,0.63,0.31,0.63,...,0.0,0.137,0.0,0.137,0.0,0.0,3.537,40.0,191.0,1.0
4,0.0,0.0,0.0,0.0,0.63,0.0,0.31,0.63,0.31,0.63,...,0.0,0.135,0.0,0.135,0.0,0.0,3.537,40.0,191.0,1.0


In [3]:
pf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4601 entries, 0 to 4600
Data columns (total 58 columns):
0     4601 non-null float64
1     4601 non-null float64
2     4601 non-null float64
3     4601 non-null float64
4     4601 non-null float64
5     4601 non-null float64
6     4601 non-null float64
7     4601 non-null float64
8     4601 non-null float64
9     4601 non-null float64
10    4601 non-null float64
11    4601 non-null float64
12    4601 non-null float64
13    4601 non-null float64
14    4601 non-null float64
15    4601 non-null float64
16    4601 non-null float64
17    4601 non-null float64
18    4601 non-null float64
19    4601 non-null float64
20    4601 non-null float64
21    4601 non-null float64
22    4601 non-null float64
23    4601 non-null float64
24    4601 non-null float64
25    4601 non-null float64
26    4601 non-null float64
27    4601 non-null float64
28    4601 non-null float64
29    4601 non-null float64
30    4601 non-null float64
31    4601 non-null float

In [5]:
#die Daten werden nur bis Spalte 48 verwenden.
#Spalten von den Spaltenindex 0 bis 48
#extrahiere daraus einen Dataset X  
#Y ist  Zielvariable, unser Target


X = dataset[:,0:48]

y = dataset[:, -1]

dfx=pd.DataFrame(X)
dfx.info()

dfy=pd.DataFrame(y)
dfy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4601 entries, 0 to 4600
Data columns (total 48 columns):
0     4601 non-null float64
1     4601 non-null float64
2     4601 non-null float64
3     4601 non-null float64
4     4601 non-null float64
5     4601 non-null float64
6     4601 non-null float64
7     4601 non-null float64
8     4601 non-null float64
9     4601 non-null float64
10    4601 non-null float64
11    4601 non-null float64
12    4601 non-null float64
13    4601 non-null float64
14    4601 non-null float64
15    4601 non-null float64
16    4601 non-null float64
17    4601 non-null float64
18    4601 non-null float64
19    4601 non-null float64
20    4601 non-null float64
21    4601 non-null float64
22    4601 non-null float64
23    4601 non-null float64
24    4601 non-null float64
25    4601 non-null float64
26    4601 non-null float64
27    4601 non-null float64
28    4601 non-null float64
29    4601 non-null float64
30    4601 non-null float64
31    4601 non-null float

Aufteilung vornehmen zwischen Trainingsdaten und Testdaten. 

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.33, random_state=17)

Die Trainingsdaten für X,  haben **3.082 Datensätze**, und das ist genau zwei Drittel hier von diesen 4.601 Datensätzen der Originaldatenmenge. 

In [13]:
pf=pd.DataFrame(X_train)
pf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3082 entries, 0 to 3081
Data columns (total 48 columns):
0     3082 non-null float64
1     3082 non-null float64
2     3082 non-null float64
3     3082 non-null float64
4     3082 non-null float64
5     3082 non-null float64
6     3082 non-null float64
7     3082 non-null float64
8     3082 non-null float64
9     3082 non-null float64
10    3082 non-null float64
11    3082 non-null float64
12    3082 non-null float64
13    3082 non-null float64
14    3082 non-null float64
15    3082 non-null float64
16    3082 non-null float64
17    3082 non-null float64
18    3082 non-null float64
19    3082 non-null float64
20    3082 non-null float64
21    3082 non-null float64
22    3082 non-null float64
23    3082 non-null float64
24    3082 non-null float64
25    3082 non-null float64
26    3082 non-null float64
27    3082 non-null float64
28    3082 non-null float64
29    3082 non-null float64
30    3082 non-null float64
31    3082 non-null float

Die Bernoulli arbeitet auf binären Datenstrukturen. Hier wird ein Parameter TRUE beim Konstruktor angegeben, 
der dafür sorgt, dass die Daten binarisiert werden. Als Nächstes wird die fit-Methode um unsere Trainingsdaten geordnet. Die Ausgabe von dem Modell werden in einen Test vorgenommen und die erwarteten Werte werden auf y_expect gespeichert.


Die Vorhersage wird mit einer Methode predict und den übergebenen Testwerten bestimmt, die von einem Objekt vom Typ dieser Klasse BernNB bereitgestellt wird. 


Mit der Methode **accuracy_score** wird die Genauigkeit von diesem Modell geprüft.


Das Modell erhält einen Genauigkeitswert von 85% oder genauer genommen. Bei Erhalten eines Eins ist das Modell perfekt. Je höher der Wert ist, desto genauer ist die Vorhersage.

In [14]:
BernNB = BernoulliNB(binarize=True)
BernNB.fit(X_train, y_train)
print(BernNB)

y_expect = y_test
y_pred = BernNB.predict(X_test)
print (accuracy_score(y_expect, y_pred))

BernoulliNB(alpha=1.0, binarize=True, class_prior=None, fit_prior=True)
0.8558262014483212


Die varianten  MultiNB, GausNB werden getestet, um die beste Model zu suchen.



In [15]:
MultiNB = MultinomialNB()

MultiNB.fit(X_train, y_train)
print(MultiNB)

y_pred = MultiNB.predict(X_test)
print (accuracy_score(y_expect, y_pred))

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)
0.8736010533245556


In [13]:
GausNB = GaussianNB()
GausNB.fit(X_train, y_train)
print(GausNB)

y_pred = GausNB.predict(X_test)
print (accuracy_score(y_expect, y_pred))

GaussianNB(priors=None)
0.8130348913759052


Bei der Methode Bernoulli wird ein anderer Paremeter bei der Binarisierung gesetzt.

Hier wird statt True ein numerischer Wert angesetzt, der die Art beeinflusst, wie es binarisiert wird.

Mit dieser Einstellung erreicht man mit dem Bernoulli-Verfahren sogar fast **90%** Genauigkeit, also 89,5, und das ist von den vier Varianten, die beste Genauigkeit, die man erreichen kann.

In [14]:
BernNB = BernoulliNB(binarize=0.1)
BernNB.fit(X_train, y_train)
print(BernNB)

y_expect = y_test
y_pred = BernNB.predict(X_test)
print (accuracy_score(y_expect, y_pred))

BernoulliNB(alpha=1.0, binarize=0.1, class_prior=None, fit_prior=True)
0.8953258722843976
