# Einleitung: Der Naive Bayes Klassifikator

Der Naive Bayes Klassifikator ist einer der einfachsten Werkzeuge des Maschinellen Lernens, wenn es darum geht, irgendwelche einkommenden Daten zu klassifizieren, z.B.:

- Ist eine eingehende eMail eine Spam-Email? (Klassifizierung Spam: ja/nein)
- Wird der Kunde aufgrund seines Einkaufsverhaltens in meinem Webshop wieder bei mir einkaufen? (Klassifizierung: Wiedereinkaufen: ja/nein)
- Chatbot: Um welches Thema geht es dem Kunden bei einer Anfrage? (Klassifizierung: z.B. Adressänderung / Beschwerde / Technisches Problem)

# Mathematik des Naiven Bayes (NB) Klassifikators

Sie müssen diesen Abschnitt nicht verstehen, aber für diejenigen, die die mathematischen Hintergründe hinter dem NB-Klassifkator interessieren, möchte ich diese auch nicht vorenthalten.

Falls Sie Mathematik in der Oberstufe hatten oder Sie haben mal als Student eine Vorlesung zum Thema Wahrscheinlichkeitsrechnung besucht, dann erinnern Sie sich vielleicht noch an den *Satz von Bayes*:

                P(B|A) * P(A)
    P(A|B) =  -----------------
                     P(B)

Klingt abstrakt, oder? Die einzelnen Termine in dieser Formel haben auch Namen:

* P(A|B) und P(B|A) werden *bedingte Wahrscheinlichkeiten* genannt
* P(A) und P(B) werden *a-priori Wahrscheinlichkeiten* genannt
* A und B werden in der Wahrscheinlichkeitsrechnung *Ereignisse* genannt

Machen wir es mal konkret:
* A soll das Ereignis sein, dass eine eingehende eMail eine Spam-eMail ist
* B soll das Ereignis sein, dass in der eingehenden eMail das Wort "Kaufen" vorkommt

Jetzt kommt eine neue eMail mit dem Wort "Kaufen" im eMail-Text rein. Ein Spam-Filter muss dann die Frage beantworten: Ist dies eine Spam-eMail?

Dazu wird die bedingte Wahrscheinlichkeit P(A|B) ausgerechnet, denn das ist genau die Wahrscheinlichkeit, dass eine eingehende eMail eine Spam-eMail ist unter der Voraussetzung, dass das Wort "Kaufen" detektiert wurde.

Der Satz von Bayes sagt uns, dass wir diese Wahrscheinlichkeit jetzt auch so ausrechnen können:

* wir schätzen die a-priori Wahrscheinlichkeit P(A) ab, indem wir z.B. ausrechnen, wie häufig in einem Beispieldatensatz von eMails Spam-eMails enthalten sind
* wir schätzen die a-priori Wahrscheinlichkeit P(B) ab, indem wir uns wieder einen Beispieldatensatz von eMails anschauen und die Anzahl von eMails zählen, in denen das Wort "Kaufen" vorkommt
* wir schätzen die bedingte Wahrscheinlichkeit P(B|A) ab, indem wir in unserem Beispieldatensatz von eMails zählen, wie oft eine eMail, die definitiv eine Spam-eMail war, auch das Wort "Kaufen" enthielt

Dann haben wir alle 3 Terme für den rechten Teil des *Satzes von Bayes* und können die Wahrscheinlichkeit, dass eine eingehende eMail mit dem Wort "Kaufen" eine Spam eMail ist, abschätzen.

Jetzt ist eine Entscheidung, ob eine eMail eine Spam eMail ist auf Basis von nur einem Wort sicherlich nicht ratsam. Den Satz von Bayes gibt es aber auch für mehrere Ereignisse (bzw. hier: Wörter) *B1, B2, ..., Bn*:


                            P(B1,B2, ..., Bn|A) * P(A)
    P(A|B1,B2,....,Bn) =  ----------------------------
                                 P(B1,B2, ..., Bn)
                                 
Um das Ganze formelmäßig zu vereinfachen, macht der *Naive Bayes Klassifikator* jetzt eine *naive Annahme*, die in der Welt so meistens nicht stimmt: er sagt, dass die Wörter (Merkmale) B1,B2,...,Bn unabhängig voneinander betrachtet werden können:

    
                            P(B1|A) * P(B2|A) * ... * P(Bn|A) * P(A)
    P(A|B1,B2,....,Bn) =  ------------------------------------------
                                       P(B1,B2, ..., Bn)
                                       
Außerdem hängt der Wert P(B1,B2, ..., Bn) im Nenner ja nicht von A ab, so dass der *Naive Bayes Klassifikator* "sagt": ob es eine Spam-eMail ist (A) oder nicht (^A) kann ich einfach entscheiden, indem ich schaue, welcher Wert größer ist:

    
                            
    P(A=eMail ist Spam|B1,B2,....,Bn) = 
                                   c * P(B1|A)* P(B2|A) * ... * P(Bn|A) * P(A)
    
    oder
    
    P(^A=eMail ist KEIN Spam|B1,B2,....,Bn) =
                                   c * P(B1|^A) * P(B2|^A) * ... * P(Bn|^A) * P(^A)

wobei c:=1/P(B1,B2, ..., Bn) nur eine Konstante ist und daher zum Vergleich welcher Wert größer ist nicht vorliegen muss.

# Wahrscheinlichkeitsverteilungen

Der Kern beim *Naiven Bayes Klassifikator* ist also das Schätzen der Wahrscheinlichkeiten P(B1|A), P(B2|A), etc. Doch was hier mit lauter "P"s schön mathematisch korrekt beschrieben ist, muss bei einer Implementierung im Computer konkretisiert werden. Man kann zur Modellierung von Wahrscheinlichkeiten diskrete Wahrscheinlichkeitswerte nehmen, oder aber auch, eine Wahrscheinlichkeitsverteilung zugrunde legen.

In scikit-learn sind es gleich mehrere Wahrscheinlichkeitsverteilungen, die sie auswählen können, z.B:

* Normalverteilung ("Gauß-Glocke") ==> [GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html)
* Multinomiale Verteilung ==> [MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB)
* Bernoulli Verteilung ==> [BernoulliNB](https://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes)