# Textklassifikation mit Naive Bayes

Der Gemeindechor von Hinterspiessen geht alljährlich auf einen Wanderausflug. Findet er auch dieses Jahr statt? Wir beantworten diese Frage mit einem *Naive-Bayes-Klassifikator*.
Lernziele:
- Was sind bedingte Wahrscheinlichkeiten? Sie lernen, diese selber zu berechnen.
- Wie funktioniert ein Naive-Bayes-Klassifikator? Sie lernen den Satz von Bayes und sehen, wie der Naive-Bayes-Klassifikator darauf aufbaut. 
- Was ist daran "naiv"? Wir besprechen den Begriff der statistischen Unabhängigkeit von Features und sehen, wie dies den Bayes-Klassifikator effizient macht. Eine kleine Überdosis an Formeln gewöhnt Sie an den Umgang mit Ausdrücken wie "$p(x|y)$"...

Die Wettervorhersagen sind schon bekannt, der Entscheid des Chorleiters steht noch aus. In den Vergangenen Jahren galt:

In [None]:
import pandas as pd
#Anzahl Kommastellen bei floating-point-Ausgabe:
%precision 3

In [None]:
#Wir laden die Daten:
df = pd.read_csv('../Materialien/datasets/Ausflugswetter.csv')

In [None]:
df

In [None]:
#Benenne Zielvariable um- nur zur Bequemlichkeit 
#(df.Ausflug findet statt ist keine korrekte Syntax, df.y schon):
df.columns=df.columns[:-1].tolist()+['y']
df.head(3)

## Bedingte Wahrscheinlichkeiten

Bedingte Wahrscheinlichkeiten ergeben sich, wenn die Wahrscheinlichkeit von Ereignissen voneinander abhängen. Eine Untersuchung (Daten frei erfunden!) zeigt z.B. 

||Mammografie diagnostiziert Brustkrebs|Mammografie findet keinen Brustkrebs|
|---------------------------------------------------------------------------|
|Patientin entwickelt Brustkrebs|2000|700|
|Patientin entwickelt keinen Brustkrebs|200|10000|
Die Brustkrebswahrscheinlichkeit wäre hier $$p(\text{Brustkrebs})=\frac{2000+700}{2000+700+200+10000}=\frac{2700}{12900}$$ und bezieht sich auf die Gesamtpopulation.  

**Aufgabe 1** Bestimmen Sie die folgenden Wahrscheinlichkeiten für den Ausflugsdatensatz:
1. $P(Temperatur=Heiss)=$  
2. $P(c=Ja)=$
3. ${\arg \max}_c P(c)=$  

Die Klassen c sind c=Nein und c=Ja und beziehen sich darauf, ob der Ausflug stattfindet. 

In [None]:
#Lösung 1:


In [None]:
#Lösung 2:


In [None]:
#Lösung 3:


Also ist $c=Ja$ die Antwort. "Ja" kommt häufiger vor als "Nein".

Nochmals die Tabelle zur Erinnerung:

||Mammografie diagnostiziert Brustkrebs|Mammografie findet keinen Brustkrebs|
|---------------------------------------------------------------------------|
|Patientin entwickelt Brustkrebs|2000|700|
|Patientin entwickelt keinen Brustkrebs|200|10000|

Eine bedingte Wahrscheinlichkeit ist nun ein Verhältnis, welches im Nenner nicht die Gesamtpopulation (hier alle 2000+700+200+10000=12900 Frauen) enthält, sondern nur jene, welche die Bedingung erfüllen: z.B. die Precision

$$p(\text{Patientin entwickelt Brustkrebs} \,|\, \text{Mammografie diagnostiziert Brustkrebs})=\frac{\#(\text{Patientin entwickelt diagnostizierten Brustkrebs})}{\#(\text{Mammografie diagnostiziert Brustkrebs})}=\frac{2000}{2200}$$
Oder auch den Recall

$$p(\text{Mammografie diagnostiziert Brustkrebs} \,|\, \text{Patientin entwickelt Brustkrebs})=\frac{\#(\text{Brustkrebsdiagnosen bei tatsächlich erkrankten Patientinnen})}{\#(\text{tatsächlich erkrankte Patientinnen})}=\frac{2000}{2700}$$

Den senkrechten Strich in $p(X|Y)$ liest man als "gegeben dass".

**Aufgabe 2** Bestimmen Sie die folgenden (bedingten) Wahrscheinlichkeiten auf dem Wetterausflugs-Datensatz:  
1. $P(Sonne|Ja)=$  
2. $P(Bewölkt|Nein)=$
3. $P(Ja|Regen)=$    

In [None]:
#Lösung 1:
P_Sonne_gegebendass_Ja = 
P_Sonne_gegebendass_Ja

In [None]:
vc = 
vc

In [None]:
#Lösung 2. P(Bewölkt|y=Nein) = 
P_Bewoelkt_gegebendass_Nein = 
P_Bewoelkt_gegebendass_Nein

## Satz von Bayes

Wir werden gleich den Satz von Bayes verwenden, um eine Vorhersage zu machen. Er lautet allgemein

$$
P(y|X) = \frac{P(X|y) P(y)}{P(X)}
$$

**Aufgabe 3:**
Bestimmen Sie die folgenden Grössen:

a) $P(sonnig)=$  
b) $P(Ja)=$  
c) $P(sonnig|Ja)=$      
d) $P(Ja|sonnig)=$   
e) $P(Nein)=$

In [None]:
#Lösung a:
a = 
a

In [None]:
#Lösung b:
b = 
b

In [None]:
#Lösung c:
c=
c

In [None]:
#Lösung d: 
P_gegeben_Sonne = 
P_gegeben_Sonne

In [None]:
d=
d

In [None]:
#Lösung e)
P_Nein = 
P_Nein

In [None]:
P_Ja+P_Nein

**Aufgabe 4** verifizieren Sie den Satz von Bayes in der Form
$$P(sonnig\,|\,Ja) P(Ja) = P(Ja\,|\,sonnig)P(sonnig),$$ d.h.
$$ c \cdot b = d\cdot a$$
mit a,b,c,d aus Aufgabe 3.

## Vorhersage

Ihre Aufgabe ist es nun, eine Vorhersage zu geben, ob bei den folgenden Bedingungen ein Ausflug wahrscheinlich ist:  
- sonnige Aussichten
- kühle Temperatur
- hohe Feuchtigkeit
- windig

Der Featurevektor $X$ ist also

$$X=(x_1,x_2,x_3,x_4)=(\text{sonnig,kühl,feucht,WAHR}),$$ 
und $$y=\text{Ja}.$$  
Der Satz von Bayes lautet also

$$
P(y \,|\, X) = \frac{P(X \,|\, y) \,P(y)}{P(X)}
$$
Die rechte Seite ist, wie wir gleich sehen werden, einfacher zu berechnen als die linke. Die linke Seite ist aber, was uns interessiert.

Sie müssen nämlich rausfinden, ob es bei gegebenen Wetterbedingungen die Wahrscheinlichkeit, dass der Ausflug statt findet, grösser ist als dass er nicht statt findet: $$P(y=Ja|X) > P(y=Nein|X)$$

Mit dem Satz von Bayes berechnen wir
$$
P(y=Ja|X) = \frac{P(X|y=Ja) P(Ja)}{P(X)}
$$
und 
$$
P(y=Nein|X) = \frac{P(X|y=Nein) P(Nein)}{P(X)}
$$

Die Bedingung $$P(y=Ja|X) > P(y=Nein|X)$$ kann damit umgeschrieben werden zu

$$\frac{P(X|y=Ja) P(Ja)}{P(X)} >\frac{P(X|y=Nein) P(Nein)}{P(X)}$$

Dies bedeutet also $$P(X|y=Ja) P(Ja) >P(X|y=Nein) P(Nein)$$

$P(X)$ hat sich gekürzt- es spielt hier also keine wichtige Rolle.

Es fehlt noch eine vereinfachende Annahme bis wir diese Ungleichung berechnen können.

## Naive Bayes Annahme
Unter "Naive Bayes" versteht man die Annahme, dass die einzelnen Feature voneinander statistisch unabhängig sind. Die Aussage beispielsweise, dass das Feature $x_1$ in einer Klasse $y$ unabhängig ist von dem Feature $x_2$ bedeutet, dass die bedingte Wahrscheinlichkeit $P(x_1|x_2,y)$ gar nicht von $x_2$ abhängt:
$$ P(x_1|x_2,y)=P(x_1|y)$$



Wenn wir also z.B. die Wahrscheinlichkeitsverteilung der Features $x_1,x_2$ innerhalb einer Klasse $y$ berechnen müssen, dann geht das ganz leicht: Diese Grösse $P(x_1,x_2|y)$ kann nämlich umgeformt werden:
$$P(x_1,x_2|y) = P(x_1|x_2,y)P(x_2|y)$$
(Das gilt ganz allgemein, auf Grund der Definition von bedingten Wahrscheinlichkeiten.) Weil nun aber $x_1$ von $x_2$ unabhängig ist, gilt eben $P(x_1|x_2,y)=P(x_1|y)$. Dies setzen wir oben ein:
$$P(x_1,x_2|y) = P(x_1|x_2,y)P(x_2|y)=P(x_1|y)P(x_2|y)$$
Für $N$ Variablen sähe das ganz ähnlich aus:
$$P(x_1,x_2,\ldots,x_N|y)=P(x_1|y)P(x_2|y)\cdots P(x_N|y)$$

Das ist sehr praktisch! Auf der linken Seite der Gleichung können sehr viel mehr unterschiedliche Grössen stehen als rechts. Wir werden viel weniger Trainingsdaten brauchen.
Anstelle der Wahrscheinlichkeitstabelle

| x_1    | x_2  | x_3  | x_4 | y   | $P(\vec{x}|y)$|
|--------|------|------|-----|-----|---------------|
| sonnig | kühl | hoch | WAHR| Ja  |...............|
| sonnig | kühl | tief | WAHR| ?   |...............|
| sonnig | mild | hoch | WAHR| ?   |...............|
| sonnig | mild | tief | WAHR| ?   |...............|
|  ...   | ...  | ...  | ... | ... |...............|

(insgesamt 3\*3\*2\*2\*2-1=71 Zeilen) müssen nun nur noch die folgenden Elemente angegeben werden:

- P(sonnig|Ja), P(bewölkt|Ja)
- P(sonnig|Nein),P(bewölkt|Nein)
- P(kühl|Ja), P(mild|Ja)
- P(kühl|Nein), P(mild|Nein)
- P(hoch|Ja), P(Normal|Ja)
- P(WAHR|Ja), 
- P(WAHR|Nein) 
- P(Ja)

also ((3-1)+(3-1)+(2-1)+(2-1))*2+1=13 Elemente. Beim Elementezählen werden Produkte also zu Summen-- bei vielen Features ist dies ein enormer Effizienzgewinn! Wir brauchen viel weniger Trainingsdaten. Andererseits ist die "naive" Annahme eben auch sehr streng, und passt nicht auf jede Situation. Spielt z.B. die Wortreihenfolge bei der Email-Spamklassifikation wirklich keine Rolle?


**Aufgabe 5:** Berechnen Sie die Grösse $$P(Sonne,kühl,hoch,WAHR|Ja)=P(Sonne|Ja)P(kühl|Ja)P(hoch|Ja)P(WAHR|Ja)$$

a) P(Sonne|Ja)=?  
b) P(kühl|Ja)=?  
c) P(hoch|Ja)=?  
d) P(WAHR|Ja)=?

Schreiben Sie dazu eine Funktion

def PXgivenY(df,Xname,Xval,Yname,Yval):
    ...

welche Ihre bedingten Wahrscheinlichkeiten berechnet.

In [None]:
def PXgivenY(df,Xname,Xval,Yname,Yval):
    """
    Berechnet für die Ereignistabelle df die Grösse P(Xname=Xval|Yname=Yval). 
    Sie wird berechnet als 
    "Anzahl Ereignisse mit Xname=Xval" / "Anzahl Ereignisse mit Yname=Yval".
    """
   
    return 

PXgivenY(df,'Aussicht','Sonne','y','Ja')

In [None]:
PXgivenY(df,'Temperatur','Kühl','y','Ja')

In [None]:
PXgivenY(df,'Feuchtigkeit','Hoch','y','Ja')

In [None]:
PXgivenY(df,'Wind','WAHR','y','Ja')

In [None]:
P_x_given_Ja = 

In [None]:
P_x_given_Nein = 

In [None]:
#Hier unterschlagen wir rechts einen Faktor 1/P(x)
P_Nein_given_x = 
P_Nein_given_x

In [None]:
P_Ja_given_x = 
P_Ja_given_x

Damit haben wir unseren Naive-Bayes-Klassifikator:

In [None]:
if P_x_given_Nein > P_x_given_Ja:
    print("Der Ausflug findet hoffentlich nächstes Jahr wieder statt.")
else:
    print("Der Ausflug findet statt!")