# Einleitung: Der Naive Bayes Klassifikator

Der Naive Bayes Klassifikator ist einer der einfachsten Werkzeuge des Maschinellen Lernens, wenn es darum geht, irgendwelche einkommenden Daten zu klassifizieren, z.B.:

- Ist eine eingehende eMail eine Spam-Email? (Klassifizierung Spam: ja/nein)
- Wird der Kunde aufgrund seines Einkaufsverhaltens in meinem Webshop wieder bei mir einkaufen? (Klassifizierung: Wiedereinkaufen: ja/nein)
- Chatbot: Um welches Thema geht es dem Kunden bei einer Anfrage? (Klassifizierung: z.B. Adressänderung / Beschwerde / Technisches Problem)

# Mathematik des Naiven Bayes (NB) Klassifikators

Sie müssen diesen Abschnitt nicht verstehen, aber für diejenigen, die die mathematischen Hintergründe hinter dem NB-Klassifkator interessieren, möchte ich diese auch nicht vorenthalten.

Falls Sie Mathematik in der Oberstufe hatten oder Sie haben mal als Student eine Vorlesung zum Thema Wahrscheinlichkeitsrechnung besucht, dann erinnern Sie sich vielleicht noch an den *Satz von Bayes*:

                P(B|A) * P(A)
    P(A|B) =  -----------------
                     P(B)

Klingt abstrakt, oder? Die einzelnen Termine in dieser Formel haben auch Namen:

* P(A|B) und P(B|A) werden *bedingte Wahrscheinlichkeiten* genannt
* P(A) und P(B) werden *a-priori Wahrscheinlichkeiten* genannt
* A und B werden in der Wahrscheinlichkeitsrechnung *Ereignisse* genannt

Machen wir es mal konkret:
* A soll das Ereignis sein, dass eine eingehende eMail eine Spam-eMail ist
* B soll das Ereignis sein, dass in der eingehenden eMail das Wort "Kaufen" vorkommt

Jetzt kommt eine neue eMail mit dem Wort "Kaufen" im eMail-Text rein. Ein Spam-Filter muss dann die Frage beantworten: Ist dies eine Spam-eMail?

Dazu wird die bedingte Wahrscheinlichkeit P(A|B) ausgerechnet, denn das ist genau die Wahrscheinlichkeit, dass eine eingehende eMail eine Spam-eMail ist unter der Voraussetzung, dass das Wort "Kaufen" detektiert wurde.

Der Satz von Bayes sagt uns, dass wir diese Wahrscheinlichkeit jetzt auch so ausrechnen können:

* wir schätzen die a-priori Wahrscheinlichkeit P(A) ab, indem wir z.B. ausrechnen, wie häufig in einem Beispieldatensatz von eMails Spam-eMails enthalten sind
* wir schätzen die a-priori Wahrscheinlichkeit P(B) ab, indem wir uns wieder einen Beispieldatensatz von eMails anschauen und die Anzahl von eMails zählen, in denen das Wort "Kaufen" vorkommt
* wir schätzen die bedingte Wahrscheinlichkeit P(B|A) ab, indem wir in unserem Beispieldatensatz von eMails zählen, wie oft eine eMail, die definitiv eine Spam-eMail war, auch das Wort "Kaufen" enthielt

Dann haben wir alle 3 Terme für den rechten Teil des *Satzes von Bayes* und können die Wahrscheinlichkeit, dass eine eingehende eMail mit dem Wort "Kaufen" eine Spam eMail ist, abschätzen.

Jetzt ist eine Entscheidung, ob eine eMail eine Spam eMail ist auf Basis von nur einem Wort sicherlich nicht ratsam. Den Satz von Bayes gibt es aber auch für mehrere Ereignisse (bzw. hier: Wörter) *B1, B2, ..., Bn*:


                            P(B1,B2, ..., Bn|A) * P(A)
    P(A|B1,B2,....,Bn) =  ----------------------------
                                 P(B1,B2, ..., Bn)
                                 
Um das Ganze formelmäßig zu vereinfachen, macht der *Naive Bayes Klassifikator* jetzt eine *naive Annahme*, die in der Welt so meistens nicht stimmt: er sagt, dass die Wörter (Merkmale) B1,B2,...,Bn unabhängig voneinander betrachtet werden können:

    
                            P(B1|A) * P(B2|A) * ... * P(Bn|A) * P(A)
    P(A|B1,B2,....,Bn) =  ------------------------------------------
                                       P(B1,B2, ..., Bn)
                                       
Außerdem hängt der Wert P(B1,B2, ..., Bn) im Nenner ja nicht von A ab, so dass der *Naive Bayes Klassifikator* "sagt": ob es eine Spam-eMail ist (A) oder nicht (^A) kann ich einfach entscheiden, indem ich schaue, welcher Wert größer ist:

    
                            
    P(A=eMail ist Spam|B1,B2,....,Bn) = 
                                   c * P(B1|A)* P(B2|A) * ... * P(Bn|A) * P(A)
    
    oder
    
    P(^A=eMail ist KEIN Spam|B1,B2,....,Bn) =
                                   c * P(B1|^A) * P(B2|^A) * ... * P(Bn|^A) * P(^A)

wobei c:=1/P(B1,B2, ..., Bn) nur eine Konstante ist und daher zum Vergleich welcher Wert größer ist nicht vorliegen muss.

# Wahrscheinlichkeitsverteilungen

Der Kern beim *Naiven Bayes Klassifikator* ist also das Schätzen der Wahrscheinlichkeiten P(B1|A), P(B2|A), etc. Doch was hier mit lauter "P"s schön mathematisch korrekt beschrieben ist, muss bei einer Implementierung im Computer konkretisiert werden. Man kann zur Modellierung von Wahrscheinlichkeiten diskrete Wahrscheinlichkeitswerte nehmen, oder aber auch, eine Wahrscheinlichkeitsverteilung zugrunde legen.

In scikit-learn sind es gleich mehrere Wahrscheinlichkeitsverteilungen, die sie auswählen können, z.B:

* Normalverteilung ("Gauß-Glocke") ==> [GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html)
* Multinomiale Verteilung ==> [MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB)
* Bernoulli Verteilung ==> [BernoulliNB](https://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes)

# Datensatzauswahl

Wir wollen jetzt mal mit einem *Naive Bayes Klassifikator* ein Klassifikationsproblem beispielhaft lösen.

Dazu brauchen wir ein Klassifikationsproblem bzw. einen Datensatz. Ein sehr interessanter Datensatz ist der *Titanic Datensatz*.

Am 14. April 1912 gegen 23:40 Uhr kam es zu einer der berühmtesten Katastrophen der Seefahrt. Die *RMS Titanic* der britischen Reederei *White Star Line* kollidierte auf Ihrer Jungfernfahrt 300 Seemeilen vor Neufundland nach einer Kollision mit einem Eisberg und sank ca. zwei Stunden und 40 Minuten später. Bei dem Unglück kamen leider 1514 der über 2200 Personen an Bord ums Leben.

Der (relativ kleine) Datensatz, der auf der sehr hilfreichen Datensatzwebseite [*Kaggle*](https://www.kaggle.com/) zur Verfügung steht, enthält nun einige Informationen zu diesen Passagieren, insbesondere, ob der Passagier überlebte oder nicht.

Damit stellt sich die Frage: gibt es hier in den Daten irgendwelche Muster, die es erlauben, für Testpassagiere vorherzusagen ob sie überleben oder nicht? Oder anders formuliert: Können wir nur auf Basis der Informationen über den Passagier seine Klasse *Überlebender* vs. *Nicht Überlebender* klassifizieren? 

# Datensatz einlesen

Lesen wir erstmal den Datensatz mittels der Python-Bibliothek *Pandas* ein.

Hinweis: Installieren Sie das Softwarepaket *Anaconda*. Es erlaubt Ihnen dann sehr komfortabel Umgebungen mit verschiedenen Python-Paketen zu verwalten und neue Pakete mittels des Befehls

`conda install <paketname>`

zu installieren. Sie können die Python-Bibliohtke Pandas zur Arbeit mit Tabellendaten zum Beispiel mittels

`conda install pandas`

rasch auf Ihrem Computer installieren.

Folgender Python-Code liest nun die Trainingsdaten des *Titanic* Datensatzes ein:

In [1]:
import pandas as pd

fname = "daten/01_titanic/train.csv"
df_train = pd.read_csv( fname )

Schauen wir uns mal die eingelesene Tabelle an:

In [2]:
df_train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Es wurden nur die ersten fünf und die letzten fünf Zeilen der Tabelle ausgegeben, da es sehr viele sind: insgesamt 891 Zeilen. Wir bekommen aber einen ersten Eindruck für die Daten. Ein guter Datensatz auf der Datensatzwebseite *Kaggle* hat auch eine gute Beschreibung der Bedeutung (Semantik) der Daten hinterlegt. Dies ist für diesen kleineren Datensatz der Fall. Sie können die genaue Beschreibung der einzelnen Spalten der Tabelle unter

https://www.kaggle.com/c/titanic/data

nachlesen.

Greifen wir uns zum Beispiel mal die erste Zeile (d.h. den ersten Passagier) raus:

In [3]:
df_train.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                              22.00
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

Der männliche Passagier *Mr. Braund* mit der ID 1 hat leider nicht überlebt. Er hatte ein Ticket für die Passagierklasse 3. Er war 22 Jahre alt und hatte Familie (*SibSp=1* = Siblings or Spouses = Geschwister oder Eheparter) mit an Bord, aber keine Eltern oder Kinder (*Parch=0* = Parents or Children). Der Ticketpreis war 7.25, was auch immer die Währung war. Er stieg auf die Titanic in Southampton (C = Cherbourg, Q = Queenstown, S = Southampton).

Welche Kabine *Mr. Braund* hatte, ist in dem Datensatz nicht festgehalten: *NaN* steht in den Tabellendaten für Lücken. So sind sie halt, die realen Daten! Es gibt oft Datenlücken und damit muss man in der Vorbereitung für das Machine Learning auch irgendwie umgehen, z.B.

* Spalten (Merkmale) entfernen, in denen es auch nur einen fehlenden Eintrag gibt.<br>
  Nachteil: weniger Inputs zur Verfügung.

* Zeilen (hier: Passagiere) entfernen, wenn es irgendwo eine Spalte mit einem fehlerhaften Eintrag bit.<br>
  Nachteil: weniger Beispieldaten (Beispielpassagiere) stehen für das Training zur Verfügung
  
* Lücken auf sinnvolle Werte setzen, z.B. auf 0<br>
  Nachteil: Gefährlich für das Machine Learning: ein fehlender Wert ist was anderes als ein konkreter Wert

* Lücken durch andere Datensätze ergänzen: gibt es eine ergänzende oder bessere Datenquelle, in der die Lücke nicht da ist?<br>
  Nachteil: Es kann aufwändig sein, solche ergänzenden Datenquellen zu finden.
  
* Lücken durch benachbarte Werte interpolieren<br>
  Nachteil: Gefährlich für das Machine Learning: Interpolierte Werte sind oft spekulative Werte.



# Auswahl von Inputmerkmalen

Von den vorhandenen Daten wollen wir jetzt einige auswählen. Lassen Sie uns einfach mal versuchen: kann ein *Naive Bayes Klassifikator* vielleicht nur auf Basis der beiden Merkmale:

* Alter
* Passagierklasse

vorhersagen, ob ein Passagier überlebt hat?

In [4]:
df_train_small = df_train[ ["Age", "Pclass", "Survived"] ]

In [5]:
df_train_small

Unnamed: 0,Age,Pclass,Survived
0,22.0,3,0
1,38.0,1,1
2,26.0,3,1
3,35.0,1,1
4,35.0,3,0
...,...,...,...
886,27.0,2,0
887,19.0,1,1
888,,3,0
889,26.0,1,1


Die Tabelle hat jetzt nur noch 3 Spalten. Die letzte Spalte *Survived* ist nachher diejenige, die wir vorhersagen wollen: unser Klassifikationsergebnis. Aber schon hier sehen wir bei Passagier 888 eine Datenlücke. Wir versuchen mal einen Überblick über die Datenlücken zu bekommen:

In [6]:
df_train_small.describe()

Unnamed: 0,Age,Pclass,Survived
count,714.0,891.0,891.0
mean,29.699118,2.308642,0.383838
std,14.526497,0.836071,0.486592
min,0.42,1.0,0.0
25%,20.125,2.0,0.0
50%,28.0,3.0,0.0
75%,38.0,3.0,1.0
max,80.0,3.0,1.0


Die `describe()` Methode einer Pandas-Tabelle ist eine sehr rasche Art, einen Überblick bzw. eine *deskriptive Statistik* pro Spalte zu erhalten. Wir sehen nicht nur die Mittelwerte:

- mittleres Alter war: 29 Jahre
- mittlere Pclass war: 2.3
- Anzahl der Überlebenden war (in diesen Trainingsdaten): 38%

sondern auch Minima und Maxima-Werte. Zum Beispiel war der älteste Passagier anscheinend 80 Jahre alt.

Um Datenlücken aufzuspüren ist diese Methode aber auch sehr hilfreich, denn der `count` Wert gibt an, wieviele Zeilen in der Tabelle einen Wert ungleich `NaN` haben. Da es 891 Zeilen sind, aber nur in 714 Zeilen in der Spalte "Alter" auch ein Alter eingetragen ist, müssen wir leider einige Daten verwerfen:

In [7]:
df_train_small_filtered = df_train_small.dropna()

In [8]:
df_train_small_filtered

Unnamed: 0,Age,Pclass,Survived
0,22.0,3,0
1,38.0,1,1
2,26.0,3,1
3,35.0,1,1
4,35.0,3,0
...,...,...,...
885,39.0,3,0
886,27.0,2,0
887,19.0,1,1
889,26.0,1,1


In [9]:
df_train_small_filtered.describe()

Unnamed: 0,Age,Pclass,Survived
count,714.0,714.0,714.0
mean,29.699118,2.236695,0.406162
std,14.526497,0.83825,0.49146
min,0.42,1.0,0.0
25%,20.125,1.0,0.0
50%,28.0,2.0,0.0
75%,38.0,3.0,1.0
max,80.0,3.0,1.0


Jetzt haben wir zwar nur noch 714 Beispielpassagiere für das Training des *Naive Bayes Klassifkators*, aber dafür gibt es keine Datenlücken mehr.

# Aufteilung in Input- und Outputdaten

Eigentlich bei jedem Machine Learning Modell werden die Daten in Input- und Outputdaten für das Training sowie das spätere Testen des Modells aufgeteilt:

- `x_train`: Inputdaten für das Training des Modells:<br>
  Das sind die Eingabemerkmale.
  
- `y_train`: Outputdaten für das Training des Modells:<br>
  Das soll rauskommen: Stelle die Parameter des Modells so ein, dass das auch möglichst rauskommt.
  
- `x_test`: Inputdaten für das Testen des Modells<br>
  Das sind die Eingabemerkmale von frischen Testbeispielen, auf denen das Modell nicht trainiert wurde.
  
- `y_test`: Outputdaten für das Testen des Modells<br>
  Das soll rauskommen. Hat unser Modell das denn auch geschafft, also genau das ausgegeben?
  
Bisher bereiten wir nur die Trainingsdaten vor:

In [10]:
x_train = df_train_small_filtered[ ["Age", "Pclass"] ].values

In [11]:
x_train

array([[22.,  3.],
       [38.,  1.],
       [26.,  3.],
       ...,
       [19.,  1.],
       [26.,  1.],
       [32.,  3.]])

In [12]:
x_train.shape

(714, 2)

In [13]:
y_train = df_train_small_filtered[ ["Survived"] ].values

In [14]:
y_train[:6]

array([[0],
       [1],
       [1],
       [1],
       [0],
       [0]])

In [15]:
y_train.shape

(714, 1)

In [16]:
y_train = y_train.reshape(-1)

In [17]:
y_train

array([0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1,
       0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1,
       1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1,
       0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1,
       0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1,
       1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1,

# Skalieren der Inputdaten

Das Training der meisten Machine Learning Modelle fällt besser aus, wenn die Inputmerkmale im gleichen Wertebereich sind, z.B. zwischen -1.0 und 1.0. Hintergrund ist, dass viele Machine Learning Modelle sogenannte *Hyperparameter* besitzen, die auf Werte eingestellt sind, die für skalierte Inputmerkmale vorbereitet wurden.

Hier verwenden wir den [`StandardScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html) von scikit-learn, der spaltenweise die Daten *mittelwertfrei* macht (d.h. den Mittelwert von jedem Datum abzieht; man spricht auch von *Zentrierung*) und auch noch so skaliert, dass die Standardabweichung der Daten 1.0 ist. In der Statistik spricht man von der [*z-Transformation*](https://de.wikipedia.org/wiki/Standardisierung_(Statistik) und in der Mathematik von *standardisierten Zufallsvariabeln*:

Für jeden Wert `x` wird also ein neuer Wert `z` berechnet:

         x-µ  
    z = ------
          σ
      
wenn `µ` der Mittelwert ist und `σ` die Standardabweichung der Daten in einer Spalte.



In [18]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)

In [19]:
x_train_scaled

array([[-0.53037664,  0.91123237],
       [ 0.57183099, -1.47636364],
       [-0.25482473,  0.91123237],
       ...,
       [-0.73704057, -1.47636364],
       [-0.25482473, -1.47636364],
       [ 0.15850313,  0.91123237]])

In [20]:
x_train_scaled.shape

(714, 2)

In [21]:
column1 = x_train_scaled[:,0]
column2 = x_train_scaled[:,1]

In [22]:
column1.min(), column1.max(), column1.mean(), column1.std()

(-2.0169791879680417, 3.4651260350566906, 2.338621049070358e-16, 1.0)

In [23]:
column2.min(), column2.max(), column2.mean(), column2.std()

(-1.4763636433368303, 0.9112323732939666, -5.473368412717859e-17, 1.0)

Übrigens ist der `StandardScaler()` nicht der einzige Skalierer, den scitkit-learn zu bieten hat. Es gibt zum Beispiel auch noch:

- den [`MinMaxScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler), der den kleinsten Wert auf z.B. 0.0, den größten Wert auf z.B. 1.0 und alle Werte dazwischen linear abbildet
- den [`RobustScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html#sklearn.preprocessing.RobustScaler), eine robuste Variante eines Skalierers, der robust gegenüber Ausreißern ist, indem zur Berechnung der Skalierungsparameter nur Werte aus bestimmten Quantile einfließen: und zwar solche, die zwischen dem 25. und dem 75. Percentil liegen (dem sog. *Interquantilbereich* = *Interquantile Range (IQR)*).

Hinweis:
- das 25. Percentil bedeutet: 25 Prozent aller Werte in den Daten sind niedriger als dieser Wert
- das 75. Percentil bedeutet: 75 Prozent aller Werte in den Daten sind niedriger als dieser Wert

# Erzeugen und Trainieren des Klassifikators

Das Erzeugen eines *Naive Bayes Klassifikators* ist dank scikit-learn denkbar einfach. Durch den Aufruf der `fit()`-Methode des Klassifikators werden anhand der Trainingsdaten in x_train_scaled die Parameter der zugrunde liegenden Wahrscheinlichkeitsverteilungen für

* die a-priori Wahrscheinlichkeiten P(A=Überlebender) bzw. P(^A=Nicht Überlebender)
* die bedingten Wahrscheinlichkeiten
  * P(B1=Alter=x|A=Überlebender) bzw. P(B1=Alter=x|^A=Nicht Überlebender)
  * P(B2=Passagierklasse=y|A=Überlebender) bzw. P(B2=Passagierklasse=y|^A=Nicht Überlebender)
  
geschätzt, die wir später brauchen, wenn wir die Wahrscheinlichkeiten für alle möglichen Klassen (hier nur 2) ausrechnen wollen:

* P(Klasse1=A=Überlebender|B1=Alter=x, B2=Passagierklasse=y)
* P(Klasse2=^A=Nicht Überlebender|B1⁼Alter=x, B2=Passagierklasse=y)

Man beachten, dass es hier nur zwei mögliche Klassifikationsergebnisse gibt. Es handelt sich also um ein *binäres* Klassifkationsproblem. Das muss aber nicht immer so ein, man hätte z.B. auch hier klassifizieren können (wenn man denn entsprechende Traininsdaten hätte):

* Klasse1 = Überlebend ohne Folgeschäden
* Klasse2 = Überlebend mit Folgeschäden (z.B. Erfrierungen)
* Klasse3 = Nicht überlebend



In [24]:
from sklearn.naive_bayes import GaussianNB

classifier = GaussianNB()
classifier.fit(x_train_scaled, y_train)

GaussianNB()

# Testen des Klassifikators auf den Trainingsdaten

Jetzt wollen wir mal sehen, wie gut der Klassifikator die Klasse pro Passagier auf den Trainingsdaten vorhersagt. Der richtige Test muss später natürlich auf Daten erfolgen, die *nicht* in das Training miteingeflossen sind, d.h. auf *frischen Testdaten*.

In [25]:
y_pred_train = classifier.predict(x_train_scaled)

Unser Modell, der *Naive Bayes Klassifkator* sagt jetzt Folgendes voraus:

In [26]:
y_pred_train

array([0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1,
       0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0,

Vergleichen wir das mal mit den *Grundwahrheitsdaten* (Englisch: *Ground truth data*) für die ersten 10 Passagiere:

In [27]:
y_train[:10]

array([0, 1, 1, 1, 0, 0, 0, 1, 1, 1])

In [28]:
y_pred_train[:10]

array([0, 1, 0, 1, 0, 1, 0, 0, 0, 0])

In [29]:
errors = y_train - y_pred_train

In [30]:
errors

array([ 0,  0,  1,  0,  0, -1,  0,  1,  1,  1,  0,  0,  0,  0,  1,  0,  0,
        0,  1,  1,  0,  0,  1, -1, -1,  0, -1, -1,  0,  0,  1,  0,  0,  0,
        1,  0,  0,  0,  0,  1, -1,  1,  0,  0,  0,  0,  0, -1,  0,  1,  0,
        1,  0,  0,  0,  0,  0,  1,  0,  0,  1,  0,  1, -1,  1,  1,  0,  0,
        0,  0,  0, -1,  0,  0, -1,  0,  1,  0,  0, -1,  0,  0,  0,  1,  0,
       -1,  0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,  1, -1,  1,  1,  0,
        0,  0,  0,  1,  0,  0,  0, -1,  0, -1,  1,  1,  0,  0,  0,  1,  0,
        0,  0,  0,  0,  0,  0, -1,  1,  0,  0,  1,  0,  0,  0,  1,  0,  0,
       -1,  0,  1,  0, -1,  0, -1,  0,  0,  0,  0,  1,  0,  0,  0,  1,  0,
        1,  0,  0,  0,  0,  0,  0,  0,  0,  1,  0,  0,  1,  1,  0,  0,  1,
        0,  0,  0,  1,  0,  0,  0,  1,  0,  0,  0,  0,  1,  0,  0,  0,  0,
        0,  1,  0,  0,  0,  0,  0,  0,  0,  0, -1,  0,  1,  0,  0,  0, -1,
        0,  0,  1,  0,  0,  1,  1, -1, -1,  0,  0,  1,  0,  0,  1,  1, -1,
        0,  0,  0,  1,  0

Wir sehen hier also drei mögliche Fälle:

- Fehler = 0: der Klassifkator lag richtig<br>
  Entweder: es war Klasse 0 und es wurde 0 vorhergesagt<br>
  Oder: es war Klasse 1 und es wurde 1 vorhergesagt
  
- Fehler = +1: der Klassifkator lag falsch<br>
  Es war Klasse 1 und es wurde 0 vorhergesagt
  
- Fehler = -1: der Klassifkator lag falsch<br>
  Es war Klasse 0 und es wurde 1 vorhergesagt
  
Wenn wir die Anzahl der Einträge ungleich 0 berechnen, können wir schnell ausrechnen, in wieviel Prozent der Klassifkator richtig lag:

In [31]:
import numpy as np

anzahl_fehler = np.sum(np.abs(errors))
anzahl_fehler

215

In [32]:
anzahl_testdaten_gesamt = len(y_train)
anzahl_testdaten_gesamt

714

In [33]:
korrekt_klassifizierte_faelle = anzahl_testdaten_gesamt - anzahl_fehler
korrekt_klassifizierte_faelle

499

In [34]:
korrekt_klassifiziert_prozent = (korrekt_klassifizierte_faelle / anzahl_testdaten_gesamt) * 100.0
korrekt_klassifiziert_prozent

69.88795518207283

# Berechnung der Genauigkeit des Klassifikators

Um die tatsächlichen Klassen mit den prädizierten Klassen des Modells komfortabel zu vergleichen und zu berechnen, wieviel Prozent richtig sind, bietet scikit-learn wieder eine hilfreiche Funktion, nämlich `accuracy_score()`:

In [35]:
from sklearn.metrics import accuracy_score

bsp_y_pred  = [0, 1, 0, 1, 1, 1]
bsp_y_train = [0, 1, 1, 0, 1, 0]
accuracy_score(bsp_y_train, bsp_y_pred)

0.5

In diesem kleinen Beispiel sind 0.5 = 50% der Daten richtig vorhergesagt, da von den 6 Prädiktionen 3 korrekt sind.

Jetzt wenden wir diese Hilfsfunktion auf unsere prädizierten Daten `y_pred_train` und `y_train` an.

In [36]:
accuracy_score(y_train, y_pred_train)

0.6988795518207283

# Testen des Klassifikators auf frischen Testdaten

Eine Korrektklassifikationsrate von knapp 70% ist schon mal deutlich besser als die Ratewahrscheinlichkeit von 50%. Da aber nach einer ersten einfachen Analyse festgestellt werden konnte, dass die Überlebenswahrscheinlichkeit pauschal 38% war bzw. die Sterblichkeitsrate 62%, wäre ein Rateansatz bei dem bei jedem Passagier pauschal gesagt wird, dass er nicht überleben wird, bereits in 62% der Fälle richtig. D.h. wir gewinnen durch die zusätzlichen Informationen in etwa 8% mehr korrekte Klassifikation als jemand der "nur rät".

Um besser zu werden benötigen wir wahrscheinlich noch mehr Informationen über den Passagier, z.B. sein Geschlecht.

Aber jetzt wollen wir mal testen, wie gut der Klassifikator wirklich für frische Daten ist, die nicht in das Training miteingeflossen sind.

Dazu durchlaufen wir nochmal alle Schritte, trennen aber unsere Beispieldaten in zwei Teile: den ersten für das Training und den zweiten für das Testen.

In [37]:
df_train_small_filtered

Unnamed: 0,Age,Pclass,Survived
0,22.0,3,0
1,38.0,1,1
2,26.0,3,1
3,35.0,1,1
4,35.0,3,0
...,...,...,...
885,39.0,3,0
886,27.0,2,0
887,19.0,1,1
889,26.0,1,1


In [38]:
x = df_train_small_filtered[ ["Age", "Pclass"] ].values
y = df_train_small_filtered[ "Survived" ].values

In [39]:
x.shape

(714, 2)

In [40]:
y.shape

(714,)

In [41]:
scaler = StandardScaler()
x_scaled = scaler.fit_transform(x)

Von unseren 714 Beispielpassagieren nehmen wir jetzt im Folgenden mittels der hilfreichen Methode `train_test_split()` 80% für das Training und 20% für das Testen:

In [42]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x_scaled, y, test_size = 0.2, random_state = 0)

In [43]:
x_train.shape

(571, 2)

In [44]:
y_train.shape

(571,)

In [45]:
x_test.shape

(143, 2)

In [46]:
y_test.shape

(143,)

Wir lernen jetzt einen neuen *Naive Bayes Klassifikator*:

In [47]:
from sklearn.naive_bayes import GaussianNB

classifier = GaussianNB()
classifier.fit(x_train, y_train)

GaussianNB()

Dieses Mal testen wir den neuen Klassifizierer auf den *Testdaten* und nicht den *Trainingsdaten*:

In [48]:
y_pred_test = classifier.predict(x_test)

In [49]:
y_pred_test

array([0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0,
       1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0,
       1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0])

In [50]:
y_test

array([0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0,
       1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0,
       1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1])

Jetzt berechnen wir wieder wie gut der Klassifikator ist:

In [51]:
accuracy_score(y_test, y_pred_test)

0.6573426573426573

Der neue Klassifikator, der 20% weniger Trainingsdaten erhalten hat, damit wir noch ein paar frische Testdaten zurück halten, hat nun eine reduzierte Genauigkeit von 65%.

# Mehr Inputdaten

Wir wollen schauen, ob der *Naive Bayes Klassifikator* mit mehr Merkmalen als nur dem Alter und der Passagierklasse als Input noch besser werden kann.

In [52]:
df_train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Lassen Sie uns doch auch noch die Spalte über das Geschlecht des Passagiers hinzunehmen:

In [53]:
df_train_small = df_train[ ["Age", "Pclass", "Sex", "Survived"] ]

In [54]:
df_train_small

Unnamed: 0,Age,Pclass,Sex,Survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0
...,...,...,...,...
886,27.0,2,male,0
887,19.0,1,female,1
888,,3,female,0
889,26.0,1,male,1


Jetzt müssen wir aber noch etwas berücksichtigen: während das Alter und die Passagierklasse *numerische Merkmale* sind, ist das Geschlechtsmerkmal ein *kategorisches Merkmal*, das noch irgendwie numerisch für den Klassifikator repräsentiert werden muss.

Pandas stellt dazu glücklicherweise eine nette Hilfsfunktion `get_dummies()` zur Verfügung:

In [55]:
df_train_small_onehot = pd.get_dummies(df_train_small, columns=["Sex"])
df_train_small_onehot

Unnamed: 0,Age,Pclass,Survived,Sex_female,Sex_male
0,22.0,3,0,0,1
1,38.0,1,1,1,0
2,26.0,3,1,1,0
3,35.0,1,1,1,0
4,35.0,3,0,0,1
...,...,...,...,...,...
886,27.0,2,0,0,1
887,19.0,1,1,1,0
888,,3,0,1,0
889,26.0,1,1,0,1


Man sieht die Auswirkung ganz gut: aus einer Spalte `Sex` wurden zwei neue Spalten für die Kodierung des Geschlechts des Passagiers: `Sex_female` und `Sex_male`. Ist es ein Mann, steht in der Spalte `Sex_male` eine 1 und in `Sex_female` eine 0 und umgekehrt für Frauen. Es handelt sich um eine *one-hot Kodierung*.

Jetzt müssen wir trotzdem wieder noch alle Beispiele mit Lücken in den Daten verwerfen:

In [56]:
df_train_small_onehot_nanfiltered = df_train_small_onehot.dropna()

In [57]:
x = df_train_small_onehot_nanfiltered[ ["Age", "Pclass", "Sex_female", "Sex_male"] ].values
y = df_train_small_onehot_nanfiltered[ "Survived" ].values

scaler = StandardScaler()
x_scaled = scaler.fit_transform(x)

x_train, x_test, y_train, y_test = train_test_split(x_scaled, y, test_size = 0.2, random_state = 0)

Jetzt haben wir also vier Inputs statt den bisherigen zwei, was sich in der Form (*Shape*) der Daten widerspiegelt:

In [58]:
print(x_train.shape, y_train.shape)

(571, 4) (571,)


In [59]:
print(x_test.shape, y_test.shape)

(143, 4) (143,)


In [60]:
from sklearn.naive_bayes import GaussianNB

classifier = GaussianNB()

classifier.fit(x_train, y_train)

y_pred_test = classifier.predict(x_test)

In [61]:
accuracy_score(y_test, y_pred_test)

0.7972027972027972

Wow! Das hat es echt gebracht! Die Korrekt-Klassifikationsrate ist stark gestiegen! Sie beträgt nun 79%. Vermutlich weil ein Geschlecht eher überlebt hat als das andere?

# "Frauen und Kinder zuerst in die Boote"

Lassen Sie uns der Sache auf den Grund gehen. Unsere Daten auf denen wir den *Naive Bayes Klassifikator* stehen originär in dieser Pandas-Tabelle:

In [65]:
d = df_train_small_onehot_nanfiltered
d

Unnamed: 0,Age,Pclass,Survived,Sex_female,Sex_male
0,22.0,3,0,0,1
1,38.0,1,1,1,0
2,26.0,3,1,1,0
3,35.0,1,1,1,0
4,35.0,3,0,0,1
...,...,...,...,...,...
885,39.0,3,0,1,0
886,27.0,2,0,0,1
887,19.0,1,1,1,0
889,26.0,1,1,0,1


Mit folgendem Ausdruck können wir zählen wie oft Passagiere Frauen sind und überlebt haben:

In [66]:
tabelle_frauen_die_ueberlebten = d[ (d["Sex_female"]==1) & (d["Survived"]==1) ]

In [67]:
tabelle_frauen_die_ueberlebten

Unnamed: 0,Age,Pclass,Survived,Sex_female,Sex_male
1,38.0,1,1,1,0
2,26.0,3,1,1,0
3,35.0,1,1,1,0
8,27.0,3,1,1,0
9,14.0,2,1,1,0
...,...,...,...,...,...
874,28.0,2,1,1,0
875,15.0,3,1,1,0
879,56.0,1,1,1,0
880,25.0,2,1,1,0


In [69]:
tabelle_frauen = d[ d["Sex_female"] == 1 ]

In [70]:
tabelle_frauen

Unnamed: 0,Age,Pclass,Survived,Sex_female,Sex_male
1,38.0,1,1,1,0
2,26.0,3,1,1,0
3,35.0,1,1,1,0
8,27.0,3,1,1,0
9,14.0,2,1,1,0
...,...,...,...,...,...
879,56.0,1,1,1,0
880,25.0,2,1,1,0
882,22.0,3,0,1,0
885,39.0,3,0,1,0


In [71]:
len(tabelle_frauen_die_ueberlebten) / len(tabelle_frauen)

0.7547892720306514

In [72]:
tabelle_maenner_die_ueberlebten = d[ (d["Sex_male"]==1) & (d["Survived"]==1) ]

In [73]:
tabelle_maenner_die_ueberlebten

Unnamed: 0,Age,Pclass,Survived,Sex_female,Sex_male
21,34.00,2,1,0,1
23,28.00,1,1,0,1
74,32.00,3,1,0,1
78,0.83,2,1,0,1
81,29.00,3,1,0,1
...,...,...,...,...,...
831,0.83,2,1,0,1
838,32.00,3,1,0,1
857,51.00,1,1,0,1
869,4.00,3,1,0,1


In [74]:
tabelle_maenner = d[ d["Sex_male"] == 1 ]

In [75]:
tabelle_maenner

Unnamed: 0,Age,Pclass,Survived,Sex_female,Sex_male
0,22.0,3,0,0,1
4,35.0,3,0,0,1
6,54.0,1,0,0,1
7,2.0,3,0,0,1
12,20.0,3,0,0,1
...,...,...,...,...,...
883,28.0,2,0,0,1
884,25.0,3,0,0,1
886,27.0,2,0,0,1
889,26.0,1,1,0,1


In [76]:
len(tabelle_maenner_die_ueberlebten) / len(tabelle_maenner)

0.2052980132450331

Jetzt haben wir den Grund verstanden, wieso der *Naive Bayes Klassifkator* so viel besser bei der Einschätzung der Überlebenswahrscheinlichkeit gibt, wenn man ihm das Merkmal *Geschlecht (Sex)* mitgibt:

Laut den Trainingsdaten haben ca. 75% der Frauen überlebt, aber nur ca. 20% der Männer.