# Kapitel 9 - XGBoost & CARTs

## 9.1. Kapitelübersicht <a class="anchor" id="9-1"/>

TODO

Bis jetzt hatten wir probabilistische Klassifizierungsverfahren wie Logistic Regression und Naive Bayes sowie die Kernel-Methode SVM kennengelernt. Eine letzte wichtige Art von Klassifizierungsmethoden sind die sogenannten <b>decision trees</b> (= Entscheidungsbäume).

<b>Abschnittsübersicht</b><br>

[9.1. Kapitelübersicht](#9-1)<br>

Am Ende dieses Kapitel werden wir folgende Themen behandelt und/oder vertieft haben:
- ...

## 9.2. Decision trees (CARTs)

<b>Decision trees</b> (deutsch: Entscheidungsbäume) sind geordnete und gerichtete Bäume und dienen der Darstellung von Entscheidungsregeln. Oft werden diese Verfahren auch als <b>CART</b> (= Classification and Regression Trees) bezeichnet, welches ein Algorithmus für decision trees für Klassifikation und Regression ist.

<div class="alert alert-info">
<b>Exkurs:</b> Baum (Datenstruktur)
    
<b>Bäume</b> sind Datenstrukturen, mit der sich hierarchische Strukturen abbilden lassen. Sie besitzen <b>Knoten</b> (englisch: nodes) und <b>Kanten</b> (englisch: edges). Der erste Knoten nennt sich <b>Wurzel</b> (englisch: root). In dem folgenden Beispiel ist "CD" die Wurzel. Von ihr aus gehen Kanten zu anderen Knoten wie "Rock", "Folk", "Jazz" und "Klassik". Untergeordnete Knoten nennt man auch <b>Kindknoten</b> (englisch: child nodes) und übergeordnete Knoten <b>Elternknoten</b> (englisch: parent nodes). "Rock", "Folk", "Jazz" und "Klassik" sind die Kindknoten von "CD" und "CD" ist der Elternknoten von "Rock", "Folk", "Jazz" und "Klassik". Die Kindknoten von "Rock" nennt man <b>Blätter</b> (englisch: leaves), da diese selbst keine Kindknoten besitzen.<br>

<img src="https://wvsg.schulen2.regensburg.de/joomla/images/Faecher/Informatik/Informatik_11/Bilder/2_1_Von_der_Liste_zum_Baum/baum_allg.png" alt="Tree" width="450px" align="center"/>

Der Klassifikationsvorgang von Decision trees lässt sich am besten an einem graphischen Beispiel erläutern:

<img src="tutorialdata/img/decision_tree_german.png" alt="Decision Tree" width="350px" align="left"/>

Zu sehen ist ein Binärbaum. Jeder Wurzelknoten repräsentiert eine Eingabevariable $x$ dar und einen Punkt, an der sich die Variable teilt. Die Blattknoten des Baums enthalten eine Ausgabevariable $y$, die zur Vorhersage verwendet wird. Die möglichen Ausgaben sind hier "Erwachsener", "Erwachsener", "Kind". In diesem Beispiel wird anhand der Körpergröße und des Gewichts bestimmt, ob eine Person ein Kind oder ein Erwachsener ist. Wir können diesen Baum auch als Regeln modellieren:<br>
```
If Größe > 180cm Then Erwachsener
If Größe <= 180cm AND Gewicht > 70kg Then Erwachsener
If Größe <= 180cm AND Gewicht <= 70kg Then Kind
```

Vorhersagen können somit relativ einfach getroffen werden. Für den Input wird vom Wurzelknoten aus gesehen der Baum durchlaufen und der Blattknoten als Vorhersage ausgegeben. Dies könnte so aussehen:

```
Größe > 180cm: False
Gewicht > 70 kg: False
Therefore: Kind
```

Die Schwierigkeit bei der Erstellung eines Decision trees ist die Modellierung. Ein Binärbaum wie aus dem Beispiel ist eigentlich ein aufgeteilter Eingaberaum. Jede Eingabevariable $x$ ist eine Dimension des x-dimensionalen Raums. Der Decision tree wird dann mithilfe einer Aufteilung des Eingaberaums erstellt. Diese Aufteilung erfolgt <b>greedy</b> (deutsch: gierig), d.h. es werden immer die besten Punkte gesucht, an denen der Raum aufgeteilt werden kann. Mathematisch geschieht dies durch eine <b>Cost Function</b>[<sup>1</sup>](#fn1). Bei der Klassifikation wird diese Cost Function durch die <b>Gini Index Funktion</b> repräsentiert. Diese wählt die Entscheidungsregeln aus, bei der die Kindknoten möglichst <u>rein</u>[<sup>2</sup>](#fn2) werden.

HIER WEITER: https://machinelearningmastery.com/classification-and-regression-trees-for-machine-learning/



<hr style="border: 0.1px solid black;"/>
<span id="fn1" style="font-size:8pt; line-height:1"><sup style="font-size:5pt">1</sup> &nbsp; Cost Function werden uns später bei Neuronalen Netzen im Bereich des Deep Learning erneut begegnen (siehe Kapitel 11).</span><br>
<span id="fn2" style="font-size:8pt; line-height:1"><sup style="font-size:5pt">2</sup> &nbsp; Was <b>Reinheit</b> (= purity) bedeutet, wird bei dieser <a href="https://stats.stackexchange.com/questions/220321/what-is-node-impurity-purity-in-decision-trees-in-plain-english-why-do-we-need">Antwort</a> bei StackExchange erklärt.</span>

- https://de.wikipedia.org/wiki/CART_(Algorithmus)
- https://machinelearningmastery.com/classification-and-regression-trees-for-machine-learning/
- https://de.wikipedia.org/wiki/Entscheidungsbaum
- https://de.wikipedia.org/wiki/Bin%C3%A4rbaum

#### Korpus laden

In [2]:
import pandas as pd
corpus = pd.read_csv("tutorialdata/corpora/wikicorpus_v2.csv", index_col=0)

#### Aufteilung in Trainings- und Testdatensätze

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_score

import numpy as np
import matplotlib.pyplot as plt
import scipy

labels = LabelEncoder().fit_transform(corpus["category"])
vector  = TfidfVectorizer().fit_transform(corpus["text"])

X_train, X_test, y_train, y_test = train_test_split(vector, 
                                                    labels, 
                                                    test_size=0.2, 
                                                    train_size=0.8,
                                                    random_state=42)
classes = corpus["category"].drop_duplicates().tolist()

https://medium.com/greyatom/decision-trees-a-simple-way-to-visualize-a-decision-dc506a403aeb

## 9.3. Ensembling

https://machinelearningmastery.com/how-to-improve-machine-learning-results/

## 9.4. Gradient Boosting

## 9.5. XGBoost

<div class="alert alert-warning">
<b>Aufgabe:</b> XGBoost Paper lesen
  
Machine Learning ist ein Feld ist, in dem viel geforscht wird und es ständig neue Errungenschaften gibt. Diese Errungenschaften werden in Form von wissenschaftlichen Papers veröffentlicht. Implementierungen wie in Scikit learn erfolgen erst Jahre später, im Falle von XGBoost steht eine direkte Implementierung wie von Verfahren wie Naive Bayes oder Logistic Regression noch aus (Stand: 05.09.2019). Um die aktuellesten Verfahren nutzen zu können, müssen neue Machine Learning Verfahren entweder selbst implementiert werden oder auf noch nicht perfektionierte(?) Implementierungen zurückgegriffen werden. Neben fehlenden Implementierungen ist ein weiteres Problem das Fehlen von Guides oder Tutorials. Deshalb ist das Lesen von wissenschaftlichen Papers und der Umgang mit diesen eine Fähigkeit, die für eine Arbeit im Bereich des Machine Learnings unabdingbar ist.<br>
  
Lesen Sie zum Einstieg das <a href="https://arxiv.org/abs/1603.02754">Paper</a> zu XGBoost. Versuchen Sie, wichtige Errungenschaften, Details und Formeln nachzuvollziehen und zu verstehen. Machen Sie sich Notizen und schlagen Sie Unbekanntes nach. Lassen Sie sich nicht von den Formeln abschrecken, Sie müssen nicht alles 100% verstehen AF!). Der Vorteil bei diesem Paper ist, dass es sehr verständliche Beispiele bietet.


Wenn nicht alles sofort verständlich ist, ist das kein Problem, da die wichtigsten Punkte in diesem Abschnitt nochmal erläutert werden. XGBoost ist aber komplexer als andere Klassifikationsverfahren, weshalb Vorwissen in Form des Papers hilfreich für das Verständnis und die Übung vom Lesen von wissenschaftlichen Papers ist (AF!).

In [5]:
%%time
from xgboost import XGBClassifier

# XGBoost
xgb_classifier = XGBClassifier()
xgb = xgb_classifier.fit(X_train, y_train)

NameError: name 'f1_score' is not defined

In [7]:
# F1-score des Testdatensatzes
y_pred = xgb_classifier.predict(X_test)
xgb_f1 = f1_score(y_test, y_pred, average="micro")

print("Der F1-score für die Klassifizierung mit XGBoost ist "
      + f"{str(np.around(xgb_f1, decimals=3))}.")

Der F1-score für die Klassifizierung mit XGBoost ist 0.888.


In [9]:
%%time
# cross validation des Trainingsdatensatzes
xgb_scores = cross_val_score(xgb_classifier, vector, labels, cv=3)
xgb_mean = np.mean(xgb_scores)

print("Der Mittelwert der cross validation bei der  Klassifizierung " 
      + f" mit XGBoost ist {str(np.around(xgb_mean, decimals=3))}."
      + "\n")

Der Mittelwert der cross validation bei der  Klassifizierung  mit XGBoost ist 0.873.

CPU times: user 35min 48s, sys: 396 ms, total: 35min 49s
Wall time: 35min 48s


XGBoost Dokumentation: https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn

- xgboost mit scikit learn: https://machinelearningmastery.com/develop-first-xgboost-model-python-scikit-learn/
- xgboost vs sklearn gradient boosting: https://stats.stackexchange.com/questions/282459/xgboost-vs-python-sklearn-gradient-boosted-trees

ICH: kein GridSearch machen, zu langsam (siehe medium "catboost vs light gbm vs xgboost")