#### Autor: Kevin Cioch

# Einführung Machine Learning - SS23
## Ensemble Classifier - Gradient Tree Boosting

<hr/>

## Einleitung

Ensemble-Classifier sind innerhalb des Machine Learnings ein leistungsstarkes Verfahren zur Klassifikation von Daten, bei dem mehrere einzelne Klassifikatoren oder Vorhersagemodelle zu einem einzigen Modell kombiniert werden. Die Idee dahinter beruht auf dem Konzept, dass durch die Kombination unterschiedlicher Modelle die Stärken der einzelnen Klassifikatoren genutzt und die Schwächen durch das Kollektiv an verschiedenen Klassifikatoren ausgeglichen werden. Dadurch wird letztendlich die Vorhersagegenauigkeit verbessert und das finale Vorhersagemodell robuster gegenüber individuellen Fehlern und Schwächen einzelner Modelle.

Grundsätzlich kann man Ensemble Classifier in zwei Kategorien unterteilen. Zum einem gibt es **Bagging-basierte** Ensemble-Methoden, die auf dem Prinzip beruhen, dass mehrere Klassifikatoren unabhängig voneinander trainiert werden und der Durchschnitt aller Modelle für eine Schätzung berechnet wird, z.B. Bagging Methoden oder Random Forest. Zum anderen gibt es **Boosting-basierte** Ensemble-Methoden, die das Konzept verfolgen mehrere Klassifikatoren sequenziell zu trainieren und dabei mit jeder Iteration die Fehler des Vorgängers zu reduzieren, z.B. AdaBoost oder Gradient Tree Boosting.


## Gradient Tree Boosting

Das Gradient Tree Boosting Machine Learning Verfahren erweitert das Konzept von herkömmlichen Decision Trees um die Idee des Boostings als Ensemble Methode. Dabei werden **G**radient **B**oosted **D**ecision **T**ree**s** (GBDTs) aus mehreren einzelnen Decision Tree konstruiert, die sequenziell abhängig voneinander konstruiert werden und bei jeder Iteration die Residien (Fehler) der vorherigen Iteration korrigieren. Das Verfahren nutzt dabei den Gradientenabstieg um mit jeder weiteren Iteration die Vorhersagegenauigkeit kontinuierlich weiter zu verbessern.

### Anwendungsfälle

Das Gradient Tree Boosting-Verfahren ist vielseitig in der Praxis einsetzbar und bietet einen guten Lösungsansatz für unterschiedliche Problembstellungen in verschiedenen Bereichen des maschinellen Lernens und der Datenanalyse. Zu klassischen Klassifikationsaufgaben wie Spam-Erkennung oder Bilderkennung und Regressionsaufgaben wie Preisvorhersagen bietet der Algorithmus auch eine Lösungsmöglichkeit für Anomalieerkennungen und Rangfolgenbestimmungen wie Suchmaschinen-Rankings sowie die Bewertung von Features.

### Boosting

Das Boosting-Verfahren folgt folgenden Schritten:

1. Erstellen eines Basismodells.
2. Berechnung der Residien (Unterschiede zwischen den tatsächlichen Zielwerten und den Vorhersagen des aktuellen Modells)
3. Konstruktion des nächsten Entscheidungsbaums: In jeder Iteration wird ein weiterer Entscheidungsbaum erstellt, der darauf abzielt, die Residuen des vorherigen Modells zu reduzieren. Der Baum wird so erstellt, dass er die verbleibenden Fehler des Modells möglichst effektiv korrigiert. Hierbei wird ein Gradientenabstiegsverfahren angewendet, um die Richtung zu bestimmen, in die der Baum wachsen soll.
4. Aktualisierung des Modells: Der neu erstellte Entscheidungsbaum wird dem Modell hinzugefügt und das Modell wird aktualisiert, indem die Vorhersagen des neuen Baums zum bisherigen Modell addiert werden. Dadurch wird das Modell schrittweise verbessert, da es die Fehler des vorherigen Modells korrigiert und sich an die Trainingsdaten anpasst.
5. Wiederholung der Schritte 2-4: Die Schritte der Berechnung der Residuen, der Erstellung eines neuen Entscheidungsbaums und der Aktualisierung des Modells werden wiederholt, bis ein vordefiniertes Kriterium erreicht ist. Dieses Kriterium kann die maximale Anzahl von Iterationen, eine vorgegebene Fehlergrenze oder andere Leistungsindikatoren sein.

Durch die Kombination mehrerer Entscheidungsbäume, die in aufeinanderfolgenden Iterationen erstellt werden, wird das Modell kontinuierlich verbessert. Jeder Baum konzentriert sich auf die Korrektur der Fehler, die in den vorherigen Iterationen gemacht wurden. Dadurch wird eine insgesamt bessere Vorhersagegenauigkeit erzielt.

> Schritt 5. zeigt die Gefahr von Decision Trees / Gradient Boosting Trees auf! Bei zu vielen Iteration (zu hohe Baumtiefe) neigt das Vorhersagemodell schnell zu einem Overfitting an die Trainingsdaten. Gut zu beobachten ist dieses Verhalten bei der Analyse der Lernkurven für Trainings- und Testdaten, die bei einem Overfitting stark voneinander abweichen. Daher ist es ratsam Regularisierungsmethoden zu verwenden, z.B. Festlegen der Hyperparameter *max_depth*, *n_estimators*, *max_leaf_nodes* oder *learning_rate*.

### Vorteile

- **Leistungstarkes Modell:** GBDTs sind leistungstarke Ensemble-Modelle, die eine hohe Vorhersagegenauigkeit aufweisen können und komplexe nichtlineare Zusammenhänge in Daten erfassen und sowohl für Klassifikations- als auch für Regressionsprobleme eingesetzt werden können.
- **Interpretierbarkeit:** Auch wenn GBDTs komplexer als einfache Decision Trees sind, können die Ergebnisse der Vorhersagen aufgrund der Baumstruktur anders als bei Blackbox-artigen ML Algorithmen nachvollzogen werden.

### Nachteile

- **Trainingszeit:** Da die einzelnen Bäume nacheinander trainiert werden müssen, da sie aufeinander aufbauen und sich auf Grundlage der Fehler der Vorgänger anpassen, und die Berechnung der Gradienten der Verlustfunktion bei vielen Features recht viel Zeit beansprucht, kann der Trainingsaufwand recht intensiv werden.
- **Anfällig für Overfitting:** Decision Trees neigen grundsätzlich bei komplexen Baumstrukturen zu einer ausgeprägten Anpassung an die Trainingsdaten. Es ist daher wichtig Regularisierungsmethoden einzusetzen wie das Festlegen der maximalen Baum-Tiefe oder die minimale Anzahl der Datenpunkte in Blättern / Knoten zu begrenzen.


## SciKit-Learn

Für das Gradient Tree Boosting-Verfahren ist es möglich, den **DecisionTreeClassifier** der Scikit-learn Bibliothek manuell zu verwenden und diese Entscheidungsbäume miteinander zu verbinden. Indem man den DecisionTreeClassifier in einer Schleife iterativ trainiert und die Vorhersagen des vorherigen Baums zu den Residuen des nächsten Baums hinzufügt, kann man ein eigenes Gradient Boosting-Modell erstellen. Dies erfordert jedoch eine sorgfältige Handhabung der Hyperparameter und eine manuelle Implementierung des Boosting-Prozesses.

Es ist daher einfacher den Gradient Boosted Decision Tree direkt über die **GradientBoostingClassifier** Klasse der Scikit-learn Bibliothek zu implementieren. Diese bietet die Möglichkeit über Parameter wie _max_depth_, die maximale Baumtiefe, _n_estimator_, die Anzahl der Bäume oder _learning_rate_, die Lernrate zu beeinflussen.

> Mit Scikit-learn 0.21 wurden zwei neue Implementierungen von GBDTs eingeführt, **HistGradientBoostingClassifiert** und **HistGradientBoostingRegressor**. Diese histogrammbasierten Algorithmen können bei mehr als zehntausend Datenpunkten deutlich perfomanter ausfallen als die herkömmlichen GBDTs. Zudem bieten sie eine Unterstützung für fehlende Werte, sodass kein Imputer benötigt wird.


## Paxisbeispiel

Im folgenden Praxisbeispiel wird die Implementierung des Gradient Tree Boosting mit der Scikit-learn Bibliothek veranschaulicht. Die Problemstellung bezieht sich auf die Klassifikation des Risikos eines Herzinfarktes anhand von Parametern aus einem Patientdatensatz. Der Datensatz stammt von Kaggle [4].

In [5]:
import pandas as pd

dataset = pd.read_csv("heart.csv")
dataset.head(10)

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
5,57,1,0,140,192,0,1,148,0,0.4,1,0,1,1
6,56,0,1,140,294,0,0,153,0,1.3,1,0,2,1
7,44,1,1,120,263,0,1,173,0,0.0,2,0,3,1
8,52,1,2,172,199,1,1,162,0,0.5,2,0,3,1
9,57,1,2,150,168,0,1,174,0,1.6,2,0,2,1


In [4]:
dataset.describe()

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
count,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0
mean,54.366337,0.683168,0.966997,131.623762,246.264026,0.148515,0.528053,149.646865,0.326733,1.039604,1.39934,0.729373,2.313531,0.544554
std,9.082101,0.466011,1.032052,17.538143,51.830751,0.356198,0.52586,22.905161,0.469794,1.161075,0.616226,1.022606,0.612277,0.498835
min,29.0,0.0,0.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,47.5,0.0,0.0,120.0,211.0,0.0,0.0,133.5,0.0,0.0,1.0,0.0,2.0,0.0
50%,55.0,1.0,1.0,130.0,240.0,0.0,1.0,153.0,0.0,0.8,1.0,0.0,2.0,1.0
75%,61.0,1.0,2.0,140.0,274.5,0.0,1.0,166.0,1.0,1.6,2.0,1.0,3.0,1.0
max,77.0,1.0,3.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,2.0,4.0,3.0,1.0


In [35]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier

X = dataset.drop('output', axis=1)  # Features
y = dataset['output']  # Zielvariable

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

gbt = GradientBoostingClassifier(n_estimators=100, learning_rate=0.3, max_depth=10)

In [36]:
gbt.fit(X_train, y_train)

# Mache Vorhersagen mit dem trainierten Modell
score = gbt.score(X_test, y_test)

# Evaluierung der Vorhersagegenauigkeit
print("Vorhersagegenauigkeit: {:.2f}".format(score))

Vorhersagegenauigkeit: 0.85


## Quellenverzeichnis

1. Gradient Tree Boosting. 25 Mai 2023.\
   [https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting](https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting)

2. sklearn.ensemble.GradientBoostingClassifier. 26 Mai 2023.\
    [https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html)

3. Praxiseinstieg Machine Learning mit Scikit-Learn, Keras und Tensorflow: Konzepte, Tools und Techniken für intelligente Systeme [2. Auflage]. Géron, A. 2020. dpunkt.verlag 

4. Heart Attack Analysis & Prediction Dataset.\
    [https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset](https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset)