# codecentric.AI Bootcamp - Gradient Boosting & XGBoost

## Aufgaben

Hier findet ihr eine Reihe von Übungsaufgaben zu Gradient Boosting & XGBoost.

Folge den Aufgaben und ergänze die ___ in den Code-Abschnitten.

Die folgenden Pakete werden geladen:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

### Datensätze aus Scikit-learn

Für die nachfolgenden Übungsaufgaben wollen wir zwei Datensätze verwenden, einen für Klassifikationsmodelle und einen anderen für Regressionsmodelle.

- `iris`
- `boston`

Für mehr Informationen zu den Datensätzen, gucke dir das Random Forest Kapitel an!

In [None]:
# Irisdaten für Klassifikation
from sklearn.datasets import load_iris

# Boston Hauspreise für Regression
from sklearn.datasets import load_boston

In [None]:
features_iris, target_iris = load_iris(return_X_y=True)

In [None]:
features_boston, target_boston = load_boston(return_X_y=True)

### Daten mit Scikit-learn in Trainings- und Testsets aufteilen

Nun wollen wir die beiden Datensätze, die wir geladen haben, in Trainings- und Testsets aufteilen.

In [None]:
from sklearn.model_selection import train_test_split

X_train_iris, X_test_iris, y_train_iris, y_test_iris = train_test_split(features_iris, 
                                                                        target_iris,
                                                                        test_size = 0.2,
                                                                        random_state = 42,
                                                                        stratify = target_iris)

In [None]:
X_train_boston, X_test_boston, y_train_boston, y_test_boston = train_test_split(features_boston, 
                                                                                target_boston,
                                                                                test_size = 0.2,
                                                                                random_state = 42)

### Aufgabe 1: Klassifikation mit Gradient Boosting in Scikit-learn

Nun sind unsere `iris` Daten bereit für das Trainieren von Modellen.

- Importiere den Gradient Boosting Klassifikationsalgorithmus.
- Definiere den Gradient Boosting Algorithmus mit den folgenden Hyperparametern: 100 Bäume mit maximaler Tiefe von 3, maximaler Anzahl in Betracht zu ziehender Instanzen pro Split von 3 und Lernrate von 0.1.
- Trainiere das so definierte Modell auf den `iris` Trainingsdaten.

In [None]:
from ___ import ___

gbm_class = ___(
    ___=0.1,
    loss = "deviance",
    ___ = 100,
    ___ = 3,
    min_samples_leaf = 3,
    ___ = 3,
    random_state = 42
)
___(___, ___)

- Importiere die Funktion zur Erstellung von Wahrheitsmatrizen / confusion matrices aus Scikit-learn.
- Nutze das Gradient Boosting Klassifikationsmodell um Vorhersagen auf den Testdaten zu machen.
- Vergleiche die vorhergesagten Klassen mit den tatsächlichen Klassen des Testsets, indem du die Wahrheitsmatrix / confusion matrix ausgeben lässt.

In [None]:
from ___ import ___

y_pred_gbm_class = ___(___)
___(___, ___, labels=np.unique(y_test_iris))

### Aufgabe 2: Regression mit Gradient Boosting in Scikit-learn

Auch unsere `boston` Daten sind bereit für das Trainieren von Modellen.

- Importiere den Gradient Boosting Regressionsalgorithmus.
- Definiere den Gradient Boosting Algorithmus mit den folgenden Hyperparametern: Least Squares Loss, 100 Bäume mit maximaler Tiefe von 3, maximaler Anzahl in Betracht zu ziehender Instanzen pro Split von 3 und Lernrate von 0.1.
- Trainiere das so definierte Modell auf den `boston` Trainingsdaten.

In [None]:
from ___ import ___

gbm_reg = ___(
    learning_rate=0.1,
    loss = ___,
    ___ = 100,
    ___ = 3,
    min_samples_leaf = 3,
    ___ = 3,
    random_state = 42
)
___(___, ___)

- Nutze das Gradient Boosting Regressionsmodell um Vorhersagen auf den Testdaten zu machen.

In [None]:
y_pred_gbm_reg = ___(___)

- Importiere die Funktion für den mittleren absoluten Fehler aus Scikit-learn.
- Berechne den mittleren absoluten Fehler für die Vorhersagen der Testdaten.

In [None]:
from ___ import ___

___(___, ___)

### Datenvorbereitung für H2O

Mit Scikit-learn hast du erfolgreich Klassifikations- und Regressionsmodelle mit Random Forest trainiert. Jetzt wollen wir uns angucken, wie das Ganze mit h2o funktioniert.

In [None]:
import h2o
h2o.init(nthreads = -1)

In [None]:
data_iris = load_iris()
df_iris = pd.DataFrame(data_iris.data, columns=data_iris.feature_names)
target_iris = pd.DataFrame({'class':data_iris.target})

df_c_iris = pd.concat([target_iris, df_iris], axis=1)
df_c_iris.head()

In [None]:
data_boston = load_boston()
df_boston = pd.DataFrame(data_boston.data, columns=data_boston.feature_names)
target_boston = pd.DataFrame({'target':data_boston.target})

df_c_boston = pd.concat([target_boston, df_boston], axis=1)
df_c_boston.head()

In [None]:
hf_iris = h2o.H2OFrame(df_c_iris)
hf_iris[0] = hf_iris[0].asfactor()  

In [None]:
train_iris, valid_iris, test_iris = hf_iris.split_frame([0.7, 0.15], seed=42)

In [None]:
hf_X_iris = hf_iris.col_names[1:len(hf_iris.col_names)]
hf_X_iris

In [None]:
hf_y_iris = hf_iris.col_names[0]
hf_y_iris

### Aufgabe 3: Gradient Boosting mit H2O

- Importiere den H2O Gradient Boosting Estimator.
- Definiere die Gradient Boosting Funktion aus `h2o` mit den folgenden [Hyperparametern](http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2ogradientboostingestimator): 300 Bäumen, maximaler Baumtiefe von 3 und Lernrate von 0.1.

In [None]:
from ___ import ___

gbm_h2o_class = ___(
    ___ = 300,
    ___ = 0.1,
    ___ = 3,
    min_rows = 3,
    seed = 42
)

- Trainiere den Random Forest Algorithmus mit den `iris` Trainings- und Validierungsdaten.

In [None]:
___(x = ___, 
                    y = ___, 
                    ___ = train_iris, 
                    ___ = valid_iris)

- Berechne die Modell-Performance auf den Testdaten.

In [None]:
performance_class = ___(test_data=___)
print(performance_class)

### Gradient Boosting Regression mit H2O

In [None]:
hf_boston = h2o.H2OFrame(df_c_boston)
train_boston, test_boston = hf_boston.split_frame([0.7], seed=42)

In [None]:
hf_X_boston = hf_boston.col_names[1:len(hf_boston.col_names)]
hf_X_boston

In [None]:
hf_y_boston = hf_boston.col_names[0]
hf_y_boston

### Aufgabe 4:

- Definiere die Gradient Boosting Funktion aus `h2o` mit den folgenden [Hyperparametern](http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2ogradientboostingestimator): 300 Bäumen, maximaler Baumtiefe von 3 und Lernrate von 0.1.

In [None]:
gbm_h2o_reg = ___(
    ___ = 300,
    ___ = 0.1,
    ___ = 3,
    min_rows = 3,
    seed = 42
)

- Trainiere den Gradient Boosting Algorithmus mit den `boston` Trainingsdaten.

In [None]:
___(x = ___, 
             y = ___, 
             ___ = train_boston)

- Berechne die Modell-Performance auf den Testdaten.

In [None]:
performance_reg = ___(test_data=___)
print(performance_reg)

- Lasse dir Werte für die Antwortvariable für alle Testdaten vorhersagen. 

In [None]:
pred_test_boston = ___(___)
pred_test_boston

Diese vorhergesagten Werte können wir zum Beispiel gegen die tatsächlichen Werte plotten:

In [None]:
plt.scatter(test_boston.as_data_frame().target, pred_test_boston.as_data_frame().predict)

In der Abbildung oben sehen wir auf der x-Achse die tatsächlichen Hauspreise, auf der y-Achse sehen wir die vorhersagten Preise. So können wir vergleichen, wie nahe unsere Vorhersage an der Wirklichkeit dran sind. Im perfekten Szenario, währen alle Werte gleich und die Punkte würden auf einer Geraden x=y liegen.

### Aufgabe 5: XGBoost mit Scikit-learn

- Importiere das xgboost-Paket.
- Definiere den XGBoost Classifier.

In [None]:
import ___ as xgb
xgboost = ___()

- Trainiere den XGBoost Classifier auf den Boston Daten.

In [None]:
___(___, ___)

- Und nutze das Modell für Vorhersagen auf den Testdaten.

In [None]:
xgb_pred_test_boston = ___(___)
xgb_pred_test_boston

### Aufgabe 6: XGBoost mit dem xgboost-Paket

- Wandle die Trainings- und Testdaten des Boston-Datensatzes in DMatrizen um.

In [None]:
data_dmatrix = ___(data=___,label=___)
test_dmatrix = ___(data=___,label=___)

Definiere die folgenden [Hyperparameter](https://xgboost.readthedocs.io/en/latest/parameter.html#general-parameters):

- Maximale Baumtiefe von 3
- Lernrate von 0.1
- 80% Samplingrate für Instanzen

In [None]:
params = {___:3, 
          ___:0.1, 
          ___:0.8,
          'silent':1}

- Definiere eine Watchliste mit Trainings- und Testdaten.

In [None]:
watchlist = [___, ___]

- Trainiere das Modell mit 50 Boostingrunden.

In [None]:
bst = ___(___=data_dmatrix, 
                ___=params, 
                ___=50,
                ___=watchlist)

- Evaluiere das Modell.

In [None]:
___(___)

- Mache Vorhersagen auf den Testdaten

In [None]:
preds_xgb = ___(___)
preds_xgb

- Implementiere XGBoost mit 3x Kreuzvalidierung.

In [None]:
bst_cv = ___(dtrain=data_dmatrix, 
                params=params, 
                ___=3,
                num_boost_round=50,
                early_stopping_rounds=10,
                metrics="rmse", 
                as_pandas=True, 
                seed=42)

### Aufgabe 7: XGBoost mit H2O

- Lade die XGBoost Funktion aus H2O.

In [None]:
from ___ import ___

Definiere das XGBoost-Modell mit den folgenden [Hyperparametern](http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/xgboost.html):

- Maximaler Baumtiefe von 2
- 5x Kreuzvalidierung
- 100 Bäume

In [None]:
xgb_h2o = ___(
    ___ = 2,
    ___ = 5,
    ___ = 100,
    seed = 42
)

- Trainiere das Modell auf den Boston-Daten.

In [None]:
___(x = ___, 
         y = ___, 
         training_frame = ___)

- Berechne die Performance auf den Testdaten.

In [None]:
performance_xgb = ___(test_data=___)
print(performance_xgb)