Das Ziel dieser Aufgabe ist es, den **Decision Tree** auf verschiedene Weise zu erweitern: (1) durch *Bagging*, in Form eines **Random Forest** und (2) durch *Boosting*. Wir benutzen zur Implementierung des **Decision Trees** die in Scikit-Learn verfügbare Implementierung und erweitern diese für die gewünschte Implementierung der zwei Algorithmen.

## (3.1.1) Decision Trees <span style="color:green; font-size:1em">(o)</span> <span style="font-size:1em">&#x1F4D7;</span>

**<span style="color:green; font-size:2em">(a)</span>** <span style="font-size:2em">&#x1F4D7;</span> Laden Sie den in Scikit-Learn verfügbaren Iris-Datensatz und behalten Sie von den vier Features des Datensatzes nur die ersten zwei, damit das Problem einfach zu visualisieren ist. Plotten Sie den Datensatz mit `plt.scatter` und weisen Sie den Klassen verschiedene Farben zu.

**<span style="color:green; font-size:2em">(b)</span>** <span style="font-size:2em">&#x1F4D7;</span> In der begleitenden Python-File `utils_viz.py` befindet sich eine Funktion `visualize_classifier`, denen als Argumente ein Scikit-Learn-Modell sowie die Trainings-Beobachtungen und Trainings-Labels übergeben werden können. Machen Sie sich mit der Funktion vertraut.

**<span style="color:green; font-size:2em">(c)</span>** <span style="font-size:2em">&#x1F4D7;</span> Trainieren Sie einen einfachen **Decision Tree**. Sie sollten bis auf das Argument `max_depth` alle Argumente bei ihren Default-Werten belassen. Varieren Sie `max_depth` und benutzen Sie die Funktion aus **b)** um die Entscheidungsgrenzen Bäume verschiedener Tiefe zu visualisieren. Trainieren Sie auf der gesamten Datenmenge.

**<span style="color:green; font-size:2em">(d)</span>** <span style="font-size:2em">&#x1F4D7;</span> Teilen Sie nun die Daten in Trainings- und Testdaten auf. Weisen Sie zufällig 50% der Daten dem Trainingsdatensatz zu und die verbliebenen Daten dem Testdatensatz (Tipp: benutzen Sie am besten die Funktion `train_test_split`, die unten beispielhaft erklärt wird). Trainieren Sie nun für jede Tiefe von $1-5$ einen **Decision Tree** und evaluieren Sie mit den Testdaten. Plotten Sie die Korrekte-Klassifikationsrate/Genauigkeit gegen die Tiefe des Modells.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
# optional
import seaborn as sns; sns.set()

### a)

In [None]:
# Datensatz - Dokumentation
iris = load_iris()
print(iris.DESCR)

## (2.4.2) Bagging - Random Forests - Classification <span style="color:orange; font-size:1em">(oo) </span> <span style="font-size:1em">&#x1F4D9;</span>

Unser nächstes Ziel ist es, die Entscheidungsgrenze eines **Random Forest** mit dem eines **Decision Trees** zu vergleichen. Wir betrachten einen **Random Forest**, der aus 100 Bäumen zusammengesetzt ist. Jeder dieser Bäume soll auf nur auf einem Teil der Trainingsdaten trainiert werden. Wählen Sie für jeden Baum zufällig 50% der Trainingsdaten aus (Tipp: benutzen Sie zum Beispiel `np.random.permutation` oder `np.random.choice` oder `train_test_split`). Die Vorhersage-Funktion soll ein einfacher *Majority-Vote* der einzelnen Bäume sein (die Vorhersage ist die Klasse, die von den meisten Bäumen vorhergesagt wird).

**<span style="color:green; font-size:2em">(a) </span>** <span style="font-size:2em">&#x1F4D9;</span> Implementieren Sie die unten aufgeführte Funktion `fit`, die als Input einen Random Forest erhält und den Fit der einzelnen Bäume ausführt.

**<span style="color:orange; font-size:2em">(b) </span>** <span style="font-size:2em">&#x1F4D9;</span> Implementieren Sie die unten aufgeführte Funktion `predict`, die als Input einen Random Forest erhält und die Vorhersagen der einzelnen Bäume ermittelt und daraufhin einen *Majority-Vote* ausführt (Tipp: `scipy.stats.mode`).

**<span style="color:red; font-size:2em">(c) </span>** <span style="font-size:2em">&#x1F4D9;</span> In dieser Aufgabe soll der Random Forest objekt-orientiert implementiert werden. Implementieren Sie dazu die entsprechenden Funktionen der unten bereits vorimplementierten Klasse, sodass ihr **Random Forest** Klassifikator mit `visualize_classifier` aus `utils_viz.py` benutzt werden kann (Tipp: `scipy.stats.mode`).

**<span style="color:green; font-size:2em">(d) </span>** <span style="font-size:2em">&#x1F4D9;</span> Teilen Sie die Daten wie zuvor in Trainings- und Testdaten auf. Trainieren Sie das Modell und visualisieren Sie die Entscheidungsgrenze. Berechnen Sie die Test-Klassifikationsrate und vergleichen Sie mit den **Decision Trees** aus der vorherigen Aufgabe.

### a)

In [None]:
# Fitting eines Random Forest

# Random Forest ist ein Ensemble aus Bäumen - darstellbar zum Beispiel als List
random_forest = []
for i in range(100):
    new_tree = DecisionTreeClassifier(max_depth=5)
    random_forest.append(new_tree)

# Alternative
# random_forest = [DecisionTreeClassifier(max_depth=5) for _ in range(100)]


# TODO
def fit(random_forest, X, y):
    
    for tree in random_forest:
        # ...
        pass
        
    
# Fit aufrufen        
fit(random_forest, X_train, y_train)

### b)

In [None]:
# TODO
def predict(random_forest, X):
    
    # Zum Speichern der Vorhersagen
    y_preds = []
    
    for tree in random_forest:
        # ...
        pass


### c)

In [None]:
# Vorimplementierte Klasse:
class RandomForestClassifier:
    def __init__(self):
        """
        Die Funktion `__init__` wird automatisch aufgerufen, wenn folgender Code ausgeführt wird:
        
        >>> model = RandomForestClassifier()
        
        Danach speichert das Modell einfach 100 zufällige generierte Decision Trees,
        die mit der Scikit-Learn Implementierung erstellt wurden. Durch Ausführen des folgenden
        Codes können die Bäume, die im Modell gespeichert sind, inspiziert werden:
        >>> print(model.trees)
        """
        self.trees = [DecisionTreeClassifier(max_depth=5) for _ in range(100)]
        
    def fit(self, X, y):
        """
        Die Funktion `fit` soll genauso funktionieren, wie für Scikit-Learn üblich:
        >>> model.fit(X_train, y_train)
        """
        raise NotImplementedError
        
    def predict(self, X):
        """
        Die Funktion `predict` soll genauso funktionieren, wie für Scikit-Learn üblich:
        >>> y_pred = model.predict(X)
        """
        raise NotImplementedError

In [None]:
forest = RandomForestClassifier()
forest.fit(X_train, y_train)

### d)

## (2.4.3) Bagging - Random Forests - Regression <span style="color:orange; font-size:1em">(oo) </span> <span style="font-size:1em">&#x1F4D9;</span>

In dieser Aufgabe soll wie bei der Klassifikation ein einfacher **Random Forest** Klassifikator erstellt werden, der auf der Basis-Klasse `DecisionTreeRegressor` beruht. Anstatt eines *Majority-Votes* ist hier der Vorhersage-Mechanismus ein einfaches *Averaging* der Vorhersagen der einzelnen Bäume. Jeder einzelne Baum soll wie zuvor auf 50% der Trainingsdaten trainiert werden.

**<span style="color:green; font-size:2em">(a) </span>** <span style="font-size:2em">&#x1F4D9;</span> Implementieren Sie eine Funktion `fit`, die als Input einen Random Forest erhält und den Fit der einzelnen Bäume ausführt. Orientieren Sie sich an Aufgabe **2a)**.

**<span style="color:orange; font-size:2em">(b) </span>** <span style="font-size:2em">&#x1F4D9;</span> Implementieren Sie eine Funktion `predict`, die als Input einen Random Forest erhält und die Vorhersagen der einzelnen Bäume ermittelt und daraufhin ein *Averaging* ausführt. Orientieren Sie sich an Aufgabe **2b)**.

**<span style="color:red; font-size:2em">(c) </span>** <span style="font-size:2em">&#x1F4D9;</span> In dieser Aufgabe soll der Random Forest Regressor objekt-orientiert implementiert werden. Implementieren Sie dazu die entsprechenden Funktionen der unten bereits vorimplementierten Klasse.

**<span style="color:orange; font-size:2em">(d) </span>** <span style="font-size:2em">&#x1F4D9;</span> Die Funktion `utils_tree.benchmark` gibt die durchschnittliche Performance des Klassifikators für 100 zufällige Train/Test-Splits aus. Benutzen Sie diese Funktion, um für zwei Beispiel-Datensätze (`load_boston` und `load_diabetes` aus Scikit-Learn) und für eine variable Menge an Bäumen, das heißt für `nb_trees = [1,2,4,8,16,32]`, die Performance zu berechnen. Die Performance wird statt wie üblich als quadratischer Fehler als *Score* berechnet, der zwischen $-\infty$ und $1$ liegt und die Qualität der Regression beschreibt. Ein Score von $1$ steht dabei für eine perfekte Regression, während ein Score von $0$ äquivalent zu einem konstanten Modell ist. Ein negativer Score steht für einen Regressor, der systematisch falsch liegt. Plotten Sie die Ergebnisse. Vergleichen Sie mit dem Ergebnis für einen einfachen Baum.

In [None]:
from sklearn.datasets import load_boston, load_diabetes
from sklearn.tree import DecisionTreeRegressor
from utils_tree import benchmark

### c)

In [None]:
# Indem die Klasse von RegressorMixin erbt enthält sie sofort die Funktion `score`,
# sodass diese nicht implementiert werden muss.
from sklearn.base import RegressorMixin
from sklearn.tree import DecisionTreeRegressor

# Vorimplementierte Klasse:
class RandomForestRegressor(RegressorMixin):
    def __init__(self, max_depth=5, nb_trees=10):
        """
        Die Funktion `__init__` wird automatisch aufgerufen, wenn folgender Code ausgeführt wird:
        
        >>> model = RandomForestRegressor()
        
        Danach speichert das Modell einfach 100 zufällige generierte Decision Trees,
        die mit der Scikit-Learn Implementierung erstellt wurden. Durch Ausführen des folgenden
        Codes können die Bäume, die im Modell gespeichert sind, inspiziert werden:
        >>> print(model.trees)
        """
        self.trees = [DecisionTreeRegressor(max_depth=max_depth) for _ in range(nb_trees)]
        
    def fit(self, X, y):
        """
        Die Funktion `fit` soll genauso funktionieren, wie für Scikit-Learn üblich:
        >>> model.fit(X_train, y_train)
        """
        raise NotImplementedError
        
    def predict(self, X):
        """
        Die Funktion `predict` soll genauso funktionieren, wie für Scikit-Learn üblich:
        >>> y_pred = model.predict(X)
        """
        raise NotImplementedError

### d)

In [None]:
boston = load_boston()
diabetes = load_diabetes()

## (2.4.4) Boosting - Regression <span style="color:red; font-size:1em">(ooo) </span> <span style="font-size:1em">&#x1F4D8;</span>

In dieser Aufgabe implementieren Sie einen einfachen Boosting-Algorithmus. Wie bei einem Bagging-Algorithmus beruht auch ein Boosting-Algorithmus auf der Vorhersage eines Ensembles verschiedener *weak learners*, in diesem Fall **Decision Trees**. Im Gegensatz zum Bagging werden die Vorhersagen der einzelner Lerner aber nicht unabhängig voneinander vorgenommen und dann zusammengefasst, sondern die Aufgabe jedes Lerners ist es, die Vorhersage aller vorherigen Lerner zu verbessern.

Die hier betrachtete Variante des Boostings soll folgendermaßen funktionieren. Sei 

$$
F_k(x^{(i)}) = f_1(x) + f_2(x) + ... + f_k(x)
$$

die Vorhersage eines Boosting mit bereits $k$ trainierten Bäumen. Ein neuer Lerner wird nun einfach auf dem Residual des Fehlers dieser Vorhersage trainiert. Wir definieren für jeden Datenpunkt eine neue Zielvariable:

$$
y_{k+1}^{(i)} = r(x^{(i)}) = y_T^{(i)} - F_k(x^{(i)})
$$

und trainieren den neuen Baum nun auf dem Datensatz $\{(x^{(i)}, y_{k+1}^{(i)}) \; | \; i = 1, ..., N\}$. Die dabei gelernte Vorhersagefunktion sei $f_{k+1}(x)$

Die Vorhersagefunktion des initialen Baums sei mit $f_1(x) = \bar{y} = \sum_{i=1}^N y_T^{(i)}$ schlicht der durchschnittliche Wert der Zielvariablen der Trainingsdaten.

Sobald die gewünschten $K$ Bäume trainiert sind, ist die Vorhersagefunktion des gesamten Modells einfach die Summe der einzelnen Bäume:

$$
\hat{y}(x) = F_K(x) = f_1(x) + f_2(x) + ... + f_K(x)
$$


**<span style="color:red; font-size:2em">(a) </span>** <span style="font-size:2em">&#x1F4D8;</span> Implementieren Sie den beschriebenen Boosting-Algorithmus, indem Sie die unten vorimplementierte Klasse vervollständigen.

**<span style="color:orange; font-size:2em">(d) </span>** <span style="font-size:2em">&#x1F4D8;</span> Benchmarking: Wiederholen Sie die Experimente aus Aufgabe **3b)** für den Boosting-Regressor.

In [None]:
from sklearn.base import RegressorMixin
from sklearn.tree import DecisionTreeRegressor


# Vorimplementierte Klasse:
class SimpleBoostedTreeRegressor(RegressorMixin):
    def __init__(self, max_depth=5, nb_trees=10):
        """
        Die Funktion `__init__` wird automatisch aufgerufen, wenn folgender Code ausgeführt wird:
        
        >>> model = SimpleBoostedTreeRegressor()
        
        Danach speichert das Modell einfach 100 zufällige generierte Decision Trees,
        die mit der Scikit-Learn Implementierung erstellt wurden. Durch Ausführen des folgenden
        Codes können die Bäume, die im Modell gespeichert sind, inspiziert werden:
        >>> print(model.trees)
        """
        self.trees = [DecisionTreeRegressor(max_depth=max_depth) for _ in range(nb_trees)]
        
    def fit(self, X, y):
        """
        Die Funktion `fit` soll genauso funktionieren, wie für Scikit-Learn üblich:
        >>> model.fit(X_train, y_train)
        """
        raise NotImplementedError
        
    def predict(self, X):
        """
        Die Funktion `predict` soll genauso funktionieren, wie für Scikit-Learn üblich:
        >>> y_pred = model.predict(X)
        """
        raise NotImplementedError

## (2.4.5) Vergleichen <span style="color:green; font-size:1em">(o) </span> <span style="font-size:1em">&#x1F4D7;</span>

Nutzen Sie untenstehenden Code, um die verschiedenen Algorithmen miteinander zu vergleichen, wenn sich jeweils die Komplexität der zu Grunde liegenden Bäume erhöht. Interpretieren Sie das Ergebnis. (Verwenden Sie, falls Sie in den vorherigen Aufgaben den `RandomForestRegressor` und den `SimpleBoostedTreeRegressor` nicht implementiert haben stattdessen die in Scikit-Learn verfügbaren Implementierungen.)

In [None]:
from matplotlib import pyplot as plt

depths     = [1,2,3,4,5,6,7,8]
datasets   = [boston,diabetes]
names      = ['boston','diabetes']
algorithms = [
    DecisionTreeRegressor,
    RandomForestRegressor,
    SimpleBoostedTreeRegressor]

for dataset,name in zip(datasets,names):
    plt.figure()
    plt.title(name)

    for algorithm in algorithms:
        
        acc = [benchmark(algorithm(max_depth=i),dataset)[1] for i in depths]
        plt.plot(depths, acc, 'o-', label=algorithm.__name__)

    plt.grid(True)
    plt.xlabel('tree depth')
    plt.ylabel('coefficient of determination')
    plt.legend(loc='lower right')