# Decision Trees, Random Forests, Gradient Boosting

Das Ziel dieser Aufgabe ist es, den **Decision Tree** auf verschiedene Weise zu erweitern: (1) durch *Bagging*, in Form eines **Random Forest** und (2) durch *Boosting*. Wir benutzen zur Implementierung des **Decision Trees** die in Scikit-Learn verfügbare Implementierung und erweitern diese für die gewünschte Implementierung der zwei Algorithmen.

## 1. Decision Trees <span style="color:green; font-size:1em">(o)</span> <span style="font-size:1em">&#x1F4D7;</span>

**<span style="color:green; font-size:2em">(a)</span>** <span style="font-size:2em">&#x1F4D7;</span> Laden Sie den in Scikit-Learn verfügbaren Iris-Datensatz und behalten Sie von den vier Features des Datensatzes nur die ersten zwei, damit das Problem einfach zu visualisieren ist. Plotten Sie den Datensatz mit `plt.scatter` und weisen Sie den Klassen verschiedene Farben zu.

**<span style="color:green; font-size:2em">(b)</span>** <span style="font-size:2em">&#x1F4D7;</span> In der begleitenden Python-File `utils_viz.py` befindet sich eine Funktion `visualize_classifier`, denen als Argumente ein Scikit-Learn-Modell sowie die Trainings-Beobachtungen und Trainings-Labels übergeben werden können. Machen Sie sich mit der Funktion vertraut.

**<span style="color:green; font-size:2em">(c)</span>** <span style="font-size:2em">&#x1F4D7;</span> Trainieren Sie einen einfachen **Decision Tree** mit default-Parametern bis auf das Argument `max_depth`. Varieren Sie dieses Argument und benutzen Sie die Funktion aus **b)** um die Entscheidungsgrenzen Bäume verschiedener Tiefe zu visualisieren. Trainieren Sie auf der gesamten Datenmenge.

**<span style="color:green; font-size:2em">(d)</span>** <span style="font-size:2em">&#x1F4D7;</span> Teilen Sie nun die Daten in Trainings- und Testdaten auf. Weisen Sie zufällig 50% der Daten dem Trainingsdatensatz zu und die verbliebenen Daten dem Testdatensatz (Tipp: benutzen Sie am besten die Funktion `train_test_split`, die unten beispielhaft erklärt wird). Trainieren Sie nun für jede Tiefe von $1-5$ einen **Decision Tree** und evaluieren Sie mit den Testdaten. Plotten Sie die Korrekte-Klassifikationsrate/Genauigkeit gegen die Tiefe des Modells.

In [11]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import seaborn as sns # sns.set()

In [5]:
# Datensatz - Dokumentation
iris = load_iris()
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## 2. Bagging - Random Forests - Classification <span style="color:orange; font-size:1em">(oo) </span> <span style="font-size:1em">&#x1F4D7;</span>

Unser nächstes Ziel ist es, die Entscheidungsgrenze eines **Random Forest** mit dem eines **Decision Trees** zu vergleichen. Wir betrachten einen **Random Forest**, der aus 100 Bäumen zusammengesetzt ist. Jeder dieser Bäume soll auf nur auf einem Teil der Trainingsdaten trainiert werden. Wählen Sie für jeden Baum zufällig 50% der Trainingsdaten aus (Tipp: benutzen Sie zum Beispiel `np.random.permutation` oder `np.random.choice` oder `train_test_split`). Die Vorhersage-Funktion soll ein einfacher *Majority-Vote* der einzelnen Bäume sein (die Vorhersage ist die Klasse, die von den meisten Bäumen vorhergesagt wird).

**<span style="color:green; font-size:2em">(a) </span>** <span style="font-size:2em">&#x1F4D7;</span> Implementieren Sie die unten aufgeführte Funktion `fit`, die als Input einen Random Forest erhält und den Fit der einzelnen Bäume ausführt.

**<span style="color:orange; font-size:2em">(b) </span>** <span style="font-size:2em">&#x1F4D7;</span> Implementieren Sie die unten aufgeführte Funktion `predict`, die als Input einen Random Forest erhält und die Vorhersagen der einzelnen Bäume ermittelt und daraufhin einen *Majority-Vote* ausführt (Tipp: `scipy.stats.mode`).

**<span style="color:red; font-size:2em">(c) </span>** <span style="font-size:2em">&#x1F4D9;</span> In dieser Aufgabe soll der Random Forest objekt-orientiert implementiert werden. Implementieren Sie dazu die entsprechenden Funktionen der unten bereits vorimplementierten Klasse, sodass ihr **Random Forest** Klassifikator mit `visualize_classifier` aus `utils_viz.py` benutzt werden kann (Tipp: `scipy.stats.mode`).

**<span style="color:green; font-size:2em">(d) </span>** <span style="font-size:2em">&#x1F4D7;</span> Teilen Sie die Daten wie zuvor in Trainings- und Testdaten auf. Trainieren Sie das Modell und visualisieren Sie die Entscheidungsgrenze. Berechnen Sie die Test-Klassifikationsrate und vergleichen Sie mit den **Decision Trees** aus der vorherigen Aufgabe.

In [6]:
# TODO: Importiere Random Forest aus Scikit-Learn
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import accuracy_score, mean_squared_error
from sklearn.model_selection import train_test_split

In [7]:
# Daten

# Die X Matrix
X = iris.data
# Behalte nur die ersten zwei Features (Spalten)
X = X[:, [0, 1]]

# y Vektor
y = iris.target

# Trainings- und Testdaten erzeugen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.7)

  mask[1:] = aux[1:] != aux[:-1]


In [8]:
# a: Modell trainieren
forest = RandomForestClassifier(
    n_estimators=100,  # Anzahl der Bäume. Sinnvolle sind 100, 200, 500, maximal 1000
    max_depth=10,  # Tiefe der Bäume
    n_jobs=-1  # Anzahl der Prozessoren, -1 steht für alle vorhandenen
)
forest.fit(X_train, y_train)

  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1


RandomForestClassifier(max_depth=10, n_jobs=-1)

In [9]:
# b) Vorhersage

# TODO: Modell evaluieren
y_pred_test = forest.predict(X_test)
y_pred_train = forest.predict(X_train)

accuracy_train = accuracy_score(y_train, y_pred_train) 
accuracy_test = accuracy_score(y_test, y_pred_test)

print("Train:", accuracy_train)
print("Test:", accuracy_test)

Train: 1.0
Test: 0.7047619047619048


  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  n_estimators_per_job[:n_estimators % n_jobs] += 1
  proba /= len(self.estimators_)
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  n_estimators_per_job[:n_estimators % n_jobs] += 1
  proba /= len(self.estimators_)
  mask[1:] = aux[1:] != aux[:-1]
  score = y_true == y_pred
  ret = umr_sum(arr, axis, dtype, out, keepdims)
  ret = ret.dtype.type(ret / rcount)


__Progammierung per Hand__

In [None]:
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor

fit unabhängig

In [12]:
# Daten vobereiten
X = iris.data
X = X[:, [0, 1]]
y = iris.target
data_train = np.column_stack((X, y))


# fit
trees = 100
max_depth = 3
tree = DecisionTreeClassifier(max_depth=max_depth)
trees_fit, X_test, y_test = [],[],[]

for t in range (trees):
    d_train_perm = np.random.permutation(data_train)
    d_train_perm = d_train_perm[:50, :]
    X_train = d_train_perm[:100, [0, 1]]
    y_train = d_train_perm[:100, 2]
    fit_ = tree.fit(X_train, y_train)
    trees_fit.append(fit_)

  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dty

  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.

Random Forest

In [None]:
# Daten importieren und aufbereiten

# Die X Matrix
X = iris.data

# Behalte nur die ersten zwei Features (Spalten)
X = X[:, [0, 1]]
# Die Zielvariablen - y
y = iris.target

data = np.column_stack((X, y))


def split_data(data, test_size=0.33):
    """Splits data in train and test data"""
    z = int(len(data)*test_size)
    X_train = data[z:, 0:1]
    y_train = data[z:, 2]
    X_test = data[:z, 0:1]
    y_test = data[:z, 2]
    print(X_train.shape)
    print(y_train.shape)
    print(X_test.shape)
    print(y_test.shape)

def permut(X_train, y_train):
    """Permutiert die Trainingsdaten"""
    z = int(len(X_train))
    perm = np.random.permutation(z)
    X_train_permuted = X[perm, :]
    y_train_permuted = y_train[perm,]
    print(X_train_permuted)
    print(y_train_permuted)

    return X_train_permuted, y_train_permuted    


split_data(data)
permut(X_train, y_train)

In [None]:
X = np.array([[0, 1],
             [2, 3],
             [4, 5]
             ])
y = np.array([0, 1, 1])

perm = np.random.permutation(3) # Bei Eingabe Zahl permutiert er die Indizes, 
                                # diese Variable kann weiter benutz werden, z.B. für y
X_permuted = X[perm, :]
X_permuted

# Funktional programmiert

In [13]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from scipy import stats

def random_forest(data, trees, max_depth):
    """Random forest process."""
    data_premuted = np.random.permutation(data) # falls Daten nach y sortiert abgespeichert sind
    X_train, y_train, X_test, y_test = split_data(data_premuted)
    fittet_trees = fit(X_train, y_train, trees, max_depth)
    y_pred_train_list, y_pred_test_list = predict(fittet_trees,X_train, y_train, X_test, y_test)
    majority_vote(y_pred_train_list, y_pred_test_list, y_train, y_test)

def split_data(data, test_size=0.33):
    """Splits data in train and test data.""" # Die Testdaten dürfen nicht in der Schleife permutiert werden
    z = int(len(data)*test_size) # ACHTUNG, klappt das?
    X_train = data[z:, 0:2]
    y_train = data[z:, 2]
    X_test = data[:z, 0:2]
    y_test = data[:z, 2]
    return X_train, y_train, X_test, y_test

def permut(X_train, y_train):
    """Permutiert die Trainingsdaten."""
    z = int(len(X_train))
    perm = np.random.permutation(z)
    X_train_permuted = X_train[perm, :]
    y_train_permuted = y_train[perm,]
    return X_train_permuted, y_train_permuted

def fit(X_train, y_train, trees, max_depth):
    '''Trainiert die Trainingsdaten mit der Anzahl "trees" und der Tiefe "max_depth".'''
    tree = DecisionTreeClassifier(max_depth=max_depth)
    fittet_trees = []
    for t in range (trees):
        # X_train_perm, X_test_perm, y_train_perm, y_test_perm = permut(data)
        X_train_permuted, y_train_permuted = permut(X_train, y_train)
        z = int(len(X_train_permuted)/2)
        X_sub_train = X_train_permuted[:z, [0, 1]]
        y_sub_train = y_train_permuted[:z]
        fit_ = tree.fit(X_sub_train, y_sub_train)
        fittet_trees.append(fit_)
    return fittet_trees

def predict(fittet_trees, X_train, y_train, X_test, y_test):
    """Macht die Vorhersage und gibt accuracies für Trainings- und Testdaten wieder."""
    y_pred_train_list, y_pred_test_list = [], []
    for t in fittet_trees:
        #X_train_perm, y_train_perm = permut(X_train, y_train)
        y_pred_train = t.predict(X_train)
        y_pred_test = t.predict(X_test)
        y_pred_train_list.append(y_pred_train)
        y_pred_test_list.append(y_pred_test)
    y_pred_train_list = np.array(y_pred_train_list)
    y_pred_test_list = np.array(y_pred_test_list)
    # majority vote auf y_pred und y_test  # stats.mode
    return y_pred_train_list, y_pred_test_list

def majority_vote(y_pred_train_list, y_pred_test_list, y_train, y_test):
    """Führt Majority Vote durch und gibt Accuracy aus."""
    mv_train_pred = stats.mode(y_pred_train_list, axis=0).mode
    mv_test_pred = stats.mode(y_pred_test_list, axis=0).mode
    accuracy_train = accuracy_score(y_train, mv_train_pred[0]) 
    accuracy_test = accuracy_score(y_test, mv_test_pred[0])
    print("Accuracy train: ", accuracy_train) 
    print("Accuracy test: ", accuracy_test)
    
    
# Daten vobereiten
iris = load_iris()
X = iris.data
X = X[:, [0, 1]]
y = iris.target
data = np.column_stack((X, y))

# Funktion aufrufen
random_forest(data, 100, 5)

  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dty

  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  if y.dtype.kind == 'f' and np.any(y != y.astype(int)):
  mask[1:] = aux[1:] != aux[:-1]
  imask = np.cumsum(mask) - 1
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulat

Accuracy train:  0.8118811881188119
Accuracy test:  0.7142857142857143


  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):
  return ufunc.reduce(obj, axis, dtype, out, **passkwargs)
  if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))):


# Objekt orientiert

In [None]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from scipy import stats


class RandomForest:   
    """Eine Klasse zum ausführen eines Random Forest."""
    # Klasse selber hat keine Argumente (nur zum Vererben), sondern nur der Konstruktor (init)
    
    def __init__(self, data, trees, max_depth):
        """Initialisiert die Daten und die Hyperparameter"""
        self.data = data
        self.trees = trees
        self.max_depth = max_depth
        
    def random_forest(self):
        """Random forest process."""
        data_premuted = np.random.permutation(self.data) # falls Daten nach y sortiert abgespeichert sind
        X_train, y_train, X_test, y_test = split_data(data_premuted)
        fittet_trees = fit(X_train, y_train, self.trees, self.max_depth)
        y_pred_train_list, y_pred_test_list = predict(fittet_trees,X_train, y_train, X_test, y_test)
        majority_vote(y_pred_train_list, y_pred_test_list, y_train, y_test)

    def split_data(self, test_size=0.33):
        """Splits data in train and test data.""" 
        z = int(len(self.data)*test_size) 
        X_train = self.data[z:, 0:2]
        y_train = self.data[z:, 2]
        X_test = self.data[:z, 0:2]
        y_test = self.data[:z, 2]
        return X_train, y_train, X_test, y_test

    def permut(self, X_train, y_train):
        """Permutiert die Trainingsdaten."""
        z = int(len(X_train))
        perm = np.random.permutation(z)
        X_train_permuted = X_train[perm, :]
        y_train_permuted = y_train[perm,]
        return X_train_permuted, y_train_permuted

    def fit(self, X_train, y_train):
        '''Trainiert die Trainingsdaten mit der Anzahl "trees" und der Tiefe "max_depth".'''
        tree = DecisionTreeClassifier(max_depth=self.max_depth)
        fittet_trees = []
        for t in range (self.trees):
            # X_train_perm, X_test_perm, y_train_perm, y_test_perm = permut(data)
            X_train_permuted, y_train_permuted = permut(X_train, y_train)
            z = int(len(X_train_permuted)/2)
            X_sub_train = X_train_permuted[:z, [0, 1]]
            y_sub_train = y_train_permuted[:z]
            fit_ = tree.fit(X_sub_train, y_sub_train)
            fittet_trees.append(fit_)
        return fittet_trees

    def predict(self, fittet_trees, X_train, y_train, X_test, y_test):
        """Macht die Vorhersage und gibt accuracies für Trainings- und Testdaten wieder."""
        y_pred_train_list, y_pred_test_list = [], []
        for t in fittet_trees:
            #X_train_perm, y_train_perm = permut(X_train, y_train)
            y_pred_train = t.predict(X_train)
            y_pred_test = t.predict(X_test)
            y_pred_train_list.append(y_pred_train)
            y_pred_test_list.append(y_pred_test)
        y_pred_train_list = np.array(y_pred_train_list)
        y_pred_test_list = np.array(y_pred_test_list)
        # majority vote auf y_pred und y_test  # stats.mode
        return y_pred_train_list, y_pred_test_list

    def majority_vote(self, y_pred_train_list, y_pred_test_list, y_train, y_test):
        """Führt Majority Vote durch und gibt Accuracy aus."""
        mv_train_pred = stats.mode(y_pred_train_list, axis=0).mode
        mv_test_pred = stats.mode(y_pred_test_list, axis=0).mode
        accuracy_train = accuracy_score(y_train, mv_train_pred[0]) 
        accuracy_test = accuracy_score(y_test, mv_test_pred[0])
        print("Accuracy train: ", accuracy_train) 
        print("Accuracy test: ", accuracy_test)   

In [None]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from scipy import stats


class RandomForest:   
    """Eine Klasse zum ausführen eines Random Forest."""
    # Klasse selber hat keine Argumente (nur zum Vererben), sondern nur der Konstruktor (init)
    
    def __init__(self, data, trees, max_depth):
        """Initialisiert die Daten und die Hyperparameter"""
        self.data = data
        self.trees = trees
        self.max_depth = max_depth
        
    def random_forest(self):
        """Random forest process."""
        data_premuted = np.random.permutation(self.data) # falls Daten nach y sortiert abgespeichert sind
        X_train, y_train, X_test, y_test = split_data(data_premuted)
        fittet_trees = fit(X_train, y_train, self.trees, self.max_depth)
        y_pred_train_list, y_pred_test_list = predict(fittet_trees,X_train, y_train, X_test, y_test)
        majority_vote(y_pred_train_list, y_pred_test_list, y_train, y_test)

    def split_data(self, test_size=0.33):
        """Splits data in train and test data.""" 
        z = int(len(self.data)*test_size) 
        X_train = self.data[z:, 0:2]
        y_train = self.data[z:, 2]
        X_test = self.data[:z, 0:2]
        y_test = self.data[:z, 2]
        return X_train, y_train, X_test, y_test

    def permut(self, X_train, y_train):
        """Permutiert die Trainingsdaten."""
        z = int(len(X_train))
        perm = np.random.permutation(z)
        X_train_permuted = X_train[perm, :]
        y_train_permuted = y_train[perm,]
        return X_train_permuted, y_train_permuted

    def fit(self, X_train, y_train):
        '''Trainiert die Trainingsdaten mit der Anzahl "trees" und der Tiefe "max_depth".'''
        tree = DecisionTreeClassifier(max_depth=self.max_depth)
        fittet_trees = []
        for t in range (self.trees):
            # X_train_perm, X_test_perm, y_train_perm, y_test_perm = permut(data)
            X_train_permuted, y_train_permuted = permut(X_train, y_train)
            z = int(len(X_train_permuted)/2)
            X_sub_train = X_train_permuted[:z, [0, 1]]
            y_sub_train = y_train_permuted[:z]
            fit_ = tree.fit(X_sub_train, y_sub_train)
            fittet_trees.append(fit_)
        return fittet_trees

    def predict(self, fittet_trees, X_train, y_train, X_test, y_test):
        """Macht die Vorhersage und gibt accuracies für Trainings- und Testdaten wieder."""
        y_pred_train_list, y_pred_test_list = [], []
        for t in fittet_trees:
            #X_train_perm, y_train_perm = permut(X_train, y_train)
            y_pred_train = t.predict(X_train)
            y_pred_test = t.predict(X_test)
            y_pred_train_list.append(y_pred_train)
            y_pred_test_list.append(y_pred_test)
        y_pred_train_list = np.array(y_pred_train_list)
        y_pred_test_list = np.array(y_pred_test_list)
        # majority vote auf y_pred und y_test  # stats.mode
        return y_pred_train_list, y_pred_test_list

    def majority_vote(self, y_pred_train_list, y_pred_test_list, y_train, y_test):
        """Führt Majority Vote durch und gibt Accuracy aus."""
        mv_train_pred = stats.mode(y_pred_train_list, axis=0).mode
        mv_test_pred = stats.mode(y_pred_test_list, axis=0).mode
        accuracy_train = accuracy_score(y_train, mv_train_pred[0]) 
        accuracy_test = accuracy_score(y_test, mv_test_pred[0])
        print("Accuracy train: ", accuracy_train) 
        print("Accuracy test: ", accuracy_test)   

## 3. Bagging - Random Forests - Regression <span style="color:orange; font-size:1em">(oo) </span> <span style="font-size:1em">&#x1F4D9;</span>

In dieser Aufgabe soll wie bei der Klassifikation ein einfacher **Random Forest** Klassifikator erstellt werden, der auf der Basis-Klasse `DecisionTreeRegressor` beruht. Anstatt eines *Majority-Votes* ist hier der Vorhersage-Mechanismus ein einfaches *Averaging* der Vorhersagen der einzelnen Bäume. Jeder einzelne Baum soll wie zuvor auf 50% der Trainingsdaten trainiert werden.

**<span style="color:green; font-size:2em">(a) </span>** <span style="font-size:2em">&#x1F4D9;</span> Implementieren Sie eine Funktion `fit`, die als Input einen Random Forest erhält und den Fit der einzelnen Bäume ausführt. Orientieren Sie sich an Aufgabe **2a)**.

**<span style="color:orange; font-size:2em">(b) </span>** <span style="font-size:2em">&#x1F4D9;</span> Implementieren Sie eine Funktion `predict`, die als Input einen Random Forest erhält und die Vorhersagen der einzelnen Bäume ermittelt und daraufhin ein *Averaging* ausführt. Orientieren Sie sich an Aufgabe **2b)**.

**<span style="color:red; font-size:2em">(c) </span>** <span style="font-size:2em">&#x1F4D9;</span> In dieser Aufgabe soll der Random Forest Regressor objekt-orientiert implementiert werden. Implementieren Sie dazu die entsprechenden Funktionen der unten bereits vorimplementierten Klasse.

**<span style="color:orange; font-size:2em">(d) </span>** <span style="font-size:2em">&#x1F4D9;</span> Die Funktion `utils_tree.benchmark` gibt die durchschnittliche Performance des Klassifikators für 100 zufällige Train/Test-Splits aus. Benutzen Sie diese Funktion, um für zwei Beispiel-Datensätze (`load_boston` und `load_diabetes` aus Scikit-Learn) und für eine variable Menge an Bäumen, das heißt für `nb_trees = [1,2,4,8,16,32]`, die Performance zu berechnen. Die Performance wird statt wie üblich als quadratischer Fehler als *Score* berechnet, der zwischen $-\infty$ und $1$ liegt und die Qualität der Regression beschreibt. Ein Score von $1$ steht dabei für eine perfekte Regression, während ein Score von $0$ äquivalent zu einem konstanten Modell ist. Ein negativer Score steht für einen Regressor, der systematisch falsch liegt. Plotten Sie die Ergebnisse. Vergleichen Sie mit dem Ergebnis für einen einfachen Baum.

## 4. Boosting - Regression <span style="color:red; font-size:1em">(ooo) </span> <span style="font-size:1em">&#x1F4D8;</span>

In dieser Aufgabe implementieren Sie einen einfachen Boosting-Algorithmus. Wie bei einem Bagging-Algorithmus beruht auch ein Boosting-Algorithmus auf der Vorhersage eines Ensembles verschiedener *weak learners*, in diesem Fall **Decision Trees**. Im Gegensatz zum Bagging werden die Vorhersagen der einzelner Lerner aber nicht unabhängig voneinander vorgenommen und dann zusammengefasst, sondern die Aufgabe jedes Lerners ist es, die Vorhersage aller vorherigen Lerner zu verbessern.

Die hier betrachtete Variante des Boostings soll folgendermaßen funktionieren. Sei 

$$
F_k(x^{(i)}) = f_1(x) + f_2(x) + ... + f_k(x)
$$

die Vorhersage eines Boosting mit bereits $k$ trainierten Bäumen. Ein neuer Lerner wird nun einfach auf dem Residual des Fehlers dieser Vorhersage trainiert. Wir definieren für jeden Datenpunkt eine neue Zielvariable:

$$
y_{k+1}^{(i)} = r(x^{(i)}) = y_T^{(i)} - F_k(x^{(i)})
$$

und trainieren den neuen Baum nun auf dem Datensatz $\{(x^{(i)}, y_{k+1}^{(i)}) \; | \; i = 1, ..., N\}$. Die dabei gelernte Vorhersagefunktion sei $f_{k+1}(x)$

Die Vorhersagefunktion des initialen Baums sei mit $f_1(x) = \bar{y} = \sum_{i=1}^N y_T^{(i)}$ schlicht der durchschnittliche Wert der Zielvariablen der Trainingsdaten.

Sobald die gewünschten $K$ Bäume trainiert sind, ist die Vorhersagefunktion des gesamten Modells einfach die Summe der einzelnen Bäume:

$$
\hat{y}(x) = F_K(x) = f_1(x) + f_2(x) + ... + f_K(x)
$$


**<span style="color:red; font-size:2em">(a) </span>** <span style="font-size:2em">&#x1F4D8;</span> Implementieren Sie den beschriebenen Boosting-Algorithmus, indem Sie die unten vorimplementierte Klasse vervollständigen.

**<span style="color:orange; font-size:2em">(d) </span>** <span style="font-size:2em">&#x1F4D8;</span> Benchmarking: Wiederholen Sie die Experimente aus Aufgabe **3b)** für den Boosting-Regressor.

## 5. Vergleichen <span style="color:green; font-size:1em">(o) </span> <span style="font-size:1em">&#x1F4D7;</span>

Nutzen Sie untenstehenden Code, um die verschiedenen Algorithmen miteinander zu vergleichen, wenn sich jeweils die Komplexität der zu Grunde liegenden Bäume erhöht. Interpretieren Sie das Ergebnis. (Verwenden Sie, falls Sie in den vorherigen Aufgaben den `RandomForestRegressor` und den `SimpleBoostedTreeRegressor` nicht implementiert haben stattdessen die in Scikit-Learn verfügbaren Implementierungen.)