# Random Forests

Random Forests gehören in die Familie der **Ensemble-Learner**. Hier wird nicht nur ein Klassifikator trainiert, sondern mehrere (ein **Ensemble**) und dann nach Mehrheitsentscheid ausgewählt (das funktioniert auch für die Regression).

Bevor wir konkret Random Forests trainieren, sehen wir uns ein paar Grundlagen des Ensemble Learnings an. 

## Voting

Mit dem `VotingClassifier` in sklearn kann man verschiedene Klassifikatoren gleichzeitig trainieren und über die Ergebnisse aggregieren. So bekommt man oft eine höhere Genauigkeit als bei den einzelnen Klassifikationen. Nimmt man beispielsweise die Mehrheitsentscheidung, spricht man von *hard voting*.

In [1]:
from scipy.stats import zscore

from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

from bdsm.datasets import titanic

In [2]:
df = titanic()
df = df.to_numeric()
df = df.drop("PassengerId", axis=1)

In [3]:
X = df.drop("Survived_cat", axis=1)
y = df["Survived_cat"].copy()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33,random_state=147)
X_train = zscore(X_train)
X_test = zscore(X_test)


In [4]:
log_clf = LogisticRegression()
rf_clf = RandomForestClassifier()
svm_clf = SVC()

In [5]:
voting_clf = VotingClassifier(
    estimators=[('lr', log_clf),('rf',rf_clf),('svc',svm_clf)],
    voting='hard'
)
voting_clf.fit(X_train, y_train)

VotingClassifier(estimators=[('lr', LogisticRegression()),
                             ('rf', RandomForestClassifier()), ('svc', SVC())])

In [6]:
for clf in (log_clf, rf_clf, svm_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.8169491525423729
RandomForestClassifier 0.8372881355932204
SVC 0.8372881355932204
VotingClassifier 0.8372881355932204


## Bagging und Pasting

Ein anderer Ansatz als mehrere Klassifikatoren zu verwenden ist es, einen Klassifikator auf unterschiedlichen, zufällig erstellten Subsets der Trainingsdaten zu trainieren. Wird das Sample **mit** Zurücklegen erstellt, dann spricht man von **Bagging** (Abkürzung für *boostrap aggregating*), wird es **ohne** Zurücklegen erstellt nennt man es **Pasting**.

In beiden Fällen werden die Trainingsinstanzen mehrmals von dem/den Klassifikator/en (es könnten auch wieder unterschiedliche sein) verwendet. Bei Bagging kann es sogar vorkommen, dass die gleiche Trainingsinstanz mehrmals verwendet wird (weil wir ja mit Zurücklegen samplen).

Wenn alle Klassifikatoren trainiert sind, erstellt das Ensemble eine Vorhersage für einen neuen Datenpunkt, indem über alle Predictions der Klassifikatoren aggregiert wird. Dabei nimmt man üblicherweise 

- den **Modus** bei Klassifikationen
- den **Mittelwert** bei Regressionen

Jeder einzelne Prädiktor hat somit zwar einen höheren Bias, als wenn er auf den originalen Trainingsdaten trainiert wurde, insgesamt werden aber sowohl Bias als auch Varianz reduziert!

Ein weiterer Vorteil ist, dass man alle Klassifikatoren **parallel** auf mehreren CPUs rechnen kann. Diese Skalierungseigenschaft macht das Bagging sehr attraktiv

### Bagging Beispiel

In [7]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

In [8]:
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(),
    n_estimators=500,
    bootstrap=True,
    n_jobs=-1
)

In [9]:
bag_clf.fit(X_train, y_train)

BaggingClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=500,
                  n_jobs=-1)

In [10]:
y_pred = bag_clf.predict(X_test)

In [11]:
accuracy_score(y_test, y_pred)

0.8305084745762712

## Out-of-Bag Evaluation

Beim Bagging werden manche Instanzen der Trainingsdaten mehrmals ins Sample gewählt, manche gar nicht. Per default nimmt ein `BaggingClassifier` in sklearn $m$ Trainingsinstanzen mit Zurücklegen, wobei $m$ die Größe des Trainingssets ist. Es läßt sich zeigen, dass dadurch im Schnitt nur etwa 63% aller Trainingsinstanzen für jeden Klassifikator verwendet werden. Die verbleibenden 37%, die nicht verwendet werden, nennt man **out-of-bag** (oob)-Instanzen. Beachte, dass diese 37% für jeden Klassifikator unterschiedlich sein können.

Da der Klassifikator diese oob Insanzen während des Trainings niemals sieht, sie aber trotzdem Teil des Trainingssets sind, bietet es sich an, diese als **Validation Set** zu betrachten.

Um das durchzuführen, muss man nur die Option `oob_score=True` beim `BaggingClassifier` setzen:

In [12]:
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(),
    n_estimators=500,
    bootstrap=True,
    n_jobs=-1,
    oob_score=True
)

In [13]:
bag_clf.fit(X_train, y_train)
bag_clf.oob_score_

0.785234899328859

Vergleichen wir das nun mit der Accuracy auf den Testdaten:

In [14]:
y_pred = bag_clf.predict(X_test)
accuracy_score(y_test, y_pred)

0.8372881355932204

## Random Forests in Python

Statt einen `BaggingClassifier` und einen `DecisionTreeClassifier` zu kombinieren, kann man einfacher einen `RandomForestClassifier` verwenden, der für Decision Trees optimiert wurde:

In [15]:
from sklearn.ensemble import RandomForestClassifier

In [16]:
rf_clf = RandomForestClassifier(
    n_estimators=500,
    max_leaf_nodes=16,
    n_jobs=-1
)

In [17]:
rf_clf.fit(X_train, y_train)

RandomForestClassifier(max_leaf_nodes=16, n_estimators=500, n_jobs=-1)

In [18]:
y_pred_rf = rf_clf.predict(X_test)

In [19]:
accuracy_score(y_test, y_pred)

0.8372881355932204

### Erklärung

Der Random Forest hat noch ein zusätzliches Level an Randomness: anstatt nach dem besten Feature unter allen verfügbaren Features für einen Split zu suchen, betrachtet er nur ein **zufälliges** Subset an Features. Die Bäume werden so diverser, dadurch bekommt man zwar einen höheren Bias, aber eine geringere Varianz, was insgesamt zu einem besseren Modell führt!

Durch die Ausführung als Ensemble-Methode verlieren wir die Erklärbarkeit, die wir bei einzelnen Bäumen hatten. Jedoch können wir uns die **Feature-Importance** ansehen, hier am Beispiel der Iris Daten:

In [20]:
from bdsm.datasets import iris

In [21]:
df = iris()
X = df.drop("Class", axis=1)
y = df["Class"]

In [22]:
rf_clf = RandomForestClassifier(n_estimators=500,n_jobs=-1)
rf_clf.fit(X, y)
for name, score in zip(list(df.columns), rf_clf.feature_importances_):
    print(name, score)

Sepal length 0.10208522594339844
Sepal width 0.023296681514646655
Petal length 0.44217568616312986
Petal width 0.43244240637882503
