# Random Forests

Een andere manier om overfitting van decision trees tegen te gaan en het resultaat accurater te maken is door gebruik te maken van Random Forests.
Deze techniek gaat meerdere decision trees trainen en door gebruik van majority voting alle trees laten stemmen over het uiteindelijke resultaat.
Buiten het vermijden van problemen door overfitting kan deze techniek ook veel accurater zijn.
Algemeen gezien kan men zelfs er van uitgaan dat hoe meer trees er gebruikt worden hoe accurater het forest wordt.

Omdat we meerdere bomen gebruiken willen we ook meer variatie in de modellen die deze bomen leren.
Daarom wordt elke boom maar op een willekeurig deel van de data getrained (vandaar de term random).

Buiten de hyperparameters die voor de decision trees gebruikt kunnen worden zijn er nog een aantal extra zaken die de performantie van het gecombineerde forest sterk kan verbeteren, namelijk:
* n_estimators: Het aantal bomen dat gebruikt wordt (Hoe meer bomen hoe accurater maar ook hoe meer rekenkracht)
* max_features: Aantal features per boom (int, float, sqrt / auto, log2, default). Hoe meer features, hoe meer kans op overfitting
* Bootstrap aggregating of bagging: Dit houdt in dat maar een deel van de observaties gebruikt worden om elke boom te trainen. Zo kan er meer variatie geintroduceerd worden.
* oob_score: Out-of-Bag score: Het trainen van een decision tree gebruikt niet alle trainingsdata dus kan je de niet-gebruikte data gebruiken als validatieset voor die boom. Meer informatie vind je [hier](https://towardsdatascience.com/what-is-out-of-bag-oob-score-in-random-forest-a7fa23d710)

Waarom zou je een Random Forest Classifier verkiezen boven een classifier gebaseerd op Logistic Regression of SVM?
Random forest classifiers hebben de volgende voordelen:
* Ze zijn zeer goed in te stellen
* Ze vragen niet veel rekenkracht
* Hun accuraatheid is gelijk aan dat van SVM of zelfs beter
* Het voordeel van decision trees dat er kan geredeneerd worden op welke features belangrijk zijn blijft behouden. 

Net zoals voor de vorige classifiers kan ook deze techniek gebruikt worden voor regressie.
In dit geval moet er gebruik gemaakt worden van het gemiddelde in plaats van majority voting.

In [1]:
import sklearn.datasets as datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import numpy as np

data = datasets.load_breast_cancer(as_frame=True)

# train test split
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)

forest = RandomForestClassifier(n_estimators=1000, max_depth=5, max_features='log2') # 1000 bomen, max_depth=5, log2 = hoeveel features worden aan elke boom gegeven
forest.fit(X_train, y_train)

print(f"Accuracy train {forest.score(X_train, y_train)}") # logisch dat dit resultaat 1 is want zonder restricties van hyperparameter kan elk datapunt apart zitten
print(f"Accuracy test {forest.score(X_test, y_test)}")

Accuracy train 0.9956043956043956
Accuracy test 0.956140350877193


In [None]:
print(forest.feature_importances_) # hoe belangrijk is elke feature/input voor het eindresultaat

for idx, val in enumerate(forest.feature_importances_):
    if val == np.max(forest.feature_importances_):
        print(f"Most important feature {data.data.columns[idx]}")

# Het valt op dat hier minder nullen aanwezig zijn dan bij decision tree
# Dit komt omdat er 1000 bomen zijn en niet elke boom heeft alle features -> hierdoor komt elke kolom wel eens aan bod om te splitsen

[0.04710314 0.01078635 0.05660166 0.04803576 0.00760219 0.01516445
 0.0475745  0.09124856 0.00349961 0.00287319 0.01855576 0.00294782
 0.01327646 0.04174234 0.00412213 0.00383843 0.00777972 0.00464335
 0.00398511 0.00489493 0.12295544 0.01369939 0.08945848 0.12941518
 0.0134209  0.01581848 0.04106451 0.11870823 0.0130317  0.00615224]
Most important feature worst area
