# Random Forest-Klassifikation mit Scikit-learn

Man kann sich einen Random Forest als eine Vielzahl von Entscheidungsbäumen vorstellen, die anhand verschiedener Teilmengen der Trainingsdaten trainiert werden. Dabei werden beim Training einzelner Entscheidungsbäume nur einige Merkmale berücksichtigt, die zufällig ausgewählt werden. Die Klassenzuweisung für neue Beobachtungen erfolgt durch eine Mehrheitsentscheidung über die Vorhersagen einzelner Bäume.

## Vorbereitung des Datensatzes

Im Folgenden arbeiten wir mit dem <a href="https://archive.ics.uci.edu/ml/datasets/Wine">_Wine Recognition Dataset_</a>, das Ergebnisse einer chemischen Analyse von 178 Weinen von drei verschiedenen Rebsorten enthält. Die Merkmalswerte im Datensatz repräsentieren die in den Weinen gemessenen Inhaltsstoffmengen. Die Klassifikationsaufgabe bei diesem Datensatz besteht darin, anhand der Inhaltsstoffe eines Weins seine Rebsorte zu bestimmen.

Zuerst werden alle benötigten Module in das Programm importiert.

In [None]:
# Lade die nötigen Module
from sklearn import ensemble, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import plotly.express as px
import plotly.graph_objects as go

Der _Wine_-Datensatz wird mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html">_load\_wine()_</a> geladen und in eine Trainings- und eine Testmenge mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html">_train\_test\_split()_</a> zerlegt.

In [None]:
# Lade den Wine Datensatz
X_wine, y_wine = datasets.load_wine(return_X_y=True)

# Teile den Datesatz in die Trainings- und die Testmenge auf
X_train, X_test, y_train, y_test = train_test_split(
    X_wine, y_wine, test_size=0.1, random_state=45)

## Random Forest-Modell

Ein Random Forest-Modell wird mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html">_RandomForestClassifier()_</a> des _Scikit-learn_-Untermoduls <a href="https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble">_Ensemble Methods_</a> erstellt. Das Random Forest-Modell kann durch viele Parameter der Funktion vorbestimmt werden. Im Folgenden werden nur die Wichtigsten von ihnen beschrieben.
* Die Anzahl der Entscheidungsbäume im Random Forest wird durch den Parameter _n\_estimators_ in der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html">_RandomForestClassifier()_</a> festgelegt. Dieser Parameter ist mit 100 voreingestellt.
* Der Parameter _bootstrap_ nimmt darauf Einfluss, ob die einzelnen Entscheidungsbäume auf der Basis der Teilmengen oder der gesamten Trainingsmenge erstellt werden. In der Voreinstellung ist festgelegt, dass die Bäume auf der Grundlage verschiedener Teilmengen der Trainingsdaten erstellt werden.
* Der Parameter _random\_state_ regelt nicht nur die Wahl der Teilmengen für den Aufbau der Entscheidungsbäume, sondern steuert auch die Wahl der Merkmale bzw. Features für die Aufspaltung der inneren Knoten im Baum. Die Zuweisung einer ganzen Zahl für den Parameter _random\_state_ führt zu denselben Ergebnissen bei verschiedenen Aufrufen der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html">_RandomForestClassifier()_</a>. Die beliebten zufälligen Zahlen für den Parameter _random\_state_ sind 0 und 42.

Das Anpassen des Random Forest-Modells an die Trainingsdaten erfolgt mit der Funktion _fit()_.

In [None]:
# Erstelle das Random Forest-Modell
rf_classifier = ensemble.RandomForestClassifier(random_state=42)

# Trainiere das Modell mit der Trainingsmenge
rf_classifier.fit(X_train, y_train)

Mit der Funktion _predict()_ werden die Vorhersagen für alle Beobachtungen der Testmenge getroffen.

In [None]:
# Erstelle die Vorhersage für die Testmenge
y_pred = rf_classifier.predict(X_test)

Das Random Forest-Modell lässt sich zwar nicht so einfach interpretieren wie ein Entscheidungsbaummodell, man kann jedoch mit der Anweisung _feature\_importances\__ die Gewichte der einzelnen Merkmale bzw. Features ausgeben lassen. Diese Gewichte sind maßgebend dafür, wie viel ein Merkmal zur Verringerung der Verunreinigung der Klassen beiträgt. Je höher der Wert ist, desto wichtiger ist das entsprechende Merkmal für die Bestimmung der Klassenzugehörigkeit der Beobachtungen.

In [None]:
# Speichere die Gewichte der Merkmale im
# Array "importances" und gebe diese aus
importances = rf_classifier.feature_importances_
print(importances)

Mit der Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html">_accuracy\_score()_</a> des Untermoduls <a href="https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics">_Metrics_</a> von _Scikit-learn_ wird die _Accuracy_ für das Random Forest-Modell anhand der tatsächlichen und prognostizierten Klassen für Beobachtungen der Testmenge berechnet.

In [None]:
# Berechne die Accuracy
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

In einem 3-dimensionalen Diagramm werden die Beobachtungen der Testmenge grafisch dargestellt. Dafür werden nur die Merkmale - die Farbtiefe, der Flavonoidgehalt und der Prolingehalt - verwendet. Die Rebsorten der Beobachtungen werden durch unterschiedliche Farben markiert. Dabei werden durch die Diamanten die tatsächlichen und durch Kreuze die geschätzten Klassen der Beobachtungen abgebildet.

In [None]:
# Visualisiere die tatsächliche Zugehörigkeit als Diamant
# und die geschätzte als Kreuz
fig3 = px.scatter_3d(x=X_test[:,9], y=X_test[:,6], z=X_test[:,12],
                     color=y_test.astype(str), opacity=0.8, symbol_sequence=["diamond"])
fig4 = px.scatter_3d(x=X_test[:,9], y=X_test[:,6], z=X_test[:,12],
                     color=y_pred.astype(str), symbol_sequence=["cross"])
fig5 = go.Figure(data=fig3.data + fig4.data)
fig5.show()