# 3. Klassifikation mit Random Forests und Boosting

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%load_ext version_information

a) Wiederholen Sie Aufgabe 1 b mit einem Random Forest. Teilen Sie dazu den Datensatz wieder in einen Trainings- und Testdatensatz. Bestimmen Sie den Fehler auf den Testdaten und vergleichen Sie ihn mit dem ”out of bag”-Fehler.

In [2]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits

# Lade Beispiel-Datensatz (hier: Digits Datensatz)
digits = load_digits()
X, y = digits.data, digits.target

# Teile den Datensatz in Trainings- und Testdaten auf
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Initialisiere einen Random Forest Klassifikator
random_forest = RandomForestClassifier(n_estimators=100, random_state=42, oob_score=True)

# Trainiere den Random Forest auf dem Trainingsdatensatz
random_forest.fit(X_train, y_train)

# Berechne die Treffergenauigkeit auf dem Trainings- und Testdatensatz
train_accuracy = random_forest.score(X_train, y_train)
test_accuracy = random_forest.score(X_test, y_test)

# Bestimme den "out of bag" (OOB)-Fehler
oob_error = 1 - random_forest.oob_score_

print(f'Trainingsdaten Treffergenauigkeit: {train_accuracy:.6f}')
print(f'Testdatensatz Treffergenauigkeit: {test_accuracy:.6f}')
print(f'Out-of-Bag (OOB) Fehler: {oob_error:.6f}')

Trainingsdaten Treffergenauigkeit: 1.000000
Testdatensatz Treffergenauigkeit: 0.971111
Out-of-Bag (OOB) Fehler: 0.034150


b) Wiederholen sie Aufgabe 1 b mit einem Boosting-Verfahren. Sie können dazu entweder die Implementierung von sklearn verwenden oder Sie installieren xgboost (https://github.com/dmlc/xgboost) oder catboost (https://catboost.ai/docs/).

In [3]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics

# Initialisieren des Basisklassifikators (Entscheidungsbaum)
base_classifier = DecisionTreeClassifier(max_depth=1)

# Initialisieren und trainieren des AdaBoost Klassifikators
adaboost_classifier = AdaBoostClassifier(base_classifier, n_estimators=50, random_state=42)
adaboost_classifier.fit(X_train, y_train)

# Vorhersage auf dem Testdatensatz
predictions = adaboost_classifier.predict(X_test)

# Berechne die Treffergenauigkeit
accuracy = metrics.accuracy_score(y_test, predictions)
print(f'Testdatensatz Treffergenauigkeit: {accuracy:.6f}')

Testdatensatz Treffergenauigkeit: 0.335556


c) Optional: Finden Sie die optimalen Hyperparameter der Algorithmen mit der in 2 d beschriebenen Gittersuche.

Random Forest

In [4]:
from sklearn.model_selection import GridSearchCV

# Definiere das Gitter fuer die Gittersuche
rf_params = {
    'n_estimators': [50, 100, 500],
    'max_depth': [None, 1]
}

# Initialisiere den Random Forest Klassifikator
rf_classifier = RandomForestClassifier(random_state=42)

# Erzeuge das GridSearchCV-Objekt
rf_grid_search = GridSearchCV(rf_classifier, rf_params, cv=3)

# Fuehre die Gittersuche durch
rf_grid_search.fit(X, y)

# Zeige den besten Parametersatz und die hoechste Treffergenauigkeit
print(f'Beste Parameter für Random Forest: {rf_grid_search.best_params_}')
print(f'Höchste Treffergenauigkeit für Random Forest: {rf_grid_search.best_score_:.6f}')

Beste Parameter für Random Forest: {'max_depth': None, 'n_estimators': 500}
Höchste Treffergenauigkeit für Random Forest: 0.941013


AdaBoost

In [5]:
# Definiere das Gitter fuer die Gittersuche
adaboost_params = {
    'n_estimators': [50, 100, 500],
    'learning_rate': [0.001, 0.01, 0.1, 1.0, 10.0]
}

# Initialisiere den Entscheidungsbaum als Basisklassifikator für AdaBoost
base_classifier = DecisionTreeClassifier()

# Initialisiere den AdaBoost Klassifikator
adaboost_classifier = AdaBoostClassifier(base_classifier, random_state=42)

# Erzeuge das GridSearchCV-Objekt
adaboost_grid_search = GridSearchCV(adaboost_classifier, adaboost_params, cv=3)

# Fuehre die Gittersuche durch
adaboost_grid_search.fit(X, y)

# Zeige den besten Parametersatz und die hoechste Treffergenauigkeit
print(f'Beste Parameter für AdaBoost: {adaboost_grid_search.best_params_}')
print(f'Höchste Treffergenauigkeit für AdaBoost: {adaboost_grid_search.best_score_:.6f}')

Beste Parameter für AdaBoost: {'learning_rate': 0.001, 'n_estimators': 50}
Höchste Treffergenauigkeit für AdaBoost: 0.781302


In [6]:
%version_information

Software,Version
Python,3.12.0 64bit [MSC v.1935 64 bit (AMD64)]
IPython,8.16.1
OS,Windows 10 10.0.19045 SP0
Wed Nov 22 20:42:13 2023 Mitteleuropäische Zeit,Wed Nov 22 20:42:13 2023 Mitteleuropäische Zeit
