### Random Forests

Ein Random Forest ist eine Sammmlung aus einzelnen Entscheidungsbäumen. 
Random Forests werden aus den Trainingsdaten erzeugt.  
Der Mittelwert erbringt dabei die benötigten Klassifikationsleistungen.  

**Random Forest vs. Entscheidungsbaum**
- Entscheidungsbäume:

    Sie sind anfällig für Overfitting, da sie die Trainingsdaten oft perfekt anpassen können.
Sie basieren auf einem einzigen Baum und sind weniger robust gegenüber Rauschen oder Datenvariabilität.
- Random Forests:

    Sie bestehen aus einer Ensemble-Methode, bei der mehrere Entscheidungsbäume trainiert werden (jeder auf einem zufälligen Subset der Daten).
Durch das Aggregieren (Mehrheitsvotum oder Durchschnitt) sind sie robuster und flexibler, da sie sowohl Overfitting verhindern als auch gut generalisieren können.
Fazit zur Flexibilität: Random Forests sind tatsächlich flexibler als einzelne Entscheidungsbäume.

In [2]:
# Module importieren
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier,plot_tree
from sklearn import ensemble # ensemble: Ansammlung aus mehreren ML-methoden
%matplotlib inline

In [3]:
# Iris-Datenmenge laden
X, y = load_iris(return_X_y=True)

In [4]:
# In Trainings- und Testdaten unterteilen, dabei mischen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [5]:
# Ein Modell erstellen
# Random Forest Classifier ist selbst eine Klasse des Untermoduls 'ensemble'
clf = ensemble.RandomForestClassifier()

In [6]:
# Modell trainieren
clf.fit(X_train, y_train)

In [7]:
# Genauigkeit des Modells
acc = clf.score(X_test, y_test)
print(f'Accuracy: {acc}')

Accuracy: 0.94


Hier sind die wichtigsten Klassen aus dem sklearn.ensemble Modul mit Beispielen auf Deutsch:

1. **RandomForestClassifier** - Zufallswald für Klassifikation:

In [8]:
# Recherchiere weitere Klassen aus dem Untermodul ensemble

from sklearn.ensemble import RandomForestClassifier
 
rf_clf = RandomForestClassifier(n_estimators=100, random_state=42)
rf_clf.fit(X_train, y_train)
rf_pred = rf_clf.predict(X_test)

2. **GradientBoostingClassifier** - Gradientenboostung für Klassifikation:

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
 
gb_clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
gb_clf.fit(X_train, y_train)
gb_pred = gb_clf.predict(X_test)

3. **AdaBoostClassifier** - AdaBoost für Klassifikation:

In [None]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
 
ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1),
    n_estimators=200
)
ada_clf.fit(X_train, y_train)
ada_pred = ada_clf.predict(X_test)

4. **RandomForestRegressor** - Zufallswald für Regression:

In [None]:
from sklearn.ensemble import RandomForestRegressor
 
rf_reg = RandomForestRegressor(n_estimators=100, random_state=42)
rf_reg.fit(X_train, y_train)
rf_reg_pred = rf_reg.predict(X_test)

5. **GradientBoostingRegressor** - Gradientenboostung für Regression:

In [None]:
from sklearn.ensemble import GradientBoostingRegressor
 
gb_reg = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1)
gb_reg.fit(X_train, y_train)
gb_reg_pred = gb_reg.predict(X_test)


6. **BaggingClassifier** - Bagging für Klassifikation:

In [None]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
 
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(),
    n_estimators=100,
    max_samples=0.5,
    bootstrap=True
)
bag_clf.fit(X_train, y_train)
bag_pred = bag_clf.predict(X_test)

7. **VotingClassifier** - Ensemble mit Abstimmung:

In [None]:
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
 
clf1 = LogisticRegression()
clf2 = RandomForestClassifier()
clf3 = SVC()
 
voting_clf = VotingClassifier(
    estimators=[('lr', clf1), ('rf', clf2), ('svc', clf3)],
    voting='hard'
)
voting_clf.fit(X_train, y_train)
voting_pred = voting_clf.predict(X_test)

 
8. **StackingClassifier** - Stacking von Klassifikatoren:

In [None]:
from sklearn.ensemble import StackingClassifier
 
estimators = [
    ('rf', RandomForestClassifier()),
    ('gb', GradientBoostingClassifier())
]
stacking_clf = StackingClassifier(
    estimators=estimators,
    final_estimator=LogisticRegression()
)
stacking_clf.fit(X_train, y_train)
stacking_pred = stacking_clf.predict(X_test)

9. **IsolationForest** - für Anomalieerkennung:

In [None]:
from sklearn.ensemble import IsolationForest
 
iso_forest = IsolationForest(contamination=0.1)
iso_forest.fit(X)
predictions = iso_forest.predict(X)  # 1 für normal, -1 für Anomalien

Vergleich der Modelle:

In [None]:
from sklearn.metrics import accuracy_score
import pandas as pd
 
# Modelle erstellen und trainieren
modelle = {
    'Random Forest': RandomForestClassifier(),
    'Gradient Boosting': GradientBoostingClassifier(),
    'AdaBoost': AdaBoostClassifier(),
    'Bagging': BaggingClassifier(),
    'Voting': VotingClassifier(estimators=[
        ('rf', RandomForestClassifier()),
        ('gb', GradientBoostingClassifier())
    ])
}
 
# Modelle auswerten
ergebnisse = {}
for name, modell in modelle.items():
    modell.fit(X_train, y_train)
    pred = modell.predict(X_test)
    genauigkeit = accuracy_score(y_test, pred)
    ergebnisse[name] = genauigkeit
 
# Ergebnisse ausgeben
ergebnisse_df = pd.DataFrame.from_dict(ergebnisse, orient='index', columns=['Genauigkeit'])
print(ergebnisse_df)



Jede dieser Methoden hat ihre eigenen Vorteile:
- RandomForest: Gut bei vielen Merkmalen
- GradientBoosting: Liefert oft die besten Ergebnisse
- AdaBoost: Gut für einfache Aufgaben
- Bagging: Reduziert Überanpassung
- Voting/Stacking: Kombiniert die Stärken verschiedener Modelle

https://scikit-learn.org/1.5/modules/ensemble.html