In [3]:
import pandas as pd  # Pandas wird verwendet, um die Daten zu laden und zu manipulieren
import time  # Das time-Modul wird verwendet, um die Ausführungszeit zu messen
from sklearn.model_selection import train_test_split  # Methode zum Aufteilen der Daten in Trainings- und Validierungssets
from sklearn.ensemble import RandomForestClassifier  # Importiert den RandomForestClassifier aus sklearn
from sklearn.metrics import accuracy_score  # Importiert die Methode zur Berechnung der Genauigkeit

# Laden der Titanic-Daten
df_titanic_train = pd.read_csv('titanic_training.csv')  # Laden der Titanic-Daten aus einer CSV-Datei in ein Pandas DataFrame

# Datenvorverarbeitung
X = df_titanic_train.drop(['Survived', 'Cabin', 'Ticket', 'Name'], axis=1)  
# Entfernen von unnötigen Spalten aus den Eingabedaten (Cabin, Ticket, Name) und der Zielvariable 'Survived'

y = df_titanic_train['Survived']  # Extrahieren der Zielvariable "Survived"

# Umwandlung kategorischer Variablen
X['Sex'] = X['Sex'].map({'male': 0, 'female': 1})  # Umwandlung der Geschlechtsvariable in numerische Werte (0 für männlich, 1 für weiblich)
X['Embarked'] = X['Embarked'].map({'Q': 0, 'S': 1, 'C': 2})  # Umwandlung der Embarkationsvariable in numerische Werte (0 für Q, 1 für S, 2 für C)

# Entfernen von fehlenden Werten
X.dropna(inplace=True)  # Entfernen aller Zeilen mit fehlenden Werten in den Eingabedaten
y = y[X.index]  # Anpassung der Zielvariable entsprechend den verbleibenden Indizes der Eingabedaten

# Aufteilen der Daten in Trainings- und Validierungsdatensätze
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)  
# Aufteilen der Daten in Trainings- (80%) und Validierungsdatensätze (20%), wobei random_state die Zufälligkeit kontrolliert und Reproduzierbarkeit sicherstellt

# Iterative Suche nach der besten Anzahl an Bäumen
best_accuracy = 0  # Initialisierung der besten Genauigkeit mit 0
best_n_estimators = 0  # Initialisierung der besten Anzahl an Bäumen mit 0

# Testen der Anzahl der Bäume von 10 bis 2100 in 100er-Schritten
for n in range(10, 2110, 100):  # Schleife über verschiedene Werte von n_estimators (Anzahl der Bäume im Random Forest)
    print(f"Teste {n} Bäume...")  # Ausgabe der aktuellen Anzahl an Bäumen
    
    start_time = time.time()  # Startzeit für die Zeitmessung
    
    model = RandomForestClassifier(n_estimators=n, random_state=42)  # Erstellen eines Random Forest Modells mit n Bäumen
    model.fit(X_train, y_train)  # Trainieren des Modells mit den Trainingsdaten
    y_pred = model.predict(X_val)  # Vorhersagen auf den Validierungsdaten
    accuracy = accuracy_score(y_val, y_pred)  # Berechnung der Genauigkeit der Vorhersagen
    
    end_time = time.time()  # Endzeit für die Zeitmessung
    
    elapsed_time = end_time - start_time  # Berechnung der Zeit, die für diesen Durchlauf benötigt wurde
    print(f"Anzahl Bäume: {n}, Genauigkeit: {accuracy*100:.2f}%, Dauer: {elapsed_time:.2f} Sekunden")  # Ausgabe der Ergebnisse für diesen Durchlauf
    
    # Überprüfen, ob die aktuelle Anzahl an Bäumen die beste Genauigkeit liefert
    if accuracy > best_accuracy:  
        best_accuracy = accuracy  # Aktualisierung der besten Genauigkeit
        best_n_estimators = n  # Speichern der Anzahl an Bäumen, die die beste Genauigkeit geliefert hat

# Ausgabe der besten Anzahl an Bäumen und der zugehörigen Genauigkeit
print(f"Beste Anzahl an Bäumen: {best_n_estimators}")
print(f"Beste Validierungsgenauigkeit: {best_accuracy*100:.2f}%")

# Erstellen und Trainieren des finalen Modells mit der besten Anzahl an Bäumen
final_model = RandomForestClassifier(n_estimators=best_n_estimators, random_state=42)  # Erstellen des finalen Modells mit der optimalen Anzahl an Bäumen
final_model.fit(X_train, y_train)  # Trainieren des finalen Modells

# Vorhersagen auf dem Validierungsdatensatz
final_y_pred = final_model.predict(X_val)  # Vorhersagen mit dem finalen Modell auf den Validierungsdaten

# Berechnung der endgültigen Genauigkeit
final_accuracy = accuracy_score(y_val, final_y_pred)  # Berechnung der Genauigkeit des finalen Modells
print(f"Endgültige Validierungsgenauigkeit mit {best_n_estimators} Bäumen: {final_accuracy*100:.2f}%")  # Ausgabe der endgültigen Genauigkeit


Teste 10 Bäume...
Anzahl Bäume: 10, Genauigkeit: 79.02%, Dauer: 0.03 Sekunden
Teste 110 Bäume...
Anzahl Bäume: 110, Genauigkeit: 79.02%, Dauer: 0.17 Sekunden
Teste 210 Bäume...
Anzahl Bäume: 210, Genauigkeit: 79.72%, Dauer: 0.31 Sekunden
Teste 310 Bäume...
Anzahl Bäume: 310, Genauigkeit: 80.42%, Dauer: 0.44 Sekunden
Teste 410 Bäume...
Anzahl Bäume: 410, Genauigkeit: 80.42%, Dauer: 0.59 Sekunden
Teste 510 Bäume...
Anzahl Bäume: 510, Genauigkeit: 80.42%, Dauer: 0.71 Sekunden
Teste 610 Bäume...
Anzahl Bäume: 610, Genauigkeit: 81.12%, Dauer: 0.88 Sekunden
Teste 710 Bäume...
Anzahl Bäume: 710, Genauigkeit: 81.12%, Dauer: 1.00 Sekunden
Teste 810 Bäume...
Anzahl Bäume: 810, Genauigkeit: 81.12%, Dauer: 1.15 Sekunden
Teste 910 Bäume...
Anzahl Bäume: 910, Genauigkeit: 81.12%, Dauer: 1.26 Sekunden
Teste 1010 Bäume...
Anzahl Bäume: 1010, Genauigkeit: 81.12%, Dauer: 1.49 Sekunden
Teste 1110 Bäume...
Anzahl Bäume: 1110, Genauigkeit: 81.12%, Dauer: 1.56 Sekunden
Teste 1210 Bäume...
Anzahl Bäume: 1210