In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split 
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [3]:
df_titanic_train = pd.read_csv('titanic_training.csv')  # Laden der Titanic-Daten aus einer CSV-Datei in ein Pandas DataFrame

X = df_titanic_train.drop(['Survived', 'Cabin', 'Ticket', 'Name'], axis=1)  
y = df_titanic_train['Survived']  

X['Sex'] = X['Sex'].map({'male': 0, 'female': 1})  
X['Embarked'] = X['Embarked'].map({'Q': 0, 'S': 1, 'C': 2})

X.dropna(inplace=True) 
y = y[X.index]

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)  

# Iterative Suche nach der besten Anzahl an Bäumen
best_accuracy = 0
best_n_estimators = 0

# Testen der Anzahl der Bäume von 10 bis 2100 in 100er-Schritten
for n in range(10, 2110, 100):
    print(f"Teste {n} Bäume...") 
       
    model = RandomForestClassifier(n_estimators=n, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_val)
    accuracy = accuracy_score(y_val, y_pred)
        
    print(f"Anzahl Bäume: {n}, Genauigkeit: {accuracy*100:.2f}%")
    
    if accuracy > best_accuracy:  
        best_accuracy = accuracy 
        best_n_estimators = n 

print(f"Beste Anzahl an Bäumen: {best_n_estimators}")
print(f"Beste Validierungsgenauigkeit: {best_accuracy*100:.2f}%")

# Erstellen und Trainieren des finalen Modells mit der besten Anzahl an Bäumen
final_model = RandomForestClassifier(n_estimators=best_n_estimators, random_state=42)
final_model.fit(X_train, y_train)

# Vorhersagen auf dem Validierungsdatensatz
final_y_pred = final_model.predict(X_val)

# Berechnung der endgültigen Genauigkeit
final_accuracy = accuracy_score(y_val, final_y_pred) 
print(f"Endgültige Validierungsgenauigkeit mit {best_n_estimators} Bäumen: {final_accuracy*100:.2f}%") 


Teste 10 Bäume...
Anzahl Bäume: 10, Genauigkeit: 79.02%, Dauer: 0.03 Sekunden
Teste 110 Bäume...
Anzahl Bäume: 110, Genauigkeit: 79.02%, Dauer: 0.17 Sekunden
Teste 210 Bäume...
Anzahl Bäume: 210, Genauigkeit: 79.72%, Dauer: 0.31 Sekunden
Teste 310 Bäume...
Anzahl Bäume: 310, Genauigkeit: 80.42%, Dauer: 0.44 Sekunden
Teste 410 Bäume...
Anzahl Bäume: 410, Genauigkeit: 80.42%, Dauer: 0.59 Sekunden
Teste 510 Bäume...
Anzahl Bäume: 510, Genauigkeit: 80.42%, Dauer: 0.71 Sekunden
Teste 610 Bäume...
Anzahl Bäume: 610, Genauigkeit: 81.12%, Dauer: 0.88 Sekunden
Teste 710 Bäume...
Anzahl Bäume: 710, Genauigkeit: 81.12%, Dauer: 1.00 Sekunden
Teste 810 Bäume...
Anzahl Bäume: 810, Genauigkeit: 81.12%, Dauer: 1.15 Sekunden
Teste 910 Bäume...
Anzahl Bäume: 910, Genauigkeit: 81.12%, Dauer: 1.26 Sekunden
Teste 1010 Bäume...
Anzahl Bäume: 1010, Genauigkeit: 81.12%, Dauer: 1.49 Sekunden
Teste 1110 Bäume...
Anzahl Bäume: 1110, Genauigkeit: 81.12%, Dauer: 1.56 Sekunden
Teste 1210 Bäume...
Anzahl Bäume: 1210