In [18]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# Laden der Titanic-Daten
df_titanic_train = pd.read_csv('titanic_training.csv')

# Datenvorverarbeitung
X = df_titanic_train.drop(['Survived', 'Cabin', 'Ticket', 'Name'], axis=1)
y = df_titanic_train['Survived']

# Umwandlung kategorischer Variablen
X['Sex'] = X['Sex'].map({'male': 0, 'female': 1})
X['Embarked'] = X['Embarked'].map({'Q': 0, 'S': 1, 'C': 2})

# Entfernen von fehlenden Werten
X.dropna(inplace=True)
y = y[X.index]

# Aufteilen der Daten in Trainings- und Validierungsdatensätze
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Skalieren der Daten
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)

# Erstellen und Trainieren des Random Forest Classifiers
model = RandomForestClassifier(n_estimators=1000, random_state=42)
model.fit(X_train, y_train)

# Vorhersagen auf dem Validierungsdatensatz
y_pred = model.predict(X_val)

# Berechnung der Genauigkeit
accuracy = accuracy_score(y_val, y_pred)
print(f"Validierungsgenauigkeit: {accuracy*100:.2f}%")


Validierungsgenauigkeit: 81.12%
