Neuronales Netzwerk für den Titanic Datensatz

In [3]:
%pip install tensorflow
%pip install pandas
%pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.



In [5]:
# Importieren der notwendigen Bibliotheken
import pandas as pd  # Pandas wird verwendet, um Daten zu laden und zu bearbeiten
from sklearn.model_selection import train_test_split  # Methode zum Aufteilen der Daten in Trainings- und Testsets
from sklearn.preprocessing import StandardScaler  # Methode zur Skalierung von Daten (Normalisierung)
from tensorflow.keras.models import Sequential  # Importiert das Sequential-Modell von Keras (für den Aufbau eines neuronalen Netzwerks)
from tensorflow.keras.layers import Dense  # Importiert die Dense-Schicht (voll verbundene Schicht) von Keras
from tensorflow.keras.utils import to_categorical  # Hilfsfunktion zur Umwandlung von Zielvariablen in eine kategorische Form

# Laden der Titanic-Daten
df_titanic_train = pd.read_csv('titanic_training.csv')  # Daten werden aus einer CSV-Datei in ein Pandas DataFrame geladen

# Datenvorverarbeitung
X = df_titanic_train.drop(['Survived', 'Cabin', 'Ticket', 'Name'], axis=1)  # Unnötige Spalten (Zielvariable und andere) werden aus den Eingabedaten entfernt
y = df_titanic_train['Survived']  # Zielvariable "Survived" wird extrahiert

# Umwandlung kategorischer Variablen
X['Sex'] = X['Sex'].map({'male': 0, 'female': 1})  # Geschlechtsvariable wird in numerische Werte umgewandelt (0 für männlich, 1 für weiblich)
X['Embarked'] = X['Embarked'].map({'Q': 0, 'S': 1, 'C': 2})  # Embarkationsvariable wird in numerische Werte umgewandelt (0 für Q, 1 für S, 2 für C)

# Entfernen von fehlenden Werten
X.dropna(inplace=True)  # Alle Zeilen mit fehlenden Werten in den Eingabedaten werden entfernt
y = y[X.index]  # Die Zielvariable wird entsprechend den verbleibenden Indizes der Eingabedaten angepasst

# Aufteilen der Daten in Trainings- und Validierungsdatensätze
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)  
# Daten werden in Trainings- (80%) und Validierungssätze (20%) aufgeteilt, der random_state sorgt für Reproduzierbarkeit

# Skalieren der Daten
scaler = StandardScaler()  # Initialisieren eines StandardSkalierers zur Normalisierung der Daten
X_train = scaler.fit_transform(X_train)  # Der Skalierer wird auf die Trainingsdaten angepasst und diese werden transformiert (Mittelwert = 0, Standardabweichung = 1)
X_val = scaler.transform(X_val)  # Der Skalierer wird verwendet, um die Validierungsdaten mit denselben Parametern zu transformieren

# Umwandlung der Zielvariablen in kategorische Daten (für ein neuronales Netzwerk)
y_train = to_categorical(y_train, num_classes=2)  # Die Zielvariable wird in eine One-Hot-kodierte Form umgewandelt (zwei Klassen: Überlebt oder nicht)
y_val = to_categorical(y_val, num_classes=2)  # Dasselbe wird mit den Validierungsdaten gemacht

# Erstellen des neuronalen Netzwerks
model = Sequential()  # Initialisieren eines Sequential-Modells (eine lineare Stapelung von Schichten)
model.add(Dense(32, input_dim=X_train.shape[1], activation='relu'))  # Erste Dense-Schicht mit 32 Neuronen und ReLU-Aktivierung, die Eingabedimension ist die Anzahl der Merkmale
model.add(Dense(16, activation='relu'))  # Zweite Dense-Schicht mit 16 Neuronen und ReLU-Aktivierung
model.add(Dense(2, activation='softmax'))  # Ausgabeschicht mit 2 Neuronen und Softmax-Aktivierung für Klassifikation in zwei Klassen

# Kompilieren des Modells
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])  
# Das Modell wird kompiliert, wobei der Verlust als kategorische Kreuzentropie verwendet wird, der Optimierer ist Adam, und die Genauigkeit wird als Metrik verwendet

# Training des Modells
history = model.fit(X_train, y_train, epochs=50, batch_size=32, validation_data=(X_val, y_val), verbose=1)  
# Das Modell wird mit den Trainingsdaten trainiert, über 50 Epochen und einer Batch-Größe von 32, und die Validierungsdaten werden nach jeder Epoche verwendet, um die Leistung zu überprüfen

# Auswertung des Modells
loss, accuracy = model.evaluate(X_val, y_val, verbose=0)  # Das Modell wird auf den Validierungsdaten ausgewertet, um Verlust und Genauigkeit zu berechnen

print(f"Validierungsgenauigkeit: {accuracy*100:.2f}%")  # Die Genauigkeit des Modells auf den Validierungsdaten wird in Prozent ausgegeben


Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 13ms/step - accuracy: 0.6530 - loss: 0.6364 - val_accuracy: 0.6993 - val_loss: 0.6087
Epoch 2/50
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.7594 - loss: 0.5603 - val_accuracy: 0.7203 - val_loss: 0.5754
Epoch 3/50
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.7347 - loss: 0.5297 - val_accuracy: 0.7552 - val_loss: 0.5500
Epoch 4/50
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.7678 - loss: 0.4891 - val_accuracy: 0.7622 - val_loss: 0.5317
Epoch 5/50
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.8066 - loss: 0.4769 - val_accuracy: 0.7902 - val_loss: 0.5152
Epoch 6/50
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.8361 - loss: 0.4277 - val_accuracy: 0.7902 - val_loss: 0.5031
Epoch 7/50
[1m18/18[0m [32m━━━━━━━━━━━━━━━━━━━━