In [6]:
import pandas as pd
train_df = pd.read_csv('train.csv')
print(train_df.head())
print(train_df.info())
print(train_df.describe(include='all')) # include='all' zeigt auch Infos zu nicht-numerischen Spalten
print(train_df.isnull().sum())

# Finde den häufigsten Hafen (den Modus)
embarked_mode = train_df['Embarked'].mode()[0]
print(f"Der häufigste Einschiffungshafen ist: {embarked_mode}")

# Fülle die fehlenden Werte in der 'Embarked'-Spalte mit diesem Wert
# inplace=True bedeutet, dass die Änderung direkt im DataFrame vorgenommen wird
train_df['Embarked'].fillna(embarked_mode, inplace=True)

# Überprüfung: Jetzt sollten keine fehlenden Werte mehr in 'Embarked' sein
print(f"Fehlende Werte in 'Embarked' nach dem Füllen: {train_df['Embarked'].isnull().sum()}")

# Calculate the median age
age_median = train_df['Age'].median()
print(f"Das Median-Alter beträgt: {age_median}")

# Fill the missing 'Age' values with the median
train_df['Age'] = train_df['Age'].fillna(age_median)

# Verify that there are no more missing 'Age' values
print(f"Fehlende Werte in 'Age' nach dem Füllen: {train_df['Age'].isnull().sum()}")

# Drop the 'Cabin' column from the DataFrame
train_df.drop('Cabin', axis=1, inplace=True)

print("Die 'Cabin'-Spalte wurde entfernt.")

# Erstelle ein Mapping: 'male' wird zu 0, 'female' wird zu 1
sex_mapping = {'male': 0, 'female': 1}
train_df['Sex'] = train_df['Sex'].map(sex_mapping)

print("Die 'Sex'-Spalte wurde in numerische Werte umgewandelt.")

# Führe One-Hot Encoding für die 'Embarked'-Spalte durch
# Dies erstellt neue Spalten: Embarked_C, Embarked_Q, Embarked_S
embarked_dummies = pd.get_dummies(train_df['Embarked'], prefix='Embarked')

# Füge die neuen Spalten zu unserem DataFrame hinzu
train_df = pd.concat([train_df, embarked_dummies], axis=1)

# Entferne die ursprüngliche 'Embarked'-Textspalte, da wir sie nicht mehr brauchen
train_df.drop('Embarked', axis=1, inplace=True)

print("Die 'Embarked'-Spalte wurde durch One-Hot Encoding ersetzt.")

# Entferne die für das Training nicht benötigten Spalten
train_df.drop(['PassengerId', 'Name', 'Ticket'], axis=1, inplace=True)

print("Die Spalten 'PassengerId', 'Name' und 'Ticket' wurden entfernt.")

# Zeige die ersten 5 Zeilen des final vorbereiteten DataFrames an
print("\nFinal vorbereiteter Datensatz (erste 5 Zeilen):")
print(train_df.head())

# Überprüfe die Datentypen aller verbleibenden Spalten
print("\nDatentypen der finalen Spalten:")
train_df.info()

# Unsere Zielvariable y ist die 'Survived'-Spalte
y = train_df['Survived']

# Unsere Merkmale X sind alle Spalten außer 'Survived'
X = train_df.drop('Survived', axis=1)

# Überprüfen wir kurz die Dimensionen
print(f"Form der Merkmale (X): {X.shape}")
print(f"Form der Zielvariable (y): {y.shape}")

from sklearn.model_selection import train_test_split

# Teile die Daten auf. random_state=42 sorgt dafür, dass die Aufteilung immer gleich ist.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Größe des Trainingssets: {len(X_train)} Passagiere")
print(f"Größe des Testsets: {len(X_test)} Passagiere")

from sklearn.linear_model import LogisticRegression

# 1. Initialisiere das Modell
# Wir setzen max_iter=1000, um sicherzustellen, dass das Modell genügend Zeit zum Lernen hat
model = LogisticRegression(max_iter=1000)

# 2. Trainiere das Modell mit unseren Trainingsdaten
model.fit(X_train, y_train)

print("Modell (Logistische Regression) wurde erfolgreich trainiert!")

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Mache Vorhersagen auf dem Testset
y_pred = model.predict(X_test)

# 1. Berechne die Genauigkeit (Accuracy)
accuracy = accuracy_score(y_test, y_pred)
print(f"Genauigkeit des Modells auf dem Testset: {accuracy * 100:.2f}%")

# 2. Zeige den detaillierten Klassifikationsbericht
print("\nKlassifikationsbericht:")
print(classification_report(y_test, y_pred))

# 3. Zeige die Konfusionsmatrix
# [[True Negative, False Positive]
#  [False Negative, True Positive]]
print("\nKonfusionsmatrix:")
print(confusion_matrix(y_test, y_pred))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
<c

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train_df['Embarked'].fillna(embarked_mode, inplace=True)


Größe des Trainingssets: 712 Passagiere
Größe des Testsets: 179 Passagiere
Modell (Logistische Regression) wurde erfolgreich trainiert!
Genauigkeit des Modells auf dem Testset: 81.01%

Klassifikationsbericht:
              precision    recall  f1-score   support

           0       0.83      0.86      0.84       105
           1       0.79      0.74      0.76        74

    accuracy                           0.81       179
   macro avg       0.81      0.80      0.80       179
weighted avg       0.81      0.81      0.81       179


Konfusionsmatrix:
[[90 15]
 [19 55]]
