# FS24_Titanic — Lösung (Python)

*Schema: Aufgabenbeschrieb → Lösungsansatz & Erklärung → Code → Erklärung Output → Nächste Aufgabe*

## Aufgabe 1

**Aufgabenbeschrieb**

Daten einlesen; zwei Grafiken: **Survived** ~ **Fare** und **Survived** ~ **Sex**.

**Lösungsansatz & Erklärung**

Scatter für Fare vs Survived; Balken/Bar für Sex vs mittlere Überlebensrate.

In [None]:
import pandas as pd, matplotlib.pyplot as plt
df = pd.read_csv("/mnt/data/titanic-1717165010.csv")
df['Sex_bin'] = (df['Sex'].str.lower().map({'male':0,'female':1})).astype(int)
# Plot 1: Fare vs Survived
plt.figure(); plt.scatter(df['Fare'], df['Survived'], alpha=0.2); plt.xlabel('Fare'); plt.ylabel('Survived')
# Plot 2: Sex vs mean Survived
df.groupby('Sex')['Survived'].mean().plot(kind='bar'); plt.ylabel('mean Survived')

**Erklärung Output**

Grafik 1 zeigt Zusammenhang mit Preis; Grafik 2 die mittlere Überlebensrate je Geschlecht.

---
*Nächste Aufgabe →*

## Aufgabe 2

**Aufgabenbeschrieb**

Zwei logistische Modelle (Survived ~ Fare) und (Survived ~ Sex_bin). Gleichungen angeben.

**Lösungsansatz & Erklärung**

Zweimal statsmodels.Logit mit Intercept; Parameter in b0/b1 ablesen.

In [None]:
import statsmodels.api as sm
# Modell A: Fare
Xa = sm.add_constant(df[['Fare']]); ya = df['Survived'].astype(int)
logit_fare = sm.Logit(ya, Xa).fit(disp=False); logit_fare.params
# Modell B: Sex_bin
Xb = sm.add_constant(df[['Sex_bin']]); yb = df['Survived'].astype(int)
logit_sex = sm.Logit(yb, Xb).fit(disp=False); logit_sex.params

**Erklärung Output**

Form: log(p/(1-p)) = b0 + b1*x. Für Sex_bin ist b1 typischerweise stark positiv.

---
*Nächste Aufgabe →*

## Aufgabe 3

**Aufgabenbeschrieb**

Wahrscheinlichkeit, dass eine Frau überlebt hat.

**Lösungsansatz & Erklärung**

Mit Sex_bin=1 in Modell B einsetzen.

In [None]:
import pandas as pd
xf = sm.add_constant(pd.DataFrame({'Sex_bin':[1]}))
pf = float(logit_sex.predict(xf)); pf, round(100*pf,2)

**Erklärung Output**

Prozentwert im Prüfungsbogen angeben.

---
*Nächste Aufgabe →*

## Aufgabe 4

**Aufgabenbeschrieb**

Konfusionsmatrizen für beide Modelle (Schwelle 0.5) + Accuracy.

**Lösungsansatz & Erklärung**

Mit sklearn für beide Modelle separat berechnen.

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
# Fare
pa = logit_fare.predict(Xa); yha = (pa>=0.5).astype(int)
cma = confusion_matrix(ya, yha); acca = accuracy_score(ya, yha)
# Sex
pb = logit_sex.predict(Xb); yhb = (pb>=0.5).astype(int)
cmb = confusion_matrix(yb, yhb); accb = accuracy_score(yb, yhb)
cma, acca, cmb, accb

**Erklärung Output**

Tabellen sauber als TP/FP/FN/TN interpretieren; Accuracy vergleichen.

---
*Nächste Aufgabe →*

## Aufgabe 5

**Aufgabenbeschrieb**

Interpretation: Welches Modell ist besser? Kann man so das Überleben vorhersagen?

**Lösungsansatz & Erklärung**

Vergleiche Accuracy (& ggf. Precision/Recall). Beachte ethische Aspekte und Modellgrenzen.

In [None]:
from sklearn.metrics import classification_report
print('Fare model:\n', classification_report(ya, yha))
print('Sex model:\n', classification_report(yb, yhb))

**Erklärung Output**

Begründen: Modell mit höherer Accuracy/Recall sinnvoller; aber **ein Feature** ist limitierend.

---
*Nächste Aufgabe →*