# Workshop: Bessere Visualisierungen mit Matplotlib – Titanic Dataset

In diesem Tutorial verbessern wir Schritt für Schritt schlechte Visualisierungen.

---

## Setup
Installieren und importieren der benötigten Bibliotheken.

In [None]:
%pip install pandas==2.2.2 matplotlib==3.10.0 kagglehub==0.3.13

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import kagglehub
import os

## Daten laden

In [None]:
path = kagglehub.dataset_download("yasserh/titanic-dataset")
csv_path = os.path.join(path, "Titanic-Dataset.csv")
df = pd.read_csv(csv_path)
df.info()

---
# Ziel-Botschaft

## **„Passagiere höherer Klassen hatten höhere Überlebensraten.“**

---
# Erste Version – schlechte Visualisierung

In [None]:
survived_by_class = df.groupby("Pclass")["Survived"].mean()

plt.bar(survived_by_class.index, survived_by_class.values)
plt.title("Überlebensrate nach Passagierklasse")

# 1. Schritt – Überlegen was schlecht ist
**Was sollte verbessert werden? Notiere es selbst.**

In [None]:
# Deine Notizen:
# ...

<details>
<summary>Lösung anzeigen</summary>
- Keine Achsenbeschriftung
- Y-Achse zeigt Anteile, aber nicht Prozent
- Klassen als Zahlen statt klaren Labels
- Unklar, welche Klasse wichtig ist
- Keine Hervorhebung
</details>

---
# 2. Schritt – Achsen ergänzen

**Füge Achsenbeschriftungen hinzu.**

In [None]:
# Hier Code einfügen
# ...
plt.bar(survived_by_class.index, survived_by_class.values)
plt.xlabel("Passagierklasse")
plt.ylabel("Überlebensrate (Anteil)")
plt.title("Überlebensrate nach Passagierklasse")

<details>
<summary>Hint</summary>
* plt.xlabel("...")
* plt.ylabel("...")
</details>

<details>
<summary>Lösung anzeigen</summary>

```python
plt.bar(survived_by_class.index, survived_by_class.values)
plt.xlabel("Passagierklasse")
plt.ylabel("Überlebensrate (Anteil)")
plt.title("Überlebensrate nach Passagierklasse")
```
</details>

---
# 3. Schritt – Klassen als Strings anzeigen

**Wandle die Zahlen 1,2,3 in "First", "Second", "Third" um.**

In [None]:
# Hier Code einfügen
# ...
labels = {1:"First", 2:"Second", 3:"Third"}
x_labels = [labels[i] for i in survived_by_class.index]

plt.bar(x_labels, survived_by_class.values)
plt.xlabel("Passagierklasse")
plt.ylabel("Überlebensrate (Anteil)")
plt.title("Überlebensrate nach Passagierklasse")

<details>
<summary>Hint</summary>
labels = {1:"First", ...}
</details>

<details>
<summary>Lösung anzeigen</summary>

```python
labels = {1:"First", 2:"Second", 3:"Third"}
x_labels = [labels[i] for i in survived_by_class.index]

plt.bar(x_labels, survived_by_class.values)
plt.xlabel("Passagierklasse")
plt.ylabel("Überlebensrate (Anteil)")
plt.title("Überlebensrate nach Passagierklasse")
```
</details>

---
# 4. Schritt – Y-Achse als Prozent anzeigen

**Wandle die Überlebensrate in Prozent um.**

In [None]:
# Hier Code einfügen
# ...
plt.bar(x_labels, survived_by_class.values * 100)
plt.ylabel("Überlebensrate (%)")

<details>
<summary>Hint</summary>
Nutze: `survived_by_class.values * 100`
</details>

<details>
<summary>Lösung anzeigen</summary>

```python
plt.bar(x_labels, survived_by_class.values * 100)
plt.ylabel("Überlebensrate (%)")
```
</details>

---
# 5. Schritt – Y-Achse auf 0–100 % skalieren

In [None]:
# Hier Code einfügen
# ...
plt.bar(x_labels, survived_by_class.values * 100)
plt.ylabel("Überlebensrate (%)")
plt.ylim(0, 100)

<details>
<summary>Hint</summary>
plt.ylim(0, 100)
</details>

---
# 6. Schritt – Wichtigste Klasse hervorheben

**Hebe Klasse 1 farblich hervor, die anderen sollen grau bleiben.**

In [None]:
# Hier Code einfügen
# ...
colors = ["#2b83ba" if i==1 else "#cccccc" for i in survived_by_class.index]
plt.bar(x_labels, survived_by_class.values*100, color=colors)
plt.ylabel("Überlebensrate (%)")
plt.ylim(0, 100)

<details>
<summary>Hint</summary>
[highlight if i==1 else gray for ...]
</details>

<details>
<summary>Lösung anzeigen</summary>

```python
colors = ["#2b83ba" if i==1 else "#cccccc" for i in survived_by_class.index]
plt.bar(x_labels, survived_by_class.values*100, color=colors)
plt.ylim(0,100)
```
</details>

---
# 7. Schritt – Caption hinzufügen

In [None]:
# Hier Code einfügen
# ...
colors = ["#2b83ba" if i==1 else "#cccccc" for i in survived_by_class.index]
plt.bar(x_labels, survived_by_class.values*100, color=colors)
plt.ylabel("Überlebensrate (%)")
plt.ylim(0, 100)
plt.figtext(0.5, 0, "Passagiere der ersten Klasse hatten die höchste Überlebenschance.", ha="center")

<details>
<summary>Hint</summary>
plt.figtext(x, y, label, ha=)
</details>

<details>
<summary>Lösung anzeigen</summary>

```python
plt.figtext(0.5, 0, "Passagiere der ersten Klasse hatten die höchste Überlebenschance.", ha="center")
```
</details>

---
# Finale Version

In [None]:
plt.bar(x_labels, survived_by_class.values*100, color=colors)
plt.title("Überlebensrate nach Passagierklasse")
plt.xlabel("Passagierklasse")
plt.ylabel("Überlebensrate (%)")
plt.ylim(0,100)
plt.figtext(0.5, 0, "Passagiere der ersten Klasse hatten die höchste Überlebenschance.", ha="center")