# M05a ‚Äì Daten visualisieren (Einf√ºhrung & Demonstration)

## üéØ Lernziele

Nach diesem Modul verstehen Sie:

- Wie Sie mit **Matplotlib** einfache Diagramme (Linien-, Balken-, Streudiagramme) zeichnen
- Wie Sie **Subplots** anlegen, um mehrere Diagramme nebeneinander darzustellen
- Wie Sie Ihre Diagramme durch **Legenden, Farben und Titel** aussagekr√§ftiger gestalten
- Wie Sie mit **Seaborn** statistische Diagramme schnell und sch√∂n erzeugen
- Warum **Stilrichtlinien** f√ºr wissenschaftliche Grafiken wichtig sind (Lesbarkeit, Genauigkeit)

---

## üìö Theoretischer Hintergrund: Warum Datenvisualisierung?

In Mathematik, Naturwissenschaften und Technik m√ºssen wir oft **Muster in Daten erkennen**. Ein Diagramm zeigt Trends und Beziehungen schneller als eine Tabelle mit Zahlen. Beispiele:

- **Medizin**: Verlauf einer Fieberkurve √ºber Zeit
- **Wirtschaft**: Aktienkurse und Gewinne
- **Physik**: Bewegungsbahn eines Projektils
- **Biologie**: Populationswachstum verschiedener Arten

Deshalb lernen wir heute, wie wir Python dazu bringen, diese Diagramme automatisch zu zeichnen.

---

## üîß Installation und Vorbereitung

Bevor wir beginnen, installieren wir die notwendigen Bibliotheken:

In [None]:
# Diese Befehle m√ºssen einmalig in einer Jupyter-Zelle ausgef√ºhrt werden
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# F√ºr sch√∂ne Diagramme direkt im Notebook
%matplotlib inline

print("‚úì Bibliotheken erfolgreich importiert!")

---

## üìä Teil 1: Erste Schritte mit Matplotlib

### 1.1 Dein erstes Liniendiagramm

Ein **Liniendiagramm** verbindet Datenpunkte mit einer Linie. Sehr h√§ufig f√ºr zeitliche Verl√§ufe!

In [None]:
# Daten vorbereiten: Zeit (in Stunden) und Temperatur (in ¬∞C)
stunden = [0, 1, 2, 3, 4, 5, 6]
temperatur = [18, 19, 21, 23, 25, 24, 22]

# Diagramm zeichnen
plt.figure(figsize=(8, 5))  # Gr√∂√üe: 8 Zoll breit, 5 Zoll hoch
plt.plot(stunden, temperatur, marker='o', linewidth=2, color='red')

# Beschriftungen hinzuf√ºgen
plt.xlabel('Zeit (Stunden)', fontsize=12)
plt.ylabel('Temperatur (¬∞C)', fontsize=12)
plt.title('Temperaturverlauf √ºber 6 Stunden', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)  # Gitterlinien f√ºr bessere Lesbarkeit

plt.show()

**Was passiert hier?**
- `plt.plot()` zeichnet die Linie
- `marker='o'` setzt kleine Kreise an jedem Datenpunkt
- `linewidth=2` macht die Linie dicker
- `color='red'` f√§rbt die Linie rot
- `plt.grid()` f√ºgt Hintergrundgitter ein
- `plt.show()` zeigt das Diagramm

---

### 1.2 Balkendiagramme (Bar Charts)

Mit Balkendiagrammen vergleichen wir Kategorien direkt nebeneinander.

In [None]:
# Daten: Lieblingsprogrammiersprachen und ihre "Beliebtheit" (erfunden)
sprachen = ['Python', 'JavaScript', 'Java', 'C++', 'Rust']
beliebtheit = [95, 87, 72, 65, 58]

# Balkendiagramm zeichnen
plt.figure(figsize=(10, 6))
plt.bar(sprachen, beliebtheit, color=['blue', 'yellow', 'red', 'black', 'orange'])

plt.ylabel('Beliebtheit (von 0-100)', fontsize=12)
plt.title('Programmiersprachen im Vergleich', fontsize=14, fontweight='bold')
plt.ylim(0, 100)  # Y-Achse von 0 bis 100

# Text oben auf jeden Balken schreiben
for i, v in enumerate(beliebtheit):
    plt.text(i, v + 2, str(v), ha='center', fontweight='bold')

plt.show()

**Neue Befehle:**
- `plt.bar()` zeichnet Balken statt einer Linie
- `plt.ylim(start, ende)` setzt die Grenzen der Y-Achse
- `plt.text()` schreibt Text an beliebiger Position

---

### 1.3 Streudiagramme (Scatter Plots)

Streudiagramme zeigen die **Beziehung zwischen zwei Variablen**.

In [None]:
# Beispieldaten: Lernstunden vs. Klausurnote (0-15 Punkte)
import numpy as np

# Zufallsdaten generieren (f√ºr Demonstration)
np.random.seed(42)
lernstunden = np.random.uniform(0, 10, 50)  # 50 Werte zwischen 0 und 10
# Je mehr man lernt, desto besser die Note (mit etwas Zufall)
klausurnoten = 15 * (lernstunden / 10) + np.random.normal(0, 1, 50)
klausurnoten = np.clip(klausurnoten, 0, 15)  # Begrenzen auf 0-15

# Streudiagramm
plt.figure(figsize=(8, 6))
plt.scatter(lernstunden, klausurnoten, alpha=0.6, s=100, color='green', edgecolors='darkgreen')

plt.xlabel('Lernstunden', fontsize=12)
plt.ylabel('Klausurnote (Punkte)', fontsize=12)
plt.title('Beziehung: Lernen ‚Üí Noten', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

plt.show()

**Neu:**
- `plt.scatter()` zeichnet einzelne Punkte (nicht verbunden)
- `alpha=0.6` macht die Punkte etwas transparent (40% Transparenz)
- `s=100` setzt die Gr√∂√üe der Punkte
- `edgecolors` f√§rbt den Rand jedes Punktes

---

## üìà Teil 2: Mehrere Diagramme mit Subplots

Oft m√∂chten wir mehrere Diagramme nebeneinander zeigen. Das machen wir mit **Subplots**.

In [None]:
# Erstelle ein 2x2-Gitter von Diagrammen
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# Oben links: Liniendiagramm
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
axes[0, 0].plot(x, y1, color='blue', linewidth=2)
axes[0, 0].set_title('Sinus-Funktion', fontweight='bold')
axes[0, 0].set_xlabel('x')
axes[0, 0].set_ylabel('y')
axes[0, 0].grid(True, alpha=0.3)

# Oben rechts: Kosinusfunktion
y2 = np.cos(x)
axes[0, 1].plot(x, y2, color='orange', linewidth=2)
axes[0, 1].set_title('Kosinus-Funktion', fontweight='bold')
axes[0, 1].set_xlabel('x')
axes[0, 1].set_ylabel('y')
axes[0, 1].grid(True, alpha=0.3)

# Unten links: Tangens (mit Vorsicht vor Polstellen!)
y3 = np.tan(x)
axes[1, 0].plot(x, np.clip(y3, -10, 10), color='red', linewidth=2)  # Begrenzen f√ºr bessere Ansicht
axes[1, 0].set_title('Tangens-Funktion (begrenzt)', fontweight='bold')
axes[1, 0].set_xlabel('x')
axes[1, 0].set_ylabel('y')
axes[1, 0].grid(True, alpha=0.3)

# Unten rechts: Kombiniert (alle drei)
axes[1, 1].plot(x, y1, color='blue', linewidth=2, label='sin(x)')
axes[1, 1].plot(x, y2, color='orange', linewidth=2, label='cos(x)')
axes[1, 1].plot(x, np.clip(y3, -10, 10), color='red', linewidth=2, label='tan(x) (begrenzt)')
axes[1, 1].set_title('Alle drei Funktionen', fontweight='bold')
axes[1, 1].set_xlabel('x')
axes[1, 1].set_ylabel('y')
axes[1, 1].legend(fontsize=10)
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()  # Abst√§nde automatisch anpassen
plt.show()

**Wichtige Befehle:**
- `plt.subplots(zeilen, spalten)` erstellt ein Gitter von Diagrammen
- `axes[i, j]` greift auf das Diagramm in Zeile i, Spalte j zu
- `axes[i, j].plot()`, `axes[i, j].set_title()` usw. ‚Äì wir nutzen die `axes`-Methoden statt `plt.`
- `plt.legend()` zeigt eine Legende (Label m√ºssen mit `label=` gesetzt werden)
- `plt.tight_layout()` verhindert, dass sich Beschriftungen √ºberlagern

---

## üé® Teil 3: Farben, Legenden und Stile

### 3.1 Legenden verstehen

Eine **Legende** erkl√§rt, welche Farbe was bedeutet.

In [None]:
plt.figure(figsize=(10, 6))

# Verschiedene Datens√§tze
monate = ['Jan', 'Feb', 'M√§r', 'Apr', 'Mai', 'Jun']
verkaufe_2023 = [100, 110, 105, 120, 135, 150]
verkaufe_2024 = [120, 125, 130, 140, 155, 165]

# Beide Linien zeichnen mit Label
plt.plot(monate, verkaufe_2023, marker='o', linewidth=2, color='blue', label='2023')
plt.plot(monate, verkaufe_2024, marker='s', linewidth=2, color='red', label='2024')

# Legende oben rechts positionieren
plt.legend(loc='upper left', fontsize=11)

plt.xlabel('Monat', fontsize=12)
plt.ylabel('Verk√§ufe (Einheiten)', fontsize=12)
plt.title('Verkaufsvergleich: 2023 vs. 2024', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

plt.show()

**Parameter f√ºr `legend()`:**
- `loc='upper left'`, `'upper right'`, `'lower left'`, `'lower right'`, `'center'` ‚Äì Position der Legende
- `fontsize` ‚Äì Gr√∂√üe der Schrift in der Legende

---

### 3.2 Farben und Stile

Matplotlib hat viele vordefinierte Farben und Linienstile.

In [None]:
# Farben: 'red', 'blue', 'green', 'yellow', 'purple', 'orange', 'pink', 'brown', 'gray'
# Oder Hexadezimal: '#FF0000' (rot), '#0000FF' (blau), etc.

# Linienstile: '-' (durchgezogen), '--' (gestrichelt), ':' (gepunktet), '-.' (strich-punkt)
# Marker: 'o' (Kreis), 's' (Quadrat), '^' (Dreieck), 'x', 'D' (Diamant)

x = np.linspace(0, 10, 100)

plt.figure(figsize=(12, 6))

plt.plot(x, np.sin(x), linestyle='-', linewidth=2, color='#FF6B6B', marker='o', label='Durchgezogen + o')
plt.plot(x, np.sin(x) - 0.5, linestyle='--', linewidth=2, color='#4ECDC4', marker='s', label='Gestrichelt + s')
plt.plot(x, np.sin(x) - 1, linestyle=':', linewidth=2, color='#FFE66D', marker='^', label='Gepunktet + ^')
plt.plot(x, np.sin(x) - 1.5, linestyle='-.', linewidth=2, color='#95E1D3', marker='D', label='Strich-Punkt + D')

plt.legend(fontsize=11, loc='lower left')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Verschiedene Linien- und Marker-Stile', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

plt.show()

---

## üìä Teil 4: Mit Seaborn arbeiten (Statistische Diagramme)

**Seaborn** baut auf Matplotlib auf und macht statistische Diagramme viel einfacher!

### 4.1 Histogramme

Ein **Histogramm** zeigt die **H√§ufigkeitsverteilung** von Daten.

In [None]:
# Zufallsdaten: 1000 Messwerte einer Normalverteilung
np.random.seed(42)
daten = np.random.normal(loc=100, scale=15, size=1000)

plt.figure(figsize=(10, 6))

# Seaborn Histogramm mit Kurve
sns.histplot(daten, kde=True, bins=30, color='skyblue', edgecolor='black')

plt.xlabel('Messwert', fontsize=12)
plt.ylabel('H√§ufigkeit', fontsize=12)
plt.title('Verteilung von 1000 Messwerten', fontsize=14, fontweight='bold')

plt.show()

**Parameter:**
- `kde=True` ‚Äì zeichnet zus√§tzlich eine glatte Kurve (Kernel Density Estimate)
- `bins=30` ‚Äì Anzahl der Balken
- `color` ‚Äì Farbe der Balken

---

### 4.2 Box-Plots (Boxplots)

Boxplots zeigen **Minimum, Quartile und Maximum** in kompakter Form.

In [None]:
# Daten: Temperaturen in drei St√§dten (je 30 Messpunkte)
np.random.seed(42)
berlin_temps = np.random.normal(loc=12, scale=5, size=30)
rom_temps = np.random.normal(loc=18, scale=4, size=30)
dubai_temps = np.random.normal(loc=32, scale=6, size=30)

# Daten zusammenfassen
daten_dict = {
    'Berlin': berlin_temps,
    'Rom': rom_temps,
    'Dubai': dubai_temps
}

plt.figure(figsize=(10, 6))

# Seaborn Boxplot
sns.boxplot(data=daten_dict, palette='Set2')

plt.ylabel('Temperatur (¬∞C)', fontsize=12)
plt.title('Temperaturverteilung in drei St√§dten', fontsize=14, fontweight='bold')

plt.show()

**Was zeigt ein Boxplot?**
- Die **Box** enth√§lt 50% der Daten (vom 25. zum 75. Perzentil)
- Die **Linie in der Box** ist der Median (50. Perzentil)
- Die **Whisker** (Schnurrhaare) zeigen Min/Max oder extremale Ausrei√üer

---

### 4.3 Heatmaps (f√ºr Korrelationen)

Heatmaps zeigen die **Korrelation** zwischen Variablen durch Farben.

In [None]:
# Daten: Korrelationen zwischen verschiedenen Messungen
import pandas as pd

# Kleine Matrix mit Korrelationswerten
korrelationen = np.array([
    [1.0, 0.8, 0.3, -0.2],
    [0.8, 1.0, 0.5, 0.1],
    [0.3, 0.5, 1.0, 0.6],
    [-0.2, 0.1, 0.6, 1.0]
])

variablen = ['Temperatur', 'Luftdruck', 'Niederschlag', 'Sonnenschein']

plt.figure(figsize=(8, 6))

# Seaborn Heatmap
sns.heatmap(korrelationen, 
            annot=True,  # Werte in den Feldern zeigen
            cmap='coolwarm',  # Farbskala (blau = negativ, rot = positiv)
            xticklabels=variablen,
            yticklabels=variablen,
            cbar_kws={'label': 'Korrelation'})

plt.title('Korrelationsmatrix meteorologischer Gr√∂√üen', fontsize=14, fontweight='bold')

plt.show()

---

## ‚ú® Teil 5: Best Practices f√ºr wissenschaftliche Grafiken

### Regel 1: Beschriftungen sind essentiell!

In [None]:
plt.figure(figsize=(10, 6))
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)

plt.plot(x, y, linewidth=2, color='darkblue')

# ‚úì GUT: Alles beschriftet
plt.xlabel('Zeit (Sekunden)', fontsize=12)
plt.ylabel('Auslenkung (Meter)', fontsize=12)
plt.title('Sinusf√∂rmige Oszillation', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

plt.show()

# ‚úó SCHLECHT w√§re: Keine Beschriftungen!

### Regel 2: Achsen-Skalierung √ºberpr√ºfen

In [None]:
# Daten, die t√§uschen k√∂nnten
werte_2022 = [100, 102, 105, 103]  # Kleine Unterschiede
monate = ['Q1', 'Q2', 'Q3', 'Q4']

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Links: Vergr√∂√üert (sieht dramatisch aus)
ax1.bar(monate, werte_2022, color='red')
ax1.set_ylim(95, 110)  # ‚Üê Trick: Y-Achse nicht bei 0 starten
ax1.set_title('PROBLEM VERGR√ñSSERTE Sicht (t√§uschend!)', fontweight='bold')
ax1.set_ylabel('Wert')

# Rechts: Ehrlich (sieht weniger dramatisch aus)
ax2.bar(monate, werte_2022, color='green')
ax2.set_ylim(0, 110)  # ‚Üê Korrekt: Bei 0 starten
ax2.set_title('‚úì EHRLICHE Sicht', fontweight='bold')
ax2.set_ylabel('Wert')

plt.tight_layout()
plt.show()

### Regel 3: Keine unn√∂tigen Verzierungen (Chartjunk)

In [None]:
# ‚úó SCHLECHT: Zu viele Effekte
plt.style.use('seaborn-v0_8-darkgrid')  # Sehr bunter Style
x = np.linspace(0, 10, 100)
plt.plot(x, np.sin(x), linewidth=5, color='fuchsia', marker='o', markersize=10)
plt.title('VIEL ZU VIEL!', fontsize=20)
plt.show()

# ‚úì GUT: Klar und sauber
plt.style.use('default')  # Zur√ºck zu Standard
plt.figure(figsize=(10, 6))
plt.plot(x, np.sin(x), linewidth=2, color='darkblue')
plt.xlabel('x')
plt.ylabel('sin(x)')
plt.title('Sinusfunktion', fontsize=14)
plt.grid(True, alpha=0.3)
plt.show()

---

## üîç Zusammenfassung: Die wichtigsten Befehle

| Befehl | Zweck | Beispiel |
|--------|-------|---------|
| `plt.plot()` | Liniendiagramm | `plt.plot([1,2,3], [4,5,6])` |
| `plt.bar()` | Balkendiagramm | `plt.bar(['A', 'B'], [10, 20])` |
| `plt.scatter()` | Streudiagramm | `plt.scatter([1,2,3], [4,5,6])` |
| `sns.histplot()` | Histogramm | `sns.histplot(daten, bins=30)` |
| `sns.boxplot()` | Boxplot | `sns.boxplot(data=daten_dict)` |
| `sns.heatmap()` | Heatmap | `sns.heatmap(matrix, annot=True)` |
| `plt.xlabel()` | X-Achse beschriften | `plt.xlabel('Zeit')` |
| `plt.ylabel()` | Y-Achse beschriften | `plt.ylabel('Wert')` |
| `plt.title()` | Titel | `plt.title('Mein Diagramm')` |
| `plt.legend()` | Legende | `plt.legend(loc='upper right')` |
| `plt.subplots()` | Mehrere Diagramme | `fig, axes = plt.subplots(2,2)` |
| `plt.grid()` | Gitterlinien | `plt.grid(True, alpha=0.3)` |

---

## üéØ Reflexionsfragen

1. **Welches Diagramm w√§hlst du f√ºr zeitliche Verl√§ufe (z. B. Temperatur √ºber Stunden)?**

2. **Wie hilfst du einem Leser, schnell zu verstehen, was ein Diagramm zeigt?**

3. **Warum kann es problematisch sein, die Y-Achse nicht bei 0 zu starten?**

4. **Wann verwendest du Seaborn statt reines Matplotlib?**

---

## üìö Weiterf√ºhrende Links

- [Matplotlib Dokumentation ‚Äì Tutorials](https://matplotlib.org/stable/tutorials/index.html)
- [Seaborn Galerie ‚Äì Beispiele und Code](https://seaborn.pydata.org/examples.html)
- [Plotly Interactive Plots ‚Äì Alternative zu Matplotlib](https://plotly.com/python/)
- [Edward Tufte: The Visual Display of Quantitative Information](https://www.edwardtufte.com/tufte/)
- [Matplotlib ‚Äì Plot Gallery](https://matplotlib.org/stable/gallery/index.html)