# Python Fortgeschritten: Matplotlib
## Tag 5 - Notebook 27
***
In diesem Notebook wird behandelt:
- Figure und Axes Objekte
- Verschiedene Plot-Typen
- Subplots
- Customization (Farben, Marker, Legenden)
- Beschriftungen und Titel
- Plots speichern
***


## 1 Figure und Axes Objekte

Matplotlib verwendet zwei Hauptkonzepte:
- **Figure**: Das gesamte Fenster/Bild (kann mehrere Axes enthalten)
- **Axes**: Ein einzelner Plot innerhalb einer Figure

### Zwei APIs

1. **Pyplot-API** (einfach, für schnelle Plots): `plt.plot()`, `plt.xlabel()`, etc.
2. **Objektorientierte API** (flexibler, für komplexe Plots): `fig, ax = plt.subplots()`


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Pyplot-API (einfach)
x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y)
plt.title('Sinuskurve')
plt.xlabel('X-Achse')
plt.ylabel('Y-Achse')
plt.show()

# Objektorientierte API (flexibler)
fig, ax = plt.subplots()
ax.plot(x, y)
ax.set_title('Sinuskurve (OO-API)')
ax.set_xlabel('X-Achse')
ax.set_ylabel('Y-Achse')
plt.show()


## 2 Verschiedene Plot-Typen

Matplotlib bietet viele Plot-Typen:
- **Line Plots**: `plot()` - für kontinuierliche Daten
- **Scatter Plots**: `scatter()` - für Punktwolken
- **Bar Charts**: `bar()`, `barh()` - für kategorische Daten
- **Histograms**: `hist()` - für Verteilungen
- **Pie Charts**: `pie()` - für Anteile
- **Box Plots**: `boxplot()` - für statistische Verteilungen


In [None]:
import pandas as pd

# Daten aus CSV laden
df_measurements = pd.read_csv('../data/measurements_data.csv')
df_measurements['Timestamp'] = pd.to_datetime(df_measurements['Timestamp'])

# Line Plot: Zeitreihe
fig, ax = plt.subplots(figsize=(10, 4))
ax.plot(df_measurements['Timestamp'], df_measurements['Temperature'], marker='o')
ax.set_title('Temperatur über Zeit')
ax.set_xlabel('Zeit')
ax.set_ylabel('Temperatur (°C)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Scatter Plot
fig, ax = plt.subplots()
x = np.random.rand(50)
y = np.random.rand(50)
ax.scatter(x, y, alpha=0.6)
ax.set_title('Scatter Plot')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()

# Bar Chart
categories = ['A', 'B', 'C', 'D']
values = [10, 20, 15, 25]
fig, ax = plt.subplots()
ax.bar(categories, values, color=['red', 'blue', 'green', 'orange'])
ax.set_title('Bar Chart')
ax.set_xlabel('Kategorie')
ax.set_ylabel('Wert')
plt.show()

# Histogram
data = np.random.normal(100, 15, 1000)
fig, ax = plt.subplots()
ax.hist(data, bins=30, edgecolor='black')
ax.set_title('Histogram')
ax.set_xlabel('Wert')
ax.set_ylabel('Häufigkeit')
plt.show()

# Pie Chart
sizes = [30, 25, 20, 15, 10]
labels = ['A', 'B', 'C', 'D', 'E']
fig, ax = plt.subplots()
ax.pie(sizes, labels=labels, autopct='%1.1f%%')
ax.set_title('Pie Chart')
plt.show()

# Box Plot
data_box = [np.random.normal(0, 1, 100),
            np.random.normal(2, 1.5, 100),
            np.random.normal(-1, 0.5, 100)]
fig, ax = plt.subplots()
ax.boxplot(data_box, labels=['Gruppe 1', 'Gruppe 2', 'Gruppe 3'])
ax.set_title('Box Plot')
ax.set_ylabel('Wert')
plt.show()



## 3 Subplots

Mehrere Plots in einer Figure:
- **subplot()**: Einzelne Subplots hinzufügen
- **subplots()**: Grid von Subplots erstellen


In [None]:
# Subplots mit subplots()
fig, axes = plt.subplots(2, 2, figsize=(10, 8))

x = np.linspace(0, 10, 100)

# Plot 1: Line
axes[0, 0].plot(x, np.sin(x))
axes[0, 0].set_title('Sinus')
axes[0, 0].set_xlabel('X')
axes[0, 0].set_ylabel('Y')

# Plot 2: Scatter
x_scatter = np.random.rand(50)
y_scatter = np.random.rand(50)
axes[0, 1].scatter(x_scatter, y_scatter)
axes[0, 1].set_title('Scatter')

# Plot 3: Bar
categories = ['A', 'B', 'C']
values = [10, 20, 15]
axes[1, 0].bar(categories, values)
axes[1, 0].set_title('Bar Chart')

# Plot 4: Histogram
data_hist = np.random.normal(0, 1, 1000)
axes[1, 1].hist(data_hist, bins=30)
axes[1, 1].set_title('Histogram')

plt.tight_layout()
plt.show()

# Subplot mit subplot() (alternative Methode)
fig = plt.figure(figsize=(12, 4))

plt.subplot(1, 3, 1)
plt.plot(x, np.sin(x))
plt.title('Sinus')

plt.subplot(1, 3, 2)
plt.plot(x, np.cos(x))
plt.title('Cosinus')

plt.subplot(1, 3, 3)
plt.plot(x, np.tan(x))
plt.title('Tangens')
plt.ylim(-5, 5)

plt.tight_layout()
plt.show()


## 4 Customization

Anpassungsmöglichkeiten:
- **Farben**: Namen ('red', 'blue'), Hex-Codes ('#FF5733'), RGB-Tupel
- **Marker**: 'o', 's', '^', 'x', etc.
- **Linienstile**: '-', '--', '-.', ':'
- **Legenden**: `legend()` mit Labels
- **Grid**: `grid(True)` für Gitternetz


In [None]:
x = np.linspace(0, 10, 100)

fig, ax = plt.subplots(figsize=(10, 6))

# Mehrere Linien mit verschiedenen Stilen
ax.plot(x, np.sin(x), color='blue', linestyle='-', linewidth=2, label='Sinus', marker='o', markersize=3)
ax.plot(x, np.cos(x), color='red', linestyle='--', linewidth=2, label='Cosinus', marker='s', markersize=3)
ax.plot(x, np.sin(x) * np.cos(x), color='green', linestyle='-.', linewidth=2, label='Sinus × Cosinus')

# Customization
ax.set_title('Customized Plot', fontsize=16, fontweight='bold')
ax.set_xlabel('X-Achse', fontsize=12)
ax.set_ylabel('Y-Achse', fontsize=12)
ax.legend(loc='upper right', fontsize=10)
ax.grid(True, alpha=0.3, linestyle=':')
ax.set_xlim(0, 10)
ax.set_ylim(-1.5, 1.5)

plt.tight_layout()
plt.show()


## 5 Beschriftungen und Titel

Weitere Anpassungen:
- **Titel**: `title()` mit verschiedenen Optionen
- **Achsenbeschriftungen**: `xlabel()`, `ylabel()`
- **Annotationen**: `annotate()` für Textmarkierungen
- **Text**: `text()` für freien Text


In [None]:
x = np.linspace(0, 10, 100)
y = np.sin(x)

fig, ax = plt.subplots(figsize=(10, 6))
ax.plot(x, y, linewidth=2)

# Titel und Beschriftungen
ax.set_title('Sinuskurve mit Annotationen', fontsize=14, pad=20)
ax.set_xlabel('X-Wert (rad)', fontsize=12)
ax.set_ylabel('Y-Wert', fontsize=12)

# Annotation
max_idx = np.argmax(y)
ax.annotate('Maximum', xy=(x[max_idx], y[max_idx]), 
            xytext=(x[max_idx] + 1, y[max_idx] + 0.3),
            arrowprops=dict(arrowstyle='->', color='red'),
            fontsize=10, color='red')

# Text hinzufügen
ax.text(5, 0.5, 'Beispieltext', fontsize=12, 
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

plt.tight_layout()
plt.show()


## 6 Plots speichern

Plots können in verschiedenen Formaten gespeichert werden:
- **PNG**: Rasterformat, gut für Präsentationen
- **PDF**: Vektorgrafik, skalierbar, gut für Publikationen
- **SVG**: Vektorgrafik, editierbar
- **Andere**: JPG, EPS, etc.


In [None]:
x = np.linspace(0, 10, 100)
y = np.sin(x)

fig, ax = plt.subplots(figsize=(8, 5))
ax.plot(x, y, linewidth=2)
ax.set_title('Sinuskurve')
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.grid(True, alpha=0.3)

# Plots speichern
fig.savefig('../data/plot_example.png', dpi=300, bbox_inches='tight')
fig.savefig('../data/plot_example.pdf', bbox_inches='tight')
fig.savefig('../data/plot_example.svg', bbox_inches='tight')

print("Plots gespeichert als PNG, PDF und SVG")
plt.show()


## 7 Aufgaben

### Aufgabe (a): Grundlegende Plots erstellen

Erstelle verschiedene Plot-Typen:

**Anforderungen:**
- Lade `data/measurements_data.csv`
- Erstelle einen Line Plot für Temperature über Zeit (Timestamp auf x-Achse, Temperature auf y-Achse)
- Erstelle einen Scatter Plot für Temperature vs. Humidity
- Erstelle ein Histogramm für Pressure mit 20 Bins
- Zeige alle Plots an

**Tipp:** Verwende `pd.read_csv()` zum Laden, `pd.to_datetime()` für die Timestamp-Spalte, und `plt.plot()`, `plt.scatter()`, `plt.hist()` für die verschiedenen Plot-Typen.

In [None]:
# Deine Lösung

### Aufgabe (b): Subplots und Customization

Erstelle mehrere Subplots mit Customization:

**Anforderungen:**
- Erstelle ein 2x2 Subplot-Grid
- Plot 1 (oben links): Temperature Zeitreihe als Line Plot
- Plot 2 (oben rechts): Humidity Verteilung als Histogramm
- Plot 3 (unten links): Pressure vs. Temperature als Scatter Plot
- Plot 4 (unten rechts): Alle drei Werte (Temperature, Humidity, Pressure) überlagert als Line Plot
- Füge für jeden Plot Titel, Labels, Legenden (wo sinnvoll) und Grid hinzu
- Verwende `plt.tight_layout()` für bessere Darstellung

**Tipp:** Verwende `fig, axes = plt.subplots(2, 2)` für das Grid. Zugriff auf einzelne Subplots mit `axes[0, 0]`, `axes[0, 1]`, etc.

In [None]:
# Deine Lösung

### Aufgabe (c): Datenvisualisierung aus CSV

Visualisiere Verkaufsdaten:

**Anforderungen:**
- Lade `data/sales_data.csv`
- Erstelle einen Bar Chart für Sales nach Category (jede Category ein Balken)
- Erstelle einen Pie Chart für die Quantity-Verteilung nach Category
- Erstelle einen Box Plot für die Sales-Verteilung nach Category
- Speichere alle drei Plots als PNG-Dateien in `data/` (z.B. `data/sales_bar.png`, `data/sales_pie.png`, `data/sales_box.png`)
- Zeige die Plots an

**Tipp:** Verwende `plt.bar()`, `plt.pie()`, `plt.boxplot()` und `fig.savefig()` zum Speichern.

In [None]:
# Deine Lösung

### Aufgabe (d): Erweiterte Visualisierung

Erstelle eine komplexe Visualisierung:

**Anforderungen:**
- Lade sowohl `data/employee_data.csv` als auch `data/sales_data.csv`
- Erstelle einen Multi-Line Plot mit mehreren Datenreihen (z.B. Sales über Zeit, gruppiert nach Category)
- Füge Annotationen für Maxima und Minima hinzu (markiere die höchsten und niedrigsten Werte)
- Verwende verschiedene Farben, Marker und Linienstile für die verschiedenen Kategorien
- Speichere den Plot als PDF in `data/`
- Zeige den Plot an

**Tipp:** Verwende `ax.annotate()` für Annotationen, verschiedene `color`, `marker` und `linestyle` Parameter in `plot()`, und `fig.savefig()` mit `format='pdf'`.

In [None]:
# Deine Lösung

### Lösungen

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import logging

logging.basicConfig(level=logging.DEBUG, format='%(levelname)s: %(message)s')

# Musterlösung (a)
logging.debug("=== Aufgabe (a): Grundlegende Plots erstellen ===")

df_measurements = pd.read_csv('../data/measurements_data.csv')
df_measurements['Timestamp'] = pd.to_datetime(df_measurements['Timestamp'])

# Line Plot
fig, ax = plt.subplots(figsize=(10, 4))
ax.plot(df_measurements['Timestamp'], df_measurements['Temperature'], marker='o')
ax.set_title('Temperature über Zeit')
ax.set_xlabel('Zeit')
ax.set_ylabel('Temperature (°C)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('../data/temp_line.png')
logging.debug("Line Plot erstellt und gespeichert")
plt.close()

# Scatter Plot
fig, ax = plt.subplots()
ax.scatter(df_measurements['Temperature'], df_measurements['Humidity'], alpha=0.6)
ax.set_title('Temperature vs. Humidity')
ax.set_xlabel('Temperature (°C)')
ax.set_ylabel('Humidity (%)')
plt.tight_layout()
plt.savefig('../data/temp_humidity_scatter.png')
logging.debug("Scatter Plot erstellt und gespeichert")
plt.close()

# Histogramm
fig, ax = plt.subplots()
ax.hist(df_measurements['Pressure'], bins=20, edgecolor='black')
ax.set_title('Pressure Verteilung')
ax.set_xlabel('Pressure')
ax.set_ylabel('Häufigkeit')
plt.tight_layout()
plt.savefig('../data/pressure_hist.png')
logging.debug("Histogramm erstellt und gespeichert")
plt.close()

# Musterlösung (b)
logging.debug("\n=== Aufgabe (b): Subplots und Customization ===")

fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# Plot 1: Temperature Zeitreihe
axes[0, 0].plot(df_measurements['Timestamp'], df_measurements['Temperature'], color='blue', linewidth=2)
axes[0, 0].set_title('Temperature Zeitreihe')
axes[0, 0].set_xlabel('Zeit')
axes[0, 0].set_ylabel('Temperature (°C)')
axes[0, 0].grid(True, alpha=0.3)
plt.setp(axes[0, 0].xaxis.get_majorticklabels(), rotation=45)

# Plot 2: Humidity Histogramm
axes[0, 1].hist(df_measurements['Humidity'], bins=20, edgecolor='black', color='green')
axes[0, 1].set_title('Humidity Verteilung')
axes[0, 1].set_xlabel('Humidity (%)')
axes[0, 1].set_ylabel('Häufigkeit')
axes[0, 1].grid(True, alpha=0.3)

# Plot 3: Pressure vs. Temperature Scatter
axes[1, 0].scatter(df_measurements['Temperature'], df_measurements['Pressure'], alpha=0.6, color='red')
axes[1, 0].set_title('Pressure vs. Temperature')
axes[1, 0].set_xlabel('Temperature (°C)')
axes[1, 0].set_ylabel('Pressure')
axes[1, 0].grid(True, alpha=0.3)

# Plot 4: Alle drei überlagert
axes[1, 1].plot(df_measurements['Timestamp'], df_measurements['Temperature'], label='Temperature', color='blue')
axes[1, 1].plot(df_measurements['Timestamp'], df_measurements['Humidity'], label='Humidity', color='green')
axes[1, 1].plot(df_measurements['Timestamp'], df_measurements['Pressure']/10, label='Pressure/10', color='red')
axes[1, 1].set_title('Alle Werte überlagert')
axes[1, 1].set_xlabel('Zeit')
axes[1, 1].set_ylabel('Wert')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)
plt.setp(axes[1, 1].xaxis.get_majorticklabels(), rotation=45)

plt.tight_layout()
plt.savefig('../data/subplots.png')
logging.debug("Subplots erstellt und gespeichert")
plt.close()

# Musterlösung (c)
logging.debug("\n=== Aufgabe (c): Datenvisualisierung aus CSV ===")

df_sales = pd.read_csv('../data/sales_data.csv')
df_sales['Date'] = pd.to_datetime(df_sales['Date'])

# Bar Chart
sales_by_category = df_sales.groupby('Category')['Sales'].sum()
fig, ax = plt.subplots()
ax.bar(sales_by_category.index, sales_by_category.values, color=['red', 'blue', 'green'])
ax.set_title('Sales nach Category')
ax.set_xlabel('Category')
ax.set_ylabel('Sales')
plt.tight_layout()
plt.savefig('../data/sales_bar.png')
logging.debug("Bar Chart gespeichert")
plt.close()

# Pie Chart
quantity_by_category = df_sales.groupby('Category')['Quantity'].sum()
fig, ax = plt.subplots()
ax.pie(quantity_by_category.values, labels=quantity_by_category.index, autopct='%1.1f%%')
ax.set_title('Quantity-Verteilung nach Category')
plt.tight_layout()
plt.savefig('../data/sales_pie.png')
logging.debug("Pie Chart gespeichert")
plt.close()

# Box Plot
categories = df_sales['Category'].unique()
data_for_box = [df_sales[df_sales['Category'] == cat]['Sales'].values for cat in categories]
fig, ax = plt.subplots()
ax.boxplot(data_for_box, labels=categories)
ax.set_title('Sales-Verteilung nach Category')
ax.set_ylabel('Sales')
plt.tight_layout()
plt.savefig('../data/sales_box.png')
logging.debug("Box Plot gespeichert")
plt.close()

# Musterlösung (d)
logging.debug("\n=== Aufgabe (d): Erweiterte Visualisierung ===")

df_employees = pd.read_csv('../data/employee_data.csv')

# Multi-Line Plot: Sales über Zeit nach Category
fig, ax = plt.subplots(figsize=(12, 6))

for category in df_sales['Category'].unique():
    category_data = df_sales[df_sales['Category'] == category].sort_values('Date')
    ax.plot(category_data['Date'], category_data['Sales'], 
            marker='o', label=category, linewidth=2, markersize=4)

# Maxima und Minima finden und annotieren
max_idx = df_sales['Sales'].idxmax()
min_idx = df_sales['Sales'].idxmin()

ax.annotate('Maximum', 
            xy=(df_sales.loc[max_idx, 'Date'], df_sales.loc[max_idx, 'Sales']),
            xytext=(10, 10), textcoords='offset points',
            arrowprops=dict(arrowstyle='->', color='red'),
            fontsize=10, color='red')

ax.annotate('Minimum',
            xy=(df_sales.loc[min_idx, 'Date'], df_sales.loc[min_idx, 'Sales']),
            xytext=(10, -20), textcoords='offset points',
            arrowprops=dict(arrowstyle='->', color='blue'),
            fontsize=10, color='blue')

ax.set_title('Sales über Zeit nach Category')
ax.set_xlabel('Datum')
ax.set_ylabel('Sales')
ax.legend()
ax.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('../data/sales_multi_line.pdf', format='pdf')
logging.debug("Multi-Line Plot als PDF gespeichert")
plt.close()
