# VL5 â€“ Dynamische Datenvisualisierung / Motion Design (Python)

**Kontext:** Ãœbungen zu *Animation*, *Motion Design* und *Storytelling mit Daten*  
**Tools:** Plotly (interaktiv + animiert), pynimate (GIF/Videoâ€‘Animationen)

## Lernziele

Nach der Bearbeitung dieses Notebooks kannst du â€¦

1. Daten fÃ¼r Animationen **tidy** vorbereiten (Filtern, Pivotieren, Aggregieren, Missing Values behandeln),
2. mit **Plotly Express** animierte Scatterplots (â€žRosling Bubble Chartâ€œ) und Animationseinstellungen (frame duration, transition) steuern,
3. mit **pynimate** eine Animation als **GIF** exportieren (Canvas, Plotâ€‘Objekte, FPS/Interval),
4. Motionâ€‘Designâ€‘Entscheidungen **begrÃ¼ndet** treffen (Tempo, Easing/ÃœbergÃ¤nge, visuelle Hierarchie, Reduktion),
5. die Aussage einer Visualisierung kritisch reflektieren (Skalen, Kodierungen, Vergleichbarkeit Ã¼ber Zeit).

## Arbeitsweise im Notebook

- **Erst lauffÃ¤hig machen, dann verschÃ¶nern:** Wenn du Fehler bekommst, kommentiere #optionalâ€‘BlÃ¶cke zunÃ¤chst aus.
- **Miniâ€‘Iterationen:** Nach jedem Schritt kurz prÃ¼fen (DataFrame anzeigen, `fig.show()`/GIF preview).
- **Dokumentiere Entscheidungen:** Beantworte die *Transferfragen* direkt unter den Ãœbungen.

> Dont worry, Ãœbung macht den Meister! ðŸš€


In [None]:
# Setup: Bibliotheken installieren (nur nÃ¶tig, wenn sie noch nicht installiert sind)
#optional: In lokalen Umgebungen/Colab ausfÃ¼hren â€“ in manchen Uniâ€‘Setups ist Installation gesperrt.
# %pip install plotly pandas pynimate geopandas matplotlib pillow

In [None]:
# Imports

# Datenhandling
import pandas as pd
import numpy as np

# Interaktive/animierte Visualisierung
import plotly.express as px

# Animation als GIF/Video (pynimate)
import pynimate as nim
from pynimate import Canvas, Barplot
from pynimate.utils import human_readable

# I/O & Utilities
import os
import json

# Matplotlib (wird von pynimate genutzt)
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.ticker as tick
from matplotlib.animation import PillowWriter

In [None]:
# Daten laden und vorbereiten (INKAR)
# Hinweis: Pfad an deine Umgebung anpassen (z.â€¯B. relativer Pfad im Projektordner).

inkar_path = r"C:\Users\Matthias\Documents\Ohm_Vorlesung\project\notebooks\data\inkar_bayern_nordbayern.parquet"

# Daten aus dem github: https://github.com/MAD1982/dataviz_WS2526/raw/main/inkar/inkar_bayern_nordbayern.parquet

# load parquet
df_inkar = pd.read_parquet(inkar_path)

# Quick sanity check: existiert die Filterspalte?
df_inkar["Nordbayern"].value_counts()


In [None]:
# Datenexploration (kurz, aber wichtig!)
# Ziel: verstehen, welche Spalten/Keys du fÃ¼r Filter, Join und Animation brauchst.

df_inkar.info()
df_inkar.head()

# Welche Indikatoren sind verfÃ¼gbar?
df_inkar["Indikator"].drop_duplicates().sort_values()

# Kennziffern/Keys: wichtig fÃ¼r Joins (z.â€¯B. mit GeoJSON) und fÃ¼r eindeutige Gruppen in Animationen
df_inkar[["Name", "Kennziffer"]].drop_duplicates().sort_values("Kennziffer")

# Filter: GroÃŸstÃ¤dte (Beispiel aus der Vorlesung)
by_grosse_staedte = [
    "09161000", "09162000", "09362000",
    "09562000", "09563000", "09564000",
    "09663000", "09761000"
]

df_inkar = df_inkar[df_inkar["Kennziffer"].isin(by_grosse_staedte)]
df_inkar["Name"].drop_duplicates().sort_values()


## Ãœbung 1: Scatterplot Bubble Chart (Roslingâ€‘Style)

### Thema
**Entwicklung von Wohlstand (BIP/Einwohner) und Arbeitslosenquote** in den GroÃŸstÃ¤dten Bayerns seit 1998.

### Lernziele (Ãœbung 1)
- Du kannst ein **Longâ€‘Format** in ein **Wideâ€‘Format** pivotieren, um mehrere Indikatoren als Spalten zu bekommen.
- Du kannst eine **animierte Scatterplotâ€‘Story** aufbauen: ZustÃ¤nde pro Jahr, gleiche Punkte Ã¼ber Zeit (â€žanimation_groupâ€œ).
- Du kannst **Skalen & Kodierungen** (x/y/size/color) kritisch prÃ¼fen.

### Didaktische Hinweise
- Starte mit **DatenprÃ¼fung**: Sind beide Indikatoren pro Stadt/Jahr vorhanden? (Missing Values!)
- Achte auf **Einheiten** (EUR vs. %) und auf eine sinnvolle **Skalierung** (ggf. logâ€‘Skala fÃ¼r BIP).
- Motionâ€‘Designâ€‘Regel: **Nicht alles animieren** â€“ erst klare Botschaft, dann Bewegung als VerstÃ¤rker.

### Aufgabe
1. Filtere auf die Indikatoren **â€žBruttoinlandsprodukt je Einwohnerâ€œ** und **â€žArbeitslosenquoteâ€œ**.
2. Pivotiere die Daten so, dass du pro Stadt & Jahr beide Indikatoren als **separate Spalten** hast.
3. Erstelle einen animierten Scatterplot:
   - x: BIP/Einwohner  
   - y: Arbeitslosenquote  
   - frame: Jahr (`Zeitbezug`)  
   - group: Stadtname (`Name`)

### Transferfragen (kurz beantworten)
- Was verÃ¤ndert sich an deiner Interpretation, wenn du **size** statt Ã¼ber BIP Ã¼ber **BevÃ¶lkerung** kodierst?
- Welche Risiken entstehen durch **Farben pro Stadt** (viele Kategorien)? Welche Alternative wÃ¤re besser?
- WÃ¼rdest du fÃ¼r eine PrÃ¤sentation eher **Animation** oder **Small multiples** nutzen â€“ und warum?


In [None]:
# ÃœBUNG 1 â€“ Daten vorbereiten + animierter Roslingâ€‘Scatter (Plotly)
# Ziel: Long -> Wide (Pivot) und dann als Animation Ã¼ber Jahre erzÃ¤hlen.
# Tipp: Wenn etwas nicht funktioniert: zuerst df_wide anzeigen und prÃ¼fen, ob die Spalten existieren.

indikatoren_liste = ["Arbeitslosenquote", "Bruttoinlandsprodukt je Einwohner"]
df_inkar = df_inkar[df_inkar["Indikator"].isin(indikatoren_liste)]

# Your Code Here

NameError: name 'df_inkar' is not defined

### Bonus (Ãœbung 1): Motionâ€‘Tuning

- Passe die **Geschwindigkeit** der Animation an (frame duration / transition).
- Kodieren der PunktgrÃ¶ÃŸe Ã¼ber **Einwohnerzahl**: PrÃ¼fe, ob die GrÃ¶ÃŸenunterschiede lesbar sind (ggf. `size_max`).

**Transfer:** Wann wirkt schnelle Animation â€žcoolâ€œ, aber inhaltlich schlechter? Nenne ein Beispiel.


In [None]:
# ÃœBUNG 1 â€“ Bonus: Animationstempo & GrÃ¶ÃŸenkodierung

# Geschwindigkeit anpassen
speed = 100  # Geschwindigkeit in Millisekunden pro Frame

# Your Code Here

## Ãœbung 2: Bar Chart Race (pynimate)

### Thema
**HausÃ¤rzte je 1000 Einwohner** in bayerischen Landkreisen Ã¼ber die Zeit.

### Lernziele (Ãœbung 2)
- Du kannst Zeitreihendaten so aggregieren, dass sie fÃ¼r ein **Bar Chart Race** geeignet sind (Topâ€‘k pro Jahr).
- Du kannst in pynimate mit **Canvas + Barplot** eine Animation erzeugen und exportieren.
- Du kannst Lesbarkeit sichern: konsistente Achse, sinnvolle `top_n`, ruhige Beschriftung.

### Didaktische Hinweise
- Baue zuerst ein **statisches Ranking** fÃ¼r ein Jahr â†’ erst dann animieren.
- PrÃ¼fe, ob â€žTop 25â€œ Ã¼ber viele Jahre **flackert** (wechselnde Kreise) â€“ das kann die Botschaft schwÃ¤chen.
- Motionâ€‘Design: Nutze Bewegung, um **Dynamik** zu zeigen â€“ aber halte Achse & Layout stabil.

### Aufgabe
Erstelle ein Bar Chart Race, das **pro Jahr nur die Top 25** Landkreise mit der besten Versorgung (HausÃ¤rzte je 1000 Einwohner) zeigt.

> Hinweis: Lade die INKARâ€‘Daten fÃ¼r diese Ãœbung gern nochmal frisch und filtere dafÃ¼r neu.


In [None]:
# ÃœBUNG 2 â€“ Bar Chart Race (pynimate)
# Ziel: Zeitreihen in 'long' -> pro Jahr Topâ€‘k -> Animation.

# Daten laden
df_inkar = pd.read_parquet(inkar_path)

# Nordbayern filtern
df_inkar = df_inkar[df_inkar["Nordbayern"] == True]

# Nur Kreise
df_inkar = df_inkar[df_inkar["Raumbezug"] == "Kreise"]

# Daten filtern
indikatoren_liste = ["HausÃ¤rzte"]
df_inkar = df_inkar[df_inkar["Indikator"].isin(indikatoren_liste)]

# Your Code Here

### Bonus (Ãœbung 2): Small multiples (statisch) statt Animation

Erstelle eine **Smallâ€‘multiplesâ€‘Ansicht** (z.â€¯B. mehrere Balkendiagramme nebeneinander) fÃ¼r die **Top 10** im aktuellsten verfÃ¼gbaren Jahr.

**Transfer:** Welche Fragestellung beantwortet Small multiples besser als ein Bar Chart Race?


#### Bonus (Ãœbung 2): Top 10 â€“ beste Versorgung pro Jahr

Reduziere auf die **Top 10** pro Jahr und beobachte:
- Wird die Animation verstÃ¤ndlicher?
- Erkennst du *dauerhafte Gewinner* vs. *kurze AusreiÃŸer*?


In [None]:
# Wieviele Kreise sollen angezeigt werden
TOP_N = 10

# Daten vorbereiten
df_plot = (
    df_wide[["Zeitbezug", "Name", "HausÃ¤rzte"]]
    .rename(columns={
        "Zeitbezug": "Jahr",
        "Name": "Kreis/kreisfreie Stadt",
        "HausÃ¤rzte": "HausÃ¤rzte je 1000 Einwohner",
    })
    .copy()
)

# Your Code Here

#### Bonus (Ãœbung 2): Top 10 â€“ schlechteste Versorgung pro Jahr

Analog: Zeige pro Jahr die **10 schlechtesten** Kreise.

**Transfer:** Warum kann â€žBottomâ€‘10â€œ politisch/kommunikativ sensibler sein als â€žTopâ€‘10â€œ?


In [None]:
# Wieviele Kreise sollen angezeigt werden
BOTTOM_N = 10

# Daten vorbereiten (identisch zu Top-10)
df_plot = (
    df_wide[["Zeitbezug", "Name", "HausÃ¤rzte"]]
    .rename(columns={
        "Zeitbezug": "Jahr",
        "Name": "Kreis/kreisfreie Stadt",
        "HausÃ¤rzte": "HausÃ¤rzte je 1000 Einwohner",
    })
    .copy()
)

# Your Code Here

## Ãœbung 3: Animierte (Geoâ€‘)Heatmap

### Thema
Visualisiere den **Wanderungssaldo** (ZuzÃ¼ge â€“ FortzÃ¼ge) je Landkreis Ã¼ber die Zeit (Bayern).

### Lernziele (Ãœbung 3a)
- Du kannst Tabellenâ€‘Daten mit **Geodaten** (GeoJSON) joinen (SchlÃ¼ssel, Kreiscodes).
- Du kannst in Plotly eine **animierte Choropleth/Heatmap** erzeugen (frame = Jahr).
- Du kannst Kartenâ€‘Basics reflektieren: Projektion, Farbskalen, Vergleichbarkeit.

### Didaktische Hinweise
- PrÃ¼fe zuerst den **Joinâ€‘Key**: stimmen KreisschlÃ¼ssel zwischen INKAR und GeoJSON Ã¼berein?
- Achte auf **farbliche Vergleichbarkeit Ã¼ber Jahre** (fixe Farbskala statt autoscale).
- Motionâ€‘Design bei Karten: Lieber ruhige ÃœbergÃ¤nge, weil sich â€žviel bewegtâ€œ, obwohl nur Farben wechseln.

### Aufgabe
Erstelle eine animierte Heatmap fÃ¼r den Wanderungssaldo in Bayern (Kreisebene) und nutze die GeoJSONâ€‘Kreisdaten aus der Vorlesung.


In [None]:
# Quelle: https://opendatalab.de/projects/geojson-utilities/ -> Kreisdaten fÃ¼r mÃ¼ssen zunÃ¶chst heruntergeladen werden
local_geojson = r"C:\Users\Matthias\Documents\Ohm_Vorlesung\project\data\landkreise_simplify20.geojson"

# Alternativ aus dem GitHub https://github.com/MAD1982/dataviz_WS2526/blob/main/data/gemeinden_simplify20.geojson laden 

#GeoJSON laden
if not os.path.exists(local_geojson):
    raise FileNotFoundError(f"GeoJSON nicht gefunden: {local_geojson}")

with open(local_geojson, "r", encoding="utf-8") as f:
    counties = json.load(f)

geo_feature_key = "properties.RS"
geo_ids = pd.Series([str(feat["properties"]["RS"]) for feat in counties["features"]], name="RS")

print("GeoJSON geladen.")

# INKAR Daten laden
df_inkar = pd.read_parquet(inkar_path)

# INKAR Daten filtern
indikatoren_liste = ["Gesamtwanderungssaldo"]
df_inkar = df_inkar[df_inkar["Indikator"].isin(indikatoren_liste)]
df_inkar = df_inkar[df_inkar["Raumbezug"] == "Kreise"]

# Your Code Here

### Bonus (Ãœbung 3a): Kumulierte Entwicklung

Erstelle zusÃ¤tzlich die Animation fÃ¼r den **kumulierten Wanderungssaldo** (aufsummiert Ã¼ber Jahre).

**Transferfragen**
- Welche Kreise zeigen dauerhaft Abwanderung? Sind das eher urbane oder lÃ¤ndliche RÃ¤ume?
- Wann ist â€žkumuliertâ€œ hilfreicher als â€žjÃ¤hrlichâ€œ â€“ und wann irrefÃ¼hrend?


In [None]:
# Your Code Here

## Ãœbung 3b: Animierte Timeâ€‘Series (pynimate)

### Aufgabe
Erstelle einen animierten **Timeâ€‘Seriesâ€‘Plot** fÃ¼r eine oder mehrere INKARâ€‘Variablen in Nordbayern (z.â€¯B. Ã„rzte, HausÃ¤rzte, KinderÃ¤rzte, Krankenhausbetten). Exportiere die Animation als **GIF**.

### Didaktische Hinweise
- Entscheide dich fÃ¼r **1â€“2 Variablen** zum Start â†’ sonst wird es visuell Ã¼berladen.
- Nutze Labels sparsam: lieber wenige, gut gesetzte Hinweise als Textâ€‘Overkill.
- Stelle sicher, dass die Zeitachse **sortiert** ist und Missing Values behandelt sind.

### Transfer
- Welche Story erzÃ¤hlst du: *Trend*, *Bruch*, *Saison*, *Vergleich*?
- Wie wÃ¼rdest du dieselben Daten ohne Animation erzÃ¤hlen (Small multiples / Sparklines)?


##### Vorlage: Covidâ€‘19 FÃ¤lle in Deutschland im Jahr 2020 (angepasst von einem pynimateâ€‘Beispiel)

Nutze die Vorlage als Referenz fÃ¼r:
- Daten laden & bereinigen
- Styling (Theme)
- Canvas/Plot aufsetzen
- Animation exportieren


In [None]:
# TEMPLATE (pynimate) â€“ Beispiel: Covidâ€‘19 (Referenz)
# Nutze das als Muster fÃ¼r Datenaufbereitung + Animationsexport.

#optional: Styling (Dark Theme) â€“ reine Optik

for side in ["left", "right", "top", "bottom"]:
    mpl.rcParams[f"axes.spines.{side}"] = False

mpl.rcParams["figure.facecolor"] = "#001219"
mpl.rcParams["axes.facecolor"] = "#001219"
mpl.rcParams["savefig.facecolor"] = "#001219"

# 2) Data Fetching & Processing -> Johns Hopkins University CSSE COVID-19 Dataset

URL_CONFIRMED = (
    "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/"
    "csse_covid_19_data/csse_covid_19_time_series/"
    "time_series_covid19_confirmed_global.csv"
)

URL_DEATHS = (
    "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/"
    "csse_covid_19_data/csse_covid_19_time_series/"
    "time_series_covid19_deaths_global.csv"
)

URL_RECOVERED = ("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv")


META_COLS = ["Province/State", "Country/Region", "Lat", "Long"]


def _process_jhu_series(url: str, country: str, col_name: str) -> pd.DataFrame:
    """Load a JHU global time series CSV and return a single aggregated country series."""
    df = pd.read_csv(url)

    if "Country/Region" not in df.columns:
        raise ValueError("Unexpected JHU schema: 'Country/Region' column missing.")

    df = df[df["Country/Region"] == country].copy()
    if df.empty:
        raise ValueError(f"Country '{country}' not found in dataset: {url}")

    date_cols = [c for c in df.columns if c not in META_COLS]
    s = df[date_cols].sum(axis=0)  # aggregate across provinces/rows
    s.index = pd.to_datetime(s.index, errors="raise")
    s = s.sort_index()

    return s.to_frame(name=col_name)


def get_covid_data(
    country: str = "Germany",
    start: str = "2020-03-01",
    end: str = "2021-01-01",
    clip_negative: bool = False,
) -> pd.DataFrame:
    """
    Returns daily new values (diff of cumulative) for a given country and date range.
    Output columns: cases, deaths
    Index formatted as '%Y-%m-%d' for pynimate.
    """
    confirmed = _process_jhu_series(URL_CONFIRMED, country, "cases")
    deaths = _process_jhu_series(URL_DEATHS, country, "deaths")
    recovered = _process_jhu_series(URL_RECOVERED, country, "recovered")

    df = pd.concat([confirmed, deaths, recovered], axis=1)

    # Convert cumulative -> daily new
    df = df.diff().fillna(0)

    # Optional: remove negative corrections for didactic clarity
    if clip_negative:
        df = df.clip(lower=0)

    # Filter date range
    df = df.loc[pd.to_datetime(start):pd.to_datetime(end)]

    # Pynimate expects string index matching the format passed to LineDatafier
    df.index = df.index.strftime("%Y-%m-%d")

    return df

# 3) Animation
def post(self, i):
    self.ax.yaxis.set_major_formatter(
        tick.FuncFormatter(lambda x, pos: human_readable(x))
    )

# Parameters (easy to tweak)
COUNTRY = "Germany"
START = "2020-03-01"
END = "2020-12-31"
FPS = 24
OUTFILE = "covid_cases_recovered_pynimate"

# Fetch data
df = get_covid_data(
    country=COUNTRY,
    start=START,
    end=END,
    clip_negative=False  # set True if you want strictly non-negative daily values
)

# Create animation with pynimate
cnv = nim.Canvas() # Create canvas
dfr = nim.LineDatafier(df, "%Y-%m-%d", "12h")  # Create datafier

# Create line plot
plot = nim.Lineplot(
    dfr,
    post_update=post,
    palettes=["Set3"],
    scatter_markers=False,
    legend=True,
    fixed_ylim=True,
    grid=False,
)

# Make deaths visually distinct
plot.set_column_linestyles({"recovered": "dashed"})

plot.set_title(
    f"Daily new COVID-19 cases & recovered â€“ {COUNTRY} ({START} to {END})",
    y=1.05,
    color="w",
    weight=600,
)

# Axis labels
plot.set_xlabel("Date", color="w", size=11)

# Y-Axis label with human-readable formatting
plot.set_time(
    callback=lambda i, datafier: datafier.data.index[i].strftime("%d %b, %Y"),
    color="w",
    size=13,
)

# Y-Axis label with human-readable formatting
plot.set_line_annots(lambda col, val: f"({human_readable(val)})", color="w")
plot.set_legend(labelcolor="w")

# Running totals over the shown range (sum of daily values)
plot.set_text(
    "sum",
    callback=lambda i, datafier: ( # cumulative sums over shown range
        "Cumulative (range)\n"
        f"Cases : {human_readable(datafier.data.cases.iloc[:i+1].sum())}\n"
        f"Recovered: {human_readable(datafier.data.recovered.iloc[:i+1].sum())}"
    ),
    size=10,
    x=0.70,
    y=0.18,
    color="w",
)

plot.set_xticks(colors="w", length=0, labelsize=10)
plot.set_yticks(colors="w", labelsize=10)

# Add plot to canvas and animate
cnv.add_plot(plot) # Add plot to canvas
cnv.animate(interval=20) # milliseconds between frames

# Save animation as GIF
print("Saving animation...")
cnv.ani.save(f"{OUTFILE}.gif", writer=PillowWriter(fps=FPS))
print("Done.")


plt.show()

#### ... und jetzt du (Umsetzung)

Nutze die Templateâ€‘Struktur und ersetze:
- Datenquelle (INKAR statt Covid â€“ oder eigene Zeitreihe),
- Titel/Labels,
- `FPS`, `DURATION`, `OUTFILE`.

Schreibe zum Schluss 3â€“5 SÃ¤tze: **Welche Designentscheidung hat den grÃ¶ÃŸten Effekt auf VerstÃ¤ndlichkeit?**


In [None]:
# ÃœBUNG 3b â€“ INKAR Timeâ€‘Series Animation (pynimate)
# Ziel: Zeitreihen (Nordbayern) vorbereiten und als GIF exportieren.

# Your Code Here