# Datenstrukturierung und Modularisierung

Dieses Notebook ist fuer Einsteiger und als Nachschlagewerk gedacht.
Du musst nicht alles sofort koennen.

## Lernstufen
- Pflicht: passende Datenstruktur waehlen, verschachtelte Daten lesen, kleine Funktionen bauen
- Nuetzlich: Daten bereinigen, Hilfsfunktionen, kleine Daten-Pipelines
- Spaeter: komplexere Modelle und tiefe Normalisierung

## Mentales Modell
Erst Datenform entscheiden, dann Code schreiben.

Checkliste vor dem Coden:
1. Eine Sache oder viele Dinge? -> einzelner Wert oder Liste
2. Brauche ich Schluessel/Namen? -> Dictionary
3. Viele aehnliche Objekte? -> Liste von Dictionaries
4. Schnelles Nachschlagen nach ID/Name? -> Dictionary (id -> objekt)


## 0) Kurzer Rueckblick

- Variablen speichern einzelne Werte
- Schleifen verarbeiten viele Werte
- Funktionen machen Code wiederverwendbar

Jetzt kombinieren wir das mit einer sauberen Datenform.


In [None]:
print("Start: Datenform zuerst, dann Code.")


## 1) Datenform waehlen (Pflicht)

Merksatz:
- Liste: Reihenfolge wichtig, gleiche Art von Dingen
- Dict: Schluessel -> Wert
- Liste von Dicts: viele Datensaetze mit gleichen Feldern


In [None]:
# Mini-Szenarien und passende Struktur
szenarien = {
    "einkaufsliste": "list",
    "telefonbuch_name_zu_nummer": "dict",
    "nutzerliste_mit_name_und_alter": "list[dict]",
    "benutzer_nach_id": "dict[id->objekt]",
}

for thema, struktur in szenarien.items():
    print(f"{thema:30s} -> {struktur}")


### Deine Zelle

Ordne zu: `list` oder `dict` oder `list[dict]`
- Messwerte pro Minute
- Kontostand je Konto-ID
- Produkte mit Name, Preis, Menge


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
print("Messwerte pro Minute -> list")
print("Kontostand je Konto-ID -> dict")
print("Produkte mit Name, Preis, Menge -> list[dict]")


### Mini-Checkpoint

- Frage: Wann ist `dict` besser als `list`?
- Mini-Aufgabe: Erzeuge ein `dict` mit drei IDs und Namen.


In [None]:
users = {101: "Mia", 102: "Noah", 103: "Lea"}
print(users)


## 2) Listen in der Praxis (Pflicht)

Merksatz:
- `append(x)`: ein Element anfuegen
- `extend(iterable)`: viele Elemente anfuegen


In [None]:
zahlen = [1, 2, 3]

zahlen.append(4)
print("nach append:", zahlen)

zahlen.extend([5, 6])
print("nach extend:", zahlen)


In [None]:
# Stolperfalle: append mit Liste haengt die Liste als EIN Element an
x = [1, 2]
x.append([3, 4])
print(x)  # [1, 2, [3, 4]]

y = [1, 2]
y.extend([3, 4])
print(y)  # [1, 2, 3, 4]


### Referenzen und Kopien (wichtig)

Merksatz:
`a = b` ist keine Kopie. Beide Namen zeigen auf dieselbe Liste.


In [None]:
a = ["A", "B"]
b = a         # gleiche Referenz
b.append("C")
print("a:", a)
print("b:", b)


In [None]:
# Echte flache Kopie
original = ["X", "Y"]
kopie = original.copy()
kopie.append("Z")

print("original:", original)
print("kopie:", kopie)


### Deine Zelle

- Erzeuge eine Liste mit 3 Farben.
- Fuege mit `append` eine Farbe hinzu.
- Fuege mit `extend` zwei weitere Farben hinzu.


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
farben = ["rot", "blau", "gruen"]
farben.append("gelb")
farben.extend(["orange", "violett"])
print(farben)


### Mini-Checkpoint

- Frage: Warum ist `a = b` bei Listen oft gefaehrlich?
- Mini-Aufgabe: Zeige mit `copy()`, dass Original und Kopie getrennt sind.


In [None]:
l1 = [1, 2]
l2 = l1.copy()
l2.append(3)
print(l1, l2)
assert l1 == [1, 2]
assert l2 == [1, 2, 3]


## 3) Dictionaries in der Praxis (Pflicht)

Merksatz:
- Dict speichert Schluessel-Wert-Paare
- `in` prueft bei Dict standardmaessig die Schluessel


In [None]:
person = {
    "id": 101,
    "name": "Mia",
    "alter": 22,
}

print(person["name"])
print(person.get("stadt"))
print(person.get("stadt", "unbekannt"))


In [None]:
# Dict-Iteration
produkt = {"name": "Maus", "preis": 19.9, "lager": 10}

print("Nur Schluessel:")
for k in produkt:
    print(k)

print("Schluessel + Wert:")
for k, v in produkt.items():
    print(k, "->", v)


In [None]:
# in bei Dict prueft Schluessel, nicht Werte
d = {"name": "Mia", "stadt": "Berlin"}
print("name" in d)      # True
print("Mia" in d)       # False
print("Mia" in d.values())  # True


### KeyError vs. get()

- `d["x"]` wirft Fehler, wenn `x` fehlt
- `d.get("x")` liefert `None` oder Standardwert


In [None]:
daten = {"name": "Noah"}

try:
    print(daten["alter"])
except KeyError as e:
    print("KeyError:", e)

print(daten.get("alter", 0))


### Deine Zelle

- Erstelle ein Produkt-Dict (`name`, `preis`, `menge`).
- Gib alle Schluessel und Werte mit `.items()` aus.


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
produkt = {"name": "Tastatur", "preis": 49.9, "menge": 3}
for k, v in produkt.items():
    print(k, v)


### Mini-Checkpoint

- Frage: Wann ist `get()` besser als `[]`?
- Mini-Aufgabe: Pruefe mit `in`, ob ein Schluessel `rabatt` existiert.


In [None]:
produkt = {"name": "Tastatur", "preis": 49.9}
print("rabatt" in produkt)


## 4) Verschachtelte Daten lesen (Pflicht)

Typischer Aufbau: Liste von Dictionaries
Beispiel: viele Produkte, jeder Eintrag mit gleichen Feldern


In [None]:
produkte = [
    {"id": 1, "name": "Maus", "preis": 19.9, "kategorie": "hardware"},
    {"id": 2, "name": "Tastatur", "preis": 49.9, "kategorie": "hardware"},
    {"id": 3, "name": "Editor", "preis": 0.0, "kategorie": "software"},
]

# Schrittweise lesen
erstes = produkte[0]
print("Erstes Objekt:", erstes)
print("Name vom ersten Objekt:", erstes["name"])

print("Alle Namen:")
for p in produkte:
    print("-", p["name"])


### Daten zuerst inspizieren

Bevor du zugreifst, schau dir die Form an:
- `type(...)`
- `len(...)`
- erstes Element
- bei Dict: `keys()`


In [None]:
print(type(produkte))
print(len(produkte))
print(produkte[0])
print(produkte[0].keys())


In [None]:
# Debug-Lernchance: typische Fehler
leere_liste = []

try:
    print(leere_liste[0])
except IndexError as e:
    print("IndexError:", e)

try:
    print(produkte[0]["preis_euro"])
except KeyError as e:
    print("KeyError:", e)


### Deine Zelle

- Gib alle Preise aus `produkte` aus.
- Berechne den Gesamtpreis.


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
preise = []
for p in produkte:
    preise.append(p["preis"])

print(preise)
print("Gesamt:", sum(preise))


### Mini-Checkpoint

- Frage: Warum lohnt sich `print(produkte[0])` vor dem Zugriff?
- Mini-Aufgabe: Gib nur Produkte aus Kategorie `hardware` aus.


In [None]:
for p in produkte:
    if p["kategorie"] == "hardware":
        print(p["name"])


## 5) Nuetzlich: Sets fuer Eindeutigkeit

Set ist hilfreich fuer:
- doppelte Werte entfernen
- schnelle Mitgliedschaftstests


In [None]:
kategorien = {p["kategorie"] for p in produkte}
print(kategorien)
print("hardware" in kategorien)


### Deine Zelle

- Erzeuge ein Set mit allen Anfangsbuchstaben der Produktnamen.


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
initialen = {p["name"][0] for p in produkte}
print(initialen)


### Mini-Checkpoint

- Frage: Warum ist ein Set fuer Kategorien sinnvoll?
- Mini-Aufgabe: Pruefe, ob `"service"` in den Kategorien vorkommt.


In [None]:
print("service" in {p["kategorie"] for p in produkte})


## 6) Modularisierung: eine Funktion, eine Aufgabe (Pflicht)

Merksatz:
Eine Funktion macht eine Sache.

Funktionsrollen:
- Getter: holt Daten (`finde_produkt`)
- Transformer: wandelt um (`produkte_nach_id`)
- Calculator: berechnet (`berechne_gesamt`)
- Formatter/Printer: formatiert Ausgabe (`format_report`)


In [None]:
# Vorher: alles in einem Block
produkte_demo = [
    {"id": 1, "name": "Maus", "preis": 19.9, "menge": 2},
    {"id": 2, "name": "Tastatur", "preis": 49.9, "menge": 1},
]

gesamt = 0
for p in produkte_demo:
    gesamt += p["preis"] * p["menge"]

print("Gesamtumsatz:", round(gesamt, 2))


In [None]:
# Nachher: in kleine Funktionen geschnitten
def berechne_positionswert(produkt):
    return produkt["preis"] * produkt["menge"]


def berechne_gesamt(produkte_liste):
    total = 0
    for p in produkte_liste:
        total += berechne_positionswert(p)
    return total


def format_report(produkte_liste):
    total = berechne_gesamt(produkte_liste)
    return f"Anzahl Positionen: {len(produkte_liste)} | Gesamt: {total:.2f} EUR"

print(format_report(produkte_demo))


### Deine Zelle

- Schreibe `finde_produkt(produkte_liste, produkt_id)`.
- Rueckgabe: passendes Dict oder `None`.


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
def finde_produkt(produkte_liste, produkt_id):
    for p in produkte_liste:
        if p["id"] == produkt_id:
            return p
    return None

print(finde_produkt(produkte_demo, 2))
print(finde_produkt(produkte_demo, 99))


### Mini-Checkpoint

- Frage: Warum ist `berechne_gesamt` besser testbar als ein langer Zell-Block?
- Mini-Aufgabe: Schreibe `assert round(berechne_gesamt(...), 2) == ...`.


In [None]:
assert round(berechne_gesamt(produkte_demo), 2) == 89.7
print("assert ok")


## 7) Pipeline-Denken (Nuetzlich)

Pipeline-Muster:
1. Eingangsdaten
2. Bereinigung
3. Umwandlung
4. Auswertung
5. Ausgabe


In [None]:
roh = [" 12 ", "x", "7", "", " 3 ", "-1", " 20 "]

# 1) Bereinigung + Umwandlung
zahlen = []
for eintrag in roh:
    t = eintrag.strip()
    if t == "":
        continue
    if t.lstrip("-").isdigit():
        zahlen.append(int(t))

# 2) Auswertung
zahlen_sortiert = sorted(zahlen)
minimum = min(zahlen_sortiert)
maximum = max(zahlen_sortiert)
durchschnitt = sum(zahlen_sortiert) / len(zahlen_sortiert)

# 3) Ausgabe
print("Sortiert:", zahlen_sortiert)
print("min/max/avg:", minimum, maximum, round(durchschnitt, 2))


In [None]:
# Gleiche Pipeline in kompakter Form
roh = [" 12 ", "x", "7", "", " 3 ", "-1", " 20 "]
zahlen = [int(t.strip()) for t in roh if t.strip() != "" and t.strip().lstrip("-").isdigit()]

print(sorted(zahlen))


### Deine Zelle

- Entferne in der Pipeline negative Zahlen.
- Gib danach den neuen Durchschnitt aus.


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
zahlen = [12, 7, 3, -1, 20]
positiv = [x for x in zahlen if x >= 0]
print(positiv)
print(round(sum(positiv) / len(positiv), 2))
assert positiv == [12, 7, 3, 20]


### Mini-Checkpoint

- Frage: Warum hilft die Reihenfolge Bereinigung -> Umwandlung -> Auswertung?
- Mini-Aufgabe: Sortiere die positiven Werte absteigend.


In [None]:
positiv = [12, 7, 3, 20]
print(sorted(positiv, reverse=True))


## 8) Mini-Projekt: Bestellungen auswerten

Story:
Wir haben Bestellungen als Liste von Dictionaries.
Wir wollen sie bereinigen, auswerten und als Report ausgeben.


In [None]:
bestellungen = [
    {"kunde": "Mia", "artikel": "Maus", "preis": "19.9", "menge": "2", "datum": "2026-02-01"},
    {"kunde": "Noah", "artikel": "Tastatur", "preis": "49.9", "menge": "1", "datum": "2026-02-01"},
    {"kunde": "Mia", "artikel": "Cloud", "preis": " 4.99 ", "menge": "3", "datum": "2026-02-02"},
    {"kunde": "Lea", "artikel": "Editor", "preis": "0", "menge": "1", "datum": "2026-02-02"},
    {"kunde": "Noah", "artikel": "Kabel", "preis": "x", "menge": "2", "datum": "2026-02-03"},
]


In [None]:
def bereinige_bestellungen(bestellungen_liste):
    sauber = []
    for b in bestellungen_liste:
        preis_text = str(b.get("preis", "")).strip()
        menge_text = str(b.get("menge", "")).strip()

        if preis_text.replace(".", "", 1).isdigit() and menge_text.isdigit():
            eintrag = dict(b)
            eintrag["preis"] = float(preis_text)
            eintrag["menge"] = int(menge_text)
            sauber.append(eintrag)
    return sauber


def berechne_gesamt(bestellungen_liste):
    total = 0.0
    for b in bestellungen_liste:
        total += b["preis"] * b["menge"]
    return total


def umsatz_pro_kunde(bestellungen_liste):
    result = {}
    for b in bestellungen_liste:
        kunde = b["kunde"]
        result[kunde] = result.get(kunde, 0.0) + b["preis"] * b["menge"]
    return result


def top_artikel(bestellungen_liste):
    zaehler = {}
    for b in bestellungen_liste:
        artikel = b["artikel"]
        zaehler[artikel] = zaehler.get(artikel, 0) + b["menge"]
    return max(zaehler.items(), key=lambda kv: kv[1]) if zaehler else (None, 0)


def drucke_report(bestellungen_liste):
    sauber = bereinige_bestellungen(bestellungen_liste)
    gesamt = berechne_gesamt(sauber)
    pro_kunde = umsatz_pro_kunde(sauber)
    top_name, top_menge = top_artikel(sauber)

    print("Saubere Datensaetze:", len(sauber))
    print("Gesamtumsatz:", round(gesamt, 2))
    print("Umsatz pro Kunde:", {k: round(v, 2) for k, v in pro_kunde.items()})
    print("Top-Artikel (Menge):", top_name, top_menge)


drucke_report(bestellungen)


### Deine Zelle (Mini-Projekt)

- Erweitere den Report um:
1. durchschnittlicher Bestellwert pro Datensatz
2. Ausgabe sortiert nach Kunde (alphabetisch)


In [None]:
# Deine Zelle



In [None]:
# Loesung (optional)
sauber = bereinige_bestellungen(bestellungen)

avg = berechne_gesamt(sauber) / len(sauber)
print("Durchschnitt pro Datensatz:", round(avg, 2))

pro_kunde = umsatz_pro_kunde(sauber)
for kunde in sorted(pro_kunde.keys()):
    print(kunde, "->", round(pro_kunde[kunde], 2))

assert len(sauber) == 4
assert round(berechne_gesamt(sauber), 2) == 104.67


### Mini-Checkpoint (Mini-Projekt)

- Frage: Welche Funktion ist Getter, welche Calculator, welche Printer?
- Mini-Aufgabe: Baue `dict_by_kunde` mit comprehension.


In [None]:
sauber = bereinige_bestellungen(bestellungen)
dict_by_kunde = {b["kunde"] + "_" + str(i): b for i, b in enumerate(sauber, start=1)}
print(len(dict_by_kunde))


## 9) Typische Stolperfallen

1. Liste statt Dict (oder umgekehrt) waehlen
2. Verschachtelte Daten ohne Inspektion direkt nutzen
3. `a = b` als "Kopie" missverstehen
4. `append` und `extend` verwechseln
5. `for k in d` mit `for k, v in d.items()` verwechseln
6. `x in d` bei Dict prueft Schluessel, nicht Werte
7. Lange 40-Zeilen-Zellen statt kleine Funktionen


In [None]:
print("Stolperfallen-Check gelesen")


## 10) Uebungen (kurz und gezielt)

### Uebung A: Zugriff trainieren
- Gegeben ist eine Liste von Dicts.
- Gib alle Namen aus.
- Finde den hoechsten Preis.

### Uebung B: Struktur umbauen
- Wandle `[(id, name), ...]` in `[{"id":..., "name":...}, ...]` um.

### Uebung C: Nachschlage-Dict
- Wandle Liste von Dicts in `dict_by_id` um.

### Uebung D: Refactoring
- Schneide einen langen Block in `laden`, `berechnen`, `formatieren`.

### Uebung E: Debug
- Finde und behebe einen `KeyError` in einem kurzen Beispiel.


In [None]:
# Platz fuer eigene Loesungen



## 11) Spickzettel

```python
# Struktur waehlen
# list | dict | list[dict] | dict[id->obj]

# Struktur inspizieren
type(daten)
len(daten)
daten[0]
daten[0].keys()

# Iterieren
for x in liste:
    ...

for k, v in d.items():
    ...

# Umbauen nach ID
dict_by_id = {x["id"]: x for x in liste}

# Modularisieren
# 1 Funktion = 1 Aufgabe
```


## Zusammenfassung

- Erst Datenform entscheiden, dann Code schreiben.
- Listen und Dicts bewusst auswaehlen, besonders bei verschachtelten Daten.
- Vor Zugriff: Datenform inspizieren (`type`, `len`, erstes Element, `keys`).
- Kleine Funktionen mit klaren Namen machen Code testbar und wartbar.
- Das Pipeline-Muster hilft: bereinigen -> umwandeln -> auswerten -> ausgeben.
