# Ausblick auf externe Module (Data Science & Co.)

> Dieses Notebook ist eine **Landkarte**, kein Prüfungsstoff.
>
> Ziel: Du sollst Namen und Grundideen kennen, kleine Beispiele sehen und je Bibliothek ein Mini-Erfolgserlebnis haben.

Wenn eine Installation oder ein Import nicht klappt, ist das normal. In den meisten Fällen ist nur die Python-Umgebung nicht die richtige.


## Lernstufen und Inhaltsverzeichnis

Lernstufen in diesem Notebook:
- `[Pflicht]` heute verstehen und ausprobieren
- `[Nützlich]` einmal sehen und grob lesen können
- `[Später]` nur Prinzip verstehen

Inhalt:
1. Umgebung prüfen und Installation in Jupyter
2. Brücke zu deinem bisherigen Wissen
3. NumPy `[Pflicht]`
4. Pandas `[Pflicht]`
5. Matplotlib `[Pflicht]`
6. requests `[Nützlich]`
7. Scikit-Learn `[Später]`
8. Weitere Richtungen (Web, GUI)
9. Typische Einsteigerfehler
10. Mini-Projekt (alles klein kombiniert)
11. Spickzettel


## So arbeitest du mit jedem Abschnitt

Immer das gleiche Muster:
1. Wofür ist die Bibliothek da?
2. Mini-Beispiel (10-20 Zeilen)
3. Mini-Übung (30-90 Sekunden)
4. Optionale Lösung
5. Merksatz

So bleibt der Ausblick aktiv und nicht nur "Lesestoff".


In [None]:
import sys
import site

print("Python-Version:", sys.version.split()[0])
print("Interpreter:", sys.executable)

packages = site.getsitepackages()
print("Site-Packages (erste):", packages[0] if packages else "nicht verfügbar")


## Installation in Jupyter und Terminal

Im Notebook:
```python
%pip install numpy pandas matplotlib requests scikit-learn
```

Im Terminal:
```bash
python -m pip install numpy pandas matplotlib requests scikit-learn
```

Warum wichtig?
- `%pip` installiert im Jupyter-Kontext zuverlässiger als `!pip`.
- `python -m pip ...` nutzt genau den Interpreter, den du angibst.
- Wenn ein `import` fehlschlägt, ist oft nur die falsche Umgebung aktiv.


## Brücke zu dem, was du schon kannst

- `numpy` ist wie Rechnen mit Listen, aber mathematischer und schneller.
- `pandas` ist wie "Liste von Dicts", nur als Tabelle mit Werkzeugen.
- `matplotlib` macht aus Zahlen (Listen/Spalten) ein Diagramm.
- `requests + json` ist wie Datei lesen, nur über HTTP.
- `scikit-learn` nutzt am Ende auch nur Daten + Funktionen: `fit` und `predict`.


## 1) NumPy `[Pflicht]`

Wofür?
- Für numerische Arrays und schnelle, elementweise Rechnungen.
- Häufiger Startpunkt in Data-Science-Projekten.

Merksatz: Ein NumPy-Array rechnet elementweise (`arr * 2` verdoppelt alle Werte).


In [None]:
try:
    import numpy as np
except ImportError:
    np = None
    print("NumPy ist nicht installiert. Überspringe Demo.")

if np is not None:
    messwerte = np.array([10.0, 12.0, 9.0, 11.0, 13.0])
    print("Array:", messwerte)
    print("10% Zuschlag:", messwerte * 1.10)
    print("Mittelwert:", round(float(np.mean(messwerte)), 2))


Mini-Checkpoint:
- Frage: Warum ist `arr * 1.1` bei NumPy bequem?
- Aufgabe: Erstelle ein Array `[100, 120, 95]` und berechne den Mittelwert.

Erwartung: Du bekommst eine Zahl als Durchschnitt.


In [None]:
# Deine Zelle (NumPy)
try:
    import numpy as np

    umsaetze = np.array([100, 120, 95], dtype=float)
    # TODO: Mittelwert berechnen und ausgeben

except ImportError:
    print("NumPy fehlt in dieser Umgebung.")


In [None]:
# Optionale Lösung (NumPy)
try:
    import numpy as np

    umsaetze = np.array([100, 120, 95], dtype=float)
    mittelwert = np.mean(umsaetze)
    print("Mittelwert:", round(float(mittelwert), 2))

except ImportError:
    print("NumPy fehlt in dieser Umgebung.")


## 2) Pandas `[Pflicht]`

Wofür?
- Für tabellarische Daten (`DataFrame`) mit Filtern, Gruppierung und Export.

Merksatz: `df["spalte"]` ist eine Series, `df[["spalte"]]` bleibt ein DataFrame.


In [None]:
produkte = [
    {"name": "Apfel", "preis": 1.2, "kategorie": "Obst"},
    {"name": "Brot", "preis": 2.5, "kategorie": "Backwaren"},
    {"name": "Kaffee", "preis": 6.9, "kategorie": "Getränke"},
]

try:
    import pandas as pd
except ImportError:
    pd = None
    print("Pandas ist nicht installiert. Zeige Rohdaten:")
    print(produkte)

if pd is not None:
    df = pd.DataFrame(produkte)
    print("DataFrame:")
    print(df)
    print()
    print("Preis > 2.0:")
    print(df[df["preis"] > 2.0])


Mini-Checkpoint:
- Frage: Wofür ist ein DataFrame praktisch?
- Aufgabe: Filtere alle Zeilen mit `preis > 2`.

Erwartung: Mindestens Brot und Kaffee.


In [None]:
# Deine Zelle (Pandas)
try:
    import pandas as pd

    daten = {
        "produkt": ["A", "B", "C"],
        "preis": [5.0, 12.0, 9.5],
    }
    df = pd.DataFrame(daten)

    # TODO: Nur Zeilen mit preis > 10 anzeigen

except ImportError:
    print("Pandas fehlt in dieser Umgebung.")


In [None]:
# Optionale Lösung (Pandas)
try:
    import pandas as pd

    daten = {
        "produkt": ["A", "B", "C"],
        "preis": [5.0, 12.0, 9.5],
    }
    df = pd.DataFrame(daten)
    print(df[df["preis"] > 10])

except ImportError:
    print("Pandas fehlt in dieser Umgebung.")


## 3) Matplotlib `[Pflicht]`

Wofür?
- Für schnelle Diagramme (Linie, Balken, Streuung).

Merksatz: Plotten zeigt Daten visuell, ändert aber die Daten selbst nicht.


In [None]:
tage = ["Mo", "Di", "Mi", "Do", "Fr"]
werte = [3, 5, 4, 6, 7]

try:
    import matplotlib.pyplot as plt
except ImportError:
    plt = None
    print("Matplotlib ist nicht installiert. Überspringe Plot.")

if plt is not None:
    plt.figure(figsize=(6, 3))
    plt.plot(tage, werte, marker="o")
    plt.title("Mini-Beispiel: Werte über die Woche")
    plt.xlabel("Tag")
    plt.ylabel("Wert")
    plt.tight_layout()
    plt.show()


Mini-Checkpoint:
- Frage: Warum ist ein Diagramm manchmal besser als eine reine Zahlentabelle?
- Aufgabe: Erstelle ein Balkendiagramm für `[2, 4, 3, 5]`.

Erwartung: Ein Plot mit 4 Balken.


In [None]:
# Deine Zelle (Matplotlib)
try:
    import matplotlib.pyplot as plt

    daten = [2, 4, 3, 5]
    # TODO: Balkendiagramm mit Titel zeichnen

except ImportError:
    print("Matplotlib fehlt in dieser Umgebung.")


In [None]:
# Optionale Lösung (Matplotlib)
try:
    import matplotlib.pyplot as plt

    daten = [2, 4, 3, 5]
    plt.figure(figsize=(5, 3))
    plt.bar(range(len(daten)), daten)
    plt.title("Balkendiagramm")
    plt.tight_layout()
    plt.show()

except ImportError:
    print("Matplotlib fehlt in dieser Umgebung.")


## 4) requests `[Nützlich]`

Wofür?
- Für HTTP-Anfragen an APIs (z. B. Wetter-, Produkt- oder Sensordaten).

Merksatz: Bei API-Aufrufen immer Statuscode prüfen und Fehlerfälle behandeln.


In [None]:
import json

# Offline-sicheres JSON-Beispiel
text = '{"stadt": "Berlin", "temperatur": 7.5, "ok": true}'
daten = json.loads(text)
print("Lokale JSON-Daten:", daten)
print("Temperatur:", daten["temperatur"])

try:
    import requests
except ImportError:
    requests = None
    print("requests ist nicht installiert. HTTP-Teil wird übersprungen.")

if requests is not None:
    try:
        response = requests.get("https://httpbin.org/json", timeout=3)
        print("HTTP-Status:", response.status_code)
        if response.status_code == 200:
            api_json = response.json()
            print("Top-Level-Keys:", list(api_json.keys()))
    except Exception as exc:
        print("HTTP-Aufruf fehlgeschlagen:", exc)


Mini-Checkpoint:
- Frage: Warum reicht `status_code == 200` oft als erster Check?
- Aufgabe: Lies aus einem JSON-Dict den Wert zu einem Schlüssel aus.

Erwartung: Du greifst mit `dict["key"]` auf Daten zu.


In [None]:
# Deine Zelle (requests/json)
import json

text = '{"name": "Mia", "punkte": 17}'
objekt = json.loads(text)

# TODO: Gib den Wert von "punkte" aus


In [None]:
# Optionale Lösung (requests/json)
import json

text = '{"name": "Mia", "punkte": 17}'
objekt = json.loads(text)
print(objekt["punkte"])


## 5) Scikit-Learn `[Später]`

Wofür?
- Für maschinelles Lernen mit einheitlicher API (`fit`, `predict`, `score`).

Merksatz: Für den Einstieg reicht das Prinzip: Daten teilen, Modell trainieren, Qualität messen.


In [None]:
try:
    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import LogisticRegression
except ImportError:
    print("Scikit-Learn ist nicht installiert. Überspringe ML-Demo.")
else:
    X, y = load_iris(return_X_y=True)
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42, stratify=y
    )

    modell = LogisticRegression(max_iter=300)
    modell.fit(X_train, y_train)
    genauigkeit = modell.score(X_test, y_test)

    print("Test-Genauigkeit:", round(float(genauigkeit), 3))


Mini-Checkpoint:
- Frage: Warum teilen wir Daten in Train und Test?
- Aufgabe: Lies den Ablauf `fit -> score` im Code nach und erkläre ihn in 2 Sätzen.

Erwartung: Das Modell soll auf unbekannten Daten überprüft werden.


In [None]:
# Deine Zelle (Scikit-Learn)
# TODO: Wenn sklearn verfügbar ist, lade den Datensatz und gib die Anzahl Zeilen aus.
try:
    from sklearn.datasets import load_iris

    X, y = load_iris(return_X_y=True)
    # TODO: Anzahl der Datenpunkte ausgeben

except ImportError:
    print("Scikit-Learn fehlt in dieser Umgebung.")


In [None]:
# Optionale Lösung (Scikit-Learn)
try:
    from sklearn.datasets import load_iris

    X, y = load_iris(return_X_y=True)
    print("Anzahl Datenpunkte:", len(X))

except ImportError:
    print("Scikit-Learn fehlt in dieser Umgebung.")


## 6) Weitere Richtungen (nur Orientierung)

Webentwicklung:
- `Flask`: leichtgewichtig, gut für kleine APIs und Lernprojekte.
- `Django`: großes Framework mit vielen Bausteinen.

Desktop-GUIs:
- `tkinter`: direkt in Python enthalten, gut für erste GUI-Schritte.
- `PyQt`: umfangreicher, aber auch komplexer.

Wichtig: Du musst hier nichts sofort bauen. Es geht nur um Orientierung.


## 7) Typische Einsteigerfehler bei externen Paketen

1. `ImportError`: Paket im falschen Environment installiert.
2. Notebook-Kernel nach Installation nicht neu gestartet.
3. Eigene Datei heißt `numpy.py` oder `pandas.py` (Namenskonflikt).
4. `!pip` im Notebook nutzt evtl. nicht den aktiven Kernel.
5. Versionen unterscheiden sich: kleine API-Unterschiede sind normal.
6. Copy/Paste ohne Mini-Test: lieber Schritt für Schritt prüfen.

Debug-Merksatz:
- Erst `sys.executable` prüfen.
- Dann Paket in genau dieser Umgebung installieren.
- Danach Import in einer neuen Zelle testen.


## 8) Mini-Projekt: Kleine Datenanalyse von Anfang bis Ende

Story:
- Wir haben rohe Messdaten als Textwerte.
- Wir bereinigen sie.
- Wir berechnen eine Kennzahl.
- Wir filtern Kategorie `A`.
- Wir speichern das Ergebnis als CSV.
- Optional: Wir visualisieren die Werte.


In [None]:
raw_daten = [
    {"kategorie": "A", "wert": " 12 "},
    {"kategorie": "B", "wert": "7"},
    {"kategorie": "A", "wert": "x"},
    {"kategorie": "C", "wert": " 3"},
    {"kategorie": "A", "wert": "15"},
]

# 1) Bereinigung
bereinigt = []
for eintrag in raw_daten:
    wert_text = eintrag["wert"].strip()
    if wert_text.isdigit():
        bereinigt.append(
            {
                "kategorie": eintrag["kategorie"].strip(),
                "wert": int(wert_text),
            }
        )

print("Bereinigte Daten:", bereinigt)

# 2) Auswertung + 3) CSV speichern
try:
    import pandas as pd
except ImportError:
    pd = None

if pd is not None:
    df = pd.DataFrame(bereinigt)
    print()
    print("DataFrame:")
    print(df)

    durchschnitt = df["wert"].mean()
    print()
    print("Durchschnitt:", round(float(durchschnitt), 2))

    print()
    print("Nur Kategorie A:")
    print(df[df["kategorie"] == "A"])

    ziel_datei = "mini_analyse_ergebnis.csv"
    df.to_csv(ziel_datei, index=False)
    print()
    print("CSV gespeichert:", ziel_datei)

    try:
        import matplotlib.pyplot as plt
    except ImportError:
        plt = None

    if plt is not None:
        aggregiert = df.groupby("kategorie")["wert"].mean()
        plt.figure(figsize=(5, 3))
        plt.bar(aggregiert.index, aggregiert.values)
        plt.title("Durchschnitt pro Kategorie")
        plt.xlabel("Kategorie")
        plt.ylabel("Durchschnitt")
        plt.tight_layout()
        plt.show()
else:
    import csv

    werte = [x["wert"] for x in bereinigt]
    durchschnitt = sum(werte) / len(werte)
    print()
    print("Durchschnitt (ohne pandas):", round(durchschnitt, 2))

    nur_a = [x for x in bereinigt if x["kategorie"] == "A"]
    print("Nur Kategorie A:", nur_a)

    ziel_datei = "mini_analyse_ergebnis.csv"
    with open(ziel_datei, "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=["kategorie", "wert"])
        writer.writeheader()
        writer.writerows(bereinigt)

    print("CSV gespeichert:", ziel_datei)


Mini-Aufgaben zum Projekt:
1. Erhöhe die Datenmenge von 5 auf 10 Einträge.
2. Berechne zusätzlich Minimum und Maximum.
3. Speichere eine zweite Datei nur mit Kategorie `A`.


In [None]:
# Deine Zelle (Mini-Projekt-Erweiterung)
# TODO: Implementiere eine der drei Mini-Aufgaben.


In [None]:
# Optionale Lösung (eine mögliche Erweiterung)
raw_daten_extra = [
    {"kategorie": "A", "wert": "12"},
    {"kategorie": "B", "wert": "7"},
    {"kategorie": "A", "wert": "8"},
    {"kategorie": "C", "wert": "3"},
    {"kategorie": "A", "wert": "15"},
    {"kategorie": "B", "wert": "11"},
]

sauber = []
for eintrag in raw_daten_extra:
    t = eintrag["wert"].strip()
    if t.isdigit():
        sauber.append({"kategorie": eintrag["kategorie"], "wert": int(t)})

werte = [x["wert"] for x in sauber]
print("Min:", min(werte), "Max:", max(werte))


## 9) Spickzettel

Umgebung:
- `import sys; print(sys.executable)`
- Notebook: `%pip install paketname`
- Terminal: `python -m pip install paketname`

NumPy:
- `np.array([...])`
- `np.mean(arr)`
- `arr * 1.1`

Pandas:
- `pd.DataFrame(...)`
- `df.head()`
- `df[df["preis"] > 10]`

Matplotlib:
- `plt.plot(...)` / `plt.bar(...)`
- `plt.title(...)`
- `plt.show()`

requests/json:
- `requests.get(url)`
- `response.status_code`
- `response.json()`

Scikit-Learn (Prinzip):
- `train_test_split(...)`
- `modell.fit(X_train, y_train)`
- `modell.score(X_test, y_test)`

Abschluss-Merksatz:
- Du musst nicht alles sofort können.
- Wenn du pro Bibliothek 1 Mini-Beispiel verstanden hast, ist das ein voller Erfolg.
