# Teil 1: Daten erkunden

## Was ist maschinelles Lernen?

Stell dir vor, du zeigst einem Kind Fotos von drei verschiedenen Blumenarten. Nach einer Weile kann das Kind neue Blumen richtig zuordnen, ohne sie vorher gesehen zu haben.

**Genau so funktioniert maschinelles Lernen:**
1. Wir zeigen dem Computer viele Beispiele
2. Der Computer erkennt Muster in den Daten
3. Er kann dann neue, unbekannte Daten richtig einordnen

In diesem Notebook lernen wir zuerst die **Daten** kennen, mit denen wir arbeiten werden.

---

## Der Iris-Datensatz

Unsere Daten stammen aus dem Jahr **1936**. Ein britischer Biologe namens **Ronald Fisher** hat drei Arten von Iris-Blumen untersucht:

- **Iris setosa** (Borsten-Schwertlilie)
- **Iris versicolor** (Verschiedenfarbige Schwertlilie)
- **Iris virginica** (Virginische Schwertlilie)

<img src="internal/iris_vergleich.jpg" alt="Iris Vergleich" width="800"/>

Er hat von jeder Art **50 Blumen** genommen und vier Dinge gemessen:

1. **Kelchblatt-Länge** (sepal length) - die grünen Blätter aussen
2. **Kelchblatt-Breite** (sepal width)
3. **Blütenblatt-Länge** (petal length) - die bunten Blätter innen
4. **Blütenblatt-Breite** (petal width)

**Insgesamt: 150 Blumen x 4 Messungen = 600 Zahlen**

### Warum dieser Datensatz?

Der Iris-Datensatz ist perfekt zum Lernen:
- Er ist klein genug, um ihn zu verstehen
- Er zeigt echte Unterschiede zwischen Kategorien
- Er wird seit Jahrzehnten in der Wissenschaft verwendet

### Aufgabe 1: Den Datensatz verstehen

1. **Wie viele Blumen** hat Fisher insgesamt untersucht?

2. **Wie viele Eigenschaften** (Merkmale) wurden pro Blume gemessen?

3. Wenn du eine unbekannte Iris-Blume findest - **welche vier Dinge müsstest du messen**, um sie einer Art zuzuordnen?

### Deine Antworten zu Aufgabe 1

**1. Anzahl Blumen:**

*Doppelklicke hier und schreibe deine Antwort...*

**2. Anzahl Eigenschaften:**

*Doppelklicke hier und schreibe deine Antwort...*

**3. Die vier Messungen:**

*Doppelklicke hier und schreibe deine Antwort...*

---

## Module laden

In Python verwenden wir **Module** - das sind fertige Werkzeugkästen, die andere Programmierer geschrieben haben:

| Modul | Wofür? |
|-------|--------|
| `pandas` | Daten in Tabellen organisieren |
| `matplotlib` | Diagramme zeichnen |
| `numpy` | Mit Zahlen rechnen |

In [None]:
import sys
import warnings
warnings.filterwarnings("ignore", message=".*as_object_map.*")

if "pyodide" in sys.modules:
    import piplite
    await piplite.install(["numpy", "pandas", "matplotlib"])

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

print("Alle Module geladen!")

## Daten laden

Die Daten sind in einer **CSV-Datei** gespeichert (Comma-Separated Values). Das ist wie eine Excel-Tabelle, aber als einfache Textdatei.

Mit `pandas` können wir diese Datei in einen **DataFrame** laden - eine Tabelle, mit der Python arbeiten kann.

In [None]:
df = pd.read_csv("data/iris.csv")
print(f"Geladen: {len(df)} Blumen mit {len(df.columns)} Spalten")

## Die Daten anschauen

### Was ist ein DataFrame?

Ein DataFrame ist wie eine Excel-Tabelle:
- Jede **Zeile** ist ein Datensatz (eine Blume)
- Jede **Spalte** ist eine Eigenschaft (z.B. sepal_length)
- Die letzte Spalte `species` sagt uns, welche Art es ist

Schauen wir uns die ersten 10 Zeilen an:

In [None]:
print("Die ersten 10 Blumen:\n")
print(df.head(10))

### Statistik der Daten

Mit `.describe()` bekommen wir eine Zusammenfassung:
- **count**: Anzahl Werte
- **mean**: Durchschnitt
- **std**: Standardabweichung (wie stark streuen die Werte?)
- **min/max**: Kleinster/grösster Wert

In [None]:
print("Statistik:\n")
print(df.describe())

### Aufgabe 2: Daten lesen

Schau dir die Tabellen oben an:

1. **Blume in Zeile 5**: Wie lang ist ihr Blütenblatt (petal_length)?

2. **Vergleiche Zeile 0 und 4**: Welche hat das breitere Kelchblatt (sepal_width)?

3. **Aus der Statistik**: 
   - Was ist die durchschnittliche Kelchblatt-Länge?
   - Was ist die kleinste Blütenblatt-Breite?

### Deine Antworten zu Aufgabe 2

**1. Blütenblatt-Länge in Zeile 5:**

*Doppelklicke hier und schreibe deine Antwort...*

**2. Breiteres Kelchblatt (Zeile 0 oder 4)?**

*Doppelklicke hier und schreibe deine Antwort...*

**3. Aus der Statistik:**

- Durchschnittliche Kelchblatt-Länge: *...*
- Kleinste Blütenblatt-Breite: *...*

---

## Daten visualisieren

### Warum Visualisierung?

Zahlen in Tabellen sind schwer zu überblicken. Mit **Diagrammen** können wir Muster sofort erkennen.

### Das Streudiagramm (Scatter Plot)

Ein Streudiagramm zeigt zwei Eigenschaften gleichzeitig:
- **X-Achse**: Eine Eigenschaft (z.B. Länge)
- **Y-Achse**: Eine andere Eigenschaft (z.B. Breite)
- **Jeder Punkt**: Eine Blume
- **Farbe**: Die Blumenart

Wenn die Farben **getrennte Gruppen** bilden, können wir die Arten unterscheiden!

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
colors = ["red", "green", "blue"]

for i, species in enumerate(df["species"].unique()):
    data = df[df["species"] == species]
    ax1.scatter(data["sepal_length"], data["sepal_width"], c=colors[i], label=species, s=60)
    ax2.scatter(data["petal_length"], data["petal_width"], c=colors[i], label=species, s=60)

ax1.set(xlabel="Kelchblatt-Länge (cm)", ylabel="Kelchblatt-Breite (cm)", title="Kelchblatt")
ax2.set(xlabel="Blütenblatt-Länge (cm)", ylabel="Blütenblatt-Breite (cm)", title="Blütenblatt")
ax1.legend()
ax2.legend()
plt.tight_layout()
plt.show()

### Was sehen wir?

**Rechtes Diagramm (Blütenblatt):**
- Die **roten Punkte** (Setosa) sind weit weg von den anderen → leicht zu erkennen!
- **Grün** (Versicolor) und **blau** (Virginica) überlappen etwas → schwieriger zu unterscheiden

**Linkes Diagramm (Kelchblatt):**
- Alle drei Arten überlappen stark → weniger nützlich zum Unterscheiden

**Fazit:** Die Blütenblatt-Masse sind bessere "Merkmale" zum Unterscheiden der Arten!

### Aufgabe 3: Diagramme interpretieren

1. **Welche Blumenart** lässt sich am einfachsten erkennen? Woran siehst du das?

2. **Welche zwei Arten** überlappen sich? In welchem Diagramm ist das schlimmer?

3. **Stell dir vor, du bist eine KI**: Eine Blume hat Blütenblatt-Länge 5 cm und Breite 1.8 cm. Schau im rechten Diagramm nach - welche Art ist es wahrscheinlich?

4. **Warum** ist das rechte Diagramm besser geeignet, um Blumenarten zu unterscheiden?

### Deine Antworten zu Aufgabe 3

**1. Einfachste Blumenart:**

*Doppelklicke hier und schreibe deine Antwort...*

**2. Überlappende Arten:**

*Doppelklicke hier und schreibe deine Antwort...*

**3. Blume mit 5 cm Länge und 1.8 cm Breite:**

*Doppelklicke hier und schreibe deine Antwort...*

**4. Warum rechtes Diagramm besser?**

*Doppelklicke hier und schreibe deine Antwort...*

---

## Zusammenfassung

Was wir gelernt haben:
- **Daten** sind Zahlen, die etwas beschreiben (hier: Blumenmessungen)
- Ein **DataFrame** organisiert Daten in einer Tabelle
- **Visualisierung** hilft uns, Muster zu erkennen
- Manche Merkmale sind **besser geeignet** zum Unterscheiden als andere

**Weiter geht's:** Kann ein Computer diese Gruppen **selbst finden**, ohne die Antworten zu kennen?