# 🪴 Simpele ML Demo: Iris Bloemen Classificatie

Deze demo laat zien hoe je een eenvoudig machine learning-model bouwt dat verschillende soorten iris-bloemen kan herkennen op basis van metingen van bloemblaadjes.

## 📦 Stap 1: Data inladen

We gebruiken de bekende Iris dataset van scikit-learn.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

In [None]:
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target
df.head()

## Wat hebben we hier precies gedaan?

We laden een klassieke dataset in die veel wordt gebruikt om te oefenen met ML.

Elke rij is een bloem, en de kolommen zijn metingen: lengte/breedte van sepalen (kelkbladen) en petalen (kroonbladen).

De target-kolom is de bloemsoort (Setosa, Versicolor, Virginica), als getallen: 0, 1, of 2.

We gebruiken head() om de eerste paar rijen te bekijken: dit is altijd een goede eerste stap om je data te begrijpen.


## 🧹 Stap 2: Data voorbereiden

We splitsen de data in features (X) en doelvariabele (y), en daarna in train/test-sets.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X = df[iris.feature_names]
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Wat doen we hier?


We splitsen de data in input (X) en output (y). Het model gaat leren van de features (X) om de target te voorspellen.

Daarna splitsen we dit in een trainingsset (70%) en een testset (30%). De training wordt gebruikt om het model te bouwen, de test om het te evalueren.

Dit is belangrijk omdat je anders het model evalueert op data die het al heeft gezien – en dat geeft een vertekend beeld van hoe goed het model echt is.

## 🧠 Stap 3: Model trainen

We gebruiken een eenvoudige logistic regression (klassieke ML-methode).Dat is een simpel, maar krachtig model voor classificatie.

Met .fit() leert het model de verbanden tussen de metingen van de bloem en de juiste soort.

Achter de schermen zoekt het algoritme naar grenslijnen die de verschillende bloemsoorten het best van elkaar scheiden in de ruimte van de features.

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

## ✅ Stap 4: Evalueren van het model

We kijken hoe goed het model presteert op de testset.

In [None]:
from sklearn.metrics import classification_report

In [None]:
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred, target_names=iris.target_names))

Hier gebruiken we de testdata om te voorspellen (predict) en vergelijken de uitkomst met de echte labels (y_test).

classification_report toont 4 belangrijke metrics:

**Precision**: Hoe vaak was het model correct als het voorspelde ‘dit is een Setosa’?

**Recall**: Hoeveel van alle echte Setosa’s heeft het model goed gevonden?

**F1-score**: De balans tussen precision en recall.

**Accuracy**: Hoeveel procent van alle bloemen zijn juist geclassificeerd.

Dit geeft ons inzicht in hoe goed het model werkt – in dit geval vaak >95%, omdat de Iris dataset relatief ‘schoon’ is.

## 🌼 Bonus: Maak een voorspelling!

Probeer zelf een voorbeeld in te vullen.

In [None]:
voorbeeld = [[5.1, 3.5, 1.4, 0.2]]  # lengte & breedte van sepalen en petalen
voorspelling = model.predict(voorbeeld)
print("Voorspelde bloemsoort:", iris.target_names[voorspelling[0]])