# Decision tree op Iris

Een decision tree model is een machine learning-algoritme dat gebruikt wordt voor zowel classificatie- als regressietaken. Het model werkt door data in een boomstructuur te splitsen, waarbij elke interne knoop een "beslissing" voorstelt gebaseerd op een bepaalde eigenschap van de data, en elke bladknoop een uitkomst of klasse. Hier is een korte uitleg over de belangrijkste kenmerken en stappen van een decision tree:

### Kenmerken van een Decision Tree Model

1. Boomstructuur: De decision tree bestaat uit knopen (nodes) die data splitsen op basis van bepaalde kenmerken of attributen.
2. Interne Knoop: Een interne knoop vertegenwoordigt een beslissingsregel op een attribuut.
3. Bladknoop: Een bladknoop vertegenwoordigt een uiteindelijke beslissing of classificatie.
4. Splitscriteria: Criteria zoals Gini-impurity of information gain (voor classificatie) en mean squared error (voor regressie) worden gebruikt om de splitsingen te bepalen.
5. Diepte van de Boom: Dit bepaalt hoeveel niveaus de boom heeft. Een diepere boom kan beter fitten op training data maar heeft een hoger risico op overfitting.

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics


In [2]:
# Voorbeeld dataset: Iris
iris = load_iris()
X = iris.data
y = iris.target

# Splitsen van de dataset in training en test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)


In [3]:
# Initialiseren van de Decision Tree Classifier
clf = DecisionTreeClassifier()

# Trainen van het model
clf = clf.fit(X_train, y_train)


In [4]:
# Voorspellen met de test data
y_pred = clf.predict(X_test)

# Evalueren van de prestaties van het model
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))


Accuracy: 0.9555555555555556


In [5]:
from sklearn.metrics import confusion_matrix, classification_report

# Genereren van de confusie matrix
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusie Matrix:\n", conf_matrix)

# Genereren van een gedetailleerd classificatierapport
class_report = classification_report(y_test, y_pred)
print("Classificatie Rapport:\n", class_report)


Confusie Matrix:
 [[14  0  0]
 [ 0 17  1]
 [ 0  1 12]]
Classificatie Rapport:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.94      0.94      0.94        18
           2       0.92      0.92      0.92        13

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



### Conclusie en Analyse van het Decision Tree Model

Het decision tree model presteert uitstekend met een overall accuracy van 95.56%. De details uit de confusie matrix en het classificatierapport bieden een nog dieper inzicht in de prestaties van het model:
Confusie Matrix

- Klasse 0: Alle 14 voorbeelden zijn correct geclassificeerd (100% accuraat).
- Klasse 1: Van de 18 voorbeelden is er slechts 1 fout geclassificeerd (94% accuraat).
- Klasse 2: Van de 13 voorbeelden is er eveneens slechts 1 fout geclassificeerd (92% accuraat).

### Classificatie Rapport

- **Precision:** De precisie voor klassen 0, 1, en 2 is respectievelijk 1.00, 0.94, en 0.92. Dit betekent dat wanneer het model een voorbeeld als een bepaalde klasse voorspelt, het in 100% (klasse 0), 94% (klasse 1), en 92% (klasse 2) van de gevallen correct is.
- **Recall:** De recall voor klassen 0, 1, en 2 is eveneens hoog, wat aangeeft dat het model effectief voorbeelden binnen deze klassen herkent.
- **F1-score:** De f1-scores zijn hoog voor alle klassen (1.00 voor klasse 0, 0.94 voor klasse 1, en 0.92 voor klasse 2), wat een goede balans tussen precisie en recall aangeeft.
- **Macro en Weighted Averages:** De macro gemiddelde scores van 0.96 voor precisie, recall, en f1-score suggereren dat het model goed presteert over alle klassen. De gewogen gemiddelde scores, die rekening houden met de verdeling van de klassen, zijn ook 0.96.

### Samenvatting

Het decision tree model vertoont zeer goede prestaties met een hoge nauwkeurigheid en evenwichtige prestaties over alle klassen. Hier zijn enkele belangrijke punten:

1. **Uitstekende Nauwkeurigheid:** Met een accuracy van 95.56% presteert het model bijna perfect.
2. **Hoge Precision en Recall:** De hoge precisie en recall over alle klassen laten zien dat het model zowel accuraat als volledig is in zijn voorspellingen.
3. **Balans Tussen Klassen:** Er is een goede balans in de prestaties van het model over de verschillende klassen, zonder significante bias naar een specifieke klasse.
4. **Lichte Verbeterpunten:** Hoewel de prestaties al uitstekend zijn, kan er wellicht nog een kleine verbetering worden behaald voor klasse 1 en 2, waar er enkele fouten zijn.

Over het algemeen is het decision tree model zeer betrouwbaar en goed geschikt voor de taak waarvoor het is getraind. Verdere verbeteringen zouden kunnen worden onderzocht door fine-tuning van hyperparameters, het toepassen van meer geavanceerde technieken zoals ensemble methoden (bijv. Random Forest), of het verzamelen van meer data om de robuustheid van het model te vergroten.