# Evaluatie
(target-evaluation)=
Wanneer een machine learning model getraind wordt, is het cruciaal om de uiteindelijke **model-performantie** na te gaan. Dat houdt specifiek de vraag in **of het model er al dan niet in slaagt om bruikbare taak-outputs te genereren bij nieuwe data**. Dit is het domein van **modelevaluatie**. Bij die evaluatie worden **de prestaties van een model geëvalueerd op basis van performantiematen; beter bekend als _scoring metrics_**.  
  
Als er een _loss_ functie gebruikt wordt tijdens het trainen, geeft de waarde daarvan een eerste indicatie van de model-performantie. De _loss_ functie geeft echter niet noodzakelijk rechtstreeks een zicht op taakprestaties. Daarom worden tal van andere _ scoring metrics_ gebruikt, afhankelijk van de specifieke taak.  
  
We zullen zien dat er verschillende _metrics_ gangbaar zijn, afhankelijk van de taakcontext (bv. klassificatie, regressie, enz.) en het specifieke domein (bv. computervisie, NLP, enz.; zie [_scikit-learn metrics_ module](https://scikit-learn.org/stable/api/sklearn.metrics.html#module-sklearn.metrics) en [_scikit-learn scoring guide_](https://scikit-learn.org/stable/modules/model_evaluation.html#metrics-and-scoring-quantifying-the-quality-of-predictions)).  

:::{note} _Precision_ & _Recall_
:class: dropdown
(target-accuracy)=
In de context van klassificatie, kijken we in de eerste plaats naar de _accuracy_ score; het percentage juist voorspelde categorieën.  
In onderstaande _confusion matrix_ is de _accuracy_ $100 \times \frac{45+38+35}{45+3+2+2+38+1+1+4+35}$
```
                 Voorspeld
               Kat  Hond  Vogel
Werkelijk Kat   45    3     2
          Hond   2   38     1
          Vogel  1    4    35
```
  
Daarnaast wordt bij _binaire_ klassificatie (bv. Kat|hond) ook gekeken naar de verdeling van het aantal _true positives_ (TP), _false positives_ (FP), _true negatives_ (TN) en _false negatives_ (FN).

```
                   Voorspeld
                 Kat(+)  Hond(-)
Werkelijk Kat(+)   45        3
          Hond(-)   2       38
```

$TP = \frac{45}{47}$,
$FP = \frac{2}{47}$,
$TN = \frac{38}{41}$ en
$FN = \frac{3}{41}$
  
Hieraan worden drie metrics gekoppeld:  
(target-precision)=
1. _Precision_: Fractie van positieve voorspellingen die correct zijn

$$
Precision = \frac{TP}{TP + FP}
$$
(target-recall)=  
2. _Recall_: Fractie van positieve instances die correct geïdentificeerd zijn

$$
Recall = \frac{TP}{TP + FN}
$$

(target-F-score)=
3. _$F_1$-score_: Harmonisch gemiddelde van _precision_ en _recall_. De score groeit symmetrisch met toenemende _precision_ of _recall_.
$$
F_1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall} = \frac{2 \cdot TP}{2 \cdot TP + FP + FN}
$$
Een algemenere maat is de $F_{\beta}-score$ waarbij een gewicht wordt toegekend om _precision_ meer of minder belang te geven ten opzichte van _recall_.
  
[![](https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/Precisionrecall.svg/350px-Precisionrecall.svg.png)](https://en.wikipedia.org/wiki/F-score)
:::
  

(target-validation)=
## Training, validatie en testing
Om zeker te zijn dat een model patronen leert te herkennen en niet gewoon de trainingsdata van buiten leert, is het cruciaal om de prestaties te evalueren op ongeziene data. **De capaciteit om juiste voorspellingen te maken met _nieuwe data_ wordt algemeen de _generalisatie_ capaciteit van het model genoemd**. Er wordt in die context standaard een onderscheid gemaakt tussen drie groepen data:  
1. **Trainingsdata**: dit is de bulk van de data (bv. 70%) waarmee we ons leeralgoritme effectief laten werken om de optimale modelparameters te vinden.
2. **Validatiedata**: dit is een kleiner stuk van de data (bv.20%) waarmee we _tijdens de training en hyper parameter tuning_ evalueren hoe het model presteert op ongeziene data.
3. **Testdata**: dit is een (meestal nog) kleiner stuk van de data (bv. 10%) dat volledig opzij gehouden wordt. Het model kan nooit (rechtstreeks of onrechtstreeks) beïnvloed worden door deze data tijdens de training. Ze dienen om de **generalisatie** capaciteit van het model finaal te kwantificeren.  
  
Vaak wordt met een meer geavanceerde vorm van validatie gewerkt: zogenaamde _K-Fold Cross_-validatie. In plaats van één stuk data opzij te houden als validatie data, wordt de trainingsdata in _K_ gelijke delen op gesplitst. Het model wordt dan bij iedere tussenstap _K_ keer getraind met _K-1_ delen en gevalideerd met het overige deel.  
  
[![](https://scikit-learn.org/stable/_images/grid_search_cross_validation.png?raw=true)](https://scikit-learn.org/stable/modules/cross_validation.html)

## _Explainability_
(target-explainability)=
Bij de evaluatie van modellen is het zaak om ook inzicht te krijgen in de effectieve patronen die geleerd zijn en **hoe een model, gegeven concrete inputs, tot bepaalde voorspellingen komt**. Dit is bij bepaalde toepassingen (bv. medische diagnostiek) cruciaal. Zoals we zullen zien in de secties over concrete toepassingsdomeinen, is dit, afhankelijk van het type model, niet altijd even evident.
