# Evalutatiemetrieken

## Wat?
* Machine Learning Algorithm
    * Supervised Machine Learning Algorithm
        * Regressie
        * Classificatie
    * Unsupervised Machine Learning Algorithm
        * Clustering
        * Associatie

- Regressie: poging om de sterkte en het karakter van de relatie tussen een afhankelijke variabele en een of een reeks onafhankelijke variabelen te bepalen.
- Classificatie: Het probleem van het identificeren tot welke van een reeks categorieën (subpopulaties) een waarneming (of waarnemingen) behoort.
- Clustering: Het groeperen van objecten, zodat objecten in hetzelfde cluster meer op elkaar lijken dan op objecten in een andere cluster.
- Associatie: Vindt belangrijke relaties tussen variabelen of functies in een gegevensset.

| In Data Science behandelde modelleringstechniek         | Evaluatietechniek                          |               |
|---------------------------------------------------------|--------------------------------------------|---------------|
| Lineaire Regressie                                      | R², MAE, RMSE, MAPE                        | Regressie     |
| Forecasting, ANN                                        | MAE, RMSE, MAPE                            | Regressie     |
| Clustering                                              | interclusterafstand, intraclusterafstand   | Clustering    |
| Association rules                                       | support, confidence, lift                  | Associatie    |
| Metaheuristieken                                        | objective function                         | Andere        |
| Naive Bayes, beslissingsbomen, discriminantanalyse, ANN | accuracy, precision, recall, TPR, FPR, ROC | Classificatie |

### Regressie

* $R² = (\frac{1}{2} \sum_{i=1}^{n}Z_{xi}Z_{yi})² = r_{xy}^{2}$
* Mean Absolute Error, $MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - ŷ _i |$
* Root Mean Squared Error, $RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - ŷ _i)^2}$
* Mean Absolute Percentage Error, $MAPE = \frac{1}{n}\sum_{i=1}^{n}|\frac{y_i - ŷ _i}{y_i}|$

## Classificatie metrieken

### Binair vs. Multiclass
* Binair: 2 klassen
    * M/V
    * Goed/Fout
    * ...
* Multiclass: meer dan 2 klassen
    * onvoldoende/Voldoende/Onderscheiding/...

Een decision tree wordt gebruikt voor het voorspellen van de klassen.

<img src="rsc/img/Schermafbeelding 2024-05-16 160750.png">

|                |  Accuracy (ACC)  |  Precision Recall  |  F-measure  |  TP Rate & FP Rate (Confusion Matrix)  |  ROC Curve  |
|----------------|:----------------:|:------------------:|:-----------:|:--------------------------------------:|:-----------:|
| **Binair**     |        x         |         x          |      x      |                   x                    |      x      |
| **Multiclass** |        x         |         x          |      x      |                                        |             |


### Confusion Matrix
Gebruikt door:
* Binair
* Multiclass

In [1]:
from functions.functions_Y2.evaluationMetrics import *

animals = pd.DataFrame([
    [60, 3, 1],
    [6, 40, 1],
    [2, 10, 20]
],
    columns=["kat", "hond", "konijn"],
    index=["kat", "hond", "konijn"])

animals

Unnamed: 0,kat,hond,konijn
kat,60,3,1
hond,6,40,1
konijn,2,10,20


De bovenste table is een voorbeeld van een confusion matrix. De rijen zijn de voorspellingen en de kolommen zijn de werkelijke waarden. De diagonaal van linksboven naar rechtsonder zijn de correcte voorspellingen. De overige cellen zijn de foutieve voorspellingen.

#### Terminologie
* True Positive (TP): de voorspelling is correct en is positief
* True Negative (TN): de voorspelling is correct en is negatief
* False Positive (FP): de voorspelling is fout en is positief
* False Negative (FN): de voorspelling is fout en is negatief
* Hoofddiagonaal: de lijn van linksboven naar rechtsonder
    * Hoe meer waarden op de hoofddiagonaal, hoe beter

### Accuracy (ACC)
- Een van de meest gebruikte maatstaven voor de classificatie.

$$ACC = \frac{TP + TN}{TP + TN + FP + FN}$$
OF
$$ACC = \frac{aantal\ correcte\ voorspellingen}{aantal\ voorspellingen}$$

In [2]:
tot = animals.join(pd.DataFrame(animals.sum(axis=1), columns=["total"]))

sums = pd.concat([tot, pd.DataFrame(tot.sum(axis=0), columns=["Totaal"]).T])

sums

Unnamed: 0,kat,hond,konijn,total
kat,60,3,1,64
hond,6,40,1,47
konijn,2,10,20,32
Totaal,68,53,22,143


$$accuracy= \frac{60 + 40 + 20}{143} = 0.84$$

In [3]:
accuracy(sums)

0.8391608391608392