# ANS voorbeeldexamen

De Diabetes Dataset bestaat uit 442 samples met elk 10 features, die verschillende eigenschappen vertegenwoordigen zoals leeftijd, geslacht, body mass index (BMI), bloeddruk en bloedserummetingen. Het doel van de Diabetes Dataset is door middel van regressie een kwantitatieve meting te bepalen van de ziekteprogressie één jaar na baseline.

Daartoe ontwerpen we een neuraal netwerk dat hieronder wordt beschreven.

![image.png](attachment:image.png)

![IMG_0109.jpeg](attachment:IMG_0109.jpeg)

1.0p 2a Geef het aantal trainbare parameters van de laag met de naam `hidden_1`.

$$
\begin{align}
&= 10 * 15\rightarrow \text{input * neurons}\\
&= 150 + 15\rightarrow \text{gewichten + biases}\\
&= 165 \rightarrow \text{trainbare parameters}\\
\end{align}
$$

1.0p 2b Geef het aantal trainbare parameters van de laag met de naam `hidden_2`.
$$
\begin{align}
&= 15 * 5\rightarrow \text{input * neurons}\\
&= 75 + 5\rightarrow \text{gewichten + biases}\\
&= 80 \rightarrow \text{trainbare parameters}\\
\end{align}
$$

1.0p 2c Geef het aantal trainbare parameters van de laag met de naam `output`.
$$
\begin{align}
&= 5 * 1\rightarrow \text{input * neurons}\\
&= 5 + 1\rightarrow \text{gewichten + biases}\\
&= 6 \rightarrow \text{trainbare parameters}\\
\end{align}
$$

3.0p 3a Bij beeldclassificatie (maar niet enkel daar) bestaat een techniek waarbij een voorgetraind model wordt hergebruikt als startpunt voor een nieuwe, verwante taak. Het doel is om de kennis die een model heeft opgedaan bij het leren van één taak, over te dragen naar een andere taak.

Wat is de correcte term hiervoor?
> Transfer learning

Wanneer maak je hiervan gebruik? 
> Wanneer dat je sneller, efficienter en goedkoop modelen wilt maken met weinig data, omdat je niet meer lang moet trainen.

Wat is het voordeel hiervan? 
> Goedkoper (Je bespaart rekenkracht, snelheid, efficientië)


1.0p 3b Stel dat je wil gebruik maken van het bestaande model VGG16. Dit ziet er schematisch als volgt uit:
![image.png](attachment:image.png)
We schrijven daarom de volgende code:
```python
base_model = keras.applications.vgg16.VGG16(weights="imagenet", include_top=False)

for layer in base_model.layers:
      layer.trainable = False
```
We maken gebruik van include_top=False.
> 19-22
![image-2.png](attachment:image-2.png)

Hoe ga je de bovenstaande code aanpassen zodat ook de gewichten vanaf block4 meegetraind worden?
```python
base_model = keras.applications.vgg16.VGG16(weights="imagenet", include_top=False)

for layer in base_model.layers:
    if "block4" in layer.name
        layer.trainable = True
    else:
        layer.trainable = False
```

Selecteer telkens de correcte classificatie.

| Type Classificatie | Aantal Klassen | Kenmerk | Voorbeeld |
|-------------------|----------------|---------|-----------|
| Binary            | Precies 2 | Ja/Nee keuze | Fraude-detectie (wel of geen fraude) |
| Multi-Class       | 3 of meer | Je kiest maar één optie | CIFAR-10 (vogel, auto, schip, ...) |
| Multi-Label       | 2 of meer | Meerdere labels tegelijk | Foto-tagging (hond én strand én zon) |

- Binary: Gebruikt meestal `sigmoid` als laatste activatie.

- Multi-Class: Gebruikt meestal `softmax` als laatste activatie.

- Multi-Label: Gebruikt meestal `sigmoid` voor elk label afzonderlijk.

1.0p 4a
Fraude-detectie:

-   [ ] Multi-Label classification

-   [x] Binary classification

-   [ ] Multi-Class classification

1.0p 4b Verschillende tags toevoegen aan een afbeelding: op een afbeelding kan een boom en / of een auto en / of een kat staan

-   [ ] Binary classification

-   [ ] Multi-Class classification

-   [x] Multi-Label classification

1.0p 4c Handgeschreven letters herkennen

-   [ ] Multi-Label classification

-   [ ] Binary classification

-   [x] Multi-Class classification

1.0p 4d Het dier (vogel, kat, hond) herkennen op afbeeldingen met één dier erop

-   [ ] Binary classification

-   [x] Multi-Class classification

-   [ ] Multi-Label classification

1.0p 4e
Diagnose ziekte: kanker of niet?

-   [ ] Multi-Label classification

-   [ ] Multi-Class classification

-   [x] Binary classification


Rangschik van klein naar groot sigmoid(-2), tanh(-2), relu(-2)

> $tanh(-2)$ < $relu(-2)$ < $sigmoid(-2)$

$tanh(-2)$ $\approx -0.96$\
$relu(-2)$ $= 0$\
$sigmoid(-2)$ $\approx 0.12$

4.0p 6 Beschrijf de stappen van het non-max suppression algoritme toegepast op de onderstaande afbeelding.
De weergegeven getallen zijn de confidence scores van de bounding boxes.
Geef duidelijk aan welke bounding boxes zullen behouden blijven.
Je kan de IoU niet berekenen, dus probeer een benaderende waarde te bepalen op het zicht.
Ga bij de beschrijving van de stappen uit van een drempelwaarde voor de IoU = 0.5.
![image.png](attachment:image.png)

> 1. Sorteren\
> Groen: 0.92
> Blauw: 0.90
> Rood: 0.86
> 2. Selectie van hoogste\
> Groen wordt geselecteerd, en vergelijken andere met groen basis van IoU.\
> Rood: IoU $\gt$ 0.5 $\rightarrow$ Overlapt veel\
> Blauw: IoU $\lt$ 0.5 $\rightarrow$ Overlap minder dan de helft
> 3. Behouden Bounding boxes\
> **Groen** heeft hoogste confidence score en **Blauw** met overlap onder IoU drempelwaarde.\
> $\rightarrow$ **Rood** wordt verwijderd!

3.0p 7a Benoem de onderstaande delen.
![image.png](attachment:image.png)

> 1. Input Embedding
> 2. Positional encoding
> 3. Skip connection
> 4. Multi-head attention
> 5. Add & Norm
> 6. Feedforward


1.5p
7b
Waarvoor staan $?_1$, $?_2$ en $?_3$
1. Kies uit de mogelijke waarden.
![image.png](attachment:image.png)
> - $?1 = K$ (Key): De "sleutel". Dit stelt de informatie van andere woorden voor waarmee vergeleken wordt.
> - $?2 = Q$ (Query): De "zoekopdracht". Dit stelt het huidige woord voor dat op zoek is naar relevante informatie in de rest van de zin.
> - $?3 = V$ (Value): De "waarde". Dit is de eigenlijke inhoudelijke informatie die wordt doorgegeven als er een match is tussen de Query en de Key.

2.5p 7c. Waarvoor staan (1), (2), (3), (4) en (5)? Kies uit de mogelijke waarden.

> (1) = MatMul $\rightarrow$ De eerste Matrix Multiplication vindt plaats tussen de Query ($Q$) en de Transpose van de Key ($K^T$) om de scores te berekenen\
> (2) = Transpose $\rightarrow$ Om de Query en Key met elkaar te kunnen vermenigvuldigen, moet de Key matrix eerst getransponeerd worden.\
> (3) = Scale $\rightarrow$ De resultaten worden gedeeld door $\sqrt{d_k}$ (de wortel van de dimensie) om te voorkomen dat de waarden te groot worden voor de Softmax.\
> (4) = Softmax $\rightarrow$ De geschaalde scores worden omgezet in kansen (weights) die samen 1 vormen.\
> (5) = Concat $\rightarrow$ Omdat dit Multi-head attention is, worden de outputs van de verschillende koppen (heads) aan het eind samengevoegd (geconcateneerd) tot één grote matrix ($O$).

2.0p 7d Welke matrices uit de bovenstaande figuur bevatten trainbare parameters? Selecteer alle mogelijke waarden.
> $W^O, W^K_i, W^V_i, W^Q_i$

- Weights ($W^O, W^K_i, W^V_i, W^Q_i$) $\rightarrow$ leerelementen, trainbaar
- Input/Output ($K,Q,V$) $\rightarrow$ afgeleide waarden, niet trainbaar
- Tussenresultaten/resulaat ($O_i,O$)$\rightarrow$ De uitkomst van een berekening, niet trainbaar

3.5p 7e Stel dat we de bovenstaande encoder zouden willen gebruiken om het sentiment (positief / negatief) te bepalen van Nederlandstalige zinnen van 20 woorden.
De gebruikte batch grootte is 30 en de gebruikte embedding dimensie is 256.
De shape van $Q$ kunnen we beschrijven als ($X, Y, Z$).

(`batch size`, `sequence length`, `dimension`)

X = 30 (Batch Size)

Y = 20 (Sequence Length)

Z = 256 (Embedding Dimension)

Aantal heads = 4
Het aantal rijen van $W_i^Q$ = $256$ (gelijk aan emb. dim.)\
Het aantal kolommen van  $W_i^Q$ = $\frac{256}{4} \rightarrow 64$

Het aantal rijen van  $W^O$ = $64 * 4 \rightarrow 256$ (4 heads, elk out van 64)\
Het aantal kolommen van  $W^O$ = $256$ (gelijk aan emb. dim.)