In [15]:
from IPython.display import FileLink, FileLinks

# Model Trainen

### Model Keuze

Om te bepalen welk type model je gaat maken kijk je naar het doel van het project.

   - Moet het model objecten in een afbeelding classificeren? *(De gehele afbeelding als een klasse zien)* **Classification**
   - Moet het model objecten lokaliseren en identificeren? *(Klasse in de afbeelding vinden en de locatie daarvan)* **Detection**
   - Moet het model elke pixel van een afbeelding classificeren in een bepaald segment? *(Is elke pixel in de afbeelding van belang?)* **Segmentation**

Wanneer je een nieuw model wilt opbouwen is het goed om eerst naar soort gelijke projecten te kijken om te zien wat werkt. In het algemeen is de beste keuze om gebruik te maken van een pre-trained model die al kennis heeft over je klasse. Neem als voorbeeld ResNet50, een model wat getraind is op 1000 klasse:

In [71]:
# ResNet50 classes
FileLink('..\\Data\\imagenet-classes.txt')

Door zo'n voorgetraind model te nemen weet je dat de architectuur correct is voor soortgelijke opdrachten. Verder bezitten de weights al informatie over je mogelijke targets/doel klasse, dit kan het train proces een stuk sneller maken doordat het niet vanaf 0 begint. (Dit principe wordt ook transfer learning genoemd.)

Bekijk onderstaande notebook voor vragen die kunnen helpen met het maken van een keuze tussen welke pre-trained model / structuur.

In [13]:
FileLink('Overig\\model keuze.ipynb')

### Hyperparameters 
Loss, optimizers en evaluatiemetrics

Op het moment dat je de model keuze hebt gemaakt is het tijd voor de hyperparameters, dit zijn de verschillende functies / methodes die het model achter de schermen laten runnen. Dit is vaak ook het deel waar verschillende opties worden geprobeerd voor het behalen van een beter of sneller resultaat. Weet wel dat op het moment dat de data en het resultaat niet goed is dat het aanpassen van de hyperparameters dit niet toch succesvol kan maken. Zie dit meer als het bijsleutelen van het model.

#### Loss Function

De criterion of vaker genoemde loss function houdt de afwijking van het model bij, specifieker de afstand tussen het voorspelde antwoord en het correcte antwoord op basis van een formule. Modellen en doeleindes verschillen zo dus ook de loss functions. Het is mogelijk onderzoek te doen naar welke loss function optimaal is voor huidige doeleindes maar raad dit af. Dit process is ook goed te doen door middel van het resultaat testen, ChatGPT vragen of na het bepalen van een optimizer een goed bijpassende loss function te kiezen.

[Diepere uitleg werking loss-function](https://www.datacamp.com/tutorial/loss-function-in-machine-learning)  -  [Veel voorkomende loss-functions](https://builtin.com/machine-learning/common-loss-functions)

##### Standaard Loss functions

1. **Image Classification:**
   - **Categorical Cross-Entropy:** Wordt vaak gebruikt bij meerklasse-classificatieproblemen.
   - **Binary Cross-Entropy:** Wordt gebruikt voor tweetalige classificatieproblemen.

[Cross-Entropy](https://365datascience.com/tutorials/machine-learning-tutorials/cross-entropy-loss/)

2. **Object Detectie:**
   - **Focal Loss:** Helpt bij het omgaan met klassenonevenwicht door moeilijkere voorbeelden te benadrukken.
   - **Intersection over Union Loss:** Wordt soms gebruikt om de nauwkeurigheid van boksvoorstellen te verbeteren.
   - **Smooth L1 Loss:** Wordt gebruikt in modellen zoals Faster R-CNN voor coördinatieregressie.
   - **YOLO Loss en SSD Loss:** Specifieke combinaties van classificatie- en regressieverliezen die worden gebruikt in respectievelijk YOLO- en SSD-modellen.

[YOLO Loss Explained](https://stats.stackexchange.com/questions/287486/yolo-loss-function-explanation)

3. **Segmentatie:**
   - **Soft Dice Loss:** Populair in medische beeldsegmentatie, met name bij onevenwichtige klassen.
   - **Jaccard Loss (Intersection over Union Loss):** Wordt soms gebruikt voor pixelwijzematchingscores.
   - **Cross-Entropy Loss:** Wordt vaak gebruikt in semantische segmentatietaken voor pixelwijze classificatie.

#### Optimizer

In Machine Learning projecten spelen optimizers in het algemeen een cruciale rol bij het trainen van modellen. De keuze voor een specifieke optimizer kan afhangen van verschillende factoren, inclusief de aard van de dataset, het model, en de gewenste balans tussen snelheid en nauwkeurigheid. Bekijk onderstaande video's voor een beter begrip over de werking van een optimizer.

[3Blue 1Brown: Gradient Descent how Neural Networks learn](https://www.youtube.com/watch?v=IHZwWFHWa-w) - [Gradient Descent - 3 minutes](https://www.youtube.com/watch?v=qg4PchTECck)

Hier zijn enkele standaardopties voor optimizers en overwegingen waarom je welke zou gebruiken:

**Adam (Adaptive Moment Estimation):**

[Adam Explained](https://builtin.com/machine-learning/adam-optimization)
   - **Standaard Opties:** Goed gedefinieerde standaard parameters (\(\beta_1 = 0.9\), \(\beta_2 = 0.999\)), die meestal goede prestaties leveren zonder veel tuning.
   - **Overwegingen:** Adam is vaak de eerste keuze als je snel resultaten wilt krijgen zonder veel tufines. Het combineert de voordelen van twee andere veelgebruikte methodes: AdaGrad en RMSProp.

**Stochastic Gradient Descent (SGD):**

[Stochastic Gradient Descent Explained](https://towardsdatascience.com/stochastic-gradient-descent-clearly-explained-53d239905d31)
   - **Standaard Opties:** Vaak gebruikt met momentum, wat helpt om oscillaties (het heen en weer bewegen tussen twee uiterste waardes - vaak tezien in de loss) tijdens het trainen te verminderen en een snellere convergentie (het punt waarop de voorspellingen van het model niet meer verbeteren, of de loss constant wordt) te bereiken.
   - **Overwegingen:** SGD met momentum is geschikt voor grote datasets en situaties waar je de convergentie fijn wilt afstemmen. Het vereist handmatige tuning van de leersnelheid, wat zowel een nadeel als een voordeel kan zijn.

**AdaGrad:**
   - **Standaard Opties:** Past de leersnelheid aan voor elke parameter op basis van de som van de vierkanten van alle voorgaande gradients.
   - **Overwegingen:** Goed voor zeldzame en sprankelende kenmerken, maar kan problematisch worden als de leersnelheid te veel daalt.

**RMSProp:**

[RMSProp Explained](https://www.datacamp.com/tutorial/rmsprop-optimizer-tutorial)
   - **Standaard Opties:** Houdt een bewegend gemiddelde van de vierkante gradients bij, en deelt door de wortel van deze gemiddelde waarde.
   - **Overwegingen:** Ontwikkeld om de valkuilen van AdaGrad op te lossen, en werkt goed voor niet-stationaire doelen, wat vaak het geval is in real-world deep learning.

**AdamW:**
   - **Standaard Opties:** Een variant van Adam met decoupled weight decay. Dit voorkomt problemen die voortkomen uit de standaard L2 regularisatie in Adam.
   - **Overwegingen:** Helpt bij de algemene generalisatie en convergentie en is vaak beter bij het trainen van transformer-gebaseerde modellen.

**Nesterov Accelerated Gradient (NAG):**
   - **Standaard Opties:** Een variatie van momentum-gebaseerde methodes die verder moet helpen om sneller te convergeren.
   - **Overwegingen:** Het kan nuttig zijn voor zeer diepe netwerken vanwege hun abiliteit om zijn horizon van leersnelheden voor elke parameter aan te passen.

##### Overwegingen bij het kiezen van een optimizer:

- **Niet-lineaire datasets:** Opties zoals Adam helpen met het leren van complexe patronen door dynamische aanpassingen van de leersnelheid.
- **Rekenkosten:** Simpele optimizers zoals SGD kunnen efficiënter zijn in termen van geheugen en snelheid op heel grote datasets.
- **Tuning-behoeften:** Sommige optimizers zoals Adam vereisen minder hyperparameter tuning, terwijl optimizers zoals SGD aanzienlijke moeite kunnen vereisen om ze goed te tunen.
- **Generalisatie:** Weight decay en optimizerkeuzes zoals AdamW kunnen helpen om overfitting te beperken en beter te generaliseren naar testdata.

Bij het kiezen van een optimizer, moet je ook overwegen wat historisch goed heeft gewerkt voor vergelijkbare taken en modellen binnen jouw specifieke domein. Het kan nuttig zijn om met verschillende optimizers te experimenteren om te zien welke het beste presteert in jouw specifieke situatie.

#### Metrics

Tijdens het trainen zijn er verschillende evaluatie metrics om in de gaten te houden. Bij image detection komen er nog een paar bij, deze worden in het `Image Detection` deel behandeld.
Bij image classification zijn verschillende metrics die je kunt gebruiken om de prestaties van je model te evalueren. Hier zijn de meest voorkomende:

1. **Accuracy**: Dit meet het percentage correcte voorspellingen over alle voorbeelden. Hoewel het nuttig is, kan het misleidend zijn in geval van een scheve klassenverdeling.

2. **Precision**: Dit is het percentage daadwerkelijke positieve voorspellingen uit alle positieve voorspellingen. Het is vooral nuttig als de kosten van vals-positieven hoog zijn.

3. **Recall (of Sensitivity)**: Dit is het percentage correcte positieve voorspellingen uit alle daadwerkelijke positieve gevallen. Het is cruciaal wanneer de kosten van gemiste positieve voorbeelden hoog zijn.

4. **F1-score**: Dit is het harmonisch gemiddelde van precision en recall. Het is nuttig wanneer je een balans wilt vinden tussen precision en recall, vooral bij een ongelijke klassenverdeling.

5. **Confusion Matrix**: Dit is een tabel die de prestaties van een classificatiemodel laat zien, met de werkelijke klassen tegenover de voorspelde klassen. Het geeft inzicht in correct geclassificeerde en verkeerd geclassificeerde voorspellingen.

Deze metrics helpen je verschillende aspecten van je modelprestaties te begrijpen, en de keuze van welke te gebruiken hangt vaak af van de specificiteiten en eisen van je project. Zo is voor een toezicht systeem `precision` van hoger belang voor het voorkomen van false positives. Bij het herkennen van tumors is `recall` belangrijker aangezien false negatives veel schadelijker zijn dan false positives. Bepaal opbasis van wat voor jou model het handigst op welke metrics je het meest gaat letten.  In het geval je het zo simpel mogelijk voor jezelf wilt maken let dan op de `F1-score`.

#### Trainingsprocedure

Tijdens het train proces krijg je altijd te maken met batch size en epochs, dit zijn de hoeveelheid afbeeldingen voor het model de weights aanpast en het totaal aantal keer dat het model door de hele trainings data heen gaat. [Verdere uitleg](https://www.sabrepc.com/blog/Deep-Learning-and-AI/Epochs-Batch-Size-Iterations)

Om niet zelf het aantal epochs te hoeven bepalen en zo mogelijk het proces te vroeg of laat te stoppen kan je gebruik maken van [early stopping](https://cyborgcodes.medium.com/what-is-early-stopping-in-deep-learning-eeb1e710a3cf) en/of [learning rate scheduler](https://neptune.ai/blog/how-to-choose-a-learning-rate-scheduler)

__Kort om__:
- __Batch size en epochs__: Kies de juiste batchgrootte die past bij de hoeveelheid beschikbare GPU/CPU-kracht, dit is standaard 32. Dan trainen we met voldoende epochs om een goede generalisatie te bereiken.
- __Early stopping__: Dit is het bijhouden van de loss op de validatie set, als deze een aantal epochs niet verbeterd. We gebruiken early stopping om overfitting te voorkomen. 
- __Learning rate scheduling__: Gebruik een learning rate scheduler (bijv. reduce on plateau) om de learning rate automatisch aan te passen wanneer de prestaties stagneren.

#### Metrics

Tijdens het trainen zijn er verschillende metrics om in de gaten te houden. Bij image detection komen er nog een paar bij, deze worden in het `Image Detection` deel behandeld.
Bij image classification zijn verschillende metrics die je kunt gebruiken om de prestaties van je model te evalueren. Hier zijn de meest voorkomende:

1. **Accuracy**: Dit meet het percentage correcte voorspellingen over alle voorbeelden. Hoewel het nuttig is, kan het misleidend zijn in geval van een scheve klassenverdeling.

2. **Precision**: Dit is het percentage daadwerkelijke positieve voorspellingen uit alle positieve voorspellingen. Het is vooral nuttig als de kosten van vals-positieven hoog zijn.

3. **Recall (of Sensitivity)**: Dit is het percentage correcte positieve voorspellingen uit alle daadwerkelijke positieve gevallen. Het is cruciaal wanneer de kosten van gemiste positieve voorbeelden hoog zijn.

4. **F1-score**: Dit is het harmonisch gemiddelde van precision en recall. Het is nuttig wanneer je een balans wilt vinden tussen precision en recall, vooral bij een ongelijke klassenverdeling.

5. **Confusion Matrix**: Dit is een tabel die de prestaties van een classificatiemodel laat zien, met de werkelijke klassen tegenover de voorspelde klassen. Het geeft inzicht in correct geclassificeerde en verkeerd geclassificeerde voorspellingen.

Deze metrics helpen je verschillende aspecten van je modelprestaties te begrijpen, en de keuze van welke te gebruiken hangt vaak af van de specificiteiten en eisen van je project. Bepaal opbasis van wat voor jou model het handigst op welke metrics je het meest gaat letten. In het geval je het zo simpel mogelijk voor jezelf wilt maken let dan op de `F1-score`.

### Image Classification

Dit type modellen zoals de naam al zegt probeert verschillende klasse te kunnen herkennen. Dit doet het door naar heel de afbeelding te kijken en op basis hiervan geeft het een voorspelling voor elke classen.

Bekijk zo eerst een vd minimale modellen om de structuur door te krijgen voor we meer geavanceerde methodes gaan gebruiken.

In [63]:
# Pre-trained ResNet50 - Zonder extra toevoegingen
FileLink('Model Training\\ResNet50_basics.ipynb')

In onderstaande notebook werken we ook een ResNet50 model uit. Maar in dit geval hebben we toevoegingen gedaan om overfitting tegen te gaan.

In [65]:
# Pre-trained ResNet50 - Onderbouw keuzes 
FileLink('Model Training\\ResNet50.ipynb')

### Image Detection

Hierbij wordt een object in de afbeelding gevonden ipv dat de hele afbeelding als het object of de klasse wordt gezien. Dit heeft verschillende effecten als een andere structuur voor de data en het model, de benodigde hoeveelheid data, trainingstijd maar vooral ook het resultaat van het model.

In [67]:
FileLink('Model Training\\Training YOLO model.ipynb')