In [1]:
from IPython.display import FileLink, FileLinks # Links moeten nog worden aangepast

# Dataset Samenstellen

Het bouwen van een Computer Vision model begint bijna altijd bij het verzamelen van de data. Stel eerst de vraag:

`Wat is het doel van dit model?` / `Hoe gaat het model gebruikt worden?`

Dit geeft een beeld van hoeveel afbeeldingen per klasse nodig zijn.

### Aantal Afbeeldingen op basis van Complexiteit

1. **Basale objectherkenning** (bijv. herkenning van simpele objecten zoals dagelijkse voorwerpen):
   - **Aantal afbeeldingen per klasse:** 100 - 1.000
   - Hoe complexer of veelzijdiger de objecten, hoe meer afbeeldingen nodig zijn.

2. **Complexe objectherkenning** (bijv. herkenning van objecten in wisselende omstandigheden of veel gelijkenis tussen klassen):
   - **Aantal afbeeldingen per klasse:** 1.000 - 10.000
   - Meer gegevens zijn nodig om de variabiliteit goed te dekken.

3. **Fijnmazige classificatie** (bijv. onderscheiding van verschillende soorten vogels of automerken):
   - **Aantal afbeeldingen per klasse:** 1.000 - 5.000
   - Hoe dichterbij de klassen liggen, hoe meer afbeeldingen je nodig hebt.

4. **Gezichtsherkenning of speciale toepassingen** (bijv. identificatie van gezichten, medische diagnose):
   - **Aantal afbeeldingen per klasse:** Enkele honderden tot duizenden, afhankelijk van het vereiste detailniveau.
   - Vaak zijn datasets in deze categorie zeer groot door de benodigde precisie.

5. **Generalisatietesten** (voor toepassingen zoals augmentatie en transfer learning):
   - **Aantal afbeeldingen per klasse:** 50 - 200 om een model van een grotere dataset te verfijnen.

Er zijn drie verschillende methode van data verzamelen: Online Databases, eigen afbeeldingen maken en een webscraper gebruiken. Onafhankelijk van welke methode je gebruikt is de kwaliteit van invloed op het resultaat van het model.

### Afbeeldings Kwaliteit
Afhankelijk van het doeleinde en methode van verzamelen zijn bepaalde kwaliteits controles van hoger of lager belang. 

Let hierbij goed op de vraag: `Hoe gaat het model gebruikt worden?`

**Variatie in Omstandigheden:**
   - **Licht:** Fotografeer onder verschillende lichtomstandigheden (zowel binnen als buiten, bij daglicht en kunstlicht) om de robuustheid van het model te verbeteren.
   - **Hoeken en Perspectieven:** Neem afbeeldingen vanuit verschillende hoeken en perspectieven om ervoor te zorgen dat het model objecten vanuit diverse gezichtspunten kan herkennen.
   - **Achtergronden:** Gebruik verschillende achtergronden om het model te helpen zich te concentreren op het object in plaats van op de achtergrond.

    Let op! Deze variatie moet zo consistent mogelijk zijn tussen de klasse. (Niet 1 klasse met veel meer afbeeldingen van de zelfde achtergrond dan de rest.) De achtergrond heeft een lager belang bij een implementatie die consistent de zelfde achtergrond heeft.

**Diversiteit van Objecten:**
   - **Verschillende Exemplaren:** Zorg voor foto's van verschillende exemplaren binnen dezelfde klasse om model overfitting te vermijden en de generalisatie te bevorderen.
   - **Afwisseling in Maat en Vorm:** Variatie in de grootte en vorm van objecten binnen dezelfde klasse kan nuttig zijn om de veelzijdigheid van het model te verbeteren.

    Hou dit goed in de gaten bij het maken van eigen afbeelding, als je geen toegang hebt tot veel verschilende exemplaren heb je een goede externe datasets nodig om deze aan te vullen.

**Consistentie en Resolutie:**
   - **Resolutie:** Zorg dat alle afbeeldingen een consistente en voldoende hoge resolutie hebben om belangrijke details vast te leggen.
   - **Aspect Ratio:** Houd een consistente aspectverhouding aan om voorbereidingstijd te verminderen tijdens de preprocessing.

    Let op dat de afbeeldingen minimaal de gewenste resolutie hebben, upscalen is zwaar af te raden door het gebrek aan detail waar het model klasse aan kan herkennen. Hou ook het aspect ratio in de gaten, dit is niet problematisch maar een plan is nodig voor een goede integratie. Vooral bij webscaping heb je hier veel mee te maken.
    
**Balans Tussen Klassen:**
   - **Gelijk Aantal Afbeeldingen per Klasse:** Verzamel een gelijk aantal afbeeldingen voor elke klasse om een gebalanceerd model te trainen zonder bias.

    Uiteindelijk moet elke klasse ongeveer even veel afbeeldingen hebben, let goed op deze hoeveelheden bij het samenstellen van een dataset aangezien de externe datasets waarschijnlijk niet alle klasse bezitten. Dus als je deze samen gaat voegen kan de hoeveelheid correct zijn maar veroorzaak je gegarandeerd overfitting.

**(Bij Object Detection) Metadata en Labeling:**
   - **Nauwkeurige Labeling:** Zorg voor een nauwkeurige en consistente labeling van afbeeldingen. Overweeg het gebruik van tools voor het annoteren om dit proces te stroomlijnen.
   - **Metadata Vastleggen:** Houd eventueel aanvullende metadata bij, zoals locatie, tijdstip, en gebruikte apparatuur, wat nuttig kan zijn voor verdere analyse en verbetering van het model.

    Voor het labellen van data heb ik gebruik gemaakt van: https://www.makesense.ai/ er bestaan veel andere tools maar zijn vaak stiekem toch betaald of te ingewikkeld om aan de gang te krijgen.

## Externe Dataset

Bij het opbouwen van een dataset is de eerste stap vaak het kijken wat voor data al beschikbaar is.  Waarom duizenden afbeeldingen maken als iemand anders dit al heeft gedaan. Gelukkig bestaan er een hoop gratis online databanks zoals: [Kaggle](https://www.kaggle.com/), [Googles: Open Images](https://storage.googleapis.com/openimages/web/index.html) en [COCO](https://cocodataset.org/#home). 
[Googles: Open Images](https://storage.googleapis.com/openimages/web/index.html) en [COCO](https://cocodataset.org/#home) zijn beide 1 grote dataset waar je onderdelen van kan gebruiken terwijl [Kaggle](https://www.kaggle.com/datasets) een losse dataset zijn geupload door gebruikers. Het is vrij makkelijk te [instaleren en werkend krijgen](https://pypi.org/project/opendatasets/), [extra informatie & datasets](https://pypi.org/project/opendatasets/).

Hieronder staat een excelsheet met de overwogen Kaggle datasets.

In [11]:
# # Commentaar over kwaliteit datasets mag beter
# FileLink("..\\..\\Data\\Datasets Excelsheet.pdf")

#### 
Bekijk [Kaggle: Fruit detection YOLOv4 dataset](https://www.kaggle.com/datasets/kvnpatel/fruits-vegetable-detection-for-yolov4).

Overweeg waarom dit wel of niet een goede set kan zijn.

##### Onderbouwing:
*(Verander of maak hier een bestand voor aan die de dataset checkt)*

- **Variatie in Omstandigheden:** De omstandigheden waren vrijwel identiek, echter maakt dit de set nog niet slecht. Als de implementatie bijvoorbeeld in de supermarkt kassa of bon apparaat was zijn dit goede afbeeldingen ter ondersteuning.
- **Diversiteit van Objecten:** Dit is goed genoeg, het heeft meerdere objecten per klasse die soms alleen of samen op de zelfde afbeelding staan.
- **Consistentie en Resolutie:** Aangezien alle afbeeldingen door de zelfde persoon zijn gemaakt met de zelde camera is de consistentie goed, de resolutie is ook groot genoeg om met de meeste andere sets samen te kunnen werken en geen problemen op te leveren met downscalen. (Dit zou alleen een probleem zijn als je een stuk hogere resolutie nodig hebt.)
- **Balans Tussen Klassen:** Het is moeilijk te zien of dit goed is aangezien de afbeeldingen niet verdeeld zijn over verschillende afbeeldingen, in dit soort gevallen is het aan te raden om dit te checken. *(Voeg nog code toe waar dit wordt gecheckt)*
- **Metadata en Labeling:** Door alleen naar de afbeeldingen te kijken is niet te zien dat dit correct is. Echter na het printen van de afbeeldingen wel:

![image.png](attachment:0abe7b69-ca01-49f1-b175-5ebc3927424d.png)
![image.png](attachment:c7dec3b5-a08f-40c1-b111-423e2bf82ea7.png) *(Nog opnieuw maken / in bestand aantonen)*

In het geval dat je deze klasse wilt gebruiken zou dit een erg goede dataset zijn. Maar op het moment dat een paar klasse ontbreken is dit toch af te raden op basis van variatie en balans.

#### 
Bekijk ook: [Kaggle: Fresh and rotten fruits](https://www.kaggle.com/datasets/sriramr/fruits-fresh-and-rotten-for-classification)

##### Onderbouwing:

- **Variatie in Omstandigheden:** Er is bijna geen variatie, wat het slechter maakt is dat een paar afbeeldingen dit wel heeft wat de kans op overfitting vergroot.
- **Diversiteit van Objecten:** Deze dataset heeft wel meer dan genoeg diversiteit(, ondanks dat een deel van de afbeeldingen nep zijn). 
- **Consistentie en Resolutie:** Het lijkt alsof veel afbeeldingen van het internet zijn geplukt, door naar verschillende afbeeldingen te kijken (of de grootte) kan je zien dat de resolutie niet consistent is. Dat zorgd vaak voor geen problemen zolang de aspect ratio correct is.
- **Balans Tussen Klassen:** Het is moeilijk te zien of dit goed is aangezien de afbeeldingen niet verdeeld zijn over verschillende afbeeldingen, in dit soort gevallen is het aan te raden om dit te checken. *(Voeg nog code toe waar dit wordt gecheckt)*
- **Metadata en Labeling:** Dit is een dataset voor image classification.

Al met al is het zwaar af te raden deze dataset te gebruiken. (Tenzij je toevallig nog een paar extra afbeeldingen moet toevoegen voor balans.)

## Eigen Afbeeldingen

Hoewel het verzamelen van eigen data niet altijd noodzakelijk is is het zeker aan te raden. Stel jezelf de vraag: 

`Is de huidige dataset representatief voor de implementatie?`

In het algemeen wil je dat minimaal **30-50%** van de afbeeldingen overeenkomen met de input die het model kan verwachten.

    Vooral bij het maken van eigen afbeeldingen zijn de kwaliteits eisen van hoog belang. Mijn advies is om een tabel te maken om tijdens de fotoshoot goed grip op deze eisen te kunnen houden.

#### Image Detection

In het geval je met Image Detection wilt werken moet je rekening houden met de hoeveelheid tijd die het kost om alle afbeeldingen te labelen. De simpele tool die ik aanbeveel is [MakeSense](https://www.makesense.ai/). 
Hier is ook een hotkey voor gemaakt:

In [23]:
FileLink("..\\code\\MakeSenseHotkey.ahk")

    (Momenteel is de hotkey gezet op extra muisknoppen maar dit kan ook op andere knoppen worden gezet, verder is het nu een .ahk maar zou hier ook een .exe van kunnen maken - met een klein beetje uitzoek werk)

## Web-Scraper

Een dataset opgebouwd door afbeeldingen van een web scraper kan vrijwel nooit de kwaliteits eisen halen, dus in het geval je dit wel doet zorg dat je goed zicht houdt op wat er in je dataset bevind. (Voor beginners zwaar af te raden.)
Je kan overwegen de web-scraper te gebruiken op het moment dat:
- De klasse nog ongelijk zijn en afbeeldings kwaliteit geen verschil zou maken. (Dus een klein percentage afbeeldingen niet 30% van de klasse.)
- Wanneer je al een grote set hebt en extra "ruis" wilt toevoegen.
- Andere opties niet beschikbaar zijn.
- Het model moet werken op nieuwe afbeeldingen van het internet.

Hieronder de webscraper:

In [27]:
FileLink('..\\code\\Webscraper.ipynb')

### Blik op Dataset
Om een goed beeld te kunnen krijgen van wat je in de dataset heb kan je door de folders kijken om te zien wat voor data je nou echt hebt maar dit zegt nog niet alles. In onderstaande notebook gebruiken we een paar functies om te kijken naar wat er nu in je dataset bevind.

In [29]:
FileLink('..\\code\\Data Understanding.ipynb')