# An example machine learning notebook

### Notebook door Esmee Kraan
#### [Drowgoo - Alphen aan den Rijn](https://drowgoo.nl/)

---

## Table of contents

1. [Introductie](#Introductie)

2. [Het probleem domein](#The-problem-domain)

3. [Business Understanding](#Business-Understanding)

4. [Required libraries](#Required-libraries)

5. [Data Understanding](#Data-Understanding)

6. [Data Prepartion](#Data-Preparation)

7. [Modeling](#Modeling)

8. [Evaluation](#Evaluation)

9. [Deployment](#Deployment)

10. [Reproducibility](#Reproducibility)

---

# Introductie

[[ go back to the top ]](#Table-of-contents)

Wat ik ga benoemen in het notebook, eigenlijk een normale introductie van een document.

---

# Het probleem domein

[[ go back to the top ]](#Table-of-contents)

*Hier ga je een beetje benoemen waarom je het doet, maar vooral ga je het over het domein hebben en dit contextualiseren met bijvoorbeeld afbeeldingen, waardoor de lezer een beeld krijgt waar het over gaat, voorbeeld:*

We hebben de opdracht gekregen van DROWGOO om onderzoek te doen naar vogel geluiden om een machine learning model te maken die vogelsoorten kan herkennen.

### Bird Sounds
![image.png](attachment:image.png)

*uitleg wat het is en repeat voor alles wat relevant is*

---

# Business Understanding

[[ go back to the top ]](#Table-of-contents)

*In deze sectie ga ik eerst benoemen wat het doel is van de klant, wat in de vorige sectie al kort benoemd is. Hier ga ik wat meer de diepte in over waarom ze dit doel willen bereiken en welk probleem het oplost.*

*Vervolgens stel ik mezelf een aantal vragen zoals:*
> Weet ik wat ik ga oplossen?

*antwoord*

> Weet ik wat de KSF's (kritieke succesfactoren) van het project zijn? Wanneer is het project succesvol?

*antwoord*

> Begrijp ik de context van de vraag van de klant en de zakelijke of wetenschappelijke toepassing van het project? (dit helpt om gerichter te werken naar een oplossing, bijvoorbeeld voor welke doelgroep ik het doe)  

*antwoord*

> Is er een ontwerp of een eindvisie waar ik naartoe moet werken?

*antwoord*

> Heb ik overwogen of de vraag wel opgelost kan worden met de huidige data?

*antwoord*

*Het idee is dat ik de vragen kan beantwoorden voordat ik ook maar een regel code heb geschreven, dus door middel van interviews en literatuurstudie.*

---

# Required Libraries

[[ go back to the top ]](#Table-of-contents)

*korte uitleg over de libraries die ik gebruik om het project werkend te krijgen, bijvoorbeeld uit een willekeurige notebook online:*

Als je Python nog niet op je computer hebt geïnstalleerd, kun je gebruikmaken van de [Anaconda Python-distributie](http://continuum.io/downloads) om de meeste benodigde Python-pakketten te installeren. Anaconda biedt hiervoor een eenvoudige installatie door dubbel te klikken.

Deze notebook maakt gebruik van verschillende Python-bibliotheken die standaard zijn opgenomen in de Anaconda-distributie van Python. De belangrijkste libraries die we gaan gebruiken zijn:

* **NumPy**: Biedt een snelle numerieke array-structuur en bijbehorende hulpfuncties.
* **pandas**: Biedt een DataFrame-structuur om data in het geheugen op te slaan en er eenvoudig en efficiënt mee te werken.
* **scikit-learn**: Het essentiële Machine Learning-pakket in Python.
* **matplotlib**: Basisbibliotheek voor het plotten in Python; de meeste andere Python-plotlibraries zijn hierop gebaseerd.
* **Seaborn**: Geavanceerde statistische plotbibliotheek.
* **watermark**: Een extensie voor Jupyter Notebook die tijdstempels, versienummers en hardware-informatie kan afdrukken.

Om ervoor te zorgen dat je alle benodigde libraries hebt, kun je deze installeren met `conda` of `pip`:

```bash
    conda install numpy pandas scikit-learn matplotlib seaborn
    pip install numpy pandas scikit-learn matplotlib seaborn
```

`conda` of `pip` zal mogelijk vragen om enkele libraries bij te werken als je niet de nieuwste versies hebt. Sta toe dat dit gebeurt.

---

In [None]:
# Data Manipulation and Analysis
import pandas as pd # type: ignore
import numpy as np # type: ignore

# Machine Learning and Data Preprocessing
from sklearn.preprocessing import LabelEncoder # type: ignore
from sklearn.model_selection import train_test_split # type: ignore

# Visualization
import matplotlib.pyplot as plt # type: ignore

# System and File Management
import sys
import os
import time

# AI packages
import tensorflow as tf # type: ignore
import tensorflow_probability as tfp # type: ignore


---

# Data Understanding

[[ go back to the top ]](#Table-of-contents)

*Hier ga ik echt diep in op de data door middel van een stapsgewijze analyse. Bijvoorbeeld:*

> Eerst bekijken wat er in de data zit met `df.head()`

“Oh, ik zie dat er veel data ontbreekt” *verwijdert ontbrekende data*

> `df.describe()`

“Ik zie nu x” *voer Y uit*

> Enzovoort

*Het idee is dus dat ik bij elke regel uitleg waarom ik iets doe. Ik sluit altijd af met een opsomming van mijn bevindingen.*

---

# Data Preparation

[[ go back to the top ]](#Table-of-contents)

*Eenvoudig gezegd houdt dit in dat ik de data opschoon tot het punt waarop ik deze in een model kan gebruiken. Soms vereist dit slechts kleine aanpassingen, maar het kan ook een uitgebreide schoonmaakprocedure zijn, afhankelijk van de staat en de complexiteit van de dataset.*

Hierbij ga ik elke stap onderbouwen, bijvoorbeeld:

1. **Schaal normaliseren:** Bij variabelen met grote verschillen in schaal gebruik ik normalisatietechnieken, zoals min-max-scaling of standaardisatie.
2. **Categorische variabelen omzetten:** Alle categorische data zet ik om naar numerieke waarden (bijvoorbeeld met one-hot encoding) zodat ze bruikbaar zijn in het model.

*Het doel is om bij elke stap duidelijk uit te leggen waarom ik deze uitvoer. Ik sluit af met een opsomming van mijn bevindingen en de voorbereidende acties die ik heb ondernomen om de data modelklaar te maken.*

---

# Modeling

[[ go back to the top ]](#Table-of-contents)

*Korte uitleg over het model dat ik ga gebruiken en waarom ik specifiek hiervoor kies.*

Bijvoorbeeld:

1. **Modelselectie:** Op basis van de probleemstelling (bijvoorbeeld classificatie, regressie of clustering) kies ik een passend model. Voor een classificatieprobleem kies ik bijvoorbeeld tussen logistieke regressie, Random Forest, of een SVM-model.
2. **Waarom dit model?** Vervolgens leg ik uit waarom dit model geschikt is. 
3. **Hyperparameter-tuning:** Hier beschrijf ik mijn aanpak voor het optimaliseren van de modelparameters.

*Het doel is om bij elke keuze een onderbouwing te geven.*

---

# Evaluation 

[[ go back to the top ]](#Table-of-contents)

*Met behulp van visualisaties laat ik zien waarom het model goed presteert of waar het tekortschiet en benoem ik mogelijke vervolgstappen voor verder onderzoek.*

Bijvoorbeeld:

1. **Modelprestaties visualiseren:** Ik gebruik grafieken zoals confusion matrixes om te laten zien hoe het model presteert.
2. **Vergelijken van metriek-resultaten:** Op basis van de gekozen evaluatiemetrieken (bijv. accuraatheid, precisie, recall) analyseer ik of het model voldoet aan de vooraf bepaalde succescriteria.
3. **Vervolgstappen en verbeteringen:** Op basis van de bevindingen stel ik vervolgstappen voor.

*Het doel is om duidelijk aan te geven of het model succesvol is en welke mogelijkheden er zijn voor verdere optimalisatie. Ik sluit af met een samenvatting van de resultaten en de aanbevolen vervolgstappen voor toekomstig onderzoek.*

---

# Deployment

[[ ga terug naar boven ]](#Table-of-contents)

*In deze fase leg ik uit hoe de resultaten overgedragen kunnen worden en besteed ik aandacht aan de onderhoudbaarheid, security en deployment van het model*

---


# Reproducibility

[[ go back to the top ]](#Table-of-contents)

*Om ervoor te zorgen dat mijn notebook reproduceerbaar is, zorg ik ervoor dat alle stappen eenvoudig kunnen worden herhaald. Dit houdt in dat er een `requirements.txt`-bestand beschikbaar is met alle benodigde bibliotheken en hun versienummers. Daarnaast bied ik een compacte versie van de belangrijkste code aan in één codeblok, zodat anderen deze gemakkelijk kunnen uitvoeren.*

Bijvoorbeeld:

1. **Requirements documenteren:** Ik creëer een `requirements.txt`-bestand dat alle gebruikte libraries en versienummers bevat, zodat anderen dezelfde omgeving kunnen instellen.
2. **Samenvatting van de code:** In één overzichtelijk codeblok geef ik de kern van het proces weer, zodat alle belangrijke stappen snel opnieuw kunnen worden uitgevoerd.

*Dit alles zorgt ervoor dat het notebook eenvoudig reproduceerbaar is voor andere gebruikers en consistent dezelfde resultaten oplevert.*

---