# Inleiding

In deze opdracht gaan jullie een clustering algoritme toepassen. Jullie kiezen 1 algoritme uit de volgende lijst:

1. Mean-Shift Clustering
2. Agglomerative Clustering (Ward)
3. DBSCAN / OPTICS
4. Gaussian Mixture Model

Let op: In tegenstelling tot de eerste opdracht, voor deze en de resterende 1 opdracht worden jullie peer reviews alleen beoordeeld op een ja of nee basis. 

Zoals geschreven in de vakbeschrijving:

"Het niet op tijd of lui maken van een individuele peer review resulteert in een reductie van 0,5 punt voor het cijfer van de bijhorende opdracht van de reviewer."

Gezien dat jullie peer reviews zijn sowieso kwalitatief beoordeeld voor Opdracht 1, is deze halfpunt reductie alleen voor Opdrachten 2 t/m 4 geldig. 

### Algemene Coderen Conventies

De volgorde van het python script is belangrijk. Zo zorg je bijvoorbeeld altijd dat eerst de benodigde packages worden ingeladen geïnstalleerd en geïmporteerd). Verder is het goed om van tevoren jouw working directory te controleren. 

Schrijf het python script daarom met een duidelijke indeling van met verschillende stappen. Bij elke stap dient toelichting worden gegeven:
1. Wat is het doel van deze stap?
2. Wat is de input van deze stap?
3. Wat is de output van deze stap en waar heb je deze output hierna nog nodig?

Hieronder voorbeelden van de verschillende punten hierboven.

In [None]:
### Voorbeeld: Standaard Imports
import numpy as np
import matplotlib.pyplot as plt


### Controleer Working Directory
import os
print(os.getcwd())

# Pas je working directory aan indien gewenst
path = 'C:\\Users\\rburrus\\Desktop\\Jupyter Notebook' # zet hier wat voor jou goed is
os.chdir(path)
print(os.getcwd())


### Voorbeeld: Functie met Beschrijving Schrijven

def voorbeeld_functie(parameter1, parameter2 = 2):
    # Doel: dit functie maakt een bepaalde berekening
    # In: parameter1 (float), parameter2 (integer)
    # Uit: parameter1 macht parameter2 (standaard macht 2)
    
    return parameter1 ** parameter2

# Theorievragen

Begin met het beantwoorden van een aantal vragen over het algoritme (gebruik vooral plaatjes bij deze uitleg).

Dit is wat er nodig is voor de hoogste score volgens de beoordelingsrubriek:

"Er is uitleg gegeven over de uitwerking van het algoritme. Na het lezen van de uitleg is het duidelijk hoe het werkt. Er zijn voor en nadelen van het algoritme benoemd. Ook is het duidelijk wat parameters doen met de uitkomst van de clustering."

Wat is clustering? Wanneer wordt het gebruikt?

Wat doet je algoritme?

Hoe werkt je algoritme?

Wat zijn de voor- en nadelen?

Wat voor opties heb je voor performance evaluatie?

Zie: https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation

Welke parameters kun je instellen en wat betekenen deze?

# Deelopdracht 1/2 - Iris Dataset

Begin met de makkelijkere dataset iris. Laad de dataset Iris in met de volgende commando’s:

In [None]:
from sklearn import datasets
iris = datasets.load_iris()

### Dataverkenning

Dit is wat er nodig is voor de hoogste score volgens de beoordelingsrubriek:

"Er is een grondige verkenning gedaan incl visualisaties van de data en er zijn onderbouwde keuzes gemaakt om data kwaliteitsissues te ondervangen. De groep maakt duidelijk onderscheid in belangrijke en onbelangrijke variabelen"

Selecteer alleen de petal length en petal width en de Species. 

Geef de petal length vs de petal width weer in een scatterplot en geef per species een andere kleur. 

In [None]:
(code cell)

Zie je al duidelijke clusters?

(Markdown cell voor uitleg)

Voer een uitgebreidere dataverkenning uit (volgens de beschrijving hierboven uit de beoordelingsrubriek). Gebruik zoveel cellen als nodig, maar liever alleen plotjes/prints maken die echt een impact op jullie modellen gaan maken (samen met uitleg tekst van wat jullie daarmee opvalt). 

In [None]:
(voorbeeld code cell)

(voorbeeld Markdown cell)

### Algoritme Toepassen

Pas nu het cluster algoritme toe op de variabelen petal length, petal width

In [None]:
(code cell)

Visualiseer de clusters (zowel de voorspelde/werkelijke) met een kleur en voor de werkelijke clusters gebruik een ander symbool.

In [None]:
(code cell)

Vergelijk de voorspellende clusters met de werkelijke clusters (Species) in een confusion matrix.

In [None]:
(code cell)

Wat valt op als naar de visualisatie en tabel wordt gekeken?

(Markdown cell voor uitleg)

Wat is de invloed van de instelbare parameters op de clusters?

(Markdown cell voor uitleg)

Creëer een model waarin te veel en te weinig clusters zichtbaar zijn (of leg uit waarom dit niet kan).

In [None]:
(code cell voor te veel clusters)

In [None]:
(code cell voor te weinig clusters)

(Markdown cell voor uitleg)

# Deelopdracht 2/2 - Keuze uit 2 datasets

Laad nu een tweede dataset in, keuze uit:

1. https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python
2. https://www.kaggle.com/binovi/wholesale-customers-data-set 

### Dataverkenning

Dit is wat er nodig is voor de hoogste score volgens de beoordelingsrubriek:

"Er is een grondige verkenning gedaan incl visualisaties van de data en er zijn onderbouwde keuzes gemaakt om data kwaliteitsissues te ondervangen. De groep maakt duidelijk onderscheid in belangrijke en onbelangrijke variabelen"

Inspecteer en visualiseer de dataset.

In [None]:
(code cell)

Wat valt je op?

(Markdown cell voor uitleg)

Pas data cleaning toe (outliers en missende waarden). Let je proces uit in de commentaar.

In [None]:
(code cell)

Voer een uitgebreidere dataverkenning uit (volgens de beschrijving hierboven uit de beoordelingsrubriek). Gebruik zoveel cellen als nodig, maar liever alleen plotjes/prints maken die echt een impact op jullie modellen gaan maken (samen met uitleg tekst van wat jullie daarmee opvalt). 

In [None]:
(voorbeeld code cell)

(voorbeeld Markdown cell)

### Algoritme Toepassen

Dit is wat er nodig is voor de hoogste score volgens de beoordelingsrubriek:

(onder onderwerp Clustering): 
"Het gekozen cluster model is correct uitgevoerd in python en is werkend. Er is beschreven hoeveel clusters er gevonden zijn en er wordt benoemd wat hun eigenschappen zijn (interpretatie). De clusters zijn gevisualiseerd. Het model is getuned; er is nagedacht over de parameters en er is een elbow plot gemaakt."

(onder onderwerp Aantal Variabelen Clustering):
"De groep heeft aandacht besteed aan het bepalen van het aantal variabelen. De onderbouwing van het aantal variabelen is logisch. De groep laat zien wat verandering van het aantal variabelen doet met de uitkomst. Er is PCA uitgevoerd om het aantal variabelen te reduceren."

Pas het clustering algoritme toe op een selectie uit de beschikbare variabelen.

In [None]:
(code cell)

Welke variabelen kies je en waarom?

(Markdown cell voor uitleg)

Hoeveel clusters vind je? Kan je de clusters interpreteren (bijv een bepaald klantprofiel)?

(Markdown cell voor uitleg)

Tune je model (vind en geef uitleg over de juiste waardes voor de instelbare parameters).

In [None]:
(code cell)

(Markdown cell voor uitleg)

Maak een elleboog plot voor een van je hyperparameters en leg uit hoe je het plot kan gebruiken.

In [None]:
(code cell)

(Markdown cell voor uitleg)

Pas PCA (Principal Component Analyse) toe om het aantal variabelen kleiner te maken. Leg je resultaten uit. 

In [None]:
(code cell)

(Markdown cell voor uitleg)