# Machine Learning Portfolio 3

|Name|Github|Kaggle|
|----|------|------|
|Henry Lau|HenryLau08|Henry Lau|
|Mohamed Belaachir|mobelaachir|Mo Belaachir|
|Jayden Debi-Tewari|Jaydendt1|jaydendt123|
|Quincy Soerohardjo|quincysoerohardjo2002|Quincy Soerohardjo|
|Mattias Aareleid|mattyonaize|Mattias Aareleid|

## Table of Contents
- [Data Overview](#data-overview)
- [Exploratory Data Analysis](#exploratory-data-analysis)
- [Feature Engineering](#feature-engineering)
- [Modeling](#modeling)
    
- [Results](#results)
    - [Overview](#overview)
    - [Scores](#scores)
- [Conclusion & Advice](#conclusion--advice)
- [Sources](#sources)

In [None]:
import os
import warnings
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score



from sklearn.metrics import accuracy_score

pd.set_option('display.max_columns', None)

## Data Overview

In [None]:
labels_new = pd.read_csv('labels_new.csv')
sample_submission = pd.read_csv('sample_submission.csv')

print("labeled data")
display(labels_new.head(10))
print()
print("sample submission voor kaggle")
display(sample_submission.head(10))

labeled data


Unnamed: 0,filename,genre
0,m00248.wav,metal
1,m00230.wav,country
2,m00637.wav,hiphop
3,m00627.wav,metal
4,m00138.wav,reggae
5,m00192.wav,classical
6,m00429.wav,hiphop
7,m00623.wav,reggae
8,m00002.wav,jazz
9,m00039.wav,reggae



sample submission voor kaggle


Unnamed: 0,filename,genre
0,metal.00032.wav,classical
1,pop.00023.wav,blues
2,classical.00076.wav,blues
3,classical.00021.wav,rock
4,metal.00052.wav,classical
5,classical.00040.wav,reggae
6,pop.00097.wav,hiphop
7,classical.00005.wav,pop
8,classical.00056.wav,pop
9,metal.00073.wav,classical


## K-means

K-means is een bekend algoritme dat wordt gebruikt voor clustering, een methode binnen unsupervised machine learning. Dit betekent dat het helpt om gegevens zonder labels in groepen te verdelen op basis van hun eigenschappen. Het doel van K-means is om een dataset op te splitsen in 'k' groepen (clusters). Elk datapunt wordt toegewezen aan de groep waarvan het gemiddelde, het zogenaamde centroid, het dichtstbij ligt.

[(Wikipedia contributors, 2024)](https://en.wikipedia.org/wiki/K-means_clustering)


### Afstandsmaatstaven in K-means

Om te bepalen welk gegevenspunt bij welk cluster hoort, gebruikt K-means een afstandsmaat. Meestal wordt de Euclidische afstand gebruikt. Soms is de Manhattan-afstand beter geschikt, afhankelijk van de dataset en het doel.

Euclidische afstand:
De Euclidische afstand meet de rechte lijn tussen twee punten in een n-dimensionale ruimte. Het wordt berekend met:

$$
d_{\text{euclid}}(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

Manhattan-afstand:
De Manhattan-afstand berekent de totale som van de absolute verschillen tussen de coördinaten van twee punten. Het wordt berekend met:

$$
d_{\text{manhattan}}(x, y) = \sum_{i=1}^{n} |x_i - y_i|
$$

[(Sahani, 2024)](https://medium.com/analytics-vidhya/euclidean-and-manhattan-distance-metrics-in-machine-learning-a5942a8c9f2f)





#### Werking van het K-means algoritme

Het K-means algoritme werkt in verschillende stappen en kan worden aangepast met verschillende manieren om afstanden te meten. Eerst worden 'k' willekeurige startpunten, ook wel centroids genoemd, gekozen uit de dataset. Daarna wordt voor elk gegevenspunt de afstand tot de centroids berekend. Hiervoor kan de Euclidische afstando f de Manhattan-afstand worden gebruikt. Elk punt wordt toegewezen aan het dichtstbijzijnde centroid.

Vervolgens worden de centroids bijgewerkt. Bij de Euclidische afstand wordt het nieuwe centroid berekend als het gemiddelde van alle punten in het cluster. Bij de Manhattan-afstand wordt de mediaan van de punten gebruikt in plaats van het gemiddelde. Dit wordt K-medians genoemd. De stappen van toewijzen en bijwerken worden herhaald totdat de centroids niet meer veranderen of het maximale aantal iteraties is bereikt.



[(GeeksforGeeks, 2024)](https://www.geeksforgeeks.org/k-means-clustering-introduction/)

#### Wiskundige formule

Bij K-means wordt de totale binnen-clustervariatie geminimaliseerd. Dit wordt formeel uitgedrukt als:

$$
\sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2
$$

Waarbij:
- *k*: het aantal clusters.  
- *C<sub>i</sub>*: het i-de cluster.  
- *x*: een gegevenspunt in cluster *C<sub>i</sub>*.  
- *μ<sub>i</sub>*: het centroid van cluster *C<sub>i</sub>*.  
- *‖x − μ<sub>i</sub>‖²*: de kwadraatafstand tussen een punt en het centroid.  

[(Ogbeide, 2024)](https://medium.com/@jeffzyme/understanding-inertia-distortion-and-silhouette-scores-and-their-differences-key-metrics-for-458fe28ce2aa)


#### Optimalisatie van k

Het bepalen van k (het aantal clusters) is een belangrijk onderdeel van K-means. Er zijn twee veelgebruikte methoden om dit te doen:

- **Elbow-methode:** Hierbij wordt gekeken naar de som van de kwadraatafstanden binnen clusters voor verschillende waarden van k. Het "knikpunt" in de grafiek geeft aan wat het optimale aantal clusters is.

- **Silhouette-score:** Deze methode beoordeelt hoe goed een punt in zijn eigen cluster past, vergeleken met het dichtstbijzijnde andere cluster. Hoe hoger de score, hoe beter de clustering.


[(Mahendru, 2025)](https://medium.com/analytics-vidhya/how-to-determine-the-optimal-k-for-k-means-708505d204eb)




## Bronnen:

- Wikipedia contributors. (2024, 27 november). K-means clustering. https://en.wikipedia.org/wiki/K-means_clustering

- Sahani, G. R. (2024, 15 januari). Euclidean and Manhattan distance metrics in Machine Learning. Medium. https://medium.com/analytics-vidhya/euclidean-and-manhattan-distance-metrics-in-machine-learning-a5942a8c9f2f

- GeeksforGeeks. (2024, 29 augustus). K means Clustering Introduction. GeeksforGeeks. https://www.geeksforgeeks.org/k-means-clustering-introduction/

- Ogbeide, J. (2024, 14 november). “Understanding Inertia, Distortion, and Silhouette Scores and their differences: Key Metrics for Effective Clustering Analysis”. Medium. https://medium.com/@jeffzyme/understanding-inertia-distortion-and-silhouette-scores-and-their-differences-key-metrics-for-458fe28ce2aa

- Mahendru, K. (2025, 3 januari). How to Determine the Optimal K for K-Means? - Analytics Vidhya - Medium. Medium. https://medium.com/analytics-vidhya/how-to-determine-the-optimal-k-for-k-means-708505d204eb

# Hiërarchische clustering

Hierarchische clustering is een techniek binnen unsupervised machine learning die gegevenspunten groepeert op basis van hoe vergelijkbaar ze zijn. Het resultaat is een hiërarchie van clusters, die meestal wordt weergegeven als een dendrogram. Dit toont hoe de clusters op verschillende niveaus met elkaar verbonden zijn. 
Soorten Hierarchische Clustering:

1. **Agglomeratieve clustering:** Bij deze methode begint elk gegevenspunt als een apart cluster. Vervolgens worden de meest vergelijkbare clusters stap voor stap samengevoegd, totdat uiteindelijk alle punten in één groot cluster zitten.

2. **Divisive clustering:** Hierbij begint alle data in één groot cluster. Dit cluster wordt vervolgens herhaaldelijk opgesplitst in kleinere clusters op basis van verschillen, totdat elk gegevenspunt een eigen cluster vormt.

[(Uniyal, 2024)](https://www.appliedaicourse.com/blog/hierarchical-clustering-in-machine-learning/)
[(Gupta, 2022)](https://www.scaler.com/topics/machine-learning/hierarchical-clustering/)

#### Hoe Agglomeratieve Hiërarchische Clustering Werkt

Bij agglomeratieve hiërarchische clustering begint elk gegevenspunt als een eigen cluster. In elke iteratie worden de twee dichtstbijzijnde clusters samengevoegd, waarbij een vooraf gekozen afstandsmaat wordt gebruikt om de afstand tussen clusters te berekenen. Het proces gaat door totdat er nog maar één cluster overblijft of het gewenste aantal clusters is bereikt.

**Afstandsmaatstaven:**

Er worden verschillende methoden gebruikt om de afstand tussen clusters te berekenen:

- **Single linkage:** De afstand tussen de twee dichtstbijzijnde punten in verschillende clusters.
- **Complete linkage:** De afstand tussen de twee verste punten in verschillende clusters.
- **Average linkage:** De gemiddelde afstand tussen alle punten in twee verschillende clusters.
- **Ward’s methode:** Minimaliseert de variantie tussen clusters en wordt vaak gebruikt omdat het gelijkmatige clusters van vergelijkbare grootte creëert.

**Dendrogram in Hierarchical Clustering**

Een dendrogram is een boomvormig diagram dat laat zien hoe clusters worden gevormd in hierarchische clustering. Elk blad in het diagram stelt één gegevenspunt voor. Naarmate je omhoog kijkt in het diagram, zie je hoe clusters samenkomen. De hoogte waarop twee clusters worden samengevoegd geeft aan hoe verschillend of ver ze van elkaar zijn. Dit maakt het makkelijker om te begrijpen hoe de gegevens en clusters met elkaar verbonden zijn in elke stap van het proces.



**Belangrijke Verschillen tussen Divisieve Clustering en Agglomeratieve Clustering**

Divisieve clustering is complexer omdat het bij elke stap alle mogelijke manieren moet overwegen om een cluster op te splitsen, wat meer rekenkracht vereist. Deze methode is vooral geschikt voor datasets met een natuurlijke top-down hiërarchie, zoals organisatiestructuren of stambomen. Hoewel agglomeratieve clustering vaker wordt toegepast, biedt divisieve clustering waardevolle inzichten in situaties waarin een hiërarchisch overzicht van boven naar beneden belangrijk is.

[(Uniyal, 2024)](https://www.appliedaicourse.com/blog/hierarchical-clustering-in-machine-learning/)



- Uniyal, M. (2024, 18 oktober). Hierarchical clustering in machine learning. Applied AI Blog. https://www.appliedaicourse.com/blog/hierarchical-clustering-in-machine-learning/

- Gupta, B. (2022, 16 november). Hierarchical clustering in machine learning- Scaler topics. Scaler Topics. https://www.scaler.com/topics/machine-learning/hierarchical-clustering/







## Exploratory Data Analysis

## Feature Engineering

## Modeling

## Results

## Conclusion & Advice

## Sources