# Klustring

In [None]:
import numpy as np
import pandas as pd

# Läs datafilen
filename = './features_30_sec.csv'
df = pd.read_csv(filename, header = 0)


In [None]:
# Visa de första 5 raderna
df.head()

In [None]:
# Välj några features och plocka ut labels
feature_names = ['chroma_stft_mean', 'rms_var', 'spectral_centroid_var', 'spectral_bandwidth_mean', 'harmony_var', 'harmony_var', 'rolloff_mean']
features = df[feature_names]
labels = df.label

# En vanlig notering för features och labels är X och y. Vi kommer att använda det här.
X = features
y = labels

In [None]:
# Notera att vi inte splittar i tränings- och testdataset eftersom vi inte har något att verifiera i unsupervised learning.

In [None]:
# Eftersom k-means använder sig av euklidikt avstånd måste vi skala om våra variabler (Tänk hur tokigt det skulle vara om en variabel är mycket större än den andra - t.ex antal rum vs lägenhetsstorlek i husprisexemplet)
# Säg gärna till om detta steg känns oklart så tar vi det igen!
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# K-means clustering

In [None]:
from sklearn.cluster import KMeans

# Vi väljer att algoritmen ska hitta 5 kluster åt oss.
NUM_CLUSTERS = 5

# Initiera en k-means clustering-modell
kmeans = KMeans(n_clusters=NUM_CLUSTERS, random_state=42)
# "Träna" den med våra datapunker
kmeans.fit(X_scaled)

In [None]:
# Det något missvisande labels_ innehåller data om vilket kluster de olika låtarna tillhör
kmeans.labels_

# Undersöka kluster
Nu ska vi kolla på de olika kluster vi skapat och se om vi kan se något mönster.

Idén är att kolla hur många av varje genre det är i varje kluster. Då måste vi först göra lite ommappningar. Sen kan vi plotta den infon

In [None]:
from collections import defaultdict

# Re-assignar till en mer logisk variabel för att göra det tydligare vad kmeans.labels_ faktiskt är
cluster_numbers = kmeans.labels_


# Här mappar vi om varje kluster till en lista med labels.
cluster_labels = defaultdict(list) # defaultdict är en dictionary som är initialiserad med tomma listor
for i in range(len(cluster_numbers)):
    cluster_number = cluster_numbers[i]
    cluster_labels[cluster_number].append(y[i])

    
from random import sample

sample(cluster_labels[0], 10) # Visar 10 random samples från kluster 0

In [None]:
# Och nu använder vi pythons inbyggda Counter för att räkna antalet av olika distinkta labels i varje kluster
from collections import Counter
cluster_members = {}
for i in range(NUM_CLUSTERS):
    cluster_members[i] = Counter(cluster_labels[i])
    
cluster_members[0] # Visa hur många av varje label kluster 0 har

In [None]:
# Dags att plotta!
from matplotlib.pyplot import bar
import matplotlib.pyplot as plt

fig, axs = plt.subplots(NUM_CLUSTERS, sharex=False, figsize=(10,15))
label_names = y.unique()
for i in range(NUM_CLUSTERS):
    
    label_counts = [cluster_members[i][label] for label in label_names]
    
    axs[i].bar(label_names, label_counts, label=label_names)
    
# Resultatet visar hur många av varje label som finns i varje kluster 

# Egen övning
- Ändra vilka features man kollar på samt antalet kluster. 
  - Tolka vad som händer!
  - Testa 10 kluster (dvs antalet genrer). Varför blir det inte perfekt uppdelning i genrer? (Finns flera möjliga anledningar)
- Kolla på fler klusteralgoritmer och se om du kan få ett bättre resultat
  - https://scikit-learn.org/stable/modules/clustering.html