# Klasterizacija metodom K-srednjih vrednosti

In [None]:
from testbench import Testbench
import random

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from scipy.spatial.distance import cdist

Naredna ćelija predstavlja mesto implementacije funkcije predviđanja klastera zadatih podataka. Kao parametar se funkciji prosleđuju podaci u formatu np.ndarray koji je dvodimenzionalan tako da se u redovima nalaze različite instance a u kolonama su date karakteristike pojedinačnih instanci u obliku brojeva. Neophodno je izvršiti podelu na četiri grupacije tako da je povratna vrednost funkcije u formatu np.ndarray i predstavlja numeričku vrednost koja opisuje kom klasteru zadata instanca odgovara. Ukupan broj redova u nizu je 400.

Bitno je da klasteri budu opisani brojevima od 0 do 3 i da je redosled predviđenih klastera za zadate podatke dat u istom redosledu u kom su dati podaci na ulazu. Korišćenje pomoćnih funkcija je dozvoljeno.

In [None]:
def k_means(data: np.ndarray) -> np.ndarray:
    number_of_clusters = 4
    number_of_iterations = 1000
    idx = np.random.choice(len(data), number_of_clusters, replace=False)
    centroids = data[idx, :] 
     
    distances = cdist(data, centroids ,'euclidean') 
     
    points = np.array([np.argmin(i) for i in distances]) 
     
    for _ in range(number_of_iterations): 
        centroids = []
        for idx in range(number_of_clusters):
            temp_cent = data[points==idx].mean(axis=0) 
            centroids.append(temp_cent)
 
        centroids = np.vstack(centroids)  
         
        distances = cdist(data, centroids ,'euclidean')
        points = np.array([np.argmin(i) for i in distances])
         
    return points 


In [None]:
Testbench(k_means)

U narednom segmentu je implementirano generisanje podataka nad kojim se vrši klasterizacija. Datim podacima imate pristup radi eventualnog testiranja koda i modifikacije istog pre pozivanja funkcije Testbench(k_means). 

Data ćelija služi za pozivanje funkcije k_means nad prethodno generisanim podacima kao i za izračunavanje tačnosti same predikcije korišćenjem funkcije adjusted_rand_score nad promenljivama true_labels i predicted_cluster.

In [None]:
data = np.load("datasets/k means/data.npy")
true_labels = np.load("datasets/k means/labels.npy")

In [None]:
predicted_cluster = k_means(data)
adjusted_rand_score(true_labels, predicted_cluster)

### Vizuelizacija podataka i rezultata klasterizacije

In [None]:
pcadf = pd.DataFrame(data, columns=["component_1", "component_2"])
pcadf["predicted_cluster"] = predicted_cluster
pcadf["true_label"] = true_labels
plt.figure(figsize=(9, 9))

centroids  = kmeans.cluster_centers_

scat = sns.scatterplot(
    x="component_1",
    y="component_2",
    s=50,
    data=pcadf,
    hue="predicted_cluster",
    style="true_label",
    palette="Set2",
    legend="auto"
)



scat.set_title("Clustering results")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.0)
plt.show()