# Algoritam K-sredina

Algoritam `k-sredina` (engl. k-means) je algoritam klasterovanja koji pronalazi `k` klastera u skupu podataka. Svaki od klastera je predstavljen pomoću centroide koja se dobija uprosečavanjem instanci koje sadrži. 

Polaznih `k` centroida se bira nasumično, a potom se ponavljaju sledeći koraci:

1. instance se raspoređuju u nove klastere tako što se svaka instanca pridružuje klasteru određenom najbližom centroidom

2. izračunavaju se nove centroide kao prosek instanci koje su im pridružene


Ovi koraci se izvršavaju sve dok se centroide ne stabilizuju. Kada centroide postanu iste u dvema uzastopnim iteracijama, algoritam se zaustavlja.

Ukoliko korisnik zna nešto o strukturi svojih podataka, početni centroidi se mogu i pažljivije odabrati.

<img src='assets/k-means.png'>

In [2]:
import numpy as np
from matplotlib import pyplot as plt

`Scikit-learn` biblioteka omogućava korišćenje algortima k-sredina kroz `KMeans` klasu `cluster` paketa.

In [3]:
from sklearn.cluster import KMeans

Sledeći skup sadrži dva klastera podataka - prvi klaster prati x-koordinatu sa vrednošću 1, a drugi x-koordinatu sa vrednošću 10.

In [4]:
data = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

## Odabir parametra `k` za broj klastera

U praksi obično radimo sa većim skupovima podataka u kojima nije baš uvek intuitivno pretpostaviti broj postojećih klastera. Optimalan broj klastera određujemo tako što pratimo ponašanje modela za različite vrednosti ovog parametra, a potom odaberemo najoptimalniju tj. onu za koju se dobija najmanja vrednost funkcije cilja. 

<img src='assets/k-means_objective.png'>

Funkcija `make_blobs` biblioteke scikit-learn omogućava kreiranje testnih skupova podataka. Njeni argumenti su ukupan broj instanci skupa (`n_samples` parametar), veličina prostora atributa (`n_features` parametar), broj centroida tj. klastera (`centers` parametar) i parametar kojim se utiče na izbor njihovog raspoređivanja (`random_state` parametar). Povratne vrednosti funkcije su generisani skup podataka oblika `n_samples x n_features` i njima pridružene labele.

In [5]:
from sklearn.datasets import make_blobs

## Silhouette score

In [6]:
from sklearn import metrics

<img src='assets/silhouette_score.jpeg' style='width: 600px'>