## K-means

K-means iliti algoritam `k-sredina` grupise podatke u `k` klastera. Svaki klaster je predstavljen centroidom koja se dobija kao prosek svih instanci podataka koje joj pripadaju. Broj klastera se unapred zadaje dok se pocetne centroide nasumicno biraju (nekada se mogu i zadati ako je struktura poznata).

<img src='kmeans.png'>

### Paznja! Ne mesati K-means model koji je klasterovanje - nenadgledano masinsko ucenje, sa kNN koji je klasifikacija - nadgledano masinsko ucenje.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Uvodimo novi podmodul `cluster` za upotrebu algortima k-sredina kroz `KMeans`.

In [None]:
from sklearn.cluster import KMeans

In [None]:
import warnings
warnings.filterwarnings("ignore")

Funkcija `make_blobs` kreira sinteticke grupisane podatke. Argumenti su:
* `n_samples` ukupan broj instanci skupa
* `n_features` dimenzija atributa
* `centers` broj centroida tj. klastera 
* `random_state` za ponovno generisanje

In [None]:
from sklearn.datasets import make_blobs

In [None]:
X, y = make_blobs(n_samples=100, n_features=2, centers=4, random_state=25)

In [None]:
X.shape # podaci

In [None]:
y # klasteri

In [None]:
plt.title('Sinteticki podaci')
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis')
plt.show()

### Kako izabrati broj klastera?

Kao i do sada, optimalni parametar je onaj za koji model daje najbolje rezultate, odnosno najmanje gresi. 

**Funkcija greske:** $$L(c) = \sum_{i=1}^n{\min_{j}||x_{i}-c_{j}||^2}$$

Ocigledno, funkcija greske je najmanja, tacnije jednaka nuli, kada je broj klastera $c$ jednak broj instanci u skupu podataka tj. kada je svaka instanca zaseban klaster. Stoga biramo najmanji broj klastera koji dovoljno dobro minimizuje funkciju greske. To radimo pomocu **pravila lakta**.

In [None]:
Ks = range(1, 10) # broj klastera trazimo od 1 do 10

`KMeans` funkcija ocekuje broj klastera i nasumican izbor pocetnih centroida.

In [None]:
models = [KMeans(n_clusters=i, random_state=23) for i in Ks]

In [None]:
scores = [model.fit(X).score(X) for model in models] # score funkcija vraca negativnu vrednost funkcije greske

[Dokumentacija](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)

In [None]:
plt.plot(Ks, scores)
plt.scatter(4, scores[3], c='red')
plt.show()

Pravilom lakta zakljucujemo da je  `k = 4` optimalna vrednost.

In [None]:
kmeans = KMeans(n_clusters=3, random_state=25)
kmeans.fit(X)

Pripadnost svake instance klasterima dobijamo pomocu `labels_` ili pozivom `predict`.

In [None]:
kmeans.labels_ 

In [None]:
y_pred = kmeans.predict(X)

In [None]:
y_pred

In [None]:
kmeans.cluster_centers_ # finalne centroide

In [None]:
plt.title('Rezultat K-means klasterovanja')
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.show()

### Jos jedan nacin: Silhouette metod

[Dokumentacija](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html)

**Silhouette koeficijent za jednu instancu u skupu podataka:** $$S(i) = \frac{b(i)-a(i)}{max(a(i), b(i))}$$

<img src = 'silhouette.png'>

**Silhouette koeficijent** se dobija kao prosek koeficijenata instanci i naravno zavisi od broja klastera $k$: $$S(k) = 1/n \sum_{i=1}^n {S(i)} $$

In [None]:
X, y = make_blobs(n_samples=100, n_features=2, centers=3, random_state=25)

In [None]:
plt.title('Sinteticki podaci')
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis')
plt.show()

In [None]:
from sklearn import metrics

In [None]:
sil_scores = []

In [None]:
Ks = range(2, 8)
Ks

In [None]:
for K in Ks:
    model = KMeans(n_clusters=K, random_state=23)
    model.fit(X)
    sil_scores.append(metrics.silhouette_score(X, model.labels_))

In [None]:
sil_scores

In [None]:
plt.plot(Ks, sil_scores)
plt.show()