## K-means

Uruchom poniższe demo i poeksperymentuj z różnymi przykładami danych - na których k-means działa dobrze a na których źle?

Demo:  
https://www.naftaliharris.com/blog/visualizing-k-means-clustering/

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
import numpy as np

features, labels = make_blobs(n_samples=200, n_features=2,centers = 3, cluster_std=0.6, random_state=123)

plt.scatter(features[:,0], features[:,1])
plt.show()

Zróbmy klasteryzację k-means i zwizualizujmy wyniki

### Transformacja zmiennych

In [None]:
import numpy as np
import numpy.random as rnd

rnd.seed(1)
n = 30
points = np.concatenate([rnd.multivariate_normal((4,15),np.array([[1,0],[0,30]]),n),
                    rnd.multivariate_normal((10,20),np.array([[1,0],[0,30]]),n)],axis=0)
labels = np.repeat([0,1],n)

plt.scatter(points[:,0],points[:,1],c = np.array(["red","green"])[labels])
plt.xlim(0,30)
plt.ylim(0,30)
plt.show()

Zadanie: dopasować model z 2 klastrami, pokolorować grupy i zaznaczyć średnie

Grupowanie nastąpiło względem zmiennej y..

Gdy różnica na osi y jest znacząco większa niż rożnica na osi x (y >>x)- patrząc na odegłość euklidesową w takiej sytuacji zachodzi:

$\sqrt{(x_1-x_2)^2 + (y_1-y_2)^2} \approx \sqrt{(y_1-y_2)^2})$

Czyli grupowanie opiera się na zmiennej (zmiennych) dominującej

Dołóżmy standaryzację zmiennych

Wykonajmy teraz klasteryzację

Zróbmy wersję z pipelinem (standaryzacja + kmeans):

Transformacja obserwacji

In [None]:
rnd.seed(123)
points = np.concatenate([rnd.multivariate_normal((2,3),np.array([[1,0],[0,1]]),50),
                        rnd.multivariate_normal((10,0),np.array([[30,0],[0,0.5]]),50),
                        rnd.multivariate_normal((0,-8),np.array([[0.3,0],[0,30]]),50)], axis = 0)

plt.scatter(points[:,0],points[:,1])

plt.hlines(0,-15,15)

plt.vlines(0,-15,15)
plt.show()

Zadanie: dopasować model i zwizualizować

Jak zmieni się rezultat jak zrobimy standaryzację?

Użyjmy normalizacji (skalowanie na poziomie pojedynczej obserwacji)

Kiedy można użyć normalizacji?  
np gdy interesują nas proporcje (poszczególne zmienne dotyczą podobnych cech) np. grupowanie dokumentów na podstawie treści (dokumenty mogą być różnej długości)

## Klasteryzacja danych klasyfikacyjnych

Zbiór irysy

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
iris

Zrób histogram dla poszczególnych cech

Zwizualizuj w seaborn poszczególne pary cech

Zróbmy klasteryzację k-means oraz wyliczmy metrykę V-measure na klasach

#### zbiór Wina

In [None]:
from sklearn.datasets import load_wine

wine = load_wine()
wine

Zróbmy klasteryzację k-means i wyliczmy V-measure

Zróbmy histogram cech

Wykonajmy standaryzację danych

Ponownie zróbmy klasteryzację i wyliczmy V-measure

## Wyznaczanie liczby klastrów

In [None]:
import seaborn as sns
colors = np.array(sns.color_palette("Set2", 20))

points = np.concatenate([rnd.multivariate_normal((0,0),np.array([[1,0],[0,1]]),20),
                    rnd.multivariate_normal((5,2),np.array([[1,0],[0,1]]),20),
                    rnd.multivariate_normal((2,7),np.array([[1,0],[0,1]]),20)],axis=0)

plt.scatter(points[:,0],points[:,1])

plt.show()

Zadanie: Zwizualizuj różną liczbę klastrów (1-6) oraz ich środki. Następnie przedstaw wykres inercji od liczby klastrów.

Zrób wykres Silhouette score od liczby klastrów

In [None]:
from sklearn.metrics import silhouette_score

Zróbmy wykres dla metryk Davies-Bouldin score

In [None]:
from sklearn.metrics import davies_bouldin_score

Zwizualizujmy to jeszcze z użyciem biblioteki yellowbrick

In [None]:
pip install yellowbrick

Zadanie: Spróbuj wyznaczyć liczbę klastrów dla poniższych danych

In [None]:
from sklearn.datasets import make_blobs

points, l = make_blobs(1000,centers=100,cluster_std=0.1)

plt.scatter(points[:,0],points[:,1])
plt.show()

Ćwiczenie - wyznacz liczbę klastrów na zbiorze win

In [None]:
from sklearn.datasets import load_wine

wine = load_wine()
wine

## Grupowanie hierarchiczne

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage

In [None]:
dane = np.array([[1,1],[2,1],[4.1,1],[7,1],[2,3],[3,4]])
plt.scatter(dane[:,0],dane[:,1])
plt.xlim(0.5,8)
plt.ylim(0.5,8)
plt.show()

In [None]:
d = linkage(dane, "single") # 0,1 - ktore klastry laczymy, 2 - odleglosc miedzy nimi, 3 - wielkosc klastra po polaczeniu
d

In [None]:
dendrogram(d)
plt.show()

In [None]:
d = linkage(dane,"complete")
plt.scatter(dane[:,0],dane[:,1])
plt.show()
dendrogram(d)
plt.show()

In [None]:
d = linkage(dane,"average")
plt.scatter(dane[:,0],dane[:,1])
plt.show()
dendrogram(d)
plt.show()

In [None]:
d = linkage(dane,"ward")
plt.scatter(dane[:,0],dane[:,1])
plt.show()
dendrogram(d)
plt.show()

Zobaczmy jak działają poszczególne metody łączenia klastrów na nieco większych danych

In [None]:
rnd.seed(123)
points = np.concatenate([rnd.multivariate_normal((0,0),np.array([[0.1,0],[0,10]]),30),
                    rnd.multivariate_normal((6,5),np.array([[10,0],[0,0.1]]),30),
                    rnd.multivariate_normal((8,-2),np.array([[1,0],[0,1]]),30)],axis=0)
labels = np.repeat(range(3),30)

import seaborn as sns
colors = sns.color_palette("Set2", 20)
plt.scatter(points[:,0],points[:,1],c=np.array(colors)[labels])
plt.show()

Inny przypadek - klastry bliżej siebie

In [None]:
rnd.seed(123)
p_num=300
points = np.concatenate([rnd.multivariate_normal((0,0),np.array([[1,0],[0,1]]),p_num),
                    rnd.multivariate_normal((0,6),np.array([[1,0],[0,1]]),p_num),
                    rnd.multivariate_normal((6,6),np.array([[1,0],[0,1]]),p_num)],axis=0)
labels = np.repeat(range(3),p_num)

import seaborn as sns
colors = sns.color_palette("Set2", 20)
plt.scatter(points[:,0],points[:,1],c=np.array(colors)[labels])
plt.show()

Zbiór z 2 liniami punktów

In [None]:
x = np.vstack([np.tile(range(20),2),np.repeat(np.array([1,4]),20)]).T

plt.scatter(x[:,0],x[:,1])
plt.ylim(-1,20)
plt.show()

Zbiór ziarna zbóż

In [None]:
samples = np.loadtxt("Data/seeds_dataset.txt")

In [None]:
samples = pd.DataFrame(samples)
samples

In [None]:
samples.columns = ["area", "perimeter", "compactness", "kernel_length", "kernel_width", "asymmetry", 
                   "kernel_groove_length", "variety"]

In [None]:
samples.head()

In [None]:
samples.describe()

Przeanalizuj zachowanie różnych łączeń klastrów - najpierw na surowych danych, a później na przeskalowanych

### Wyznaczenie liczby klastrów

Przykład

In [None]:
dane = np.array([[1,1],[2,1],[6,1],[7,1],[2,3],[3,4]])
plt.scatter(dane[:,0],dane[:,1])
plt.xlim(0.5,8)
plt.ylim(0.5,8)
plt.show()

Na podstawie dendrogramu

In [None]:
mergings = linkage(dane,method="single")
dendrogram(mergings)
plt.show()

Obcinamy tam, gdzie skok jest duży albo na poziomie, który wydaje się nam najsensowniejszy. Możemy obciąć wg odległości

In [None]:
from scipy.cluster.hierarchy import fcluster

?fcluster

In [None]:
mergings

In [None]:
fcluster(mergings,t=0.5,criterion="distance")

In [None]:
fcluster(mergings,t=1,criterion="distance")

In [None]:
fcluster(mergings,t=1.5,criterion="distance")

In [None]:
fcluster(mergings,t=3,criterion="distance")

Gdy wiemy ile chcemy mieć klastrów, możemy obciąć po liczbie klastrów

In [None]:
fcluster(mergings, 3, 'maxclust')

Wyznaczyć liczbę klastrów dla zbioru ziaren

Zadanie: pogrupować hierarchicznie kraje na podstawie oddanych przez nie głosów w Eurowizji

In [None]:
from scipy.io import loadmat
eurowizja = loadmat("Data/eu_song_2014.mat")
eurowizja

In [None]:
eurowizja = loadmat("Data/eu_song_2014.mat")["x"][0][0]
dane = eurowizja[0]
rows = eurowizja[1][0][0]
columns = eurowizja[5]
columns

In [None]:
dane = pd.DataFrame(dane,columns=columns)
dane.set_index(rows,inplace=True)
dane.head()


Zadanie: Potestować różne przekształcenia danych i ocenić czy dla innych postaci danych wyniki są bardziej zgodne z intuicją. Spróbować wyciągnąć wnioski.

zoo dataset

In [None]:
zoo = fetch_openml('zoo')
zoo

In [None]:
zoo_data = pd.DataFrame(zoo.data)
zoo_data.columns = zoo.feature_names

In [None]:
zoo_data

Zróbmy klasteryzację i zwizualizujmy dendrogram