# Analiza Wielowymiarowa - zajecia 11 - Metody współczesne

In [None]:
# Do tych zajęć nie ma kodów Staty, metody nie są oprogramowane

In [None]:
# Załadowanie bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.mixture import GaussianMixture
from sklearn.cluster import DBSCAN
from sklearn.cluster import KMeans
from sklearn import datasets

from scipy.linalg import svd

from multidim.datasets import load_iris

In [None]:
CAT_COLORS = np.array(["red", "blue", "yellow", "purple", "green", "orange", "black", "pink", "brown", "gray", "cyan", "magenta"])

In [None]:
np.random.seed(1234)

### Metody analizy skupień - sklearn

Source: https://scikit-learn.org/stable/modules/clustering.html

<table class="docutils align-default">
<colgroup>
<col style="width: 15.1%">
<col style="width: 16.1%">
<col style="width: 20.4%">
<col style="width: 26.9%">
<col style="width: 21.5%">
</colgroup>
<thead>
<tr class="row-odd"><th class="head"><p>Method name</p></th>
<th class="head"><p>Parameters</p></th>
<th class="head"><p>Scalability</p></th>
<th class="head"><p>Usecase</p></th>
<th class="head"><p>Geometry (metric used)</p></th>
</tr>
</thead>
<tbody>
<tr class="row-even"><td><p><a class="reference internal" href="#k-means"><span class="std std-ref">K-Means</span></a></p></td>
<td><p>number of clusters</p></td>
<td><p>Very large <code class="docutils literal notranslate"><span class="pre">n_samples</span></code>, medium <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code> with
<a class="reference internal" href="#mini-batch-kmeans"><span class="std std-ref">MiniBatch code</span></a></p></td>
<td><p>General-purpose, even cluster size, flat geometry,
not too many clusters, inductive</p></td>
<td><p>Distances between points</p></td>
</tr>
<tr class="row-odd"><td><p><a class="reference internal" href="#affinity-propagation"><span class="std std-ref">Affinity propagation</span></a></p></td>
<td><p>damping, sample preference</p></td>
<td><p>Not scalable with n_samples</p></td>
<td><p>Many clusters, uneven cluster size, non-flat geometry, inductive</p></td>
<td><p>Graph distance (e.g. nearest-neighbor graph)</p></td>
</tr>
<tr class="row-even"><td><p><a class="reference internal" href="#mean-shift"><span class="std std-ref">Mean-shift</span></a></p></td>
<td><p>bandwidth</p></td>
<td><p>Not scalable with <code class="docutils literal notranslate"><span class="pre">n_samples</span></code></p></td>
<td><p>Many clusters, uneven cluster size, non-flat geometry, inductive</p></td>
<td><p>Distances between points</p></td>
</tr>
<tr class="row-odd"><td><p><a class="reference internal" href="#spectral-clustering"><span class="std std-ref">Spectral clustering</span></a></p></td>
<td><p>number of clusters</p></td>
<td><p>Medium <code class="docutils literal notranslate"><span class="pre">n_samples</span></code>, small <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code></p></td>
<td><p>Few clusters, even cluster size, non-flat geometry, transductive</p></td>
<td><p>Graph distance (e.g. nearest-neighbor graph)</p></td>
</tr>
<tr class="row-even"><td><p><a class="reference internal" href="#hierarchical-clustering"><span class="std std-ref">Ward hierarchical clustering</span></a></p></td>
<td><p>number of clusters or distance threshold</p></td>
<td><p>Large <code class="docutils literal notranslate"><span class="pre">n_samples</span></code> and <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code></p></td>
<td><p>Many clusters, possibly connectivity constraints, transductive</p></td>
<td><p>Distances between points</p></td>
</tr>
<tr class="row-odd"><td><p><a class="reference internal" href="#hierarchical-clustering"><span class="std std-ref">Agglomerative clustering</span></a></p></td>
<td><p>number of clusters or distance threshold, linkage type, distance</p></td>
<td><p>Large <code class="docutils literal notranslate"><span class="pre">n_samples</span></code> and <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code></p></td>
<td><p>Many clusters, possibly connectivity constraints, non Euclidean
distances, transductive</p></td>
<td><p>Any pairwise distance</p></td>
</tr>
<tr class="row-even"><td><p><a class="reference internal" href="#dbscan"><span class="std std-ref">DBSCAN</span></a></p></td>
<td><p>neighborhood size</p></td>
<td><p>Very large <code class="docutils literal notranslate"><span class="pre">n_samples</span></code>, medium <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code></p></td>
<td><p>Non-flat geometry, uneven cluster sizes, outlier removal,
transductive</p></td>
<td><p>Distances between nearest points</p></td>
</tr>
<tr class="row-odd"><td><p><a class="reference internal" href="#optics"><span class="std std-ref">OPTICS</span></a></p></td>
<td><p>minimum cluster membership</p></td>
<td><p>Very large <code class="docutils literal notranslate"><span class="pre">n_samples</span></code>, large <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code></p></td>
<td><p>Non-flat geometry, uneven cluster sizes, variable cluster density,
outlier removal, transductive</p></td>
<td><p>Distances between points</p></td>
</tr>
<tr class="row-even"><td><p><a class="reference internal" href="mixture.html#mixture"><span class="std std-ref">Gaussian mixtures</span></a></p></td>
<td><p>many</p></td>
<td><p>Not scalable</p></td>
<td><p>Flat geometry, good for density estimation, inductive</p></td>
<td><p>Mahalanobis distances to  centers</p></td>
</tr>
<tr class="row-odd"><td><p><a class="reference internal" href="#birch"><span class="std std-ref">BIRCH</span></a></p></td>
<td><p>branching factor, threshold, optional global clusterer.</p></td>
<td><p>Large <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code> and <code class="docutils literal notranslate"><span class="pre">n_samples</span></code></p></td>
<td><p>Large dataset, outlier removal, data reduction, inductive</p></td>
<td><p>Euclidean distance between points</p></td>
</tr>
<tr class="row-even"><td><p><a class="reference internal" href="#bisect-k-means"><span class="std std-ref">Bisecting K-Means</span></a></p></td>
<td><p>number of clusters</p></td>
<td><p>Very large <code class="docutils literal notranslate"><span class="pre">n_samples</span></code>, medium <code class="docutils literal notranslate"><span class="pre">n_clusters</span></code></p></td>
<td><p>General-purpose, even cluster size, flat geometry,
no empty clusters, inductive, hierarchical</p></td>
<td><p>Distances between points</p></td>
</tr>
</tbody>
</table>

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cluster_comparison_001.png)

### Skoncentrujemy sie na metodach GMM oraz DBSCAN. W tym celu wykorzystamy zbiór danych Iris oraz okregow.

### 1-D Example Data

- Czym są etykiety miekkie (soft) oraz twarde (hard)?
- Kiedy mowimy o latent variable (zmienna ukryta)? Zmienna ukryta - której nie można bezpośrednio zaobserwować, ale można ją wywnioskować z obserwowanych zmiennych i parametrów.


In [None]:
A = np.random.normal(size = 100, loc = 0, scale = 1)
B = np.random.normal(size = 100, loc = 5, scale = 2)

Wykres danych przy zalożeniu że znane są ich etykiety:

In [None]:
import matplotlib.pyplot as plt
plt.figure()
plt.plot(A, np.zeros(100), "o", c = "red", alpha = 0.2)
plt.plot(B, np.zeros(100), "o", c = "blue", alpha = 0.2)
plt.yticks([])
plt.show()


In [None]:
sns.set_style('whitegrid')
sns.kdeplot(A, bw_method=0.5, c = "red")
sns.kdeplot(B, bw_method=0.5, c = "blue")

Wykres danych przy zalożeniu że nieznane są ich etykiety:

In [None]:
import matplotlib.pyplot as plt
plt.figure()
plt.plot(A, np.zeros(100), "o", c = "black", alpha = 0.2)
plt.plot(B, np.zeros(100), "o", c = "black", alpha = 0.2)
plt.yticks([])
plt.show()

In [None]:
sns.kdeplot(np.concatenate([A, B]), bw_method=0.5)

### Iris Data

In [None]:
iris = load_iris()

In [None]:
g = sns.PairGrid(iris, hue="Species")
g.map_diag(sns.histplot)
g.map_offdiag(sns.scatterplot)
g.add_legend()

Standaryzacja danych oraz redukcja wymiaru do 2D.

In [None]:
iris_x = iris.iloc[:, 0:4].values
iris_x = (iris_x - iris_x.mean(axis = 0)) / iris_x.std(axis = 0)
iris_y = iris.iloc[:, 4].values
iris_svd = np.linalg.svd(iris_x, full_matrices = False)
iris_x_pca =  np.matmul(iris_x, iris_svd[2])
iris_x_pca_x = iris_x_pca[:, 0]
iris_x_pca_y = iris_x_pca[:, 1]

Wykres danych przy zalożeniu że znane są ich etykiety:

In [None]:
c = pd.Series(iris_y).map({"setosa": 0, "versicolor": 1, "virginica": 2}).values
plt.scatter(iris_x_pca_x, iris_x_pca_y, s=10, color = np.array(["red", "blue", "yellow"])[c])

In [None]:
for ir in range(3):
    sns.kdeplot(x = iris_x_pca_x[c == ir], y = iris_x_pca_y[c == ir], bw_method=0.5, color = CAT_COLORS[ir])

Wykres danych przy zalożeniu że nieznane są ich etykiety:

In [None]:
plt.scatter(iris_x_pca_x, iris_x_pca_y, s=10)

In [None]:
for ir in range(3):
    sns.kdeplot(x = iris_x_pca_x, y = iris_x_pca_y, bw_method=0.5)

## K-means - irysy


In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=1234)
kmeans.fit(iris_x_pca)
kmeans_labels = kmeans.predict(iris_x_pca)

In [None]:
# plot the cluster assignments and cluster centers
plt.scatter(iris_x_pca_x, iris_x_pca_y, c=kmeans_labels, s=10, cmap='viridis')

## GMM - Gaussian Mixture Model - irysy

Dla przypomnienia algorytm EM dla GMM jest następujący:

1. Wybierz liczbę skupień $K$.
2. Wybierz początkowe wartości $\mu_1, \ldots, \mu_K$ oraz $\Sigma_1, \ldots, \Sigma_K$.
3. Wykonaj kroki E i M aż do zbieżności.

Dla kroku "Wybierz początkowe wartości $\mu_1, \ldots, \mu_K$ oraz $\Sigma_1, \ldots, \Sigma_K$.", kluczowe jest podanie właściwej metody inicjalizacji. W bibliotece sklearn możliwe są następujące metody: 'random, 'random_from_data', 'kmeans', 'kmeans++'. Wartości domyślne to 'kmeans'.

Opis metod inicjalizacji:

  * 'random' - losowe wartości z rozkładu jednostajnego
  * 'random_from_data' - losowe wartości z rozkładu jednostajnego z zakresu danych
  * 'kmeans' - wykorzystanie algorytmu k-means
  * 'kmeans++' - wykorzystanie algorytmu k-means++ - [wybór punktów startowych w sposób zachłanny, tak aby odległość między punktami była jak największa](https://en.wikipedia.org/wiki/K-means%2B%2B)


In [None]:
init_params = ['random', 'random_from_data', 'kmeans', 'k-means++']

In [None]:

RANDOM_SEED = 1234
fig, ax = plt.subplots(2, 2, sharex='all', sharey='all')
for e, init_param in enumerate(init_params):
    gm = GaussianMixture(n_components=3, random_state=RANDOM_SEED, verbose = 1, init_params=init_param, ).fit(iris_x_pca)
    gm_labels = gm.predict(iris_x_pca)
    ax.ravel()[e].scatter(iris_x_pca_x, iris_x_pca_y, s=10, color = CAT_COLORS[gm_labels])
    ax.take(e).set_title(init_param)
plt.show()

In [None]:
RANDOM_SEED = 123456

fig, ax = plt.subplots(2, 2, sharex='all', sharey='all')
for e, init_param in enumerate(init_params):
    gm = GaussianMixture(n_components=3, random_state=RANDOM_SEED, verbose = 1, init_params=init_param, ).fit(iris_x_pca)
    gm_labels = gm.predict(iris_x_pca)
    ax.ravel()[e].scatter(iris_x_pca_x, iris_x_pca_y, s=10, color = CAT_COLORS[gm_labels])
    ax.take(e).set_title(init_param)
plt.show()

GMM bazujace na k-means dla inicjalizacji

In [None]:
gm = GaussianMixture(n_components=3, random_state=1234, verbose = 1, init_params="kmeans").fit(iris_x_pca)
gm_labels = gm.predict(iris_x_pca)
g = sns.PairGrid(pd.DataFrame({'PC1': iris_x_pca[:, 0], 'PC2': iris_x_pca[:, 1], 'labels': gm_labels}), hue='labels')
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot)
g.map_diag(sns.kdeplot, lw=3, legend=False)

soft labels - prawdopodobieństwo przynależności do danej grupy dla kazdej obserwacji w modelu GMM

In [None]:
pd.DataFrame(np.round(gm.predict_proba(iris_x_pca), 3), columns = ['Prob1','Prob2','Prob3']).\
    assign(obs = list(range(iris.shape[0]))).\
    sample(10, random_state = 1234).\
    sort_values(by = 'obs')

GMM bazujace na losowym mechanizmie dla inicjalizacji

In [None]:
gm = GaussianMixture(n_components=3, random_state=1234, verbose = 1, init_params="random").fit(iris_x_pca)
gm_labels = gm.predict(iris_x_pca)
g = sns.PairGrid(pd.DataFrame({'PC1': iris_x_pca[:, 0], 'PC2': iris_x_pca[:, 1], 'labels': gm_labels}), hue='labels')
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot)
g.map_diag(sns.kdeplot, lw=3, legend=False)

Macierz kowariancji w GMM moze byc:

  * diagonalna - macierz kowariancji jest macierza diagonalna
  * pelna - macierz kowariancji jest macierza pelna
  * diagonalna z ograniczeniami - macierz kowariancji jest macierza diagonalna z ograniczeniami na wartosci na diagonie
  * pelna z ograniczeniami - macierz kowariancji jest macierza pelna z ograniczeniami na wartosci na diagonie

In [None]:
# https://scikit-learn.org/stable/auto_examples/mixture/plot_gmm_covariances.html
# covariances types: full, tied, diag, spherical

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_gmm_covariances_001.png)


## DBSCAN - irysy

Dla przypomnienia DBSCAN wymaga podania dwóch głownych parametrów: eps oraz min_samples. 

- eps określa maksymalną odległość między punktami, aby zostały uznane za sąsiadów. 
- min_samples określa minimalną liczbę punktów w sąsiedztwie punktu, aby został uznany za punkt centralny. Punkty, które nie spełniają tych warunków, są uznawane za szum.

oraz dodatkowych jak:

- metric - metryka odległościowa, domyślnie euklidesowa


Nie ma koniecznosci podania liczby klastrow.

In [None]:
EPS = 1
MIN_SAMPLES = 5

In [None]:
dbscan = DBSCAN(eps=EPS, min_samples=MIN_SAMPLES, ).fit(iris_x_pca)
dbscan_labels = dbscan.labels_

In [None]:
dbscan_labels_unique = np.unique(dbscan_labels)
assert len(dbscan_labels_unique) == 3
print(dbscan_labels_unique)

In [None]:
plt.scatter(iris_x_pca_x, iris_x_pca_y, s=10, color = CAT_COLORS[dbscan_labels + 1])

## Example - Circles data

In [None]:
n_samples = 500
noisy_circles_x, noisy_circles_y = datasets.make_circles(n_samples=n_samples, factor=0.5, noise=0.05)
plt.scatter(noisy_circles_x[:, 0], noisy_circles_x[:, 1], s=10, color = CAT_COLORS[noisy_circles_y])

### K-Means - circles

In [None]:
kmeans = KMeans(n_clusters=2, random_state=1234).fit(noisy_circles_x)
kmeans_labels = kmeans.predict(noisy_circles_x)
plt.scatter(noisy_circles_x[:, 0], noisy_circles_x[:, 1], s=10, color = CAT_COLORS[kmeans_labels])

### GMM - circles

In [None]:
gm = GaussianMixture(n_components=2, random_state=1234, init_params="kmeans").fit(noisy_circles_x)
gm_labels = gm.predict(noisy_circles_x)
plt.scatter(noisy_circles_x[:, 0], noisy_circles_x[:, 1], s=10, color = CAT_COLORS[gm_labels])

### DBSCAN - circles

**Prosze przetestujcie z innymi wartosciami parametrow eps oraz min_samples.**

Łatwo osiągnąć sytuacje, w której otrzymujemy wyniki niezgodne z oczekiwaniami.

In [None]:
EPS = 0.2 # or 0.3 to get 2 clusters
MIN_SAMPLES = 10 # or 30 to get 2 clusters

In [None]:

dbscan = DBSCAN(eps=EPS, min_samples=MIN_SAMPLES, ).fit(noisy_circles_x)
dbscan_labels = dbscan.labels_

In [None]:
dbscan_labels_unique = np.unique(dbscan_labels)
print(dbscan_labels_unique)
plt.scatter(noisy_circles_x[:, 0], noisy_circles_x[:, 1], s=10, color = CAT_COLORS[dbscan_labels + 1])

In [None]:
# OPTICS