# CЕМИНАР. Кластеризация
---

Папулин С.Ю. (papulin.study@yandex.ru)

### Содержание

- [Генерация данных](#Генерация-данных)
- [Метод k-средних (KMeans)](#Метод-k-средних-(KMeans))
- [Иерархическая кластеризация (Agglomerative Clustering)](#Иерархическая-кластеризация (Agglomerative-Clustering))
- [Кластеризация по плотности (DBSCAN)](#Кластеризация-по-плотности-(DBSCAN))
- [Кластеризация изображений цифр](#Кластеризация-изображений-цифр)
- [Источники](#Источники)

Подключение библиотек:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.cluster import (
    KMeans,
    AgglomerativeClustering,
    DBSCAN
)

from sklearn.mixture import GaussianMixture

from sklearn import metrics

from sklearn.datasets import make_blobs

%matplotlib inline

In [None]:
%load_ext autoreload
%autoreload 2

import sys
sys.path.insert(0, "../lib/")
from plot_confusion_matrix import plot_confusion_matrix

In [None]:
import warnings
warnings.filterwarnings('ignore') 

In [None]:
from matplotlib.colors import ListedColormap

In [None]:
clr_map = ListedColormap(["blue", "red", "green", "yellow", "purple"])

## Генерация данных

In [None]:
from sklearn import datasets

In [None]:
NUM_SAMPLES = 500
RANDOM_STATE = 12345

In [None]:
datums = [
    ("merce", datasets.make_classification(
        n_samples=NUM_SAMPLES, 
        n_features=2, 
        n_redundant=0,
        n_informative=2, 
        n_clusters_per_class=1, 
        n_classes=3, 
        class_sep=2,
        random_state=RANDOM_STATE)
    ),
    ("blobs", datasets.make_blobs(
        n_samples=NUM_SAMPLES, 
        n_features=2, 
        centers=5, 
        cluster_std=1.5, 
        random_state=RANDOM_STATE)
    ),
    ("moons", datasets.make_moons(n_samples=NUM_SAMPLES, noise=0.1, random_state=RANDOM_STATE)),
    ("circles", datasets.make_circles(n_samples=NUM_SAMPLES, factor=0.1, noise=0.1, random_state=RANDOM_STATE)),
    ("none", (np.random.rand(NUM_SAMPLES, 2), np.zeros(NUM_SAMPLES)))
]

In [None]:
plt.figure(figsize=[14, 6])

for indx, (title, data) in enumerate(datums):
    
    X, labels = data
    
    plt.subplot(2,5,indx+1)
    plt.title("{}: initial".format(title))
    plt.scatter(X[:,0], X[:,1])
    plt.xlabel("$X_1$")
    plt.ylabel("$X_2$")
    plt.grid(True)
    
    plt.subplot(2,5,indx+1+5)
    plt.title("{}: true labels".format(title))
    plt.scatter(X[:,0], X[:,1], c=labels, cmap=clr_map)
    plt.xlabel("$X_1$")
    plt.ylabel("$X_2$")
    plt.grid(True)

plt.tight_layout()
plt.show()

## Метод k-средних

<p><a href="http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html">KMeans</a></p>

In [None]:
X, labels = datums[1][1]

In [None]:
plt.title("Initial data")
plt.scatter(X[:, 0], X[:, 1])
plt.grid(True)
plt.show()

In [None]:
# Обучение
model = KMeans(n_clusters=5, 
               max_iter=100, 
               init="random",
               n_init=10,
               random_state=10)
model.fit(X)

# Центроиды кластеров
centroids = model.cluster_centers_ 

# Предсказания кластеров
labels_pred = model.labels_  
# или 
labels_pred = model.predict(X)

print("Inertia:", model.inertia_)
print("Centroids:\n{}".format(centroids))
print("Pred labels (first 5): {}".format(labels_pred[:5]))

In [None]:
# Отображение предсказанных кластеров
plt.figure(figsize=[6, 4])
plt.title("Number of clusters: 5")
plt.scatter(X[:, 0], X[:, 1], c=labels_pred, cmap=clr_map)
plt.scatter(centroids[:, 0], centroids[:, 1], marker="o",
            s=80, color="white", linewidth=3, edgecolors="black", zorder=5)
plt.grid(True)
plt.show()

Измените значение параметра `n_init` на 10 и посморите, что изменится.

### Итерации

In [None]:
# %pip install ipympl

In [None]:
from matplotlib.animation import FuncAnimation
%matplotlib widget

In [None]:
fig, ax = plt.subplots(figsize=[8,6])
data_plot = plt.scatter(X[:,0], X[:,1], cmap=clr_map)
centroid_plot = plt.scatter([], [], 
                            marker="o", s=80, color="white", 
                            linewidth=3, edgecolors="black",  
                            zorder=5)


def init():
    ax.set_title("Initial State")
    ax.set_xlabel("$X_1$")
    ax.set_ylabel("$X_2$")
    ax.grid(True)

def update(frame):

    model = KMeans(n_clusters=5, max_iter=frame, 
                   init=np.asarray([[2,2],[1,1],[3,3], [4,4], [5,5]]), 
                   random_state=RANDOM_STATE, n_init=1)
    
    model.fit(X)

    labels_pred = model.labels_
    centroids = model.cluster_centers_
    
    data_plot.set_array(labels_pred)
    centroid_plot.set_offsets(centroids)
    ax.set_title("Iteration {}".format(frame))


ani = FuncAnimation(fig, update, 
                    frames=np.arange(1, 10),
                    init_func=init, interval=3000,
                    repeat=False,
                    blit=False)
plt.show()

In [None]:
%matplotlib inline

### Разные наборы данных

In [None]:
models = [
    KMeans(n_clusters=3, max_iter=300, init="random", random_state=RANDOM_STATE, n_init=1),
    KMeans(n_clusters=5, max_iter=300, init="random", random_state=RANDOM_STATE, n_init=1),
    KMeans(n_clusters=2, max_iter=300, init="random", random_state=RANDOM_STATE, n_init=1),
    KMeans(n_clusters=2, max_iter=300, init="random", random_state=RANDOM_STATE, n_init=1),
    KMeans(n_clusters=2, max_iter=300, init="random", random_state=RANDOM_STATE, n_init=1),
]

In [None]:
def plot_clusters(models):
    plt.figure(figsize=[14, 9])
    for indx, (title, data) in enumerate(datums):
        
        X, labels = data
        models[indx].fit(X)
        
        if hasattr(models[indx], "labels_"):
            labels_pred = models[indx].labels_
        elif hasattr(models[indx], "predict"):
            labels_pred = models[indx].predict(X)
        else:
            raise Exception()
            
        plt.subplot(3,5,indx+1)
        plt.title("{}: initial".format(title))
        plt.scatter(X[:,0], X[:,1])
        plt.xlabel("$X_1$")
        plt.ylabel("$X_2$")
        plt.grid(True)

        plt.subplot(3,5,indx+1+5)
        plt.title("{}: true labels".format(title))
        plt.scatter(X[:,0], X[:,1], c=labels, cmap=clr_map)
        plt.xlabel("$X_1$")
        plt.ylabel("$X_2$")
        plt.grid(True)

        plt.subplot(3,5,indx+1+10)
        plt.title("{}: pred labels".format(title))
        plt.scatter(X[:,0], X[:,1], c=labels_pred, cmap=clr_map)
        plt.xlabel("$X_1$")
        plt.ylabel("$X_2$")
        plt.grid(True)

    plt.tight_layout()
    plt.show()

In [None]:
%%timeit -n 1 -r 1 
plot_clusters(models)

## Иерархическая кластеризация

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html">AgglomerativeClustering</a>

In [None]:
models = [
    AgglomerativeClustering(n_clusters=3, metric="euclidean", linkage="average"),
    AgglomerativeClustering(n_clusters=5, metric="euclidean", linkage="complete"),
    AgglomerativeClustering(n_clusters=2, metric="euclidean", linkage="single"),
    AgglomerativeClustering(n_clusters=2, metric="euclidean", linkage="single"),
    AgglomerativeClustering(n_clusters=2, metric="euclidean", linkage="average")
]

In [None]:
%%timeit -n 1 -r 1 
plot_clusters(models)

## Кластеризация по плотности

<a href="http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html">DBSCAN</a>

In [None]:
models = [
    DBSCAN(min_samples=4, eps=0.5, metric="euclidean"),
    DBSCAN(min_samples=4, eps=0.5, metric="euclidean"),
    DBSCAN(min_samples=10, eps=0.2, metric="euclidean"),
    DBSCAN(min_samples=4, eps=0.3, metric="euclidean"),
    DBSCAN(min_samples=4, eps=0.3, metric="euclidean")
]

In [None]:
%%timeit -n 1 -r 1
plot_clusters(models)

## Смесь нормальных функций

In [None]:
models = [
    GaussianMixture(n_components=3, n_init=10),
    GaussianMixture(n_components=5, n_init=10),
    GaussianMixture(n_components=2, n_init=10),
    GaussianMixture(n_components=2, n_init=10),
    GaussianMixture(n_components=2, n_init=10)
]

In [None]:
%%timeit -n 1 -r 1 
plot_clusters(models)

## Кластеризация изображений цифр

In [None]:
from sklearn import datasets

In [None]:
RANDOM_STATE = 12345
NUM_CLUSTERS = 10
NUM_DISPLAY_IMAGES = 10

In [None]:
# Загрузка исходных данных
digits = datasets.load_digits()

IMAGE_INDX = 3

# Отображение одного изображения
print("Image:")
plt.imshow(digits.images[IMAGE_INDX])
plt.show()
print("Feature matrix:\n", digits.images[IMAGE_INDX])
print("\nTarget value:", digits.target[IMAGE_INDX])

In [None]:
NUM_CLASSES = len(digits.target_names)
NUM_CLASSES

### Обучение

In [None]:
# Преобразование исходных данных
# Замечание: digits.data уже содержит преобразованные данные
X = digits.images.reshape(len(digits.images), -1)
labels_true = digits.target

# Кластеризация
model = KMeans(n_clusters=NUM_CLUSTERS, n_init=10, random_state=RANDOM_STATE)
model.fit(X)

# Выявленные кластеры
labels_pred = model.labels_
labels_pred[:5]

### Центры кластеров

In [None]:
model.n_clusters

In [None]:
plt.figure(figsize=[14, 4])
for i in range(model.n_clusters):
    plt.subplot(1, model.n_clusters, i+1)
    plt.title(i)
    plt.imshow(model.cluster_centers_[i].reshape(8,8))
    plt.axis("off")
plt.show()

### Изображения кластеров

In [None]:
for label in range(NUM_CLUSTERS):

    # Индексы элементов кластера label
    labels_pred__indices = np.asarray(labels_pred==label).nonzero()[0]
    
    # Выбираем случайным образом 10 индексов элементов кластера label
    np.random.seed(RANDOM_STATE)
    labels_pred___indices_ = np.random.choice(labels_pred__indices, NUM_DISPLAY_IMAGES, replace=False)
    
    # Отображения выбранных элементов кластера
    print("Cluster label:", label)
    plt.figure(figsize=[14, 4])
    for i in range(NUM_DISPLAY_IMAGES):
        plt.subplot(1, NUM_DISPLAY_IMAGES, i+1)
        plt.title(labels_pred___indices_[i])
        plt.imshow(digits.images[labels_pred___indices_[i]])
        plt.axis("off")
    plt.show()

### Вывод ошибок

In [None]:
true_indx = 4
pred_indx = 8

true__indices = np.asarray(labels_true==true_indx)
pred__indices = np.asarray(labels_pred==pred_indx)

mismatched__indices = np.asarray(pred__indices!=true__indices).nonzero()[0]

print("Total errors: {} out of {} samples".format(mismatched__indices.size, labels_true.size))

np.random.seed(RANDOM_STATE)
mismatched__indices_ = np.random.choice(mismatched__indices, NUM_DISPLAY_IMAGES, replace=False)


# Отображения выбранных элементов кластера
plt.figure(figsize=[14, 4])
for i in range(NUM_DISPLAY_IMAGES):
    image_indx = mismatched__indices_[i]
    plt.subplot(1, NUM_DISPLAY_IMAGES, i+1)
    plt.title("{}\nTrue: {}\nPred: {}".format(image_indx, 
                                            labels_true[image_indx],
                                            labels_pred[image_indx]))
    plt.imshow(digits.images[image_indx])
    plt.axis("off")
plt.show()

### Метрики

In [None]:
from sklearn.metrics.cluster import contingency_matrix

In [None]:
contingency_matrix(labels_true, labels_pred)

In [None]:
# Отображение матрицы ошибок
plot_confusion_matrix(labels_true, 
                      labels_pred, 
                      np.array(list(range(NUM_CLUSTERS))),
                      figsize=[8,8])
plt.show()

In [None]:
from scipy.stats import mode

def match_labels(labels_true, labels_pred, num_clusters):
    labels_ = np.zeros_like(labels_pred)
    for i in range(num_clusters):
        mask = (labels_pred == i)
        labels_[mask] = mode(labels_true[mask])[0]
    return labels_

In [None]:
# Сопоставление предсказанных кластеров и действительных меток
labels_pred__matched = match_labels(labels_true, labels_pred, NUM_CLUSTERS)

In [None]:
# Отображение матрицы ошибок
plot_confusion_matrix(labels_true, 
                      labels_pred__matched, 
                      np.array(list(range(NUM_CLASSES))),
                      figsize=[8,8])
plt.show()

## Генерация изображений

In [None]:
NUM_CLUSTERS = 20

# Класетризация
model = GaussianMixture(n_components=NUM_CLUSTERS, n_init=10, random_state=RANDOM_STATE)
model.fit(X)

# Выявленные кластеры
labels_pred = model.predict(X)
labels_pred[:5]

In [None]:
# Доступны вероятности принадлежности наблюдения каждому кластеру
model.predict_proba(X)[:5]

In [None]:
# Центры кластеров
plt.figure(figsize=[14, 4])
for i in range(model.n_components):
    plt.subplot(1, model.n_components, i+1)
    plt.title(i)
    plt.imshow(model.means_[i].reshape(8,8))
    plt.axis("off")
plt.show()

In [None]:
# Отображение матрицы ошибок
plot_confusion_matrix(labels_true, 
                      labels_pred, 
                      np.array(list(range(NUM_CLUSTERS))),
                      figsize=[8,8])
plt.show()

In [None]:
# Сопоставление предсказанных кластеров и действительных меток
labels_pred__matched = match_labels(labels_true, labels_pred, NUM_CLUSTERS)

In [None]:
# Отображение матрицы ошибок
plot_confusion_matrix(labels_true, 
                      labels_pred__matched, 
                      np.array(list(range(NUM_CLASSES))),
                      figsize=[8,8])
plt.show()

In [None]:
NUM_SAMPLES = 10

# Генерация изображений
features, clusters = model.sample(n_samples=NUM_SAMPLES)
features = features.astype("int8")

print(f"Clusters: {clusters}")
print(f"Feature size: {features.shape}")

In [None]:
# Ограничиваем значения пикселей от 0 до 16
features[features > 16] = 16
features[features < 0] = 0

In [None]:
# Вывод сгенерированных изображений
plt.figure(figsize=[14, 4])
for i in range(NUM_SAMPLES):
    plt.subplot(1, NUM_SAMPLES, i+1)
    plt.imshow(features[i].reshape(8,8))
    plt.axis("off")
plt.show()

In [None]:
CLUSTER_LABEL = 1

# Генерация изображений для отдельного кластера (компоненты)
features = np.random.multivariate_normal(
    mean=model.means_[CLUSTER_LABEL], 
    cov=model.covariances_[CLUSTER_LABEL], 
    size=NUM_SAMPLES
).astype("int8")

features[features > 16] = 16
features[features < 0] = 0

In [None]:
plt.figure(figsize=[14, 4])
for i in range(NUM_SAMPLES):
    plt.subplot(1, NUM_SAMPLES, i+1)
    plt.imshow(features[i].reshape(8,8))
    plt.axis("off")
plt.show()

In [None]:
# https://jakevdp.github.io/PythonDataScienceHandbook/05.12-gaussian-mixtures.html

## Источники

- [Clustering](http://scikit-learn.org/stable/modules/clustering.html)
- Python Data Science Handbook by Jake VanderPlas