In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

n_samples = 1500
dataset = datasets.make_blobs(n_samples=n_samples, centers=2, center_box=(-7.0, 7.5),
                              cluster_std=[1.4, 1.7],
                              random_state=42)
X_2, _ = datasets.make_blobs(n_samples=n_samples, random_state=170, centers=[[-4, -3]], cluster_std=[1.9])
transformation = [[1.2, -0.8], [-0.4, 1.7]]
X_2 = np.dot(X_2, transformation)
X, y = np.concatenate((dataset[0], X_2)), np.concatenate((dataset[1], np.array([2] * len(X_2))))

V-меру можно посчитать при помощи реализации из библиотеки sklearn:

In [2]:
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import v_measure_score

# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
kmeans_pred = kmeans.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

0.795592702456356

Задание 4.14.1

Обучите модель GaussianMixture с параметрами n_components=3 и random_state=42 на признаках исходного датасета. Посчитайте v-меру для получившейся кластеризации. Ответ округлите до сотых и запишите с точкой.

In [5]:
from sklearn.cluster import DBSCAN
from sklearn.cluster import AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.cluster import KMeans

gm = GaussianMixture(n_components=3, random_state=42)
y_pred = gm.fit_predict(X)
cl2 = v_measure_score(labels_true=y, labels_pred=y_pred)

cl2



0.9332760595996924

Задание 4.14.2

Сравните результаты кластеризации алгоритмов K-means, GaussianMixture, AgglomerativeClustering и DBSCAN на исходном датасете при помощи v-меры, инициализируйте алгоритмы со следующими параметрами:

K-means – n_clusters=3, random_state=42

GaussianMixture – n_components=3, random_state=42

AgglomerativeClustering – n_clusters=3

DBSCAN – eps=0.9, min_samples=35

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. Ответ округлите до сотых и запишите с точкой.

In [6]:
    from sklearn.cluster import DBSCAN
    from sklearn.cluster import AgglomerativeClustering
    from sklearn.mixture import GaussianMixture
    from sklearn.cluster import KMeans

    #X = (X - X.mean(axis=0)) / X.std(axis=0)
    #X = StandardScaler().fit_transform(X)

    kmeans = KMeans(n_clusters=3, random_state=42)
    kmeans.fit(X)
    y_pred = kmeans.labels_
    cl1 = v_measure_score(labels_true=y, labels_pred=y_pred)

    gm = GaussianMixture(n_components=3, random_state=42)
    y_pred = gm.fit_predict(X)
    cl2 = v_measure_score(labels_true=y, labels_pred=y_pred)

    ac = AgglomerativeClustering(n_clusters=3)
    y_pred = ac.fit_predict(X)
    cl3 = v_measure_score(labels_true=y, labels_pred=y_pred)

    dbscan = DBSCAN(eps=0.9, min_samples=35)
    dbscan.fit(X)
    y_pred = dbscan.labels_
    cl4 = v_measure_score(labels_true=y, labels_pred=y_pred)

    print(cl1, cl2, cl3, cl4)



0.795592702456356 0.9332760595996924 0.703747024360433 0.7732549110297919


Задание 4.14.3

Сравним модификации K-means с использованием случайной инициализации центроид и с использованием алгоритма K-means++ для инициализации центроид.

Для этого обучим на исходном датасете 2 модели K-means со следующими параметрами:

n_clusters=3, init='k-means++', n_init=1, random_state=42

n_clusters=3, init='random', n_init=1, random_state=42

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. Ответ округлите до сотых и запишите с точкой.

In [8]:
from sklearn.cluster import DBSCAN
from sklearn.cluster import AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.cluster import KMeans

#X = (X - X.mean(axis=0)) / X.std(axis=0)
#X = StandardScaler().fit_transform(X)


kmeans = KMeans(n_clusters=3, init='k-means++', n_init=1, random_state=42)
kmeans.fit(X)
y_pred = kmeans.labels_
cl1 = v_measure_score(labels_true=y, labels_pred=y_pred)

kmeans = KMeans(n_clusters=3, init='random', n_init=1, random_state=42)
kmeans.fit(X)
y_pred = kmeans.labels_
cl2 = v_measure_score(labels_true=y, labels_pred=y_pred)

print(cl1, cl2)


0.7911556191133551 0.5990620007488798


Задание 4.14.4

Теперь сравним K-means с ещё одной модификацией – K-means mini batch. Воспользоваться реализацией K-means mini batch в библиотеке sklearn можно следующим образом:

In [11]:
from sklearn.cluster import MiniBatchKMeans
from sklearn.cluster import KMeans


kmeans_mini_batch = KMeans(n_clusters=3, n_init=1, random_state=42)
kmeans_mini_batch.fit(X)
kmeans_mini_batch_pred = kmeans_mini_batch.labels_
cl1 = v_measure_score(labels_true=y, labels_pred=kmeans_mini_batch_pred)
print(cl1)

kmeans_mini_batch = MiniBatchKMeans(n_clusters=3, n_init=1, random_state=42)
kmeans_mini_batch.fit(X)
kmeans_mini_batch_pred = kmeans_mini_batch.labels_
cl1 = v_measure_score(labels_true=y, labels_pred=kmeans_mini_batch_pred)
print(cl1)



0.7911556191133551
0.7839131923434078


Рассмотрим агломеративную кластеризацию. Сравним, как влияет на качество кластеризации разный тип расстояния между кластерами.

Обучите на исходном датасете четыре модели AgglomerativeClustering с параметром n_clusters=3, меняя параметр linkage.

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до десятых и запишите с точкой.

In [14]:
from sklearn.cluster import AgglomerativeClustering

for i in ['ward', 'complete', 'average', 'single']:
    ac = AgglomerativeClustering(n_clusters=3, linkage=i)
    y_pred = ac.fit_predict(X)
    cl3 = v_measure_score(labels_true=y, labels_pred=y_pred)
    print(cl3)


0.703747024360433
0.4105143541946565
0.539161632594271
0.0008842106330108959
