In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN, MiniBatchKMeans
from sklearn.metrics.cluster import v_measure_score
from sklearn.mixture import GaussianMixture
from sklearn.neighbors import kneighbors_graph
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [2]:
n_samples = 1500
dataset = make_blobs(n_samples=n_samples, centers=2, center_box=(-7.0, 7.5),
                     cluster_std=[1.4, 1.7], random_state=42)

In [3]:
X_2, _ = make_blobs(n_samples=n_samples, random_state=170, centers=[[-4, -3]], cluster_std=[1.9])
transformation = [[1.2, -0.8], [-0.4, 1.7]]
X_2 = np.dot(X_2, transformation)
X, y = np.concatenate((dataset[0], X_2)), np.concatenate((dataset[1], np.array([2] * len(X_2))))

In [4]:
X_std = StandardScaler().fit_transform(X)

V-меру можно посчитать при помощи реализации из библиотеки sklearn:

In [None]:
# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
kmeans_pred = kmeans.labels_

In [None]:
# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

### Задание
Обучите модель GaussianMixture с параметрами n_components=3 и random_state=42 на признаках исходного датасета. Посчитайте v-меру для получившейся кластеризации.

Подсказка: При решении задания модуля стандартизация должна быть включена. Ответ округлите до сотых и запишите с точкой.

In [5]:
em_gm = GaussianMixture(n_components=3, random_state=42)
em_pred = em_gm.fit_predict(X_std)

In [6]:
v_measure_score(labels_true=y, labels_pred=em_pred)

0.9332760595996924

### Задание
Сравните результаты кластеризации алгоритмов k-means, GaussianMixture, AgglomerativeClustering и DBSCAN на исходном датасете при помощи v-меры, инициализируйте алгоритмы со следующими параметрами:

- k-means — n_clusters=3, random_state=42
- GaussianMixture — n_components=3, random_state=42
- AgglomerativeClustering — n_clusters=3
- DBSCAN — eps=0.9, min_samples=35

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. Ответ округлите до сотых и запишите с точкой.

In [7]:
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X_std)
kmeans_pred = kmeans.labels_

In [8]:
gm = GaussianMixture(n_components=3, random_state=42)
gm_pred = gm.fit_predict(X_std)

In [9]:
ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X_std)
ac_pred = ac.labels_

In [10]:
dbscan = DBSCAN(eps=0.9, min_samples=35)
dbscan.fit(X_std)
dbscan_pred = dbscan.labels_

In [11]:
print('V-мера для K-means ',
      v_measure_score(labels_true=y, labels_pred=kmeans_pred))
print('V-мера для EM-алгоритма (GaussianMixture) ',
      v_measure_score(labels_true=y, labels_pred=gm_pred))
print('V-мера для Агломеративной кластеризации ',
      v_measure_score(labels_true=y, labels_pred=ac_pred))
print('V-мера для DBSCAN ',
      v_measure_score(labels_true=y, labels_pred=dbscan_pred))

V-мера для K-means  0.791546668267586
V-мера для EM-алгоритма (GaussianMixture)  0.9332760595996924
V-мера для Агломеративной кластеризации  0.9079037199053294
V-мера для DBSCAN  0.000884601531943088


### Задание
Сравним модификации K-means с использованием случайной инициализации центроид и с использованием алгоритма K-means++ для инициализации центроид.

Для этого обучим на исходном датасете 2 модели k-means со следующими параметрами:

- n_clusters=3, init='k-means++', n_init=1, random_state=42
- n_clusters=3, init='random', n_init=1, random_state=42

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей.

Подсказка: При решении задания модуля стандартизация должна быть включена. Ответ округлите до сотых и запишите с точкой.

In [12]:
kmeans_1 = KMeans(n_clusters=3, init='k-means++', n_init=1, random_state=42)
kmeans_1.fit(X_std)
kmeans_pred_1 = kmeans_1.labels_

In [13]:
kmeans_random = KMeans(n_clusters=3, init='random', n_init=1, random_state=42)
kmeans_random.fit(X_std)
kmeans_pred_random = kmeans_random.labels_

In [14]:
print('V-мера для K-means++ ',
      v_measure_score(labels_true=y, labels_pred=kmeans_pred_1))
print('V-мера для K-means random ',
      v_measure_score(labels_true=y, labels_pred=kmeans_pred_random))

V-мера для K-means++  0.7892280957870129
V-мера для K-means random  0.7903450330611903


### Задание
Теперь сравним k-means с ещё одной модификацией — K-means mini batch.

Механизм кластеризации версии K-means mini batch схож с оригинальной версией алгоритма. Обучите на исходном датасете две модели:

- k-means с параметрами n_clusters=3, n_init=1, random_state=42
- MiniBatchKMeans с параметрами n_clusters=3, n_init=1, random_state=42

В качестве ответа введите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до десятых и запишите с точкой.

In [15]:
kmeans_2 = KMeans(n_clusters=3, n_init=1, random_state=42)
kmeans_2.fit(X_std)
kmeans_pred_2 = kmeans_2.labels_

In [16]:
kmeans_mini_batch = MiniBatchKMeans(n_clusters=3, n_init=1, random_state=42)
kmeans_mini_batch.fit(X_std)
kmeans_mini_batch_pred = kmeans_mini_batch.labels_

  f"MiniBatchKMeans is known to have a memory leak on "


In [17]:
print('V-мера для K-means ',
      v_measure_score(labels_true=y, labels_pred=kmeans_pred_2))
print('V-мера для K-means mini batch ',
      v_measure_score(labels_true=y, labels_pred=kmeans_mini_batch_pred))

V-мера для K-means  0.7892280957870129
V-мера для K-means mini batch  0.7497460092948622


### Задание
Рассмотрим агломеративную кластеризацию. Сравним, как влияет на качество кластеризации разный тип расстояния между кластерами.

Обучите на исходном датасете четыре модели AgglomerativeClustering с параметром n_clusters=3, меняя параметр linkage.

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до десятых и запишите с точкой.

In [18]:
ac_1 = AgglomerativeClustering(n_clusters=3, linkage='ward')
ac_1.fit(X_std)
ac_pred_1 = ac_1.labels_

In [19]:
ac_2 = AgglomerativeClustering(n_clusters=3, linkage='complete')
ac_2.fit(X_std)
ac_pred_2 = ac_2.labels_

In [20]:
ac_3 = AgglomerativeClustering(n_clusters=3, linkage='average')
ac_3.fit(X_std)
ac_pred_3 = ac_3.labels_

In [21]:
ac_4 = AgglomerativeClustering(n_clusters=3, linkage='single')
ac_4.fit(X_std)
ac_pred_4 = ac_4.labels_

In [22]:
print('V-мера для Агломеративной кластеризации ward ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_1))
print('V-мера для Агломеративной кластеризации complete ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_2))
print('V-мера для Агломеративной кластеризации average ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_3))
print('V-мера для Агломеративной кластеризации single ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_4))

V-мера для Агломеративной кластеризации ward  0.9079037199053294
V-мера для Агломеративной кластеризации complete  0.5805530251504777
V-мера для Агломеративной кластеризации average  0.678656551579543
V-мера для Агломеративной кластеризации single  0.0008842106330108959


### Задание
Сравним, как влияет предварительный расчёт матрицы смежности на качество агломеративной кластеризации.

Обучите на исходном датасете две модели AgglomerativeClustering:

- с параметром n_clusters=3
- с параметром n_clusters=3 и предварительно посчитанной матрицей смежности для объектов датасета

В качестве ответа введите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до сотых и запишите с точкой.

In [24]:
connectivity = kneighbors_graph(X_std, n_neighbors=6, include_self=False)
connectivity = 0.5 * (connectivity + connectivity.T)

In [41]:
ac_5 = AgglomerativeClustering(n_clusters=3)
ac_5.fit(X_std)
ac_pred_5 = ac_5.labels_

In [26]:
ac_6 = AgglomerativeClustering(n_clusters=3, connectivity=connectivity)
ac_6.fit(X_std)
ac_pred_6 = ac_6.labels_

In [27]:
print('V-мера для Агломеративной кластеризации ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_5))
print('V-мера для Агломеративной кластеризации с матрицей смежности ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_6))

V-мера для Агломеративной кластеризации  0.9079037199053294
V-мера для Агломеративной кластеризации с матрицей смежности  0.883942992495597


### Задание
Алгоритм DBSCAN очень требователен к параметрам: небольшое изменение в параметре eps или max_samples может изменить результат и качество кластеризации.

Обучите на исходном датасете две модели DBSCAN:

- с параметрами eps=0.9, min_samples=35
- с параметрами eps=0.8, min_samples=35

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до сотых и запишите с точкой.

In [31]:
dbscan_1 = DBSCAN(eps=0.9, min_samples=35)
dbscan_1.fit(X)
dbscan_pred_1 = dbscan_1.labels_

In [32]:
dbscan_2 = DBSCAN(eps=0.8, min_samples=35)
dbscan_2.fit(X)
dbscan_pred_2 = dbscan_2.labels_

In [33]:
print('V-мера для DBSCAN 0.9 ',
      v_measure_score(labels_true=y, labels_pred=dbscan_pred_1))
print('V-мера для DBSCAN 0.8 ',
      v_measure_score(labels_true=y, labels_pred=dbscan_pred_2))

V-мера для DBSCAN 0.9  0.7732549110297919
V-мера для DBSCAN 0.8  0.7063100442576922


### Задание
Особенностью алгоритма DBSCAN является то, что помимо кластеризации этот алгоритм определяет выбросы в выборке. Посмотрим на качество кластеризации без учёта таких объектов.

Обучите на исходном датасете модель DBSCAN с параметрами eps=0.9, min_samples=35. Посчитайте значение v-меры только для основных и граничных объектов выборки, то есть для объектов, что не являются выбросами. Ответ округлите до сотых и запишите с точкой.

In [38]:
dbscan_3 = DBSCAN(eps=0.9, min_samples=35)
dbscan_3.fit(X)
dbscan_pred_3 = dbscan_3.labels_

In [39]:
not_noise_ind = np.where(dbscan_pred_3 != -1)

In [40]:
print('V-мера для DBSCAN ',
      v_measure_score(labels_true=y[not_noise_ind],
                      labels_pred=dbscan_pred_3[not_noise_ind]))

V-мера для DBSCAN  0.9667281300681958


### Задание
В курсе мы рассмотрели две метода нормализации данных:

- MinMax нормализация — приведение данных к масштабу между 0 и 1.
- Стандартная нормализация — данные имеют среднее 0 и стандартное отклонение 1.

Проверим, влияет ли предобработка данных на результат кластеризации. Обучите две модели AgglomerativeClustering с параметрами n_clusters=3:

- на признаках исходного датасета,
- предварительно трансформируйте признаки при помощи стандартной нормализации.

Посчитайте v-меру для получившихся результатов, в качестве ответа введите наибольшее значение. Ответ округлите до сотых и запишите с точкой.

In [42]:
ac_7 = AgglomerativeClustering(n_clusters=3)
ac_7.fit(X)
ac_pred_7 = ac_7.labels_

In [43]:
ac_8 = AgglomerativeClustering(n_clusters=3)
ac_8.fit(X_std)
ac_pred_8 = ac_8.labels_

In [45]:
print('V-мера для Агломеративной кластеризации на исходных данных ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_7))
print('V-мера для Агломеративной кластеризации со стандартизацией ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_8))

V-мера для Агломеративной кластеризации на исходных данных  0.703747024360433
V-мера для Агломеративной кластеризации со стандартизацией  0.9079037199053294


### Задание
Обучите две модели AgglomerativeClustering с параметрами n_clusters=3:

- на признаках исходного датасета,
- предварительно трансформируйте признаки при помощи MinMax нормализации.

Посчитайте v-меру для получившихся результатов, в качестве ответа введите наибольшее значение. Ответ округлите до сотых и запишите с точкой.

In [46]:
X_minmax = MinMaxScaler().fit_transform(X)

In [47]:
ac_9 = AgglomerativeClustering(n_clusters=3)
ac_9.fit(X_minmax)
ac_pred_9 = ac_9.labels_

In [48]:
print('V-мера для Агломеративной кластеризации на исходных данных ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_7))
print('V-мера для Агломеративной кластеризации со стандартизацией MinMax ',
      v_measure_score(labels_true=y, labels_pred=ac_pred_9))

V-мера для Агломеративной кластеризации на исходных данных  0.703747024360433
V-мера для Агломеративной кластеризации со стандартизацией MinMax  0.8929241488344335
