# V-мера. Практика

V-меру можно посчитать при помощи реализации из библиотеки sklearn:

In [95]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

n_samples = 1500
dataset = datasets.make_blobs(n_samples=n_samples, centers=2, center_box=(-7.0, 7.5),
                              cluster_std=[1.4, 1.7],
                              random_state=42)
X_2, _ = datasets.make_blobs(n_samples=n_samples, random_state=170, centers=[[-4, -3]], cluster_std=[1.9])
transformation = [[1.2, -0.8], [-0.4, 1.7]]
X_2 = np.dot(X_2, transformation)
X, y = np.concatenate((dataset[0], X_2)), np.concatenate((dataset[1], np.array([2] * len(X_2))))

In [11]:
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import v_measure_score

# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
kmeans_pred = kmeans.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

0.793500872513578

In [12]:
X_st = StandardScaler().fit_transform(X)

#### Задание 4.14.1

Обучите модель GaussianMixture с параметрами n_components=3 и random_state=42 на признаках исходного датасета. Посчитайте v-меру для получившейся кластеризации.

Подсказка: При решении задания модуля стандартизация должна быть включена. Ответ округлите до сотых и запишите с точкой.

In [13]:
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler

gm = GaussianMixture(n_components=3, random_state=42)

gm.fit(X_st)
gm_predict = gm.predict(X_st)


# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=gm_predict)

0.9332760595996924

#### Задание 4.14.2

Сравните результаты кластеризации алгоритмов k-means, GaussianMixture, AgglomerativeClustering и DBSCAN на исходном датасете при помощи v-меры, инициализируйте алгоритмы со следующими параметрами:

k-means — n_clusters=3, random_state=42<br />
GaussianMixture — n_components=3, random_state=42<br />
AgglomerativeClustering — n_clusters=3<br />
DBSCAN — eps=0.9, min_samples=35

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. Ответ округлите до сотых и запишите с точкой.

In [14]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X_st)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.9079037199053294

In [15]:
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import completeness_score

# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X_st)
kmeans_pred = kmeans.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

0.793500872513578

In [16]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.9, min_samples=35)
dbscan.fit(X_st)
dbscan.labels_
dbscan_pred = dbscan.labels_.astype(np.int)

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=dbscan_pred)

0.000884601531943088

#### Задание 4.14.3

Сравним модификации K-means с использованием случайной инициализации центроид и с использованием алгоритма K-means++ для инициализации центроид.

Для этого обучим на исходном датасете 2 модели k-means со следующими параметрами:

n_clusters=3, init='k-means++', n_init=1, random_state=42<br />
n_clusters=3, init='random', n_init=1, random_state=42

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей.

Подсказка: При решении задания модуля стандартизация должна быть включена. Ответ округлите до сотых и запишите с точкой.

In [17]:
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import completeness_score

# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, init='k-means++', n_init=1, random_state=42)
kmeans.fit(X_st)
kmeans_pred = kmeans.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

0.7903450330611904

In [18]:
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import completeness_score

# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, init='random', n_init=1, random_state=42)
kmeans.fit(X_st)
kmeans_pred = kmeans.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

0.7903450330611903

#### Задание 4.14.4

Теперь сравним k-means с ещё одной модификацией — K-means mini batch. Воспользоваться реализацией K-means mini batch в библиотеке sklearn можно следующим образом:

In [19]:
from sklearn.cluster import MiniBatchKMeans

kmeans_mini_batch = MiniBatchKMeans(n_clusters=3, random_state=42)
kmeans_mini_batch.fit(X)
kmeans_mini_batch_pred = kmeans_mini_batch.labels_

Механизм кластеризации версии K-means mini batch схож с оригинальной версией алгоритма. Обучите на исходном датасете две модели:

k-means с параметрами n_clusters=3, n_init=1, random_state=42<br />
MiniBatchKMeans с параметрами n_clusters=3, n_init=1, random_state=42

В качестве ответа введите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до сотых и запишите с точкой.

In [20]:
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import completeness_score

# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, n_init=1, random_state=42)
kmeans.fit(X_st)
kmeans_pred = kmeans.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

0.7903450330611904

In [21]:
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import completeness_score

# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, n_init=1, random_state=42)
kmeans.fit(X)
kmeans_pred = kmeans.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_pred)

0.7903450330611904

In [23]:
from sklearn.cluster import MiniBatchKMeans

kmeans_mini_batch = MiniBatchKMeans(n_clusters=3, n_init=1, random_state=42)
kmeans_mini_batch.fit(X)
kmeans_mini_batch_pred = kmeans_mini_batch.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_mini_batch_pred)

0.7497460092948622

In [24]:
from sklearn.cluster import MiniBatchKMeans

kmeans_mini_batch = MiniBatchKMeans(n_clusters=3, n_init=1, random_state=42)
kmeans_mini_batch.fit(X_st)
kmeans_mini_batch_pred = kmeans_mini_batch.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=kmeans_mini_batch_pred)

0.7497460092948622

#### Задание 4.14.5

Рассмотрим агломеративную кластеризацию. Сравним, как влияет на качество кластеризации разный тип расстояния между кластерами.

Обучите на исходном датасете четыре модели AgglomerativeClustering с параметром n_clusters=3, меняя параметр linkage.

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до сотых и запишите с точкой.

In [25]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='ward')
ac.fit(X_st)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.9079037199053294

In [26]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='ward')
ac.fit(X)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.9079037199053294

In [27]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='complete')
ac.fit(X_st)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.5805530251504777

In [28]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='complete')
ac.fit(X)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.5805530251504777

In [29]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='average')
ac.fit(X_st)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.678656551579543

In [30]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='average')
ac.fit(X)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.678656551579543

In [31]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='single')
ac.fit(X_st)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.0008842106330108959

In [32]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3, linkage='single')
ac.fit(X)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.0008842106330108959

#### Задание 4.14.6

Сравним, как влияет предварительный расчёт матрицы смежности на качество агломеративной кластеризации.

Обучите на исходном датасете две модели AgglomerativeClustering:

с параметром n_clusters=3<br />
с параметром n_clusters=3 и предварительно посчитанной матрицей смежности для объектов датасета

Построить матрицу смежности можно с помощью кода:

In [39]:
from sklearn.neighbors import kneighbors_graph

connectivity = kneighbors_graph(X, n_neighbors=6, include_self=False)
connectivity = 0.5 * (connectivity + connectivity.T)

В качестве ответа введите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до сотых и запишите с точкой.

In [43]:
print(connectivity)

  (0, 288)	1.0
  (0, 1364)	1.0
  (0, 1177)	1.0
  (0, 724)	1.0
  (0, 1394)	1.0
  (0, 176)	1.0
  (1, 384)	0.5
  (1, 849)	1.0
  (1, 661)	1.0
  (1, 357)	1.0
  (1, 991)	1.0
  (1, 149)	1.0
  (1, 890)	1.0
  (2, 1194)	0.5
  (2, 239)	1.0
  (2, 844)	1.0
  (2, 721)	1.0
  (2, 1079)	1.0
  (2, 747)	1.0
  (2, 615)	1.0
  (3, 859)	0.5
  (3, 209)	0.5
  (3, 427)	1.0
  (3, 608)	1.0
  (3, 1414)	1.0
  :	:
  (2996, 2856)	1.0
  (2996, 2788)	1.0
  (2996, 1580)	1.0
  (2996, 2831)	1.0
  (2997, 2484)	0.5
  (2997, 2025)	0.5
  (2997, 2488)	0.5
  (2997, 2670)	1.0
  (2997, 2948)	1.0
  (2997, 2217)	1.0
  (2997, 1781)	1.0
  (2997, 2586)	1.0
  (2998, 1726)	0.5
  (2998, 2403)	1.0
  (2998, 1934)	1.0
  (2998, 2463)	1.0
  (2998, 2373)	1.0
  (2998, 1648)	1.0
  (2999, 2427)	0.5
  (2999, 1691)	1.0
  (2999, 2361)	1.0
  (2999, 2074)	1.0
  (2999, 2868)	1.0
  (2999, 1810)	1.0
  (2999, 2628)	1.0


In [45]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3)
ac.fit(connectivity.toarray())
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

  return linkage(y, method='ward', metric='euclidean')


0.01652001404826808

In [37]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.9079037199053294

#### Задание 4.14.7

Алгоритм DBSCAN очень требователен к параметрам: небольшое изменение в параметре eps или max_samples может изменить результат и качество кластеризации.

Обучите на исходном датасете две модели DBSCAN:

с параметрами eps=0.9, min_samples=35<br />
с параметрами eps=0.2, min_samples=35

В качестве ответа укажите максимальное значение v-меры, полученное при помощи данных моделей. В задании может понадобиться, а может не понадобиться нормализация и это нужно проверить во время решения задания. Ответ округлите до сотых и запишите с точкой.

In [52]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.9, min_samples=35)
dbscan.fit(X)
# dbscan.labels_
# dbscan_pred = dbscan.labels_.astype(np.int)
dbscan_pred = dbscan.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=dbscan_pred)

0.000884601531943088

In [61]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.2, min_samples=35)
dbscan.fit(X)
# dbscan.labels_
# dbscan_pred = dbscan.labels_.astype(np.int)
dbscan_pred = dbscan.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=dbscan_pred)

0.7142284808611982

#### Задание 4.14.8

Особенностью алгоритма DBSCAN является то, что помимо кластеризации этот алгоритм определяет выбросы в выборке. Посмотрим на качество кластеризации без учёта таких объектов.

Обучите на исходном датасете модель DBSCAN с параметрами eps=0.2, min_samples=35. Посчитайте значение v-меры только для основных и граничных объектов выборки, то есть для объектов, что не являются выбросами. Ответ округлите до сотых и запишите с точкой.

In [72]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.2, min_samples=35)
dbscan.fit(X)
# dbscan.labels_
# dbscan_pred = dbscan.labels_.astype(np.int)
dbscan_pred = dbscan.labels_

unique, counts = np.unique(dbscan_pred, return_counts=True)


# теперь посчитаем однородность
print(v_measure_score(labels_true=y, labels_pred=dbscan_pred))

print(dict(zip(unique, counts)))

labels = dbscan.labels_

print(v_measure_score(labels_true=y[labels != -1], labels_pred=labels[labels != -1]))

0.7142284808611982
{-1: 566, 0: 605, 1: 682, 2: 1147}
0.979625473245157


#### Задание 4.14.9

В курсе мы рассмотрели две метода нормализации данных:

MinMax нормализация — приведение данных к масштабу между \(0\) и \(1\).<br />
Стандартная нормализация — данные имеют среднее \(0\) и стандартное отклонение \(1\).<br />

Проверим, влияет ли предобработка данных на результат кластеризации. Обучите две модели AgglomerativeClustering с параметрами n_clusters=3:

на признаках исходного датасета,<br />
предварительно трансформируйте признаки при помощи стандартной нормализации.<br />

Посчитайте v-меру для получившихся результатов, в качестве ответа введите наибольшее значение. Ответ округлите до сотых и запишите с точкой.

In [74]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.9079037199053294

In [73]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X_st)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.9079037199053294

#### Задание 4.14.10

Обучите две модели AgglomerativeClustering с параметрами n_clusters=3:

на признаках исходного датасета,<br />
предварительно трансформируйте признаки при помощи MinMax нормализации.<br />

Посчитайте v-меру для получившихся результатов, в качестве ответа введите наибольшее значение. Ответ округлите до сотых и запишите с точкой.

In [100]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_sc = scaler.fit_transform(X)

In [101]:
print(X_sc)

[[0.80197986 0.69855087]
 [0.66703238 0.55636478]
 [0.53852874 0.82281561]
 ...
 [0.40494785 0.48780529]
 [0.34240362 0.51380803]
 [0.58269886 0.31741592]]


In [98]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.703747024360433

In [102]:
from sklearn.cluster import AgglomerativeClustering

ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X_sc)
ac_predict = ac.labels_

# теперь посчитаем однородность
v_measure_score(labels_true=y, labels_pred=ac_predict)

0.8929241488344335