In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics.cluster import completeness_score
from sklearn.mixture import GaussianMixture
from sklearn.neighbors import kneighbors_graph
from sklearn.preprocessing import StandardScaler

In [3]:
n_samples = 1500
dataset = make_blobs(n_samples=n_samples, centers=2, center_box=(-7.0, 7.5),
                     cluster_std=[1.4, 1.7], random_state=42)

In [4]:
X_2, _ = make_blobs(n_samples=n_samples, random_state=170, centers=[[-4, -3]], cluster_std=[1.9])
transformation = [[1.2, -0.8], [-0.4, 1.7]]
X_2 = np.dot(X_2, transformation)
X, y = np.concatenate((dataset[0], X_2)), np.concatenate((dataset[1], np.array([2] * len(X_2))))

Полноту можно посчитать при помощи реализации из библиотеки sklearn:

In [5]:
# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
kmeans_pred = kmeans.labels_

In [6]:
# теперь посчитаем однородность
completeness_score(labels_true=y, labels_pred=kmeans_pred)

0.7842373379017128

### Задание
Обучите модель GaussianMixture с параметрами n_components=3 и random_state=42 на признаках исходного датасета. Посчитайте полноту для получившейся кластеризации.

Подсказка: При решении задания модуля стандартизация должна быть включена. Ответ округлите до сотых и запишите с точкой.

In [7]:
X = StandardScaler().fit_transform(X)

In [8]:
em_gm = GaussianMixture(n_components=3, random_state=42)
em_pred = em_gm.fit_predict(X)

In [9]:
completeness_score(labels_true=y, labels_pred=em_pred)

0.9325740421656737

### Задание
Сравните результаты кластеризации алгоритмов k-means, GaussianMixture, AgglomerativeClustering и DBSCAN на исходном датасете при помощи полноты, инициализируйте алгоритмы со следующими параметрами:

- k-means — n_clusters=3, random_state=42
- GaussianMixture — n_components=3, random_state=42
- AgglomerativeClustering — n_clusters=3
- DBSCAN — eps=0.9, min_samples=35

В качестве ответа укажите максимальное значение полноты, полученное при помощи данных моделей.

Подсказка: При решении задания модуля стандартизация должна быть включена. Ответ округлите до сотых и запишите с точкой.

In [10]:
kmeans_1 = KMeans(n_clusters=3, random_state=42)
kmeans_1.fit(X)
kmeans_pred_1 = kmeans_1.labels_

In [11]:
em_gm_1 = GaussianMixture(n_components=3, random_state=42)
em_pred_1 = em_gm_1.fit_predict(X)

In [12]:
ac_1 = AgglomerativeClustering(n_clusters=3)
ac_1.fit(X)
ac_pred_1 = ac_1.labels_

In [13]:
dbscan_1 = DBSCAN(eps=0.9, min_samples=35)
dbscan_1.fit(X)
dbscan_pred_1 = dbscan_1.labels_

In [14]:
print('Полнота для K-means ',
      completeness_score(labels_true=y, labels_pred=kmeans_pred_1))
print('Полнота для EM-алгоритма (GaussianMixture) ',
      completeness_score(labels_true=y, labels_pred=em_pred_1))
print('Полнота для Агломеративной кластеризации ',
      completeness_score(labels_true=y, labels_pred=ac_pred_1))
print('Полнота для DBSCAN ',
      completeness_score(labels_true=y, labels_pred=dbscan_pred_1))

Полнота для K-means  0.7808712092278982
Полнота для EM-алгоритма (GaussianMixture)  0.9325740421656737
Полнота для Агломеративной кластеризации  0.9058386997451113
Полнота для DBSCAN  0.08342237034907717
