In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics.cluster import homogeneity_score
from sklearn.mixture import GaussianMixture
from sklearn.neighbors import kneighbors_graph
from sklearn.preprocessing import StandardScaler

In [2]:
n_samples = 1500
dataset = make_blobs(n_samples=n_samples, centers=2, center_box=(-7.0, 7.5),
                     cluster_std=[1.4, 1.7], random_state=42)

In [3]:
X_2, _ = make_blobs(n_samples=n_samples, random_state=170, centers=[[-4, -3]], cluster_std=[1.9])
transformation = [[1.2, -0.8], [-0.4, 1.7]]
X_2 = np.dot(X_2, transformation)
X, y = np.concatenate((dataset[0], X_2)), np.concatenate((dataset[1], np.array([2] * len(X_2))))

Однородность можно посчитать при помощи реализации из библиотеки sklearn:

In [4]:
# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
X = StandardScaler().fit_transform(X)
kmeans.fit(X) 
kmeans_pred = kmeans.labels_ 

In [5]:
# теперь посчитаем однородность 
homogeneity_score(labels_true=y, labels_pred=kmeans_pred)

0.8025180661661425

### Задание
Сравните результаты кластеризации алгоритмов k-means, GaussianMixture, AgglomerativeClustering и DBSCAN на исходном датасете при помощи однородности, инициализируйте алгоритмы со следующими параметрами:

- k-means — n_clusters=3, random_state=42
- GaussianMixture — n_components=3, random_state=42
- AgglomerativeClustering — n_clusters=3
- DBSCAN — eps=0.9, min_samples=35

В качестве ответа укажите максимальное значение однородности, полученное при помощи данных моделей. Ответ округлите до сотых и запишите с точкой.

При решении задания модуля стандартизация должна быть включена.

In [6]:
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
kmeans_pred = kmeans.labels_

In [7]:
em_gm = GaussianMixture(n_components=3, random_state=42)
em_pred = em_gm.fit_predict(X)

In [8]:
ac = AgglomerativeClustering(n_clusters=3)
ac.fit(X)
ac_pred = ac.labels_

In [9]:
dbscan = DBSCAN(eps=0.9, min_samples=35)
dbscan.fit(X)
dbscan_pred = dbscan.labels_

In [11]:
print('Однородность для K-means ',
      homogeneity_score(labels_true=y, labels_pred=kmeans_pred))
print('Однородность для EM-алгоритма (GaussianMixture) ',
      homogeneity_score(labels_true=y, labels_pred=em_pred))
print('Однородность для Агломеративной кластеризации ',
      homogeneity_score(labels_true=y, labels_pred=ac_pred))
print('Однородность для DBSCAN ',
      homogeneity_score(labels_true=y, labels_pred=dbscan_pred))

Однородность для K-means  0.8025180661661425
Однородность для EM-алгоритма (GaussianMixture)  0.9339791347507893
Однородность для Агломеративной кластеризации  0.9099781767383747
Однородность для DBSCAN  0.00044465831964150197
