In [9]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics import silhouette_score
from sklearn.mixture import GaussianMixture
from sklearn.neighbors import kneighbors_graph

In [2]:
n_samples = 1500
dataset = make_blobs(n_samples=n_samples, centers=2, center_box=(-7.0, 7.5),
                     cluster_std=[1.4, 1.7], random_state=42)

In [3]:
X_2, _ = make_blobs(n_samples=n_samples, random_state=170, centers=[[-4, -3]], cluster_std=[1.9])
transformation = [[1.2, -0.8], [-0.4, 1.7]]
X_2 = np.dot(X_2, transformation)
X, y = np.concatenate((dataset[0], X_2)), np.concatenate((dataset[1], np.array([2] * len(X_2))))

Коэффициент силуэта можно посчитать при помощи реализации из библиотеки sklearn:

In [4]:
# сначала получим предсказанные кластеры при помощи метода кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
kmeans_pred = kmeans.labels_

# теперь посчитаем коэффициент силуэта
silhouette_score(X=X, labels=kmeans_pred, metric='euclidean')

0.5131209788437305

В качестве параметров в функции silhouette_score используются:

- X — массив признаков объектов выборки или массив попарных расстояний между объектами;
- Y — массив предсказанных кластеров для объектов выборки;
- metric — метрика, используемая для вычисления расстояния между объектами, мы будем использовать euclidean (Евклидово расстояние)

При решении заданий модуля стандартизация должна быть выключена.

### Задание
Обучите модель GaussianMixture с параметрами n_components=3 и random_state=42 на признаках исходного датасета. Посчитайте коэффициент силуэта для получившейся кластеризации. Ответ округлите до десятых и запишите с точкой.

In [5]:
em_gm = GaussianMixture(n_components=3, random_state=42)

In [6]:
em_pred = em_gm.fit_predict(X)

In [8]:
silhouette_score(X=X, labels=em_pred, metric='euclidean')

0.49893287606943293

### Задание
Сравните результаты кластеризации четырёх рассмотренных алгоритмов на исходном датасете при помощи коэффициента силуэта, инициализируйте алгоритмы со следующими параметрами:

- K-means — n_clusters=3, random_state=42
- EM-алгоритм (GaussianMixture) — n_components=3, random_state=42
- Агломеративная кластеризация – n_clusters=3
- DBSCAN – eps=0.9, min_samples=35

Укажите максимальное значение коэффициента силуэта, полученное при помощи данных моделей. Ответ округлите до сотых и запишите с точкой.

In [11]:
kmeans_1 = KMeans(n_clusters=3, random_state=42)
kmeans_1.fit(X)
kmeans_pred_1 = kmeans.labels_

In [12]:
em_gm_1 = GaussianMixture(n_components=3, random_state=42)
em_pred_1 = em_gm.fit_predict(X)

In [14]:
ac_1 = AgglomerativeClustering(n_clusters=3)
ac_1.fit(X)
ac_pred_1 = ac_1.labels_

In [16]:
dbscan_1 = DBSCAN(eps=0.9, min_samples=35)
dbscan_1.fit(X)
dbscan_pred_1 = dbscan_1.labels_

In [17]:
print('Коэффициент силуэта для K-means ',
      silhouette_score(X=X, labels=kmeans_pred_1, metric='euclidean'))
print('Коэффициент силуэта для EM-алгоритма (GaussianMixture) ',
      silhouette_score(X=X, labels=em_pred_1, metric='euclidean'))
print('Коэффициент силуэта для Агломеративной кластеризации ',
      silhouette_score(X=X, labels=ac_pred_1, metric='euclidean'))
print('Коэффициент силуэта для DBSCAN ',
      silhouette_score(X=X, labels=dbscan_pred_1, metric='euclidean'))

Коэффициент силуэта для K-means  0.5131209788437305
Коэффициент силуэта для EM-алгоритма (GaussianMixture)  0.49893287606943293
Коэффициент силуэта для Агломеративной кластеризации  0.4811992210663849
Коэффициент силуэта для DBSCAN  0.4454335539277996


### Задание
Подберите оптимальное количество кластеров с помощью коэффициента силуэта. Для этого найдите такое число кластеров, при котором значение коэффициента будет максимальным.

В трёх из рассмотренных нами алгоритмов необходимо задать число кластеров при инициализации: K-means, EM-алгоритм и агломеративная кластеризация.

Найдите значение коэффициента силуэта для данных алгоритмов при числе кластеров от 2 до 10 включительно. Для K-means и EM-алгоритма установите значение random_state=42.

В качестве ответа через пробел введите число кластеров, при котором значение коэффициента силуэта для результатов кластеризации было наибольшим для каждого из алгоритмов. Вводите в следующем порядке: K-means, EM-алгоритм, агломеративная кластеризация.

In [20]:
from collections import defaultdict

silhouette_dict = defaultdict(list)

# цикл по числу кластеров: от 2 до 10
for n in range(2, 11):
    # инициализируем алгоритмы:
    KM = KMeans(n_clusters=n, random_state=42)
    gm = GaussianMixture(n_components=n, random_state=42)
    ac = AgglomerativeClustering(n_clusters=n)
    
    # создаем словарь, где ключи - названия алгоритмов, значения - сами алгоритмы:
    alg_dict = {'K-means': KM, 'EM-алгоритм': gm, 'Агломеративная кластеризация': ac}
    
    #цикл по словарю:
    for alg_name, algo in alg_dict.items():
        labels = algo.fit_predict(X)
        #получаем предсказание
        sil_score = silhouette_score(X, labels) #считаем коэффициент силуэта

        # добавляем в словарь в list, соответствующему рассматриваемому алгоритму,
        # пару вида: (число кластеров, коэффициент силуэта)
        silhouette_dict[alg_name].append((n, sil_score))

# цикл по ключам словаря с коэффициентами силуэта для алгоритмов:
for alg_name in silhouette_dict.keys():
    # сохраняем число кластеров и коэф. силуэта для пары,
    # в которой коэф. максимальный для данного алгоритма:
    n_clusters, sil_score = max(silhouette_dict[alg_name], key=lambda x: x[1])
    
    # выводим название алгоритма и искомое число кластеров (и коэф. силуэта):
    print(f"{alg_name} : {n_clusters}, {sil_score}")

K-means : 3, 0.5131209788437305
EM-алгоритм : 4, 0.510682306926087
Агломеративная кластеризация : 4, 0.48470679039805054
