In [1]:
import numpy as np
import pandas as pd

import matplotlib
import matplotlib.pyplot as plt
matplotlib.style.use('ggplot')
%matplotlib inline

import os

In [2]:
from sklearn.cluster import DBSCAN
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster

In [3]:
df = pd.read_csv("Леденцы.dat", sep=";")

In [4]:
print(df)

     V1  V2  V3  V4  V5  V6  V7  V8  V9  V10  V11
0     4   5   5   5   3   3   3   3   3    3    3
1     5   4   5   5   3   3   3   3   3    3    3
2     5   5   4   5   3   3   3   3   3    3    3
3     5   4   5   5   3   3   3   3   3    3    3
4     4   5   5   5   3   3   3   3   3    3    3
..   ..  ..  ..  ..  ..  ..  ..  ..  ..  ...  ...
333   3   3   3   3   3   3   5   5   3    3    3
334   3   3   3   3   3   3   5   5   3    3    3
335   3   3   3   3   3   3   5   5   3    3    3
336   3   3   3   3   3   3   5   5   3    3    3
337   3   3   3   3   3   3   5   5   3    3    3

[338 rows x 11 columns]


Данные равнозначны, поэтому нормализовать не надо.

Рассмотрим для начала евклидово расстояние в качестве расстояния между точками данных. Попробуем применить DBSCAN с параметрами по умолчанию:

In [5]:
dbscan_1 = DBSCAN(eps=0.5, metric='euclidean', min_samples=5)
dbscan_1.fit(df)

DBSCAN()

Создадим таблицу частот:

In [6]:
unique, counts = np.unique(dbscan_1.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[-1 60]
 [ 0 10]
 [ 1  5]
 [ 2 49]
 [ 3 12]
 [ 4  9]
 [ 5 49]
 [ 6 15]
 [ 7 10]
 [ 8  6]
 [ 9 37]
 [10 10]
 [11  5]
 [12  9]
 [13 52]]


Получилось слишком много кластеров и выбрососв. Попробуем подобрать другие параметры кластеризации:

In [7]:
dbscan_2 = DBSCAN(eps=5, metric='euclidean', min_samples=5)
dbscan_2.fit(df)
unique, counts = np.unique(dbscan_2.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[  0 338]]


Такой эпсилон слишком большой. Уменьшим eps:

In [8]:
dbscan_3 = DBSCAN(eps=2, metric='euclidean', min_samples=5)
dbscan_3.fit(df)
unique, counts = np.unique(dbscan_3.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[ -1   4]
 [  0 110]
 [  1 104]
 [  2 120]]


Этот результат выглядит более разумно: выбросов мало, а кластеры почти одинакового размера. Попробуем теперь уменьшить min_samples:

In [9]:
dbscan_4 = DBSCAN(eps=2, metric='euclidean', min_samples=4)
dbscan_4.fit(df)
unique, counts = np.unique(dbscan_4.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[  0 110]
 [  1 104]
 [  2   4]
 [  3 120]]


Похоже, выбросы из предыдущей попытки образовали теперь самостоятельный кластер. Значит, такое min_samples слишком маленькое. Еще попытка с уменьшенным eps и старым min_samples:

In [10]:
dbscan_5 = DBSCAN(eps=1.9, metric='euclidean', min_samples=5)
dbscan_5.fit(df)
unique, counts = np.unique(dbscan_5.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[ -1   6]
 [  0 110]
 [  1 104]
 [  2  61]
 [  3  57]]


Здесь мало выбросов и кластеры достаточно большие для интерпретации. Значит, разумные результаты дали третья и пятая попытки. Сравним их с результатом для иерархического кластерного анализа.

В первой домашней работе уже получили, что данные стоит разбить на 4 кластера -- как и в dbscan_5. Проведем иерархический кластерный анализ и остановим его на 4-х кластерах:

In [11]:
from scipy.cluster.hierarchy import linkage, fcluster
link = linkage(df, 'ward', 'euclidean')
df['cluster'] = fcluster(link, 4, criterion='maxclust')

Сравним результат иерархического анализа с dbscan_3:

In [12]:
pd.crosstab(dbscan_3.labels_, df['cluster'])

cluster,1,2,3,4
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
-1,4,0,0,0
0,0,110,0,0
1,104,0,0,0
2,0,0,59,61


Из таблицы видно, что DBSCAN объединил во втором кластере 3-й и 4-й кластеры иерархического анализа. Теперь сравним с dbscan_5:

In [13]:
pd.crosstab(dbscan_5.labels_, df['cluster'])

cluster,1,2,3,4
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
-1,4,0,2,0
0,0,110,0,0
1,104,0,0,0
2,0,0,0,61
3,0,0,57,0


Эти результаты уже почти не отличаются. Единственное отличие -- DBSCAN выделил 4 выброса, котрые иерархический анализ определил в первый кластер.

Таким образом, dbscan_5 дает хорошую кластеризацию. Посмотрим на средние по кластерам в dbscan_5 и интерпретируем результат:

In [14]:
#убираем из df столбец 'cluster'
del df['cluster']

#добавляем столбец с номерами кластеров, полученными с помощью DBSCAN
df['dbscan'] = dbscan_5.labels_

#смотрм на средние по кластерам
df.groupby('dbscan').mean()

Unnamed: 0_level_0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11
dbscan,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
-1,2.333333,3.333333,3.333333,3.333333,2.0,2.333333,3.0,3.666667,4.333333,4.166667,4.166667
0,4.845455,4.8,4.836364,4.681818,3.036364,3.036364,3.0,2.990909,3.072727,3.045455,3.045455
1,2.855769,2.788462,2.721154,2.567308,2.634615,2.605769,2.778846,2.913462,4.951923,4.817308,4.865385
2,3.0,3.0,3.0,3.0,4.852459,4.852459,3.0,2.918033,2.754098,2.754098,2.754098
3,3.0,3.0,3.0,2.947368,2.947368,2.947368,4.912281,4.912281,3.0,3.0,3.0


В нулевойй кластер попадают люди, которые едят леденцы в медецинских целях.

Во первый, те, кто страдает от запаха изо рта.

В второй, те, кто едят их для повышения концентрации.

В третий, те, кто любят сладости.