# Кластеризация методом DBSCAN
### Econom_Cities_data

In [1]:
#  Активируем библиотеки

import numpy as np
import pandas as pd

import matplotlib
import matplotlib.pyplot as plt

import os

In [2]:
#  Активируем процедуру для стандартизации данных
from sklearn import preprocessing

#  Активируем процедуру DBSCAN
from sklearn.cluster import DBSCAN

In [3]:
#  Задаем рабочую папку
os.chdir('/Users/kchendemer/Documents/analytics python/claster_analysis_labs/')

In [4]:
# Считываем файл Econom_Cities_data, обозначаем колонку City индексом
df = pd.read_csv('Econom_Cities_data.csv', sep=';', index_col= 'City')

In [5]:
# С иерархического анализа нам уже известно о выбросах, поэтому сразу удаляем их
df = df.drop(["Cairo", "Jakarta"])

In [6]:
# Также сразу меняем тип данных
df['Price'] = df['Price'].str.replace(',', '.').astype(float)
df['Salary'] = df['Salary'].str.replace(',', '.').astype(float)

Данные сильно разбросаны и прежде чем использовать кластеризации необходимо их нормализировать

Формула нормализации данных: $z = (x - mean) / std$

In [7]:
# Выбираем вариант стандартизации
stand = preprocessing.StandardScaler()

# вычисляем параметры стандартизации (они сохраняются внутри объекта norm)
stand.fit(df)

# преобразуем данные - получаем матрицу класса numpy.ndarray
stand_matrix = stand.transform(df)

# Преобразуем её в датафрейм
df_stand = pd.DataFrame(stand_matrix, index=df.index, columns=df.columns)

In [8]:
#  Кластеризуем методом DBSCAN. 

#  Значения 3-х первых параметров совпадают со значениями "по умолчанию"
dbscan = DBSCAN(eps=0.5, metric='euclidean', min_samples=5)

#  Обучим модель DBSCAN
dbscan.fit(df_stand)

# Просматриваем результаты кластеризации
dbscan.labels_

array([ 0, -1, -1, -1,  0, -1, -1, -1, -1,  0,  0, -1, -1, -1, -1, -1, -1,
       -1, -1, -1,  0, -1, -1, -1, -1, -1,  0,  0, -1, -1, -1, -1, -1,  0,
       -1, -1, -1, -1, -1,  0, -1, -1, -1, -1,  0, -1])

In [9]:
# Создаем таблицу частот в numpy

unique, counts = np.unique(dbscan.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[-1 36]
 [ 0 10]]


Как можно заметить 36 наблюдений попали в -1 кластер, что не годиться для кластеризации и неинформативно для анализа

In [10]:
#  Снова кластеризируем данные, но увеличиваем eps до 5

dbscan_1 = DBSCAN(eps=5, metric='euclidean', min_samples=5)
dbscan_1.fit(df_stand)

In [11]:
# Снова создаем таблицу частот на новых данных

unique, counts = np.unique(dbscan_1.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[ 0 46]]


Теперь все значения попали в один кластер, что тоже не хорошо - попробуем уменьшить eps, но оставлять его выше первого значения (0.5)

In [12]:
# Возьмем серединное значение

dbscan_2 = DBSCAN(eps=2.5, metric='euclidean', min_samples=5)

dbscan_2.fit(df_stand)

unique, counts = np.unique(dbscan_2.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[ 0 46]]


Все еще значение слишком большое, снова возьмем середину

In [13]:
# Возьмем серединное значение

dbscan_3 = DBSCAN(eps=1.25, metric='euclidean', min_samples=5)

dbscan_3.fit(df_stand)

unique, counts = np.unique(dbscan_3.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[-1  2]
 [ 0 44]]


Становиться лучше, но все же в 0 кластере более 90% данных, снова возьмем середину

In [14]:
dbscan_4 = DBSCAN(eps=0.9, metric='euclidean', min_samples=5)

dbscan_4.fit(df_stand)

unique, counts = np.unique(dbscan_4.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[-1  8]
 [ 0 19]
 [ 1 19]]


Стало лучше, но стоит попробовать поменять и в min_samples - попробуем уменьшить до 3

In [15]:
dbscan_5 = DBSCAN(eps=0.9, metric='euclidean', min_samples=3)

dbscan_5.fit(df_stand)

unique, counts = np.unique(dbscan_5.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[-1  8]
 [ 0 38]]


In [16]:
# Уменьшим еще min_samples

dbscan_6 = DBSCAN(eps=0.9, metric='euclidean', min_samples=2)

dbscan_6.fit(df_stand)

unique, counts = np.unique(dbscan_6.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[-1  4]
 [ 0 38]
 [ 1  2]
 [ 2  2]]


In [17]:
# Уменьшим еще eps

dbscan_7 = DBSCAN(eps=0.75, metric='euclidean', min_samples=2)

dbscan_7.fit(df_stand)

unique, counts = np.unique(dbscan_7.labels_, return_counts=True)
print(np.asarray((unique, counts)).T)

[[-1  4]
 [ 0 19]
 [ 1 19]
 [ 2  2]
 [ 3  2]]


Из всех полученных вариантов - это пока лучший вариант, так что остановимся на нем <br>
При увеличении min_samples - кол-во кластеров уменьшается, при уменьшении получим черезмерное деление <br>
А изменения eps мы уже рассмотрели <br>

Теперь рассмотрим кластеры детальнее

In [18]:
df['cluster'] = dbscan_7.labels_
df.groupby('cluster').mean()

Unnamed: 0_level_0,Work,Price,Salary
cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-1,2051.25,93.6,42.375
0,1792.0,77.526316,55.157895
1,1959.210526,50.115789,14.789474
2,1874.0,97.95,95.15
3,1625.0,114.55,65.15


**-1** кластер явная аномалия

**Итого получаем следующие кластеры:** <br> 
**-1** Самое большое кол-во рабочих часов, достаточно высокие цены и средние зарплаты - *много работы, мало денег* <br>
**0** Кол-во рабочих часов меньше, при этом зарплаты и цены гораздо выше - *достаточно работы, достаточно денег* <br>
**1** Кол-во рабочих часов чуть выше среднего, но самые низкие зарплаты и цены - *много работы, мало денег* <br>
**2** Кол-во рабочих часов среднее, при этом хорошее соотношение зарплаты и цен - *работы достаточно, достаточно денег* <br>
**3** Кол-во рабочих часов наименьшее, при этом самые высокие цены и средние зарплаты - *работы мало, достаточно много* <br>