<center><font size="6"><b>Комп'ютерний практикум 9.

<center><b> Методи кластеризації </font>


<center><b><i><font size="4"> DBSCAN (Density-Based Clustering)

Hierarchical Clustering



</b></center>



##__DBSCAN (Density-Based Clustering)__

>__DBSCAN (Density-based spatial clustering of applications with noise)__

<center><img src="https://miro.medium.com/max/1013/1*tc8UF-h0nQqUfLC8-0uInQ.gif" width="600"></center>

Даний метод базується на використанні щільності даних. На вхід він потребує матрицю близькості та два параметри: $\epsilon$-окіл (максимальна відстань між об'єктами) та $m$ кількість сусідів (мінімальна кількість елементів, що знаходиться в $\epsilon$-околі даного елемента для створення кластеру). 
1. Область $E(x)$, для якої $\forall y: \rho(x, y) \leq \epsilon$ назвемо $\epsilon$-околом об'єкта $x$.
2. Кореневим об'єктом або ядерним об'єктом степеня $m$ називається об'єкт, $\epsilon$-окіл якого містить не менше $m$ об'єктів: $|E(x)| \geq m$.
3. Об'єкт $p$ безпосередньо щільно-доясяжний із об'єкта $q$, якщо $p \in E(q)$ та $q$ — кореневий об'єкт.
4. Объект $p$ щільно-доясяжний із об'єкта $q$, якщо $\exists p_1, p_2 \dots p_n, p_1 = q, p_n = p$, такі що $\forall i \in 1 \dots n-1: p_{i+1}$ безпосередньо щільно-досяжний з $p_i$
5. шум: всі елементи, недосяжні з будь-якого іншого елементу вважаються шумом

###__Етапи алгоритму:__
1. Алгоритм починається з довільної точки, яка була відвідана, і інформація про її окіл береться з параметру.
2. Якщо ця точка містить $m$ сусідів в $\epsilon$-околі, починається формування кластера. В іншому випадку точка позначається як шум. Ця точка може бути пізніше знайдена в $\epsilon$-околі іншої точки і, таким чином, може стати частиною іншого кластера. Тут важлива концепція досяжності щільності і точок, пов'язаних щільністю.
3. Якщо точка знайдена як коренева точка, то точки в $\epsilon$-околі також є частиною кластера. Таким чином, всі точки, знайдені в $\epsilon$-околі, додаються разом з їх власним $\epsilon$-околом, якщо вони також є кореневими точками.
4. Процес триває до того часу, поки кластер, пов'язаний щільністю, не сформується повністю.
5. Процес відновлюється з нової точки, яка може бути частиною утвореного кластеру або позначена як шум.


<center><img src="https://www.machinelearningmastery.ru/img/0-166263-693665.png" width="400"></center>

<center><img src="https://hsto.org/r/w1560/files/0ba/54b/abe/0ba54babe162458bb9f8e004e5329cfa.png" width="400"></center>


### __Переваги методу__

1. Знаходить кластери різної форми
2. Ефективний для великої бази даних
3. Визначає кількість кластерів самостійно
4. Знаходить викиди (шуми)


### __Недоліки методу__

1. Якщо в базі даних є дані, які утворюють кластери різної щільності, то DBSCAN не вдається добре кластеризувати такі дані, оскільки кластеризація залежить від параметрів $\epsilon$-околу та $m$ сусідів, вони можуть бути обрані окремо для усих кластерів.
2. Якщо дані та функції не зовсім зрозумілі експерту в області, то налаштування параметрів $\epsilon$-околу та $m$ сусідів може бути достатньо складним і, можливо, знадобиться порівняння для кількох ітерацій з різними значеннями $\epsilon$ та $m$.
3. $O(N\log{N})$-складність
4. Пограничні точки різних кластерів моуть бути хибно класифіковані





##__Реалізація алгоритму DBSCAN__

In [None]:
import matplotlib.pyplot as plt
 


__Завантажимо дані__

Скористаємося даними з пакету `sklearn` `make_moons`.

Візьмемо 200 точок та додамо деяку зашумленість (гаусів шум)

In [None]:
from sklearn.datasets import make_moons
if __name__ == "__main__":
       
    x,y = make_moons(n_samples=200,noise=0.1,random_state=0)
    plt.scatter(x[:,0],x[:,1],c="blue",marker="o")
    plt.show()

> імпортуємо з пакету `sklearn.cluster` функцію `DBSCAN`

In [None]:
    from sklearn.cluster import DBSCAN

###__Моделювання__
> Задамо параметри функції `DBSCAN`:

 `eps`: $\epsilon$-окіл

 `min_samples`: кількість $m$ сусідів

 та метрику -  `metric`

In [None]:
dbscan = DBSCAN(eps=0.2,min_samples=5,metric="euclidean")

> Проведемо навчання моделі та побудуємо результат

In [None]:
dbscan_y = dbscan.fit_predict(x)

In [None]:
# Точки кластеру 1
plt.scatter (x [dbscan_y == 0,0], x [dbscan_y == 0,1], c = "green", marker = "o", label = "cluster 1")
# Точки кластеру 2
plt.scatter (x [dbscan_y == 1,0], x [dbscan_y == 1,1], c = "red", marker = "s", label = "cluster 2")
# Викиди (шум)
plt.scatter (x [dbscan_y == - 1,0], x [dbscan_y == - 1,1], c = "blue", marker = "^", label = "noise spot")
# Заголовок діаграми
plt.title ("Density-Based Clustering")
plt.legend()
plt.show()

##__Hierarchical Clustering__

>__Hierarchical Clustering__

<center><img src="https://miro.medium.com/max/1050/1*ET8kCcPpr893vNZFs8j4xg.gif" width="600"></center>

Даний метод базується на використанні відстаней між елементами та принципами побудови дерева

Розрізняють:

* _Агломеративний підхід_. (Підхід "знизу - вгору") Починається алгоритм з того, що кожен об'єкт - окремий кластер. На кожному кроці відбувається об'єднання два найближчі кластери в один та зупиняємося тоді, коли всі об'єкти будуть знаходитися в одному кластері

* _Дивізивний підхід_ (Оберенений до агломеративного, "згори - вниз"). На вхід подаються всі дані як один кластер. На кожному кроці відбувається розбиття на кластери доти поки всі елементи не стануть елементами персонального кластеру

Більш популярний Агломеративний підхід, тому зосередимо увагу на ньому.

Оскільки в даному методі розраховується близькість між елементами, то звісно, необхідно задавати метрику.

>Відстань між кластером та всима іншими кластерами можна задавати різними способами ("__Linkage__"):
* __Single Linkage__ - відстань між кластерами обчислюється як мінімальне між всима парами об'єктів з різних кластерів.
* __Complete Linkage__ - відстань між кластерами обчислюється як максимальне між парами об'єктів з різних кластерів.
* __Average Linkage__ - середня відстань між всима парами об'єктів з різних кластерів.
* __Centroid Linkage__ - відстань між центроїдами різних кластерів
* __Ward Linkage__ - модифікований попередній метод з врахуванням розмірів самих кластерів.

Візуалізація ієрархіїї, де вісь абсцис - обє'кти, а вісь ординат - відстань, на якій відповідні об'єкти, кластери, об'єднані один з одним, називається __дендрограма__

###__Етапи алгоритму:__
1. Розраховується відстань між елементами.
2. Для об'єднання в новий кластер обирається два найближчих елементи. Середнє значення двук точок обирається як нове значення та класифікується в одну категорію
3. Перераховується схожіссть між новим кластером та кожним "старим".
4. Повторюються кроки 2 та 3


### __Переваги методу__

1. Отримується не одне розбиття на кластери, а ціла ієрархія кластерів
2. Візуалізація всих етапів кластеризації на дендрограмі
3. Низька чуттєвість до шумів


### __Недоліки методу__

1. Вибір оптимальної кількості кластерів.
3. Для великої кількості даних працює достатньо довго з більшими затрати=ами пам'яті. Складність алгоритму - $O(N^2\log{N})$




> імпортуємо з пакету `sklearn.cluster` функцію `AgglomerativeClustering`

In [None]:
from sklearn.cluster import AgglomerativeClustering

###__Моделювання__
> Задамо параметри функції `AgglomerativeClustering`:

 `n_clusters`: кількість кластерів, які необхідно знайти

 `affinity` - метрика

 `linkage` - критерій зв'язку

In [None]:
ac = AgglomerativeClustering(n_clusters=2,affinity="euclidean",linkage="complete")

> Проведемо навчання моделі та побудуємо результат

In [None]:
ac_y = ac.fit_predict(x)
     

In [None]:
# Точки кластеру 1
plt.scatter (x [ac_y == 0,0], x [ac_y == 0,1], c = "green", marker = "o", label = "cluster 1")
# Точки кластеру 2
plt.scatter (x [ac_y == 1,0], x [ac_y == 1,1], c = "red", marker = "s", label = "cluster 2")
# Заголовок
plt.title ("Hierarchical Clustering")
plt.legend()
plt.show()

### __Дендрограма__

> Побудуємо матрицю відстаней між елементами

In [None]:
from scipy.spatial import distance_matrix 
dist_matrix = distance_matrix(x,x) 
print(dist_matrix)

> Зстосуємо метод зв'язку між кластерами

In [None]:
from scipy.cluster import hierarchy 
Z = hierarchy.linkage(dist_matrix, 'complete')

> Побудуємо дендрограму

In [None]:
dendro = hierarchy.dendrogram(Z)

##<center>__Самостійні завдання__</center>

> Скопіювати блок самостійних завдань в окремий файл ***LastName_CP9.ipynb***

> Інсталюйте необхідні пакети бібліотек Python

### Завдання №1

* Завантажте дані з лінку

`url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"`

<center><img src="http://sebastianraschka.com/images/blog/2015/principal_component_analysis_files/iris.png" width="600" alt="content-vs-colab.png"></center>

* задайте наступні імена колонок датафрейму:

`names=['sepal length','sepal width','petal length','petal width','class label']`
* виведіть описову статистику датасету
* сформуйте масив характеристик $X$, використовуйте лише `sepal length` та `sepal width` 
* Побудуйте точковий графік даних характеристик відносно відомих класів

 


In [None]:
# МІСЦЕ ДЛЯ КОДУ

### Завдання №2

* Проведіть стандартизацію даних
* застосуйте алгоритм $k$-means для $k=2$, $k=3$, $k=4$ з оптимізацією та без, побудуйте діаграми кластерів
* порівняйте результати кластеризації при $k=3$ з діаграмою класів
* побудуйте залежність кількості кластерів $k$ та квадратичного критерію інерції 
* зробіть висновки

### Завдання №3

* застосуйте алгоритм `DBSCAN`та побудуйте діаграму кластерів
* зробіть висновки


In [None]:
# МІСЦЕ ДЛЯ КОДУ

### Завдання №4

* застосуйте алгоритм агломеративної ієрархії та побудуйте діаграму кластерів
* побудуйте дендрограму
* зробіть висновки


In [None]:
# МІСЦЕ ДЛЯ КОДУ


### Завдання №5

* порівняйте результати кластеризації методами $k$-means, DBSCAN та агломеративної ієрархії  
* зробіть висновки

In [None]:
# МІСЦЕ ДЛЯ КОДУ