### DB SCAN

Algorytm DBScan należy do klasy algorytmów opartych o gęstości danych. Pozawal nie tylko grupować dane, ale również wydobywać z tych danych outliery (elementy odstające, szum).

W metodzie wyróżniamy trzy rodzaje punktów:
- core point
- border point
- outlier point

Poruszamy się w zakresie sąsiedztwa (zdefiniowanego parametrem eps). Wyczerpanie sąsiedztwa oznacza przejście do kolejnego klastra. Jeżeli pierwszy punkt ma mniej sąsiadów niż wartość parametru min_sample, to jest outlierem. W przeciwnym razie budujemy klaster. W odróżnieniu od innych algorytmów w algorytmie DBSCAN nie podajemy oczekiwanej liczby klastrów. Algorytm sam wyznacza liczbę klastrów na podstawie wartości parametrów eps i max_sample.

#### Import bibliotek

In [None]:
import numpy as np
import pandas as pd
import plotly.express as px

#### Wygenerowanie danych

In [None]:
from sklearn.datasets import make_blobs

data = make_blobs(n_samples=1000, centers=3, cluster_std=1.2, center_box=(-8.0, 8.0), random_state=42)[0]

#### Wizualizacja

In [None]:
df = pd.DataFrame(data, columns=['x1', 'x2'])
px.scatter(df, 'x1', 'x2', width=950, height=500, title='Klasteryzacja', template='plotly_dark')

#### Model

In [None]:
from sklearn.cluster import DBSCAN

cluster = DBSCAN(eps=0.5, min_samples=5)
cluster.fit(data)  # trenujemy

In [None]:
cluster.labels_[:10]  # obliczone numery klastrów dla poszczególnych punktów

#### Wizualizacja grupowania

In [None]:
df['cluster'] = cluster.labels_
px.scatter(df, 'x1', 'x2', 'cluster', width=950, height=500, title='DBSCAN(eps=0.5, min_samples=5)', 
           template='plotly_dark', color_continuous_midpoint=0)

# W wyniku widzimy trzy duże klastry, trzy mniejsze i sporo outlierów (klaster -1)

In [None]:
# modyfikujemy parametry: promień sąsiedztwa (eps) oraz minimlna liczba próbek (min_samples)
cluster = DBSCAN(eps=0.5, min_samples=7)
cluster.fit(data)

df['cluster'] = cluster.labels_
px.scatter(df, 'x1', 'x2', 'cluster', width=950, height=500, title='DBSCAN(eps=0.5, min_samples=7)')

In [None]:
cluster = DBSCAN(eps=0.8, min_samples=5)
cluster.fit(data)

df['cluster'] = cluster.labels_
px.scatter(df, 'x1', 'x2', 'cluster', width=950, height=500, title='DBSCAN(eps=0.7, min_samples=5)')

#### Popatrzmy dla 4 klastrów

In [None]:
# generujemy nowe dane
data = make_blobs(n_samples=1000, centers=4, cluster_std=1.2, center_box=(-8.0, 8.0), random_state=43)[0]
df = pd.DataFrame(data, columns=['x1', 'x2'])
px.scatter(df, 'x1', 'x2', width=950, height=500, title='DBSCAN', template='plotly_dark')

# dane nie są w łatwy sposób sepraowalne

In [None]:
cluster = DBSCAN(eps=0.5, min_samples=5)
cluster.fit(data)

df['cluster'] = cluster.labels_
print(np.unique(cluster.labels_))  # sporo (9) klastrów nie licząc outlierow

px.scatter(df, 'x1', 'x2', 'cluster', width=950, height=500, title='DBSCAN(eps=0.5, min_samples=5)')

Popatrzmy na liczbę punktów w poszczególnych klastrach

In [None]:
df.cluster.value_counts()

Zaraz, skoro min_samples ustawilśmy na 5, to dlaczego mamy klastry które mają po 4 punkty (klaster 5 i 7) ?

Punkty graniczne, które są osiągalne z więcej niż jednego klastra, mogą być częścią każdego klastra, w zależności od kolejności przetwarzania danych (czyli decyduje kolejność przetwarzania). Taka sytuacja ma niewielki wpływ na wynik klastrowania.
Innymi słowy punkty graniczne klastrów 5 i 7 zostały zaklasyfikowane do klastra 3 (bo klaster 3 liczony był jako pierwszy), ale widnieją jako klastry, bo liczone były niezależnie od pozostałych klastrów.

Zwiększmy epsilon

In [None]:
cluster = DBSCAN(eps=0.8, min_samples=5)
cluster.fit(data)

df['cluster'] = cluster.labels_
px.scatter(df, 'x1', 'x2', 'cluster', width=950, height=500, title='DBSCAN(eps=0.8, min_samples=5)', template='plotly_dark')

Dostaliśmy dwa klastry. 

Widać, że parametry mogą mieć ogromny wpływ na wynik końcowy.

Spróbujmy tak dopasować parametry, żeby efekt klasteryzacji był najbliższy naszym oczekiwaniom.

In [None]:
cluster = DBSCAN(eps=0.6, min_samples=6)
cluster.fit(data)

df['cluster'] = cluster.labels_
px.scatter(df, 'x1', 'x2', 'cluster', width=950, height=500, title='DBSCAN(eps=0.6, min_samples=6)')

Popatrzmy jeszcze na klasę DBSCAN

In [None]:
# parametr metric
DBSCAN?