# Кластеризация методом DBSCAN
Используем реализацию [DBSCAN](https://scikit-learn.org/stable/modules/clustering.html#dbscan) в [scikit-learn](https://scikit-learn.org/stable/index.html) (метод [DBSCAN](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html#sklearn.cluster.DBSCAN))

In [None]:
import pandas as pd
import numpy as np

from sklearn import preprocessing  # методы для предварительной обработки данных (нормирование etc)
from sklearn.cluster import DBSCAN

import seaborn as sns # 2D-визуалиазция
import plotly.express as px # 3D-визуалиазация

In [None]:
data = pd.read_csv('Countries.csv', sep=';', decimal=',')
data.head()

In [None]:
# Удалим нечисловые переменные
data = data.drop(columns=['Страны'])
data

## Нормирование данных

In [None]:
data_norm = preprocessing.StandardScaler(with_mean=True, with_std=True).fit_transform(data)
# data_norm = preprocessing.MinMaxScaler().fit_transform(data)
# data_norm = preprocessing.RobustScaler().fit_transform(data)

## Кластеризация

*Важно*: выбросы имею номер -1!

In [None]:
# Специфицируем процедуру
cluster = DBSCAN(eps=1, min_samples=3, metric='euclidean')
# проводим кластеризацию
cl = cluster.fit_predict(data_norm)

print(cl)

In [None]:
n_clusters_ = len(set(cl)) - (1 if -1 in cl else 0)
n_noise_ = list(cl).count(-1)

print('Estimated number of clusters: %d' % n_clusters_)
print('Estimated number of noise points: %d' % n_noise_)

## Визуализация
используем библиотеки [seaborn](https://seaborn.pydata.org/index.html) и [plotly](https://plotly.com/python/)

In [None]:
data['Cluster'] = cl
data.head()

In [None]:
sns.scatterplot(data=data, x='ИРЧП', y='Население', hue='Cluster')

In [None]:
sns.scatterplot(data=data, x='ИРЧП', y='ВВП д/н', hue='Cluster')

In [None]:
fig = px.scatter_3d(data, x='ИРЧП', y='ВВП д/н', z='Безработица (%)', color='Cluster')
fig.update_traces(marker_size=3)
fig.show()