# Кластеризация методом k-средних
Используем реализацию [k-средних](https://scikit-learn.org/stable/modules/clustering.html#k-means) в [scikit-learn](https://scikit-learn.org/stable/index.html) (метод [KMeans](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans))

In [None]:
import pandas as pd
import numpy as np

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score
from sklearn.preprocessing import StandardScaler  # z-нормировка
# from sklearn.preprocessing import MinMaxScaler, RobustScaler # другие способы нормировки

import seaborn as sns # 2D-визуалиазция
import plotly.express as px # 3D-визуалиазация

# Не показывать Warning
import warnings
warnings.simplefilter(action='ignore', category=Warning)

In [None]:
df = pd.read_csv('./datasets/Countries.csv', sep=';', decimal=',')
# Удалим нечисловые переменные
X = df.drop(columns=['Страны'])
X

## Нормирование данных

In [None]:
# Специфицируем метод нормировки
scaler = StandardScaler(with_mean=True, with_std=True)
# scaler = MinMaxScaler()
# scaler = RobustScaler()

X_norm = scaler.fit_transform(X)

## Кластеризация

In [None]:
# Специфицируем процедуру
cluster = KMeans(n_clusters=3, init='random', random_state=2)
# проводим кластеризацию
cl = cluster.fit_predict(X_norm)

print(cl)

## Метрики кластеризации
[Основные метрики](https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation)
| Метрика |Метод |Критерий|
|-|-|-|
|Silhouette Coefficient|silhouette_score| max|
|Calinski-Harabasz|calinski_harabasz_score|max|
|Davies-Bouldin|davies_bouldin_score|min|

In [None]:
print('Silhouette Score=', silhouette_score(X_norm, cl))
print('Calinski-Harabasz Score=', calinski_harabasz_score(X_norm, cl))
print('Davies-Bouldin Score=', davies_bouldin_score(X_norm, cl))

## Визуализация
используем библиотеки [seaborn](https://seaborn.pydata.org/index.html) и [plotly](https://plotly.com/python/)

In [None]:
X['Cluster'] = cl
X.head()

In [None]:
sns.scatterplot(data=X, x='ИРЧП', y='Население', hue='Cluster')

In [None]:
sns.scatterplot(data=X, x='ИРЧП', y='ВВП д/н', hue='Cluster')

In [None]:
fig = px.scatter_3d(X, x='ИРЧП', y='ВВП д/н', z='Безработица (%)', color='Cluster')
fig.update_traces(marker_size=3)
fig.show()