# Кластеризация в Python: метод  k-средних

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA # Метод главных компонент
from sklearn import preprocessing  # функция для предварительной обработки данных
from sklearn.cluster import KMeans # Кластеризация методом k-средних
from sklearn.metrics import silhouette_score # Метрика силуэта
import matplotlib.pyplot as plt  #импотируем подбиблиотеку и даем ей имя
import matplotlib    # для рисования
df = pd.read_csv('Labour.csv')

Основные переменные в датафрейме `df` (данные по бельгийским фирмам за 1996 г.)
- `capital`:капитал (в млн евро)
- `labour`: число сотрудников
- `output`: выпуск (в млн евро)
- `wage`: зарплата на одного сотрудника (в тыс евро)

In [None]:
df.head(n=6)

In [None]:
# Нормализация данных
scaler=preprocessing.StandardScaler().fit(df)  # специфицируем нормализацию данных
data_rescaled=scaler.transform(df)  # применяем эту нормализацию к исходноыму датасету 

## Метод k-средних (заданное число кластеров)
Вначале разобьём датасет на заданное число кластеров (например, на 3)

In [None]:
# Создаём объект класса KMeans с нужными параметрами
kmeans = KMeans(init="random", n_clusters=3)
# применяем метод .fit() для кластеризации данных
kmeans.fit(data_rescaled)
# кластерная переменная 
print(kmeans.labels_)

In [None]:
# визуализируем в исходных переменных
df.plot.scatter('labour', 'output', c=kmeans.labels_, colormap='viridis')

In [None]:
# Визуализация в главных компонентых
pca=PCA(n_components=2)
pca.fit(data_rescaled)
data_pca = pca.transform(data_rescaled)
df_pca = pd.DataFrame(data=data_pca, columns = ['principal component 1', 'principal component 2'])
df_pca.plot.scatter('principal component 1', 'principal component 2', c=kmeans.labels_, colormap='viridis')

## Метод k-средних: выбор числа кластеров
Метод силуэта

In [None]:
Silhouette_measure = []  # создаем массив длины 0
K = range(2,10)          #какие значения  k рассматриваеются
for num_clusters in K :
    kmeans = KMeans(n_clusters=num_clusters)
    kmeans.fit(data_rescaled)
    Silhouette_measure.append(silhouette_score(data_rescaled, kmeans.labels_)) 
plt.plot(K,Silhouette_measure,'bx-')
plt.xlabel('Values of K') 
plt.ylabel('Silhouette measure') 
plt.title('Оптимальное число кластеров: метод силуэта')
plt.show()

**Оптимальное значение кластера**: 2 (там максимум функции)

Метод Elbow

In [None]:
WSS = []  # создаем массив длины 0
K = range(2,10)          #какие значения  k рассматриваеются
for num_clusters in K :
    kmeans = KMeans(n_clusters=num_clusters)
    kmeans.fit(data_rescaled)
    WSS.append(kmeans.inertia_)
plt.plot(K,WSS,'bx-')
plt.xlabel('Values of K') 
plt.ylabel('WSS/Inertia') 
plt.title('Оптимальное число кластеров: метод Elbow')
plt.show()

**Оптимальное количество кластеров**: 4 или 5