# Кластеризация в Python: иерархическая

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA # Метод главных компонент
from sklearn import preprocessing  # функция для предварительной обработки данных
from sklearn.cluster import AgglomerativeClustering # Кластеризация иерархическим методом
from sklearn.metrics import silhouette_score # Метрика силуэта
import matplotlib.pyplot as plt  #импотируем подбиблиотеку и даём ей имя
import matplotlib    # для рисования
df = pd.read_csv('Labour.csv')

Основные переменные в датафрейме `df` (данные по бельгийским фирмам за 1996 г.)
- `capital`:капитал (в млн евро)
- `labour`: число сотрудников
- `output`: выпуск (в млн евро)
- `wage`: зарплата на одного сотрудника (в тыс евро)

In [None]:
df.head(n=6)

In [None]:
# Нормализация данных
scaler=preprocessing.StandardScaler().fit(df)  # специфицируем нормализацию данных
data_rescaled=scaler.transform(df)  # применяем эту нормализацию к исходноыму датасету 

## Иерархическая кластеризация: заданное количество кластеров 
Вначале разобьём датасет на заданное число кластеров (например, на 4). Рассмотрим **евклидову метрику между объектами**

In [None]:
# Создаём объект класса AgglomerativeClustering с нужными параметрами
# affinity= “euclidean”, “l1”, “l2”, “manhattan”, “cosine”
hier = AgglomerativeClustering(n_clusters=4, affinity='euclidean')
# применяем метод .fit() для кластеризации данных
hier.fit(data_rescaled)
# кластерная переменная 
print(hier.labels_)

In [None]:
# визуализируем в исходных переменных
df.plot.scatter('capital', 'output', c=hier.labels_, colormap='viridis')

In [None]:
# Визуализация в главных компонентых
pca=PCA(n_components=2)
pca.fit(data_rescaled)
data_pca = pca.transform(data_rescaled)
df_pca = pd.DataFrame(data=data_pca, columns = ['principal component 1', 'principal component 2'])
df_pca.plot.scatter('principal component 1', 'principal component 2', c=hier.labels_, colormap='viridis')

Построим дендрограмму

In [None]:
from scipy.cluster.hierarchy import linkage, dendrogram 

mergings = linkage(data_rescaled, method='ward')

plt.figure(figsize=(15, 15))  # размер картинки

dendrogram(mergings, no_labels=True)

plt.show()

## Оптимальное количество кластеров
Метод силуэта для евклидова расстояния

In [None]:
Silhouette_measure = []  # создаем массив длины 0
K = range(2,10)          #какие значения  k рассматриваеются
for num_clusters in K :
    hier = AgglomerativeClustering(n_clusters=num_clusters, affinity='euclidean')
    hier.fit(data_rescaled)
    Silhouette_measure.append(silhouette_score(data_rescaled, hier.labels_)) 
plt.plot(K,Silhouette_measure,'bx-')
plt.xlabel('Values of K') 
plt.ylabel('Silhouette measure') 
plt.title('Оптимальное число кластеров: метод силуэта')
plt.show()

In [None]:
Silhouette_measure = []  # создаем массив длины 0
K = range(2,10)          #какие значения  k рассматриваеются
for num_clusters in K :
    hier = AgglomerativeClustering(n_clusters=num_clusters, affinity='manhattan', linkage='average')
    hier.fit(data_rescaled)
    Silhouette_measure.append(silhouette_score(data_rescaled, hier.labels_)) 
plt.plot(K,Silhouette_measure,'bx-')
plt.xlabel('Values of K') 
plt.ylabel('Silhouette measure') 
plt.title('Оптимальное число кластеров: метод силуэта')
plt.show()

In [None]:
Silhouette_measure = []  # создаем массив длины 0
K = range(2,10)          #какие значения  k рассматриваеются
for num_clusters in K :
    hier = AgglomerativeClustering(n_clusters=num_clusters, affinity='l1', linkage='average')
    hier.fit(data_rescaled)
    Silhouette_measure.append(silhouette_score(data_rescaled, hier.labels_)) 
plt.plot(K,Silhouette_measure,'bx-')
plt.xlabel('Values of K') 
plt.ylabel('Silhouette measure') 
plt.title('Оптимальное число кластеров: метод силуэта')
plt.show()