# Методы кластеризации

## Библиотеки

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.metrics import accuracy_score

from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from scipy.cluster.hierarchy import dendrogram

import seaborn as sns
import pandas as pd
import math
from sklearn.mixture import GaussianMixture as GMM

In [None]:
import warnings
warnings.filterwarnings("ignore")

sns.set_style("white")
%matplotlib inline

In [None]:
colors = ['blue', 'red', 'green', 'orange', 'magenta', 'black', 'cyan', 'purple']

## Задача кластеризации

Дано:
- $X$ --- пространство объектов
- $X^l = \{x_1, \cdots, x_l\}$ --- обучающая выборка
- $\rho: X\times X \to R^+$ --- функция расстояния

Найти:
- $Y$ --- множество кластеров
- $a: X \to Y$ --- алгоритм кластеризации
    - каждый класстер состоит из близкихобъектов
    - объекты разных кластеров существенно различны.

## Примеры

In [None]:
np.random.seed(0)
l = 500
X_1 = np.random.dirichlet([1e-3, 1e-3], size = l) + 1e-1*np.random.randn(l, 2)
X_2 = 2*np.random.dirichlet([1e-3, 1e-3], size = l) + 1e-1*np.random.randn(l, 2)

X = np.vstack([X_1, X_2])
_ = plt.plot(X[:, 0], X[:, 1], '.', color=colors[0])

plt.show()

In [None]:
np.random.seed(0)
l = 500
X_1 = np.random.dirichlet([1e-2, 1e-2], size = l) + 1e-1*np.random.randn(l, 2)
X_2 = 2*np.random.dirichlet([1e-2, 1e-2], size = l) + 1e-1*np.random.randn(l, 2)

X = np.vstack([X_1, X_2])
_ = plt.plot(X[:, 0], X[:, 1], '.', color=colors[0])

plt.show()

In [None]:
np.random.seed(0)
l = 500
X_1 = np.random.dirichlet([1e-1, 1e-1], size = l) \
      + 1e-1*np.random.randn(l, 2)
X_2 = 2*np.random.dirichlet([1e-1, 1e-1], size = l) \
      + 1e-1*np.random.randn(l, 2)

X = np.vstack([X_1, X_2])
_ = plt.plot(X[:, 0], X[:, 1], '.', color=colors[0])

plt.show()

In [None]:
np.random.seed(0)
l = 500
X_1 = np.random.dirichlet([1e-0, 1e-0], size = l) + 1e-1*np.random.randn(l, 2)
X_2 = 2*np.random.dirichlet([1e-0, 1e-0], size = l) + 1e-1*np.random.randn(l, 2)

_ = plt.plot(X_1[:, 0], X_1[:, 1], '.', color=colors[0])
_ = plt.plot(X_2[:, 0], X_2[:, 1], '.', color=colors[1])

plt.show()

## K-Means

In [None]:
np.random.seed(0)
l = 50
X_1 = np.random.dirichlet([1e-0, 1e-0], size = l) \
      + 1e-1*np.random.randn(l, 2)
X_2 = 2*np.random.dirichlet([1e-0, 1e-0], size = l) \
      + 1e-1*np.random.randn(l, 2)

X = np.vstack([X_1, X_2])

_ = plt.plot(X[:, 0], X[:, 1], '.', color=colors[0])
plt.show()

In [None]:
model = KMeans(n_clusters=2, random_state=42)
model.fit(X)

for i in np.unique(model.labels_):
    _ = plt.plot(X[model.labels_ == i, 0], 
                 X[model.labels_ == i, 1], '.', color=colors[i])
    _ = plt.plot([model.cluster_centers_[i][0]], 
                 [model.cluster_centers_[i][1]], 'x', c=colors[i], markersize=20)

In [None]:
model = KMeans(n_clusters=4, random_state=42)
model.fit(X)

for i in np.unique(model.labels_):
    _ = plt.plot(X[model.labels_ == i, 0], 
                 X[model.labels_ == i, 1], '.', color=colors[i])
    _ = plt.plot([model.cluster_centers_[i][0]], 
                 [model.cluster_centers_[i][1]], 'x', c=colors[i], markersize=20)

In [None]:
model = KMeans(n_clusters=8, random_state=42)
model.fit(X)

for i in np.unique(model.labels_):
    _ = plt.plot(X[model.labels_ == i, 0], 
                 X[model.labels_ == i, 1], '.', color=colors[i])
    _ = plt.plot([model.cluster_centers_[i][0]], 
                 [model.cluster_centers_[i][1]], 'x', c=colors[i], markersize=20)


In [None]:
np.random.seed(0)
l = 50
X_1 = np.random.dirichlet([1e-2, 1e-2], size = l) \
      + 1e-1*np.random.randn(l, 2)
X_2 = 2*np.random.dirichlet([1e-2, 1e-2], size = l) \
      + 1e-1*np.random.randn(l, 2)

X = np.vstack([X_1, X_2])

_ = plt.plot(X[:, 0], X[:, 1], '.', color=colors[0])
plt.show()

In [None]:
model = KMeans(n_clusters=2, random_state=42)
model.fit(X)

for i in np.unique(model.labels_):
    _ = plt.plot(X[model.labels_ == i, 0], 
                 X[model.labels_ == i, 1], '.', color=colors[i])
    _ = plt.plot([model.cluster_centers_[i][0]], 
                 [model.cluster_centers_[i][1]], 'x', c=colors[i], markersize=20)

In [None]:
model = KMeans(n_clusters=4, random_state=42)
model.fit(X)

for i in np.unique(model.labels_):
    _ = plt.plot(X[model.labels_ == i, 0], 
                 X[model.labels_ == i, 1], '.', color=colors[i])
    _ = plt.plot([model.cluster_centers_[i][0]], 
                 [model.cluster_centers_[i][1]], 'x', c=colors[i], markersize=20)

In [None]:
model = KMeans(n_clusters=8, random_state=42)
model.fit(X)

for i in np.unique(model.labels_):
    _ = plt.plot(X[model.labels_ == i, 0], 
                 X[model.labels_ == i, 1], '.', color=colors[i])
    _ = plt.plot([model.cluster_centers_[i][0]], 
                 [model.cluster_centers_[i][1]], 'x', c=colors[i], markersize=20)

### Ограничения

Работает с Евклидовой метрикой и только!

## EM-алгоритм
Из статьи https://habr.com/ru/post/501850/

In [None]:

# запишем функцию E-шага
def e_step(x, k, m, n, w, mu, sigma):
    # инициализируем массив плотностей вероятностей извлечения i-ой детали из произведенных на j-м станке 
    pj_xi = []
    for j in range(k):
        det_sigma_j = np.linalg.det(sigma[j])
        factor_1 = 1 / (((2 * math.pi)**(m/2)) * ((det_sigma_j)**0.5))
        factor_2 = []
        for i in x:
            factor_2.append(math.e**float(
                -0.5 * np.matrix(i - mu[j]) * np.matrix(np.linalg.inv(sigma[j])) * np.matrix(i - mu[j]).T))
        pj_xi.append(factor_1 * np.array(factor_2))
    pj_xi = np.array(pj_xi)
    
    # инициализируем массив плотностей вероятностей того, что i-я деталь произведена на j-м станке
    pj_xi_w = []
    for j in range(k):
        pj_xi_w.append(pj_xi[j] * w[j])
    pj_xi_w = np.array(pj_xi_w)
    
    # рассчитаем плотность вероятности извлечения i-й детали среди всех деталей  
    sum_pj_xi_w = np.sum(pj_xi_w, axis = 0)
    
    # инициализируем массив вероятностей отнесения каждой детали к каждому станку
    proba_xi = []
    for j in range(k):
        proba_xi.append(pj_xi_w[j] / sum_pj_xi_w)
    
    return np.array(proba_xi)

# запишем функцию, в соответствии с которой, на основании данных о вероятности отнесения изделия к тому или иному станку,
# будет определятся на каком станке изделие производилось
def x_new(proba_xi):
    X1_new_ind = []
    X2_new_ind = []
    X_answers = []

    count = 0
    for x in proba_xi[0]:
        if x >= 0.5:
            X1_new_ind.append(count)
            X_answers.append(1)
        else:
            X2_new_ind.append(count)
            X_answers.append(2)
        count += 1
    # на выходе получаем вектор индексов изделий, произведенных на станке №1, №2 и вектор ответов
    return X1_new_ind, X2_new_ind, X_answers


# запишем функцию M-шага
def m_step(x, proba_xi,N):
    w_new = np.sum(proba_xi, axis = 1) / N
    
    # рассчитаем математическое ожидание
    mu_new = (np.array((np.matrix(proba_xi) * np.matrix(X))).T / np.sum(proba_xi, axis = 1)).T
    
    # рассчитаем дисперсии
    cov_new = []
    for mu in range(mu_new.shape[0]):
        X_cd = []
        X_cd_proba = []
        count = 0
        for x_i in x:
            cd = np.array(x_i - mu_new[mu])
            X_cd.append(cd)
            X_cd_proba.append(cd * proba_xi[mu][count])
            count += 1
        X_cd = np.array(X_cd)
        X_cd = X_cd.reshape(N, m)
        X_cd_proba = np.array(X_cd_proba)
        X_cd_proba = X_cd_proba.reshape(N, m)

        cov_new.append(np.matrix(X_cd.T) * np.matrix(X_cd_proba))
    cov_new = np.array((np.array(cov_new) / (np.sum(proba_xi, axis = 1)-1)))
    # при расчете матрицы ковариации в некоторых случаях могут быть элементы с отрицательными значениями, переведем их в нули
    # на основной рассчет такой перевод не повлияет, но упростит извлечение корня из значений матрицы ковариации
    if cov_new[0][0][1] < 0:
        cov_new[0][0][1] = 0
    if cov_new[0][1][0] < 0:
        cov_new[0][1][0] = 0
    
    if cov_new[1][0][1] < 0:
        cov_new[1][0][1] = 0
    if cov_new[1][1][0] < 0:
        cov_new[1][1][0] = 0
    
    # рассчитаем стандартное отклонение
    sigma_new = cov_new**0.5
    return w_new, mu_new, sigma_new
# сформируем исходные условия
# количество изделий произведенных на станке №1 (кластер 1)
N1 = 6000
# количество изделий произведенных на станке №2 (кластер 2)
N2 = 4000
# суммарное количество изделий произведенных на обоих станках
N = N1 + N2

# количество станков
k = 2

# диаметр изделий станка №1
mu_samples_1_1 = 64.
# вес изделий станка №1
mu_samples_1_2 = 14.

# диаметр изделий станка №2
mu_samples_2_1 = 52.
# вес изделий станка №2
mu_samples_2_2 = 9.5

# стандартное отклонение диаметров изделий станка №1
sigma_samples_1_1 = 3.5
# стандартное отклонение веса изделий станка №1
sigma_samples_1_2 = 1.

# стандартное отклонение диаметров изделий станка №2
sigma_samples_2_1 = 2.
# стандартное отклонение веса изделий станка №2
sigma_samples_2_2 = 0.7
X = np.zeros((N, 2))

np.random.seed(seed=42)
# инициализируем данные по деталям, произведенных на станке №1
X[:N1, 0] = np.random.normal(loc=mu_samples_1_1, scale=sigma_samples_1_1, size=N1)
X[:N1, 1] = np.random.normal(loc=mu_samples_1_2, scale=sigma_samples_1_2, size=N1)
# инициализируем данные по деталям, произведенных на станке №2
X[N1:N, 0] = np.random.normal(loc=mu_samples_2_1, scale=sigma_samples_2_1, size=N2)
X[N1:N, 1] = np.random.normal(loc=mu_samples_2_2, scale=sigma_samples_2_2, size=N2)

# зафиксируем количество признаков
m = X.shape[1]

# зафиксируем количество объектов
n = X.shape[0]

# зафиксируем правильные ответы для оценки качества алгоритма (в обучении не используется)
y = np.zeros((N))
y[:N1] = np.array((1))
y[N1:N] = np.array((2))

# инициализируем априорную вероятность извлечь изделие, произведенное на станке №1 и №2
w = np.array([float(1./k), float(1./k)])

np.random.seed(seed = None)
# инициализируем средние значения диаметра и веса изделий (запишем в формате матрицы)
mu  = np.array(
    (np.mean(X[np.random.choice(n, int(n/k))], axis = 0), np.mean(X[np.random.choice(n, int(n/k))], axis = 0)))
# mu = np.array(([mu_samples_1_1, mu_samples_1_2],[mu_samples_2_1, mu_samples_2_2]))

# инициализируем стандартные отклонения в диаметре и весе изделий (запишем в формате матрицы ковариации)
sigma = np.array(([1., 0.],[0., 1.], [1., 0.],[0., 1.]))
# sigma = np.array(([sigma_samples_1_1, 0.],[0., sigma_samples_1_2], [sigma_samples_2_1, 0.],[0., sigma_samples_2_2]))
sigma = sigma.reshape(k, m, m)

# выберем количество итераций EM-алгоритма
steps = 15
# запустим цикл EM-алгоритма
for i in range(0, steps):
    proba_xi = e_step(X, k, m, n, w, mu, sigma)
    if i > 0:
        w, mu, sigma = m_step(X, proba_xi,N)
    X1_new_ind, X2_new_ind, X_answers = x_new(proba_xi)
    print('Итерация №', i)
    print()
    print('Матрица значений математических ожиданий')
    print(mu)
    print()
    print('Матрица значений стандартных отклонений')
    print(sigma)
    print()
    print('Доля правильно распознанных изделий')
    print(round(accuracy_score(y, X_answers),3))
    
    plt.figure(figsize=(16, 6))  
    plt.plot(
        X[X1_new_ind,0], X[X1_new_ind,1], 'o', alpha = 0.7, color='sandybrown', label = 'Produced on machine #1')
    plt.plot(
        X[X2_new_ind,0], X[X2_new_ind,1], 'o', alpha = 0.45, color = 'darkblue', label = 'Produced on machine #2')
    plt.plot(mu[0][0], mu[0][1], 'o', markersize = 16, color = 'red', label = 'Mu 1')
    plt.plot(mu[1][0], mu[1][1], 'o',  markersize = 16, color = 'purple', label = 'Mu 2')
    plt.xlabel('Diameter')
    plt.ylabel('Weight')
    plt.legend()
    plt.show()
np.random.seed(1)
model = GMM(n_components=k, covariance_type='full')
model.fit(X)


temp_predict_X = model.predict(X)
X_answers = []
for i in range(X.shape[0]):
    if temp_predict_X[i] == 0:
        X_answers.append(1)
    else:
        X_answers.append(2)
        

print('Доля правильно распознанных изделий')
print(round(accuracy_score(y, X_answers),3))