## Оценка качества кластеризации: внутренние меры

Внутренние меры - это способ оценки качества кластеризации, без правильных ответов, ориентируясь только на данные, которые мы кластеризировали

В библиотеке sklearn реализованы три наиболее популярные метрики:

* коэффициент силуэта (Silhouette Coefficient);
* индекс Калински — Харабаса (Calinski-Harabasz Index);
* индекс Дэвиса — Болдина (Davies-Bouldin Index).

##### КОЭФФИЦИЕНТ СИЛУЭТА

Это тот же самый коэфицент, который использовался для определения оптимального числа кластеров алгоритмах, где коэфицент надо было задавать.

Коэфицент силуэта = $\overline{s} = \frac{1}{N} \sum_{i=1}^N \frac{b_i-a_i}{max(a_i,b_i)}$, где $a_i$ - это среднее расстояние от $x_i$ до объектов своего кластера, а $b_i$ - это среднее расстояние от $x_i$ до объектов ближайшего другого кластера

Значение коэффициента силуэта всегда находится в диапазоне [−1,1].

* Значение близко к −1: объекты в кластерах разрознены, и в целом кластерную структуру не удалось выделить.
* Значение близко к 0: кластеры пересекаются друг с другом.
* Значение близко к 1: чёткая кластерная структура с «плотными», отделёнными друг от друга кластерами.

#### ИНДЕКС КАЛИНСКИ — ХАРАБАСА

Показывает отношение между разбросом значений между кластерами и разбросом значений внутри кластеров и вычисляется по следующей формуле:

$\frac{SS_B}{SS_W}\times\frac{N-K}{K-1}$

В данной формуле:

* N — общее количество объектов;
* K — количество кластеров;
* $SS_B$ — взвешенная межкластерная сумма квадратов расстояний;
* $SS_W$ — внутрикластерная сумма квадратов расстояний.

$SS_B=\sum_{k=1}^{K} n_{k} \times\left\|C_{k}-C\right\|^{2}$

В данной формуле:

* $n_k$ — количество наблюдений в кластере k;
* $C_k$ — центроид кластера k;
* $C$ — центроид всего набора данных;
* $K$— количество кластеров.

Внутрикластерная сумма для кластера $k$ равна $SS_B^k = \sum_{i=1}^{n_k}  \times\left\|X_{ik}-C_k\right\|^{2}$

В данной формуле:

* $n_k$ — количество наблюдений в кластере k;
* $C_k$ — центроид кластера k;
* $X_{ik}$— i-ое наблюдение в кластере k

$SS_B = \sum_{k=1}^K SS_B^k$

Важно отметить, что нет никакого «приемлемого» порогового значения индекса — скорее, его можно использовать для того, чтобы сравнивать разные разбиения на кластеры между собой: более высокое значение индекса будет означать, что кластеры плотные (т. е. объекты внутри них находятся близко друг к другу) и хорошо разделены.

In [1]:
#В библиотеке sklearn данный алгоритм реализуется с помощью метода calinski_harabasz_score():

#определяем алгоритм кластеризации
#km = KMeans(n_clusters=3, random_state=42)
#обучаем его на наших данных
#km.fit_predict(X)
#вычисляем значение коэффициента Калински — Харабаса
#score = calinski_harabasz_score(X, km.labels_)

#### ИНДЕКС ДЭВИСА — БОЛДИНА (DBI)

Шаги вычисления:

1. Bычисляем для каждого кластера следующую меру разброса значений внутри него: $S_{k}=(\frac{1}{n_{k}} \sum_{i=1}^{n_{k}}\left|X_{i k}-C_{k}\right|^{q})^{\frac{1}{q}}$
    * $n_k$ - мощность кластера $k$
    * $q$ - обячно = 2, и тогда расстояние Евклидово
    * Остальное все как в предыдущем индексе
2. Далее находим расстояния между центроидами кластеров: $M_{i, j}=\left\|C_{i}-C_{j}\right\|_{q}$
3. Теперь для каждой пары кластеров вычисляем следующее отношение: $R_{i j}=\frac{S_{i}+S_{j}}{M_{i j}}$. Также для каждого кластера находим максимум из полученных значений: $R_i\equiv maximum (R_{ij})$
4. $DBI=\frac{1}{N}\sum^{N}_{i=1}R_i$

Индекс показывает среднюю «схожесть» между кластерами, и 0 — это минимально возможное значение. Разумеется, так как мы хотим, чтобы кластеры были максимально различными (т. е. имели низкую схожесть), мы должны пытаться достичь как можно более маленького значения.

In [2]:
#В библиотеке sklearn индекс Дэвиса — Болдина реализуется с помощью метода davies_bouldin_score():

#определяем алгоритм кластеризации
#km = KMeans(n_clusters=3, random_state=42)
#обучаем его на наших данных
#km.fit_predict(X)
#вычисляем значение коэффициента Дэвиса — Болдина
#score = davies_bouldin_score(X, km.labels_)

#### ВНУТРИКЛАСТЕРНОЕ РАССТОЯНИЕ

Для того чтобы оценить качество кластеризации, можно вычислить суммарное внутрикластерное расстояние:

$F_0 = \sum_{k=1}^{K} \sum_{i=1}^{N}\left[a\left(x_{i}\right)=k\right] \rho\left(x_{i}, c_{k}\right)$

Разумеется, сумма этих расстояний должна быть минимальной — это тот случай, когда все элементы кластера совпадают с центроидом.

#### МЕЖКЛАСТЕРНОЕ РАССТОЯНИЕ

Аналогично суммарному внутрикластерному расстоянию, вводится межкластерное расстояние:

$F_0 = \sum_{i, j=1}^{N}\left[a\left(x_{i}\right) \neq a\left(x_{j}\right)\right] \rho\left(x_{i}, x_{j}\right)$

Мы проверяем, что предсказания о принадлежности к кластеру не равны (т. е. объекты относятся к разным кластерам), и считаем расстояние между этими объектами (можем использовать различные функции расстояний). Здесь мы, разумеется, будем максимизировать результат, так как нам важно, чтобы элементы из разных кластеров были как можно меньше похожи друг на друга, а значит, чтобы расстояние между ними было как можно больше.

#### ОТНОШЕНИЕ РАССТОЯНИЙ

Логичным образом из предыдущих двух метрик (внутрикластерного и межкластерного расстояний) мы получаем отношение расстояний:

$\frac{F_0}{F_1}\rightarrow \min$

Таким образом мы можем учитывать оба функционала, рассмотренные ранее (расстояние внутри кластера и между кластерами), и оптимизировать отношение расстояний. Естественно, нам нужно, чтобы оно было минимальным — это будет достигаться, если расстояние между кластерами максимально, а внутри кластера — минимально.

## Оценка качества кластеризации: внешние меры

Иногда бывает такое, что какая-то разметка в наших данных всё же есть. В этом случае мы можем использовать дополнительные показатели, которые помогут оценить качество кластеризации.

#### ИНДЕКС РЭНДА

индекс Рэнда — это мера сходства между двумя кластеризациями. Однако, так как он позволяет сравнить два разбиения на кластеры, мы можем использовать его для сравнения фактических меток классов и прогнозируемых меток кластеров, тем самым оценивая качество наших алгоритмов.

$RI=\frac{2(a+b)}{N(N-1)}$, 

где $a$ - число пар объектов, которые имеют одинаковые метки (т. е. в фактическом разбиении находятся в одном классе) и располагаются в одном кластере;, 

а $b$ - число пар объектов, которые имеют различные метки (т. е. в фактическом разбиении находятся в разных классах) и располагаются в разных кластерах

знаменатель здесь выражает общее количество пар, которые можно получить из нашего набора данных. То есть, по сути, в этом индексе вычисляется доля пар, для которых сохранилось их расположение по отношению друг к другу.

In [3]:
#Для вычисления индекса Рэнда с помощью библиотеки sklearn можно использовать метод rand_score():
from sklearn.metrics import rand_score
print(rand_score([1, 1, 1, 2, 2], [1, 1, 2, 2, 3]))

0.6


Также используют скорректированный индекс Рэнда (Adjusted Rand Index): $ARI=\frac{RI-E[RI]}{\max(RI)-E[RI]}$

Его преимущество перед обычным индексом Рэнда состоит в том, что при случайных кластеризациях его значение близко к нулю вне зависимости от количества кластеров и наблюдений.

Исправленный индекс Рэнда в sklearn представлен через метод adjusted_rand_score().

# АЛГОРИТМЫ ПОНИЖЕНИЯ РАЗМЕРНОСТИ

### PCA (Principal Component Analysis, метод главных компонент)

АЛГОРИТМ РЕАЛИЗАЦИИ PCA

1. Стандартизировать данные. (именно как векторы)
2. Рассчитать ковариационную матрицу для объектов.
3. Рассчитать собственные значения и собственные векторы для ковариационной матрицы.
4. Отсортировать собственные значения и соответствующие им собственные векторы.
5. Выбрать  наибольших собственных значений и сформировать матрицу соответствующих собственных векторов.
6. Преобразовать исходные данные, умножив матрицу данных на матрицу отобранных собственных векторов.

In [4]:
import numpy as np
import pandas as pd
A = np.matrix([[1,2,3,4],
               [5,5,6,7],
               [1,4,2,3],
               [5,3,2,1],
               [8,1,2,2]])

df = pd.DataFrame(A,columns  = ['x1','x2','x3','x4'])
df_std  = (df - df.mean()) / (df.std())

In [5]:
df_std 

Unnamed: 0,x1,x2,x3,x4
0,-1.0,-0.632456,0.0,0.260623
1,0.333333,1.264911,1.732051,1.56374
2,-1.0,0.632456,-0.57735,-0.173749
3,0.333333,0.0,-0.57735,-1.042493
4,1.333333,-1.264911,-0.57735,-0.608121


In [6]:
cov_mat = np.cov(df_std.T)
cov_mat

array([[ 1.        , -0.31622777,  0.04811252, -0.18098843],
       [-0.31622777,  1.        ,  0.63900965,  0.61812254],
       [ 0.04811252,  0.63900965,  1.        ,  0.94044349],
       [-0.18098843,  0.61812254,  0.94044349,  1.        ]])

In [7]:
eigen_val, eigen_vectors = np.linalg.eig(cov_mat)

In [8]:
eigen_val

array([2.51579324, 1.0652885 , 0.39388704, 0.02503121])

In [9]:
eigen_vectors

array([[ 0.16195986, -0.91705888, -0.30707099,  0.19616173],
       [-0.52404813,  0.20692161, -0.81731886,  0.12061043],
       [-0.58589647, -0.3205394 ,  0.1882497 , -0.72009851],
       [-0.59654663, -0.11593512,  0.44973251,  0.65454704]])

In [10]:
df_std @ eigen_vectors

Unnamed: 0,0,1,2,3
0,0.014003,0.755975,0.9412,-0.101852
1,-2.556534,-0.780432,-0.10687,-0.005757
2,-0.05148,1.253135,-0.396673,0.182141
3,1.01415,0.000239,-0.679886,-0.201225
4,1.579861,-1.228917,0.24223,0.126693


In [11]:
#импортируем нужный алгоритм

from sklearn.decomposition import PCA
#определяем метод главных компонент с двумя компонентами
pca = PCA(n_components=2)
#обучаем алгоритм на наших данных
principalComponents = pca.fit_transform(df_std)

In [12]:
principalComponents

array([[-1.40033078e-02,  7.55974765e-01],
       [ 2.55653399e+00, -7.80431775e-01],
       [ 5.14801919e-02,  1.25313470e+00],
       [-1.01415002e+00,  2.38808310e-04],
       [-1.57986086e+00, -1.22891650e+00]])

In [13]:
#Задание 5.1

#Найдите матрицу ковариаций для векторов (3,4,1) и (1,6,2). 
# В качестве ответа укажите сумму всех значений матрицы, округлённую до двух знаков после точки-разделителя.
v = np.array([3,4,1])
w = np.array([1,6,2])

M = np.array([v,w])
np.cov(M).sum()

14.333333333333334

In [14]:
#Задание 5.5
#Дана матрица признаков:

A = np.matrix([[8,7,2,9],
               [1,3,6,3],
               [7,2,0,3],
               [10,3,1,1],
               [8,1,3,4]])
#Какое минимальное количество главных компонент надо выделить, чтобы сохранить информацию о как минимум 90 % разброса данных?

In [15]:
df = pd.DataFrame(A,columns  = ['x1','x2','x3','x4'])
df_std  = (df - df.mean()) / (df.std())

cov_mat = np.cov(df_std.T)
eigen_val, eigen_vectors = np.linalg.eig(cov_mat)
eigen_val / eigen_val.sum() * 100

array([46.1849111 , 43.41617715,  4.47619619,  5.92271556])

### SVD Cингулярное разложение

Начнём с сингулярного разложения. SVD используется не только для снижения размерности, но и в целом имеет множество применений в машинном обучении, например, в рекомендательных системах — в одном из следующих модулей вы сможете изучить эту тему подробнее.

Суть сингулярного разложения заключается в следующей теореме ↓

Любую прямоугольную матрицу $A$ размера $n*m$ можно представить в виде произведения трёх матриц:

$A_{n \times m}=U_{n \times n} \cdot D_{n \times m} \cdot V_{m \times m}^{T}$

В этой формуле:

* $U$ матрица размера $n*n$. Все её столбцы ортогональны друг другу и имеют единичную длину. Такие матрицы называются ортогональными. Эта матрица содержит нормированные собственные векторы матрицы $AA^T$.
* $D$ матрица размера $n*m$. На её главной диагонали стоят числа, называемые сингулярными числами (они являются корнями из собственных значений матриц $A^TA$ и $AA^T$), а вне главной диагонали стоят нули. Если мы решаем задачу снижения размерности, то элементы этой матрицы, если их возвести в квадрат, можно интерпретировать как дисперсию, которую объясняет каждая компонента.
* $V$ — матрица размера $m*m$. Она тоже ортогональная и содержит нормированные собственные векторы матрицы $A^TA$.

Для того чтобы реализовать сингулярное разложение с помощью библиотеки sklearn, необходимо использовать алгоритм TruncatedSVD(), в который передаётся n_components в качестве параметра, определяющего количество итоговых компонент, которые соответвуют наибольшим сингулярным числам:

In [16]:
# создаём объект класса TruncatedSVD
# n_components — размерность нового пространства, n_iter — количество итераций
#svd = TruncatedSVD(n_components=5, n_iter=7, random_state=42)
# обучаем модель на данных X
#svd.fit(X)
# применяем уменьшение размерности к матрице X
#transformed = svd.transform(data)

 ### t-SNE cтохастическое вложение соседей с t-распределением

t-SNE (стохастическое вложение соседей с t-распределением). Его преимущество относительно первых двух заключается в том, что он может реализовывать уменьшение размерности и разделение для данных, которые являются линейно неразделимыми.

In [17]:
# импортируем класс TSNE из модуля manifold библиотеки sklearn
#from sklearn.manifold import TSNE
# создаём объект класса TSNE
# n_components — размерность нового пространства
#tsne = TSNE(n_components=2, perplexity=30, n_iter=500, random_state=42)
# обучаем модель на данных X и применяем к матрице X уменьшение размерности
#tsne.fit_transform(X)