In [None]:
#plot pictures
from IPython.display import Image
import matplotlib.pyplot as plt

import numpy as np

#algorithms
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

In [None]:
SEED = 42

# Кластеризация


## Введение

### Постановка задачи

**Дано**:
<br>
Обучающая выборка $x_1,...,x_n$, на которой, вообще говоря, нет ответов (меток классов). Она же является и тестовой выборкой

**Задача**:
<br>
Расставить метки $y_1 , ..., y_n$ так, чтобы похожие друг на друга объекты находились в одном кластере. 


Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

### Типы кластеризации

В зависимости от цели задача кластеризация может быть:

    • Основной, когда полученная кластеризация не используется для решения какой–либо другой задачи.
    Например, кластеризация новостей, хотим, чтобы в одной группе находились новости по конкретное теме
    • Вспомогательной, если задача кластеризации является промежуточной при решении другой задачи машинного           обучения.
    Например, кластеризация абонентов с целью проведения разной маркетинговой стратегии в каждой из групп и           построение рекомендаций товаров/услуг для них
    
В зависимости от того, может ли относиться объект сразу к нескольким кластерам бывает: 

    • Жесткая кластеризация: объект может быть отнесен только к одному из кластеров. 
    • Мягкая кластеризация: объект может быть отнесен с некоторыми весами к нескольким кластерам сразу. 


## Формы кластеров

In [None]:
Image(filename='../pictures/algo_clusters.png')

P.s. некоторые методы имеют параметр *число кластеров*, здесь он задан равным 2

    • В простейшем случае кластеры представляют собой сгустки объектов, которы могут быть выделены окружностью         (строка 3)
    • Может оказаться, что все объекты более или менее равномерно заполняют пространство и относятся в одному         кластеру (строка 4)
    • Разумеется, возможно и более сложные формы кластеров (строки 1, 2).
    
В реальности же, когда данных очень много, кластеры, скорей всего, будут образовываться по некоторому неизвестному закону и иметь "странные" формы

## Алгоритмы кластеризации

Как вы могли замететь, формы кластеров в общем случае имеют произвольную форму $=>$ универсального алгоритма нет. 

А жаль 😞

Что ж, давайте рассмотрим наиболее популярные

In [None]:
#create data from normal distribution
x_dots = 300 #number of objects
num_clusters = 3 #number of clusters
size = x_dots // num_clusters #size of each cluster
locs = [-2, 0, -5]
scales = [0.6, 0.7, 0.3]

X = np.zeros((x_dots, 2))

np.random.seed(seed=SEED)
for i in range(num_clusters):
    X[i*size:i*size+size, 0] = np.random.normal(loc=locs[i], scale=scales[i], size=size)
    X[i*size:i*size+size, 1] = np.random.normal(loc=locs[i], scale=scales[i], size=size)

#plot data
plt.figure(figsize=(7, 7))
plt.scatter(X[:, 0], X[:, 1], c='blue');

### K-means

In [None]:
from scipy.spatial.distance import cdist

**"Стандартный" k-means**

Пусть в начале произвольным образом выбраны центры классов. Объект относится к тому кластеру, расстояние до центра которого меньше. На каждой итерации сначала пересчитываются положения центра каждого кластера как среднее арифметическое отнесенных к нему точек, а после этого объекты перераспределяются на основании новых положений центров (вариант **Болла Холла**)

Есть еще вариант **Мак Кина**: при каждом переходе объекта из кластера в кластер их центры пересчитываются

**Mini Batch K-Means**

В ситуации, когда количество объектов очень велико, чтобы не вычислять среднее арифметическое по всем объектам, можно на каждой итерации считать положения центров классов по некоторой случайной выборке объектов. Такой вариант метода позволяет использовать метод K-Means на огромных выборках.

Сходимость метода K-means сильно зависит от выбора начальных значений центров. В случае двух кластеров можно в качестве центров выбрать две самые удаленные друг от друга точки. Для произвольного числа кластеров существует алгоритм **k-means++**. Это вариация метода K-means, в которой начальные приближения выбираются не случайно, а некоторым более оптимальным образом: положение первого центра класса выбирается случайно из равномерного распределения на выборке. На каждом следующем шаге сначала вводится такое вероятностное распределение на выборке, что вероятность выбора точки пропорциональна квадрату расстояния до ближайшего до нее центра, а положение нового центра выбирается из этого распределения. 

### Что оптимизирует k-means?

Среднее внутрикластерное расстояние: $F_0 = \frac{\sum_{i<j}[y_i=y_j]\rho(x_i; x_j)}{\sum_{i<j}[y_i=y_j]} \rightarrow min$

Или, когда центры кластеров известны: $\Phi_0 = \sum_{y \in Y}\frac{1}{|K_y|} \sum_{i:y_i=y}\rho^2{(x_i; \mu_y)} \rightarrow min$ - среднее расстояние до центра кластера

В K-Means итеративно минимизируется средние внутрикластерные расстояния: объект присваивается к тому кластеру, центр которого ближе, а центр кластера перемещается в среднее арифметическое векторов признаков объектов. В варианте Мак Кина K-Means находит локальный минимум $\Phi_0$

Таким образом, цель алгоритма - выбрать центроиды, которые минимизируют *инерцию*, или внутрикласстерную дисперссию (помните формулу дисперсии? 😏):

$$J(C) = \sum_{i=0}^{n} \min_{\mu_j \in C}(||x_i - \mu_j||^2)$$

$C$ - множество кластеров, $\mu_j$ - центра кластера $C_j$

**_На примере одномерного случая_**

Хотим найти:

$\underset{\mu}{\operatorname{argmin}} \frac{1}{N} \sum_{i=1}^{N}(x_i - \mu)^2$

$\frac{d}{d\mu}\frac{1}{N} \sum_{i=1}^{N}(x_i - \mu)^2 = \frac{2}{N} \sum_{i=1}^{N}(x_i - \mu) = 0 => \mu = \frac{1}{N} \sum_{i=1}^{N}x_i$

Именно поэтому использование не Евклидевой метрики не совсем корректно. Например, если есть желание использовать манхэттенское расстояние, то это уже не k-means, а k-medians

**Замечание:**

Проблема *инерции* в том виде, в котором она есть заключачется в том, что выгоднее всего отнести каждый объект к своему кластеру. Для предотвращения такого, нам стоит выбрать число кластеров, после которого инерция убывает не слишком быстро. Более формально:

$$D(k) = \frac{|J(C_k) - J(C_{k+1})|}{|J(C_{k-1}) - J(C_{k})|} \rightarrow \min_{k}$$

In [None]:
#create random centroids
np.random.seed(seed=SEED)
centroids = np.random.normal(loc=-2, scale=2, size=num_clusters*2)
centroids = centroids.reshape((3, 2))

cent_history = []
cent_history.append(centroids)

for i in range(10):
    #distanse between objects and centroids
    distances = cdist(X, centroids)
    labels = distances.argmin(axis=1)
    
    #rerange centroids coordinates
    centroids = centroids.copy()
    centroids[0, :] = np.mean(X[labels == 0, :], axis=0)
    centroids[1, :] = np.mean(X[labels == 1, :], axis=0)
    centroids[2, :] = np.mean(X[labels == 2, :], axis=0)

    cent_history.append(centroids)
    
plt.figure(figsize=(16, 16))
for i in range(4):
    distances = cdist(X, cent_history[i])
    labels = distances.argmin(axis=1)

    plt.subplot(2, 2, i + 1)
    plt.scatter(X[labels == 0, 0], X[labels == 0, 1], c='g', label='cluster 1')
    plt.scatter(X[labels == 1, 0], X[labels == 1, 1], c='c', label='cluster 2')
    plt.scatter(X[labels == 2, 0], X[labels == 2, 1], c='b', label='cluster 3')
    plt.plot(cent_history[i][:, 0], cent_history[i][:, 1], 'rX')
    plt.legend(loc='best')
    plt.title(f'Step {i+1}');



### Sklearn K-means

Один из способ определения наиболее подходящего числа кластеров:

In [None]:
inertia = []
for k in range(1, 10):
    kmeans = KMeans(n_clusters=k, random_state=1).fit(X)
    inertia.append(kmeans.inertia_)

plt.plot(range(1, 10), inertia, marker='s');
plt.xlabel('$k$')
plt.ylabel('$\Phi_0$');

Видим, что, начиная с $k=3$ "падение" кривой перестает быть резким, следовательно, оптимально, выбрать $k = 3$

In [None]:
#fit
kmeans = KMeans(n_clusters=3, n_jobs=-1).fit(X)
#predict
yhat_kmeans = kmeans.predict(X) #=kmeans.labels_

#plot
colors = ['c' if x==0 else 'b' if x==1 else 'g' if x==2 else 'black' for x in yhat_kmeans]

plt.figure(figsize=(8,8))
for i in range(kmeans.cluster_centers_.shape[0]):
    plt.plot(kmeans.cluster_centers_[i, 0], kmeans.cluster_centers_[i, 1], 'rX')
plt.scatter(X[:,0], X[:,1], c=colors, picker=True);

**Как еще определить сколько же кластеров будет?**
<br>
• Испольовать X-means, G-means, например, которые сами подбирают оптимальное число с точки зрения некоторых критериев

• **Bisect Means**: 
    * 2-means для все выборки
    * Если необходимо, для каждого из получившихся кластеров запускается 2-means вновь
    * Повторить шаг 2

## Иерархическая кластеризация

In [None]:
from scipy.cluster.hierarchy import dendrogram

**Иерархическая кластеризация** — кластеризация, в которой кластеры получаются вложенными друг в друга.

Существует два подхода:

    • Агломеративный подход: изначально каждый объект есть кластер, дальше происходит их слияние
    • Дивизивный подход: изначально все объекты помещаются в один кластер, который затем разбивается на 
    более мелкие
    
 P.S. Зачастую, когда речь идет об иерархической кластеризации, то подразумевается именно агломеративная

In [None]:
Image(filename='../pictures/hierclus.png')

**Вопрос:** как вычислять расстояния между кластерами?

**Формула Ланса-Уильямса:**
$$R(U \cup V, S) = \alpha_U R(U, S) + \alpha_v R(V, S) + \beta R(U, V) + \gamma |R(U, S) - R(V, S)|$$

-расстояние между кластером, образованным двумя слитыми $U, V$ в один и каким-то третьим $S$. Варьируя параметры $\alpha_U, \alpha_V, \beta, \gamma$ можно получить различные способы вычисления расстояний между кластерами.

Например,

Single linkage - минимум попарных расстояний между точками из двух кластеров ($\alpha_U = \alpha_V = \frac{1}{2}, \beta = 0, \gamma = -\frac{1}{2}$)

$$d(W, S) = \min_{w \in W, s \in S} \rho(w, s)$$
  
Complete linkage — максимум попарных расстояний между точками из двух кластеров ($\alpha_U = \alpha_V = \frac{1}{2}, \beta = 0, \gamma = \frac{1}{2}$)

$$d(W, S) = \max_{w \in W, s \in S} \rho(w, s)$$

Average linkage — среднее попарных расстояний между точками из двух кластеров ($\alpha_U = \frac{|U|}{|W|}, \alpha_V = \frac{|V|}{|W|}, \beta = \gamma = 0$)

$$d(W, S) = \frac{1}{|W||S|} \sum_{w \in W} \sum_{s \in S}\rho(w, s)$$

Centroid linkage — расстояние между центрами двух кластеров ($\alpha_U = \frac{|U|}{|W|}, \alpha_V = \frac{|V|}{|W|}, \beta = -\alpha_U\alpha_V, \gamma = 0$)

$$d(W, S) = \rho(\sum_{w \in W} \frac{w}{|W|}, \sum_{s \in S} \frac{s}{|S|})$$

In [None]:
Image(filename='../pictures/distancebetweenclusters.png')

### Дендограмма

Дендограмма, или дерево склеивания, показывает итеративный процесс объединения кластеров, причем расстояние между кластерами отображается как высота дуги, которой соединяются соответствующие метки кластеров. 

Благодаря дендограмме есть также возможность подбирать оптимальное число кластеров

In [None]:
def plot_dendrogram(model, **kwargs):
    '''Create linkage matrix and then plot the dendrogram
    create the counts of samples under each node
    '''
    
    counts = np.zeros(model.children_.shape[0])
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1  # leaf node
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    linkage_matrix = np.column_stack([model.children_, model.distances_, counts]).astype(float)

    # Plot the corresponding dendrogram
    dendrogram(linkage_matrix, **kwargs)

In [None]:
agclust = AgglomerativeClustering(n_clusters=None, distance_threshold=1).fit(X)

In [None]:
plt.figure(figsize=(7, 7))
plot_dendrogram(agclust)

In [None]:
plt.figure(figsize=(7,7))
plt.ylabel('Distanse between merging clusters')
plt.xlabel('Merge iteration')
plt.plot(list(range(len(agclust.distances_))), agclust.distances_);

На основе графика зависимости расстояния между сливаемыми кластерами от номера итерации можно заметить, что есть разумное число кластеров, так как, начиная с некоторой итерации, он резко начинает расти вверх.

На дендограмме можно заметить, что весьма разумным выбрать число кластеров равным 3

В реальности, конечно, дендограмма будет выглядеть куда больше, и куда менее очевидно будет понять сколько же кластеров взять разумно. Решение? Можно попробовать понизить размерность и всеми любимый перебор :)

In [None]:
num_clus = 3
agclust = AgglomerativeClustering(n_clusters=num_clus, distance_threshold=None).fit(X)
yhat_agclust = agclust.labels_

In [None]:
#plot
colors = ['c' if x==0 else 'b' if x==1 else 'g' if x==2 else 'black' for x in yhat_agclust]

plt.figure(figsize=(8,8))
plt.scatter(X[:,0], X[:,1], c=colors, picker=True);

## DBSCAN

Параметры: $\epsilon$ и N

Идея density-based методов заключается в том, чтобы рассматривать плотность точек в окрестности каждого объекта выборки. Если в окрестности радиуса $\epsilon$ с центром в некоторой точке выборки находится N или более других точек выборки, то такая точка считается **основной**. Если точек меньше, чем N, но в окрестности рассматриваемой точки содержится основная точка, то такая точка называется **пограничной**. Все остальные точки объявляются шумовыми.

DBSCAN — это один из density-based методов, который состоит из следующих шагов:
   1. Разделить точки на основные, пограничные и шумовые.
   2. Отбросить шумовые точки.
   3. Соединить основные точки, которые находятся на расстоянии не более $\epsilon$ друг от друга. В результате получается граф.
   4. Каждую группу соединенных основных точек объединить в свой кластер (то есть выделить связные компоненты в получившемся графе).
   5. Отнести пограничные точки к соответствующим им кластерам.
   
Один из плюсов DBSCAN заключается в том, что он позволяет выделить шумовые объекты выборки

Пример работы алгоритма:

In [None]:
Image(filename='../pictures/dbscan_example.png', width=2000, height=2000)

Как видно, DBSCAN способен находить кластеры нетривиальной формы, но если кластеры расположены весьма близко к друг другу, то алгоритм в итоге объявит их одним кластером

In [None]:
dbscan = DBSCAN(eps=0.5, min_samples=5, n_jobs=-1).fit(X)
yhat_dbscan = dbscan.labels_

#plot
colors = ['c' if x==0 else 'b' if x==1 else 'g' if x==2 else 'black' for x in yhat_dbscan]

plt.figure(figsize=(8,8))
plt.scatter(X[:,0], X[:,1], c=colors, picker=True);

Как видно, с указанными параметрами DBSCAN определил 3 кластера, а также шумовые точки - черные

### Краткое резюме по алгоритмам

**K-means**

    • Параметры: число кластеров
    • Масштабируемость: MiniBatchKMeans может работать на очень большой выборке с умеренным числом кластеров
    • Сценарий использования: выпуклые кластеры примерно одинакового размера. Не очень большое число кластеров,     вообще говоря
    • Метрика: Евклидова. Строгого запрета на использование другой метрики нет, но это не совсем корректно
    
**Агломеративная иерархичекая кластеризация**

    • Параметры: число кластеров или предельное значение расстояния между кластерами, linkage (метод вычисления расстояния между кластерами) и метрика
    • Масштабируемость: Масштабируется на случай большого числа объектов и большого числа кластеров
    • Сценарий использования: Случай большого числа кластеров, так как у метода существует тенденция к образованию одного большого кластера
    • Метрика: Любая метрика

**DBSCAN**

    • Параметры: радиус окрестности и количество соседей, необходимое, чтобы считать точку основной
    • Масштабируемость: Алгоритм может работать в случае большого количества объектов и умеренного количества кластеров
    • Сценарий использования: неравные невыпуклые кластеры, при необходимости отсеивать выбросы
    • Метрика: Евклидова в реализации sklearn по дефолту

## Оценка качества и рекомендации по решению задач кластеризации 

In [None]:
from sklearn.neighbors import NearestNeighbors
from random import sample
from numpy.random import uniform

#metrics
from sklearn.metrics import silhouette_score

### Проверка наличия кластерной структуры

Перед началом решения задачи кластеризации может вознкнуть вопрос: а есть ли вообще кластерная структура в данных, ну, хоть какая-нибудь. 😏😏😏
<br>
Один из способов это проверить был описан ранее — необходимо построить график расстояния, на котором происходит слияние, от номера итерации при агломеративной иерархической кластеризации.

В произвольном случае поступают следующим образом: генерируют $n$ случайных точек из равномерного распределения и $n$ случайных точек из обучающей выборки. После этого вычисляется **статистика Хопкинса**
 
$u_i$ — расстояние от $i$-ой случайной точки до ближайшей случайной, $w_i$ — расстояние от $i$-ой точки из выборки
до другой ближайшей точки из выборки. Если статистика получается близкой к 1/2, это значит, что выборка более или менее равномерно заполняет пространство признаков. Если же статистика получается вблизи нуля, это означает, что точки как-то группируются.

$$H = \frac{\sum_{i=1}^{n} w_i}{\sum_{i=1}^{n} w_i + \sum_{i=1}^{n} u_i}$$



In [None]:
def hopkins_statistics(X):
    '''Calculate hopkins statistics to check cluster stucture in data
    
    Parameters:
        X - numpy matrix
        
    Return:
        statistics
        
    Note:
        Estimation the clusterability of a dataset. A score between 0 and 1, a score around 0.5 express
        no clusterability and a score tending to 0 express a high cluster tendency
    '''
    n, d = X.shape[0], X.shape[1]
    m = int(0.1 * n) # heuristic from article
    
    nbrs = NearestNeighbors(n_neighbors=1).fit(X)
 
    rand_X = sample(range(n), m)
 
    ujd = []
    wjd = []
    for j in range(m):
        u_dist, _ = nbrs.kneighbors(uniform(np.amin(X,axis=0), np.amax(X,axis=0), d).reshape(1, -1)
                                    , 2, return_distance=True)
        ujd.append(u_dist[0][1])
        
        w_dist, _ = nbrs.kneighbors(X[rand_X[j]].reshape(1, -1), 2, return_distance=True)
        wjd.append(w_dist[0][1])
 
    H = sum(wjd) / (sum(ujd) + sum(wjd))
    
    return H

In [None]:
print(f'Hopkins statistics: {hopkins_statistics(X)}')

### Оценка качества кластеризации

Выделяют **внешние** и **внутренние** метрики качества.

**Внешние** используют информацию об истинном разбиении на кластеры, в то время как **внутренние** метрики не используют никакой внешней информации и оценивают качество кластеризации, основываясь только на наборе данных. Оптимальное число кластеров обычно определяют с использованием внутренних метрик.
<br>

Ранее уже упоминалось среднее внутрикластерное расстояние: $F_0 = \frac{\sum_{i<j}[y_i=y_j]\rho(x_i; x_j)}{\sum_{i<j}[y_i=y_j]} \rightarrow min$, 
<br>
так же мы хотим, чтобы объекты из разных кластеров были как можно дальше друг от друга, **межкластерное расстояние**: $F_1 = \frac{\sum_{i<j}[y_i\neq y_j]\rho(x_i; x_j)}{\sum_{i<j}[y_i\neq y_j]} \rightarrow max$.
<br>
Учесть оба функционала можно, например, так: $\frac{F0}{F_1} \rightarrow min $

Какие проблемы данных функицоналов? Например, нельзя подобрать оптимальное число кластеров, потому что в данном случае лучше всего отнести каждую точку к своему собственному кластеру.

**_Как же мерить тогда качество?_** 😩😩😩

Наиболее распостраненной метрикой явялется **силуэт**, остановимся на нем. Есть еще множество метрик особенно тех, что подразумевают наличие разметки (подробнее можно найти в разделе "полезные источники")

**Коэффициент силуэта**

Коэффициент силуэта — метрика качества, которая позволяет выбрать количество кластеров, что примечательно, она не требует знания истинных метрик.
<br>
Коэффициент силуэта для некоторого фиксированного объекта определяется следующим образом:

$$s = \frac{b-a}{max(a, b)}$$ 
<br>где a - среднее расстояние от данного объекта до других объектов из того же кластера, b - среднее расстояние от данного объекта до объектов из ближайшего другого кластера. 

Обычно коэффициент силуэта положителен, но, вообще говоря, может меняться в пределах от −1 до 1. Значения, близкие к -1, соответствуют плохим (разрозненным) кластеризациям, значения, близкие к нулю, говорят о том, что кластеры пересекаются и накладываются друг на друга, значения, близкие к 1, соответствуют "плотным" четко выделенным кластерам. Таким образом, чем больше силуэт, тем более четко выделены кластеры, и они представляют собой компактные, плотно сгруппированные облака точек. Cилуэт зависит от формы кластеров, и достигает больших значений на более выпуклых кластерах, получаемых с помощью алгоритмов, основанных на восстановлении плотности распределения.


Посчитаем силуэт для 3-х вышеописанных алгоритмов

In [None]:
print(f'Silhouette score K-means: {silhouette_score(X, yhat_kmeans)}')
print(f'Silhouette score agglomerative clustering: {silhouette_score(X, yhat_agclust)}')
print(f'Silhouette score DBSCAN: {silhouette_score(X, yhat_dbscan)}')

### Замечание

Эвристики и меры качества клатеризации носят рекомендательный характер
<br>
Если они ничего не дают, то лучше ориентироваться на свои знания в предметной области
<br>
Если удается интерпертировать хотя бы половину кластеров - уже успех

## Методы понижения размерности

С ростом размерности растут также сложности в визуализации и вычислительная. Иной раз интересно понизить размерность (уменьшить количество исходных признаков), особенно это бывает полезно для отображения в двумерное или трехмерное пространство в случае решениия задач кластеризации.

**Как вообще можно понизить размерность?**

Два способа: **_feature selection_** - отбор признаков и **_feature reduction_** - уменьшение размерности. 
<br>
**Основная разница** состоит в том, что при использовании **_feature selection_** убирается часть признаков, а при **_feature reduction_** исходные признаки подвергаются некоторому преобразованию $f(\cdot)$, в результате которого признаков становится меньше. 

В данной лекции нас будет интересовать именно feature reduction

Начнем с метода главных компонент.

### PCA

PCA (principal component analysis, метод главных компонент). Есть несколько подходов к постановке задачи метода главных компонент, рассмотрим два из них: 
1. как линейный метод понижения размерности.

**Исходная задача:** найти такую матрицу $Z$, чтобы $Z=XW^T$
<br>
Для существования единственного решения требуется ввести ограничение $W^{T}W=E$, тогда $X=ZW$. И решается задача матричного разложения по норме Фробениуса $||X-ZW||^2 \rightarrow \min_{Z, W}$. Необходимо представить матрицу $X$ в виде произведения двух матриц $Z, W$ меньшего ранга.
2. как максимизация дисперсии выборки после понижения размерности. Пусть есть выборка и требуется выбрать прямые (прямую), называемые главными компонентами, на которые спроецировать исходные данные оптимальней всего с точки зрения сохранения как можно большего количества информации. В данном случае под информацией имеется в виду дисперсия, то есть чем больше дисперсия выборки после проецирования, тем лучше - тем больше сохраняется информации.

    Формально дисперсия выборки после проецирования записывается так: $\sum_{i=1}^{d} w_{i}^TX^TXw_{i} \rightarrow max_{W}$. Чем больше значение этой суммы, тем больше оказывается дисперсия выборки после проецирования на гиперплоскость, которая задается матрицей весов $W$.
    
    **В итоге имеем задачу:**
    <br>
    $$\sum_{i=1}^{d} w_{i}^TX^TXw_{i} \rightarrow \max_{W},$$ при условии
    $$W^{T}W=E$$
    
   **Решение:** через метод множителей Лагранжа

**Замечание**: в методе главных компонент выражение, описывающее дисперсию означает именно дисперсию выборки, если матрица объекты-признаки **центрирована**

Решая данную задачу, можно увидеть, что поскольку требуется максимизировать дисперсию, необходимо выбирать максимальное собственное значение и собственный вектор, который соответствует этому значению.
Итак, в методе главных компонент первая компонента — это собственный вектор матрицы $X^TX$, который соответствует максимальному собственному значению этой матрицы. $X^TX$ - матрица ковариации

Найдя $d$ главных компонент $w_1, w_2, ..., w_d$ - собственные векторы $X^{T}X$, $\lambda_1, \lambda_2, ..., \lambda_d$ - их собственные значения $=>$ можем узнать долю сохранившейся дисперсии в данных: $\frac{\sum_{i=1}^{d} \lambda_i}{\sum_{i=1}^{D}\lambda_i}$

*PCA стремится сохранить глобальную структуру в данных*

**Краткий итог работы PCA**

Совершаем переход к новым осям, так что:
    
    Новые переменные являются линейной комбинацией старых переменных
    Новые оси ортогональны друг другу
    Дисперсия вдоль новых осей максимальная

In [None]:
Image(filename='../pictures/pca.png')

**Посмотрим, как строятся главные компоненты**

In [None]:
import matplotlib.patches as mpatches
from sklearn.decomposition import PCA

In [None]:
def plot_principal_components(data, model, scatter=True, legend=True):
    '''plot princial components'''
    
    W_pca = model.components_
    if scatter:
        plt.scatter(data[:,0], data[:,1])
    plt.plot(data[:,0], -(W_pca[0,0]/W_pca[0,1])*data[:,0], color="c")
    plt.plot(data[:,0], -(W_pca[1,0]/W_pca[1,1])*data[:,0], color="c")
    if legend:
        c_patch = mpatches.Patch(color='c', label='Principal components')
        plt.legend(handles=[c_patch], loc='lower right')
    # сделаем графики красивыми:
    plt.axis('equal')
    limits = [np.minimum(np.amin(data[:,0]), np.amin(data[:,1]))-0.5,
              np.maximum(np.amax(data[:,0]), np.amax(data[:,1]))+0.5]
    plt.xlim(limits[0],limits[1])
    plt.ylim(limits[0],limits[1])
    plt.draw()

In [None]:
mu = np.ones(2)
sigma = np.array([[3,1],[1,2]]) #матрица ковариации

data = np.random.multivariate_normal(mu, sigma, size=200)
plt.scatter(data[:,0], data[:,1])
plt.show()

In [None]:
#by PCA
model = PCA(n_components=2, random_state=SEED)
model.fit(data)

#by hand
eigenvalue, W_orig = np.linalg.eig(sigma)

#plot
plt.figure(figsize=(7, 6))
plt.scatter(data[:,0], data[:,1])

#true components with max variance
plt.plot(data[:,0], (W_orig[0,0]/W_orig[0,1])*data[:,0], color="g")
plt.plot(data[:,0], (W_orig[1,0]/W_orig[1,1])*data[:,0], color="g")

#pca components
plot_principal_components(data, model, scatter=False, legend=False)
c_patch = mpatches.Patch(color='c', label='Principal components')
g_patch = mpatches.Patch(color='g', label='True components')

plt.legend(handles=[g_patch, c_patch])

plt.show()

Видно, что направления почти совпадают уже на малой выборке, с увеличением же объемов данных, качество будет улучшаться

## SVD

Сингулярное разложение матрицы $X$ представляет собой:

$X = U \Lambda V^T$, где 
<br>
$U$, $V$ -  ортогональные матрицы, $\Lambda$ - диагональная матрица;
<br>
Собственные вектора матриц $XX^T$ и $X^TX$ суть столбцы матриц $U$ и $V$ соответственно, собственные же значения этих матриц, вообще говоря, совпадают и стоят на диагонали матрицы $\Lambda$ и называются **сингулярными числами**.
<br>
А причем тут PCA?
1. Находим сингулярное разложение матрицы $X$
2. Формуруем матрицу весов $W$ из собственных векторов (столбцы матрицы $V$, так как для матрицы $X^TX$, соответствующих максимальным сингулярным числам)
3. Переходим в новое пространство: $Z=XW$

На практике зачастую используется именно сингулярное разложение, так как оно вычислительно быстрее и метод главных компонент реализуется через него. В Sklearn также есть truncatedSVD, позволяющий работать с разреженными матрицами, что весьма важно, например, при разложении матрицы [клиенты-количество покупок] в продуктовом магазине, так как товаров много, но далеко не каждый покупается очередным клиентом. Таким образом можно делать рекомендации для клиентов, но об этом не сегодня 😲

## t-SNE

- $||x_i - x_j||$ - евклидова метрика
- ${x_i}$ - объекты в исходном пространстве
- $\widetilde{x_i}$ - объекты в маломерном пространстве

Требуется сохранить пропорции расстояний в маломерном пространсве при переходе из многомерного (потому что сохранить при большом уменьшении размерности пространства попарные расстояние крайне сложно - **метод многомерного шкалирования**), то есть

если $$\rho(x_i, x_j) = \alpha\rho(x_i, x_k),$$ то 
$$\rho(\widetilde{x_i}, \widetilde{x_j}) = \alpha\rho(\widetilde{x_i}, \widetilde{x_k})$$

Расстояние в исходном и маломерном пространствах:

$$p(x_j|x_i) = \frac{\exp(||x_i - x_j||^2 / 2 \sigma^2)}{\sum_{i\neq k}\exp(||x_i - x_k||^2 / 2 \sigma^2)}$$

$$q(\widetilde{x_j}|\widetilde{x_i}) = \frac{(1+||\widetilde{x_i}-\widetilde{x_j}||^2)^{-1}}{\sum_{i\neq k}(1+||\widetilde{x_i}-\widetilde{x_k}||^2)^{-1}}$$

Если вычисление $q(\widetilde{x_j}|\widetilde{x_i})$ сделать таким же, как и $p(x_j|x_i)$, то получим метод SNE, недостатком которого являются более сильные штрафы за несохранение пропорций (ввиду использования Евклидовой метрики). Ввиду существования проблемы в многомерных пространствах, называемой **проклятием размерности** (в пространствах высокой размерности легко расположить объекты близко друг к другу, также чем больше размерность пространства, тем более близки друг к другу расстояния между парами объектом; в маломерных пространствах сохранить это свойство сложно), гораздо эффективнее показывает себя t-SNE

Для сравнения двух распределений используется дивергенция Кульбака-Лейблера, которую необходимо минимизировать (например, методом стохастического градиентного спуска):

$$D_{KL}(p||q) = \sum_{i=1}^{l}\sum_{i \neq j}p(x_j|x_i) \log\frac{p(x_j|x_i)}{q(\widetilde{x_j}|\widetilde{x_i})} \rightarrow \min_{\widetilde{x_1},...,\widetilde{x_l}}$$

Наиболее частое применение метод t-SNE находит при визуализации данных на двумерную или трехмерную гиперплоскости.

**Примечание:** если вероятность $q(\widetilde{x_j}|\widetilde{x_i})$ вычислять также как и $p(x_j|x_i)$, то получим метод, называемы **SNE**, но его беда как раз в том, что в маломерном пространстве объекты сложнее разместить рядом, чем в многомерном (**проклятие размерности**), а Евклидова метрика слишком сильно штрафует за несохранение пропорций. Метод **t-SNE** как раз-таки старается решить данную проблему, вводя $q(\widetilde{x_j}|\widetilde{x_i})$ иначе.

**Вопрос:** зачем может понадобиться визуализировать данные?

### Немного практики применения данных методов

In [None]:
from sklearn import datasets
from sklearn.decomposition import PCA
from MulticoreTSNE import MulticoreTSNE as TSNE #faster tsne than ordinary one

In [None]:
digits = datasets.load_digits()
X = digits['data']
y = digits['target']

Посмотрим на данные

In [None]:
print(X.shape, y.shape)

In [None]:
print(X)

In [None]:
plt.figure(figsize=(16, 6))
for i in range(10):
    plt.subplot(2, 5, i + 1)
    plt.imshow(X[i,:].reshape([8,8]));

Видим, что размерность признакового пространства 64.

Спроецируем данные на плоскость и отобразим их

### PCA

Сперва давайте посчитаем "руками"

In [None]:
#center columns by subtracting column means
X_centered = X - np.mean(X, axis=0)
# calculate scatter matrix of centered matrix
scatter_matrix = X_centered.T @ X_centered

################################################################################
#or we can compute covariance matrix in a way and use it instead scatter matrix#
#covariance_matrix = np.cov(X_centered.T)                                      #
#np.allclose(covariance_matrix * (len(X_centered) - 1), scatter_matrix)        #
#######################True#####################################################

# eigen decomposition of scatter matrix
eig_val_sc, eig_vec_sc = np.linalg.eig(scatter_matrix)
#project data
projections = X_centered @ eig_vec_sc

Теперь при помощи sklearn.PCA

In [None]:
%%time
pca = PCA(n_components=2, random_state=SEED).fit(X)
X_reduc = pca.transform(X)

In [None]:
flag = True
for i in range(X_reduc.shape[1]):
    #'+' is used due to values have '-' from pca where our have '+' and vice versa
    if sum(projections[:, i] + X_reduc[:, i]) > 1e-10:
        flag = False
        print(f"Something wrong")
if flag:
    print(f"Great, by hand projections looks the same as from sklearn.PCA")

In [None]:
plt.figure(figsize=(15, 10))
plt.scatter(X_reduc[:, 0], X_reduc[:, 1], c=y, s=20, cmap=plt.cm.get_cmap('nipy_spectral', 10))
plt.colorbar()
plt.title('MNIST data, PCA projection', fontsize=13);

Классы визуально плохо разделимы, местами перемешаны, попробуем t-sne

### t-SNE

In [None]:
%%time
X_reduc = TSNE(n_components=2, random_state=SEED, metric='euclidean', n_jobs=-1).fit_transform(X)

In [None]:
plt.figure(figsize=(15, 10))
plt.scatter(X_reduc[:, 0], X_reduc[:, 1], c=y, s=20, cmap=plt.cm.get_cmap('nipy_spectral', 10))
plt.colorbar()
plt.title('MNIST data, t-SNE projection', fontsize=13);

Результат заметнее лучше, но время работы занимает больше.

Есть еще один весьма новый метод - UMAP, о котором можно почитать в разделе *полезные источники*, одним из его преимуществ в сравнении с t-SNE является время работы

## Полезные источники 🙃
1. [Sklearn clustering](https://scikit-learn.org/stable/modules/clustering.html)
2. [Relationship between PCA and SVD](https://stats.stackexchange.com/questions/134282/relationship-between-svd-and-pca-how-to-use-svd-to-perform-pca)
3. [Обучение без учителя: PCA и кластеризация (mlcourse.ai)](https://habr.com/ru/company/ods/blog/325654/)
4. [UMAP](https://github.com/lmcinnes/umap) - еще один метод понижения размерности
5. [UMAP vs t-SNE](https://towardsdatascience.com/tsne-vs-umap-global-structure-4d8045acba17)
6. [Sklearn cluster metrics](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics.cluster)