# Основные отличия алгоритма k-средних и EM-алгоритма. Кто из них лучше и почему?

## Задача кластеризации

Метод k-средних и EM-алгоритм - это алогоритмы кластеризации. Задача кластеризации ставится следующим образом:

$X$ - пространство объектов

$X^\iota = \{x_1, \dots, x_\iota\}$ - обучающая выборка

$\rho: X \times X \rightarrow [0, \infty)$ - функция расстояния между объектами. 

Найти:

$Y$ - множество кластеров

$a: X \rightarrow Y$ - алгоритм кластеризации, такие что

* каждый кластер состоит из близких объектов
* объекты разных кластеров существенно различны

Это задача обучения без учителя.

## EM-алгоритм (Expectation-Maximization)

Типы решения задач: 

* анализ неполных данных
* там, где функция правдоподобия имеет вид не допускающий удобных аналитических методов исследования, но допускающих упрощения

### Задача

Плотность распределения на $X$ имеет вид смеси $k$-распределений

$p(x) = \sum_{j=1}^kw_jp_j(x), \sum_{i=1}^kw_j=1, w_j\geq0$

$p_j(x)$ - функция правдоподобия

$w_j$ - ее приоритетная вероятность

Задача разделения смеси заключается в том, чтобы имея выборку $X^m$ случайных независимых наблюдений из смеси $p(x)$, зная число $k$ и функцию $\phi = \phi(x; \theta)$, оценить вектор параметров $\theta = (w_1, w_2, \dots, w_k, \theta_1,\dots,\theta_k)$

### Суть алгоритма 

Вводится искусственно вектор скрытых переменных со следующими замечательными свойствами:

* его можно вычислить, зная $\theta$
* поиск максимума правдоподобия упрощается, если известен вектор скрытых переменных

Сам алгоритм состоит из двух итерационных шагов - E и M.

Сперва делаем начальное приближение $w_a, \mu_a, \sum_a$, для $\forall a \in Y$

#### E-шаг (Формула Байеса)

Отнести $\forall x_i$ к ближайшим центрам

$g_{ia} = P(a|x_i) = \frac{w_ap_a(x_i)}{\sum_y w_yp_y(x_i)}, a \in Y, i = 1, \dots, \iota$

$a_i = \arg\max_{a \in Y} g_{ia}, i = 1,\dots,\iota_i$

#### M-шаг (максимизация взвешенного правдоподобия с весами объектов $g_{ij}$ для j-ой компоненты смеси)

Вычислить новые положения центров

$\mu_{ad} = \frac{1}{\iota w_a}\sum_{i=1}^{\iota}g_{ia}f_d(x_i), a \in Y, d = 1,\dots,n;$

$\sigma^2_{ad} = \frac{1}{\iota w_a}\sum_{i=1}^{\iota}g_{ia}(f_d(x_i) - \mu_{ad})^2, a \in Y, d = 1,\dots,n;$

$w_a =\frac{1}{\iota}\sum_{i=1}^{\iota}g_{ia}, a \in Y $

Повторять, пока не 

## Метод k-средних (K-Means)

Является модификацией EM-алогритма

Минимизация сукммы квадратов внутрикластерных расстояний:

$\sum_{i=1}^{\iota} ||x_i - \mu_{a_i}||^2 \rightarrow \min_{\{a_i\}, \{\mu_a\}}, ||x_i - \mu_a||^2 = \sum_{j=1}^n(f_j(x_i)-\mu_{aj})^2$

## Сравнение EM-алгоритма и K-Means

### Отличия

1. GMM-EM: мягкая кластеризация: $g_{ia} = P(a|x_i)$; k-means: жесткая кластеризация: $g_{ia} = [a_i=a]$
2. GMM-EM: кластеры эллиптические, настраиваемые; k-means: кластеры сферические, ненастраиваемые

### Гибриды (упрощение GMM-EM - усложнение k-means)

1. GMM-EM с жесткой кластеризацией на E-шаге
2. GMM-EM без настройки дисперсий (сферические гауссианы)

### Недостатки k-means:

1. чувствительность к выбору начального приближения
2. медленная сходимость

### Недостатки EM

1. неустойчив к начальным данным
2. не позволяет определить количество компонент смеси