### Гаусовы эллипсы

Самый простой способ детектирования аномалий - описать данные Гаусовым распределением и найти точки из его хвостов.

Пусть данные имеют Гауссово распределение с неизвестными нам вектором средних $\mu$ и матрицей ковариаций $\Sigma$
<img src="img/elliptic1.png" width=200>

Шаги:

1. Делаем эмпирическую оценку параметров $\mu$ и $\Sigma$:

    (методом максимальногоо правдоподобия)


2. Рассчитываем Махалонобисово расстояние до всех точек 

    $d_{(\mu,\Sigma)}(x_i)^2 = (x_i - \mu)'\Sigma^{-1}(x_i - \mu)$
    
    \* Махаланобисово расстояние - это метрика расстояния, учитывающая ковариации между признаками.


3. Отсекаем все что больше пороговой квантили (например в 97,5)% - это и есть выбросы

Множество точек с махаланобисовым расстоянием равным пороговому значению - эллипс, отсюда название метода. Всё что за пределами границы считаем выбросами, все что внутри - нормальными точками (inliers).

### Что не так с этим подходом? 

Выбросы сильно влияют на оценку $\mu$  и $\Sigma$. На картинке сравнение двух эллипсов (эмпирического - синий и реального - красный). В результате пропускается очень много аутлайеров.

<img src="img/elliptic1.png" width=200>

### Робастные эллипсы

Существует более робастная оценка матрицы ковариаций: MinCovDet (MinCovariance Determinant).

В математике **робастной** называют оценку какого-либо параметра, не подверженную влиянию случайных выбросов.

Принцип - выбираем размер подмножества точек размера h такой, что детерминант матрицы ковариаций наименьший (почему именно детерминант пока не разобрался).

Сравнение отсекаемых точек ниже:
<img src="" width=200>


Для реализации нужен полный перебор всех подмножеств: $\binom{n}{h}$ => считается долго. Но в 1999 появился feasible вариант (fastMCD) и его стали использовать.

### Реализация

В sklearn эмпирическая оценка считается через covariance.EmpiricalCovariance.

In [4]:
from sklearn.covariance import EmpiricalCovariance
cov = EmpiricalCovariance().fit(X)

NameError: name 'X' is not defined

Робастная оценка считается covariance.MinCovDet.

In [3]:
from sklearn.covariance import MinCovDet
mcd = MinCovDet().fit(X)

NameError: name 'X' is not defined

In [None]:
Махаланобисово расстояние считается 
cov.mahalanobis(X_test)
mcd.mahalanobis(X_test)

cov.error_norm(another_cov) - норма разницы с другой матрицей ковариаций
(норма Фробениуса - сумма квадратов элементов)

EllipticEnvolope - обертка для MinCovDet, которая сразу считает аутлайеры.