В данном туториале рассмотрены подходы к определению аномалий в данных. Аномалии - достаточно широкое понятие, в простейшем случае мы будем говорить про точки, значение которых отличется от распределения значений большинства точек. Такие точки называются __outliers__ (выбросы).

Иногда используеется термин __novelty detection__, например, в задачах детектирования и прогнозирования поломок (predictive maintenance). Он указывает на то, что анализируемое наблюдение не вписывается в типовой паттерн поведения системы и описывает некое "новое" состояние.

Ипользуются в задачах, где важно детектировать некое редкое событие (например, поломку механизма или мошенническую транзакцию), но статистики для supervised подходов не достаточно.

Итого, зачем может понадобиться:
1. Data quality assurance<br>починить кривые данные, здесь аномалия = плохо
2. Rare class detection<br>детектировать поломку в системе, здесь аномалия = хорошо

#### Сложности
- нет единого критерия аномальности, он выбирается каждый раз под задачу
- не всегда анализируемый сигнал представлен в виде точек, часто это более сложные паттерны наблюдений<br> (напирмер графы, изображения или другой распространенный пример - временные ряды)
- кажущиеся аномальными наблюдения могут легко объясняться неучитываемыми факторами<br> (например, сезонность часто вносит свой вклад)

# Теория

### Univariate outlier detection

По данным строим распределение каждой фичи и смотрим, что там на хвостах этого распределения. 

Например, видим, что 99% значений признака находится в интервале [0,10]. Всё, что вне - кандидаты на аномальность.

Минусы подхода
- аномальное значение может быть следствием наблюдения другого признака. По-хорошему, надо учитывать все остальные признаки тоже.

### Гаусовы эллипсы

Базовый многомерный подход - описать данные Гаусовым распределением и найти точки из его хвостов.

Пусть данные имеют <a href="https://en.wikipedia.org/wiki/Normal_distribution">Гауссово распределение</a> с неизвестными нам вектором средних $\mu$ и матрицей ковариаций $\Sigma$
<img src="img/gaussian1.png" width=500>

Шаги:

1. По доступной нам выборке делаем эмпирическую оценку параметров $\mu$ (координаты центра) и $\Sigma$ (ковариации признаков)<br>Для того используем <a href="https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BC%D0%B0%D0%BA%D1%81%D0%B8%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%B0%D0%B2%D0%B4%D0%BE%D0%BF%D0%BE%D0%B4%D0%BE%D0%B1%D0%B8%D1%8F">метод максимальногоо правдоподобия</a>
    
    * суть метода максимального правдоподобия = подбираем параметры распределения так, чтобы наблюдаемое облако точек лучше всего укладывадлось в это распределение (то есть вероятность наблюдать эти точки при условии выбора данного распредления, была маскимальной)


2. Рассчитываем Махалонобисово расстояние от центра $\mu$ до всех точек 

    $d_{(\mu,\Sigma)}(x_i)^2 = (x_i - \mu)'\Sigma^{-1}(x_i - \mu)$
    
    * <a href="https://en.wikipedia.org/wiki/Mahalanobis_distance">Махаланобисово расстояние</a> - это метрика, обобщающая классическое Евклидово расстояние меджду двумя точками, так чтобы учитывались ковариации между признаками. 
    
    На интуитивном уровне - при наличии корреляций пространство как бы сжимается пропорционально линиям уровня распределения (см картинку выше) и малое расстояние между точками может быть просто следствием такого сжатия. В этом случае чтобы посчитать честное расстояние, оно компенсируется пропорционально тому как именно пространство было сжато. Такое компенсированное расстояние и называется расстоянием Махалонобиса.


3. Отсекаем все, что больше порогового квантиля (например в 97,5%) - это и есть выбросы

Множество точек с махаланобисовым расстоянием равным пороговому значению - эллипс, отсюда название метода. Всё что за пределами границы считаем выбросами (outliers), все что внутри - нормальными точками (inliers).

### Что не так с этим подходом? 

1) Во-первых, редко когда данные можно описать одним гауссовым эллипсом. В этом случае луше использовать GMM (он описываемый далее в этом докуенмте).

2) Во-вторых, выбросы сильно влияют на оценку $\mu$  и $\Sigma$. На картинке ниже сравнение двух эллипсов (эмпирического - синий и реального - красный). 

Видим, что синий эллипс сильно "притянут" выбросами. В результате пропускается очень много аутлайеров.

<img src="img/elliptic_empiric.png" width=400>

### Робастные эллипсы

В математике **робастной** называют оценку какого-либо параметра, не подверженную влиянию случайных выбросов.

Существует более робастная оценка матрицы ковариаций: MinCovDet (Min Covariance Determinant).


Принцип построения: 
1. выбираем параметр h
2. ищем подмножество точек объемом h, на котором определитель матрицы ковариаций минмален
3. ищем на этом подмножестве оценки параметров $\mu$ и $\Sigma$ методом маскимального правдоподобия - это и есть наши робастные оценки

Ниже сравнение ситуации с обычной оценкой ковариации (слева) и робастной (справа). По оси X отложены точки выборки, по оси Y - их махалонобисовы расстояния. Красная линия  - 97.5-процентный уровень эллипса.
<img src="img/elliptic_comparison.png" width=600>

Видим, что при использовании робастной оценки, махаланобисовы расстояния выбросов стали больше => выбросы лучше отделяются.

Для реализации нужен полный перебор всех подмножеств: $\binom{n}{h}$ => считается долго. Но в 1999 году появился feasible вариант алгоритма (fastMCD) и его стали использовать.

### Gaussian Mixture Model

#### Постановка

GMM (gaussian mixture model) - вариация на тему предыдущего подхода с моделированием выборки нормальным распредеднием, только здесь данные моделируются сразу комбинацией нескольких гауссовых распределений, которые называются компонентами смеси.

<img src="img/gmm.png" width=400>

Такая модель позволяет уйти от требуемой симметричности данных и моделировать более сложные выборки.

#### Параметры

Количество компонентов в смеси (k) является гиперпараметром метода и задается заранее.

Внутренними параметрами модели являются пары location-параметров нормального распределения (среднее $\mu$ и стандартное отклонение $\sigma$) для каждого из k элементов смеси:

$$ \Theta = \big\{ (\mu_1,\sigma_1), (\mu_2,\sigma_2) \cdots (\mu_k,\sigma_k) \big\}$$

#### Обучение

Параметры подбираются путем максимизации функции правдоподобия:

$$\hat{\Theta}_{opt} = argmin \big(log(L)\big) = argmin \big(log(P(X|\Theta))\big)$$

Аналитического решения у задачи не существует, поэтому применяется типичный для подобного рода задач итеративный Expectation-Maximization алгоритм для поиска максимума функции аправдоподобия. Описание EM-алгоритма выходит за рамки данного туториала.

Также существует еще один альтернативный подход к определению параметров модели - использование баесовской логики (variational bayesian inference), когда максимизируется не правдоподоие выборки (likelihood), а ее апостреиорная веротяность (см. теоркму Байеса). В этом случае необходимо также задать априорное распределение компонентов смеси, модель будет его учитывать.

#### Минусы
Несмотря на бОльшую гибкость, чем моделирование одной гауссианой, GMM может эффективно моделировать только данные, имеющие гауссову природу, то есть когда основная масса сосредоточена в центре выборки.

### Local Outlier Factor

Алгоритм LOF (2000) относится к классу плотностных (density based) методов опрдедления аномалий.

**Идея**: если "плотность" выборки в районе точки небольшая, то скорее всего это выброс. 

Что значит "плотность"?
    
    Плотность считается как 1 / среднее расстояние до k-ближайших соседей. 

Что значит "небольшая"? 

    Значит, что плотность точки сильно меньше, чем плотность её соседей. 
    
Показатель LOF = отношение средней плотности соседей к плотности точки. Пример значений LOF для разных точек ниже.

<img src="img/lof.png" width=400>



Небольшой нюанс в том, что в расстояния считается не Евклидово, а Reachibility Distance - оно дополнительно ограничивается снизу. Иллюстраиця ниже - расстояние от C до A равно расстоянию от B до A, а вот расстояние от D до A больше.
<img src="img/lof_dist.png" width=150>

Сделано (как я понял) для устойчивости расчета LOF (чтобы много маленьких расстояний не влияли на среднее значение).

Можно заметить, что в этом методе исп тот же концепт, что и в плотностном алгоритме кластеризации DBSCAN.

Объяснение для чайников:
https://blog.stealthbits.com/local-outlier-factor-part-1

## One-class SVM

TBD

## Isolation Forest

[[paper]](https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf), 2008

Алгоритм выглядит так:
1. Строится ансамбль "случайных" деревьев. Что значит "случайное" дерево:
    - на каждом шаге построения дерева признак, по которому делается разделение, выбирается случайно
    - значение, по которому делается разбиение также выбирается случайно
2. По каждой точке определяем, в какой лист дерева эта точка попадает
3. Глубина листа усредняется по всем деревьям и получаем метрику "нормальности"

Чем короче в среднем путь до разбиения, в которое попадает точка, тем с большей вероятностью это выброс

<img src="img/if.png" width=600>

__References__
- деревья = https://en.wikipedia.org/wiki/Decision_tree_learning
- ансамбли = <a href="https://scikit-learn.org/stable/modules/ensemble.html">https://scikit-learn.org/stable/modules/ensemble.html</a>
- isolation forest = https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf?q=isolation-forest


# Angle-based Outlier Detection

[[paper]](https://www.dbs.ifi.lmu.de/~zimek/publications/KDD2008/KDD08-ABOD.pdf), KDD, 2008

### Idea 
The point is probably an outlier if the spread of angles between paths to all other points is relatively small

<img src="img/abod_algorithm.png" width=550>

- Angle is coded with a modified cosine distance between two vectors
- "relatively small" = <u>variance</u> of angles is low

If we plot the variances (the spreads) for all points, the points with low variance (close to 0.0) will denote outliers
<img src="img/abod_variance.png" width=300>


### More formally

The outlier measure is Variance of angles:

$$ABOD(x_i) = Var(A_i) = E[A_i^2] - (E[A_i])^2$$


Here E = average, weighted by the inverse distance

$$E[A_i] = \frac{\sum_{i != j} w_{ij}A_{i,j}}{\sum_{i != j} w_{ij}}$$
    
where
    
$$w_{ij} = \frac{1}{\left\lVert AB \right\rVert \cdot \left\lVert AC \right\rVert}$$

Thus, more weight is given to closer points. This is done to make sure that the <u>local density</u> of the dataset is taken into account not just its global structure.

Proxy for an angle is cosine similarity normalized by squared distance

$$A = \frac{(\vec{AB} \cdot \vec{AC})}{{\left\lVert AB \right\rVert}^ 2 \cdot {\left\lVert AC \right\rVert}^2}$$


Let's write down the full expression:
    
<img src="img/abod.png" width=500>

### Highlights
- algorithm always labels the points located on the edge of the dataset as outliers
- takes local desity into account by weighting the angle with distance
- but fails to detect outliers in symmteric environment
- computationaly expensive, requires $O(n^3)$ operations

### Variations
- __FastABOD__ - most of the points will yield zero weights because of the high distance and thus high denominator, so it makes sense to take only nearest neighbors into calculation when computing variances
- __LB-ABOD__ - they propose a multi-step process for finding top-l outliers
    1. for each data point compute its variance lower bound using approximate approach (FastABOD)
    2. store all data points in ascending order of their variance
    3. loop over those data points:
        
        2.1 compute precise variance
        
        2.2 when we encounter a new minumum update the result set
        
        2.3 new minumums will become more and more rare, since LD is increasing
    
    3. Stop when we encounter LB larger then largest variance in the result set
- __Kernel-ABOD__ - since method uses scalar product, it's straightforward to plug-in different non-linear kernels

### Applications
[[Yandex Video]](https://www.youtube.com/watch?v=aBckDgtG0Zs)

## Сравнение подходов

<img src="img/outlier_comparison.png" width=500></img>

# Реализации

### GMM in scikit-learn

In [None]:
from sklearn.mixture import GasussianMixture
gmm = GaussianMixture(n_components = 3, covariance_type='full')
gmm.fit(X)

Чтобы оценить удаленность точки от центра своего распределения, можем посчитать вер-ть методом score_samples()

In [None]:
point_dist = gmm.score_samples(X_test)

### Ellipse Envelope in scikit-learn

В sklearn обычная оценка матрицы ковариаций считается через covariance.EmpiricalCovariance.

In [None]:
from sklearn.covariance import EmpiricalCovariance
cov = EmpiricalCovariance().fit(X)

Робастная оценка считается covariance.MinCovDet.

In [None]:
from sklearn.covariance import MinCovDet
mcd = MinCovDet().fit(X)

В этих же классах есть метод для расчета Махаланобисова расстояния при раасчитанных ($\mu$,$\Sigma$)

In [None]:
cov.mahalanobis(X_test)
mcd.mahalanobis(X_test)

In [None]:
cov.error_norm(another_cov) - норма разницы с другой матрицей ковариаций
(норма Фробениуса - сумма квадратов элементов)

### Local Outlier Factor in scikit-learn

В Sklearn для LOF есть класс LocalOutlierFactor

In [None]:
from sklearn.neighbors import LocalOutlierFactor
clf = LocalOutlierFactor(n_neighbors=20)
y_pred = clf.fit_predict(X)

Методы:
- fit - считается "нестандартность" каждой точки (у каждого алгоритма метрика соотвественно своя)
- predict - с помощью порогового значения каждая точка помечаются как выброс или нет

Метод predict() возвращает значение :
- 1, если точка не считается выбросом
- -1, если точка прогнозируется выбросом

Параметры обучения:
- contamination_factor - верхний квантиль расстояния, в котором точка считается выбросом (обычно 10%)



In [None]:
clf = LocalOutlierFactor(n_neighbors=20, n_jobs=16)
y_pred = clf.fit_predict(X)

# Материалы

LOF:
https://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf


Isolation forest:
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf?q=isolation-forest

One-class SVM:
http://www.jmlr.org/papers/volume2/manevitz01a/manevitz01a.pdf