# Детекция аномалий

## Что такое Аномалии?

Аномалии - это точки данных, которые выделяются среди других точек данных в наборе данных и не подтверждают нормальное поведение данных. Эти точки данных или наблюдения отклоняются от обычных поведенческих моделей набора данных.

**Обнаружение аномалий** - это метод обработки данных "без учителя" для обнаружения аномалий в наборе данных. Аномалии можно  разделить на различные категории:

   - **Выбросы**: Короткие/небольшие аномальные закономерности, которые проявляются несистематическим образом при сборе данных.
   - **Изменение событий**: Систематическое или внезапное изменение по сравнению с предыдущим нормальным поведением.
   - **Дрейфы**: Медленное, однонаправленное, долгосрочное изменение данных.

Обнаружение аномалий очень полезно для обнаружения мошеннических транзакций, выявления заболеваний или обработки любых кейс-исследований с дисбалансом классов. Методы обнаружения аномалий могут быть использованы для построения более надежных моделей  даталогии.

Простые статистические методы, такие как среднее значение, медиана, квантили, могут быть использованы для обнаружения значений одномерных аномалий в наборе данных. Для обнаружения аномалий также могут быть использованы различные методы визуализации данных и исследовательского анализа данных.

## Isolation Forest (Изолирующий лес)

Изолирующий лес - это неконтролируемый алгоритм обнаружения аномалий, который использует алгоритм случайного леса (деревья решений) для обнаружения выбросов в наборе данных. Алгоритм пытается разделить или разделить точки данных таким образом, чтобы каждое наблюдение было изолировано от других.
Обычно аномалии находятся вдали от скопления точек данных, поэтому их легче изолировать по сравнению с обычными точками данных.

![изображение.png](attachment:dde06de5-1a60-4107-9c58-058ef061f290.png)


![изображение.png](attachment:64a8296d-4377-4000-a06f-75b87a0bbe5c.png)

Оценка аномалии вычисляется для всех точек данных, и оценка аномалии баллов > пороговое значение может рассматриваться как аномалии.

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

## Local Outlier Factor

**Фактор локального выброса** - это еще один метод обнаружения аномалий, который учитывает плотность точек данных, чтобы решить, является ли точка аномалией или нет. Фактор локального выброса вычисляет оценку аномалии, называемую оценкой аномалии, которая измеряет, насколько изолирована точка по отношению к окружающему району. Он учитывает как локальную, так и глобальную плотность для вычисления оценки аномалии.

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.LocalOutlierFactor.html#sklearn.neighbors.LocalOutlierFactor

## Robust Covariance

Для независимых по гауссу объектов можно использовать простые статистические методы для обнаружения аномалий в наборе данных. Для гауссовского/нормального распределения точки данных, лежащие за пределами 3-х стандартных отклонений, можно рассматривать как аномалии.

Для набора данных, имеющего все гауссовские свойства по своей природе, статистический подход можно обобщить, определив эллиптическую гиперсферу, которая охватывает большинство обычных точек данных, а точки данных, удаленные от гиперсферы, можно рассматривать как аномалии.

https://scikit-learn.org/stable/modules/generated/sklearn.covariance.EllipticEnvelope.html#sklearn.covariance.EllipticEnvelope

## One Class SVM

Обычный алгоритм SVM пытается найти гиперплоскость, которая наилучшим образом разделяет два класса точек данных. Для SVM одного класса, где у нас есть один класс точек данных, задача состоит в том, чтобы предсказать гиперсферу, которая отделяет кластер точек данных от аномалий.

https://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html#sklearn.svm.OneClassSVM

с использованием стохастического градиентного спуска.
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDOneClassSVM.html#sklearn.linear_model.SGDOneClassSVM

![изображение.png](attachment:b3cca5d0-00dc-417f-84eb-71309323d7ee.png)

Результаты 5 алгоритмов обнаружения аномалий на игрушечном наборе данных.

# +++

https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_anomaly_comparison.html