<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/Anomaly%20Detection/1_0_%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D1%8B_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%B0_3_%D1%81%D0%B8%D0%B3%D0%BC%D0%B0_%D0%B4%D0%BB%D1%8F_%D0%BE%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B0%D0%BD%D0%BE%D0%BC%D0%B0%D0%BB%D0%B8%D0%B9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Математические основы метода 3-сигма для обнаружения аномалий

## Введение

Метод 3-сигма (или правило трёх сигм) — это статистический подход, используемый для обнаружения аномалий в данных. Он основан на свойствах нормального распределения и позволяет определять значения, которые выходят за пределы допустимого диапазона, заданного с использованием стандартного отклонения. Данный метод широко применяется в различных областях, таких как управление качеством, финансовый анализ, инженерия, биология и машинное обучение.

В этой лекции мы рассмотрим математические основы метода 3-сигма, начав с теории вероятностей и нормального распределения, затем перейдя к формализации понятия аномалии и завершив обсуждением ограничений данного подхода.



## 1. Нормальное распределение

Нормальное распределение (или гауссовское распределение) является одним из наиболее важных распределений в теории вероятностей и статистике. Оно описывает случайные величины, значения которых сосредоточены вокруг некоторого среднего значения с симметричным убыванием частоты по мере удаления от этого среднего.

### Плотность вероятности нормального распределения

Плотность вероятности нормального распределения определяется следующей формулой:

$$
f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}},
$$

где:
- $ x $ — значение случайной величины,
- $ \mu $ — математическое ожидание (среднее значение),
- $ \sigma $ — стандартное отклонение,
- $ \sigma^2 $ — дисперсия.

Эта функция характеризуется двумя параметрами: $ \mu $ и $ \sigma $. Параметр $ \mu $ определяет положение центра распределения, а параметр $ \sigma $ — его "широкость" или разброс значений.



## 2. Свойства нормального распределения

Одним из ключевых свойств нормального распределения является то, что большая часть значений случайной величины сосредоточена вблизи её среднего значения. Более точно, можно выделить следующие эмпирические правила:

1. **Правило 68–95–99.7**:
   - Приблизительно 68% значений находятся в интервале $ [\mu - \sigma, \mu + \sigma] $.
   - Приблизительно 95% значений находятся в интервале $ [\mu - 2\sigma, \mu + 2\sigma] $.
   - Приблизительно 99.7% значений находятся в интервале $ [\mu - 3\sigma, \mu + 3\sigma] $.

Эти правила являются следствием того, что нормальное распределение имеет быстрое затухание плотности вероятности при удалении от среднего значения.



## 3. Формализация метода 3-сигма

Метод 3-сигма использует вышеупомянутое свойство нормального распределения для определения аномальных значений. Аномалией считается любое значение, которое находится за пределами интервала $ [\mu - 3\sigma, \mu + 3\sigma] $.

### Математическая формулировка

Для набора данных $ X = \{x_1, x_2, \dots, x_n\} $:

1. Вычисляется среднее значение $ \mu $:
   $$
   \mu = \frac{1}{n} \sum_{i=1}^{n} x_i.
   $$

2. Вычисляется стандартное отклонение $ \sigma $:
   $$
   \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}.
   $$

3. Задаются границы нормального диапазона:
   $$
   [\mu - 3\sigma, \mu + 3\sigma].
   $$

4. Все значения $ x_i $, не принадлежащие этому интервалу, считаются аномальными.



### 4. Теоретическое обоснование метода

Теоретическое обоснование метода 3-сигма основывается на предположении, что данные подчиняются нормальному распределению $ N(\mu, \sigma^2) $, где $ \mu $ — математическое ожидание (среднее значение), а $ \sigma $ — стандартное отклонение. Для нормально распределённой случайной величины можно использовать следующие свойства:

1. **Интервалы доверительности**:
   - Около **68%** значений лежат в интервале $ [\mu - \sigma, \mu + \sigma] $.
   - Около **95%** значений лежат в интервале $ [\mu - 2\sigma, \mu + 2\sigma] $.
   - Около **99.7%** значений лежат в интервале $ [\mu - 3\sigma, \mu + 3\sigma] $.

   Это правило называется **правилом трёх сигм** или **правилом 68–95–99.7**.

2. **Вероятность выбросов**:
   Если данные действительно распределены нормально, то вероятность того, что случайная величина выйдет за пределы интервала $ [\mu - 3\sigma, \mu + 3\sigma] $, составляет примерно **0.3%**. Это делает метод 3-сигма эффективным для обнаружения редких событий или выбросов.

   Формально, если $ X \sim N(\mu, \sigma^2) $, то:
   $$
   P(|X - \mu| > 3\sigma) = 1 - P(|X - \mu| \leq 3\sigma) = 1 - 0.9973 = 0.0027 \approx 0.3\%.
   $$

3. **Чувствительность к отклонениям от нормальности**:
   Метод 3-сигма чувствителен к отклонениям от нормального распределения. Если данные имеют другую форму распределения (например, сильную асимметрию или тяжёлые хвосты), то вероятность ошибок возрастает. В таких случаях может потребоваться предварительное преобразование данных.



### 5. Преобразование данных для применения метода 3-сигма

Если данные не подчиняются нормальному распределению, их можно преобразовать таким образом, чтобы сделать распределение более близким к нормальному. Рассмотрим несколько распространённых методов преобразования:

#### 1. Логарифмическое преобразование
Логарифмическое преобразование полезно для данных с экспоненциальным ростом или большими значениями. Оно помогает уменьшить влияние выбросов и сгладить асимметрию.

Формула:
$$
Y = \log(X),
$$
где $ X > 0 $. Если в данных есть нулевые или отрицательные значения, можно использовать модификацию:
$$
Y = \log(X + c),
$$
где $ c > 0 $ — константа, обеспечивающая положительность всех значений.

Пример использования: финансовые данные, демографические показатели, данные о доходах.



#### 2. Стандартизация
Стандартизация приводит данные к нулевому среднему и единичной дисперсии. Это позволяет сравнивать разнородные данные и упрощает анализ.

Формула:
$$
Z = \frac{X - \mu}{\sigma},
$$
где:
- $ X $ — исходное значение,
- $ \mu $ — среднее значение выборки,
- $ \sigma $ — стандартное отклонение выборки.

После стандартизации данные будут иметь нормальное распределение $ N(0, 1) $, если исходные данные были нормально распределены.



#### 3. Бокс-Кокс преобразование
Бокс-Кокс преобразование является обобщённым методом, который позволяет найти оптимальную степень преобразования данных для приближения их к нормальному распределению. Оно применяется только к положительным данным.

Формула:
$$
Y =
\begin{cases}
\frac{(X^\lambda - 1)}{\lambda}, & \text{если } \lambda \neq 0, \\
\log(X), & \text{если } \lambda = 0.
\end{cases}
$$
где $ \lambda $ — параметр преобразования, который выбирается так, чтобы максимизировать нормальность данных.

Метод находит оптимальное значение $ \lambda $ путём минимизации критерия Акаике (AIC) или других статистических мер.

Пример использования: экономические данные, технические измерения, данные о производительности.



#### 4. Проверка нормальности после преобразования
После применения одного из преобразований важно проверить, насколько данные стали ближе к нормальному распределению. Для этого можно использовать следующие методы:

1. **Графический анализ**:
   - Q-Q plot (quantile-quantile plot): строится график, сравнивающий квантили данных с квантилями нормального распределения. Если данные нормальны, точки должны лежать около прямой линии.

2. **Статистические тесты**:
   - Тест Шапиро-Уилка ($ H_0 $: данные нормальны).
   - Тест Колмогорова-Смирнова ($ H_0 $: данные соответствуют заданному распределению).

  

### 1. Тест Шапиро-Уилка

Тест Шапиро-Уилка используется для проверки гипотезы о нормальности распределения данных.

#### Гипотезы:
- $ H_0 $: Данные нормально распределены.
- $ H_1 $: Данные не нормально распределены.

```python
from scipy.stats import shapiro
import numpy as np

# Пример данных
data = np.random.normal(loc=0, scale=1, size=100)  # Сгенерированные нормальные данные

# Проведение теста Шапиро-Уилка
stat, p_value = shapiro(data)

# Вывод результатов
print(f"Статистика теста: {stat}")
print(f"Значение p: {p_value}")

# Интерпретация результата
alpha = 0.05  # Уровень значимости
if p_value > alpha:
    print("Не отклоняем нулевую гипотезу: данные могут быть нормально распределены.")
else:
    print("Отклоняем нулевую гипотезу: данные не являются нормально распределёнными.")
```



### 2. Тест Колмогорова-Смирнова

Тест Колмогорова-Смирнова используется для проверки того, соответствуют ли данные заданному теоретическому распределению (например, нормальному).

#### Гипотезы:
- $ H_0 $: Данные соответствуют заданному распределению.
- $ H_1 $: Данные не соответствуют заданному распределению.

```python
from scipy.stats import kstest
import numpy as np

# Пример данных
data = np.random.normal(loc=0, scale=1, size=100)  # Сгенерированные нормальные данные

# Проведение теста Колмогорова-Смирнова
# Проверяем, соответствуют ли данные нормальному распределению N(0, 1)
stat, p_value = kstest(data, 'norm', args=(np.mean(data), np.std(data)))

# Вывод результатов
print(f"Статистика теста: {stat}")
print(f"Значение p: {p_value}")

# Интерпретация результата
alpha = 0.05  # Уровень значимости
if p_value > alpha:
    print("Не отклоняем нулевую гипотезу: данные могут соответствовать нормальному распределению.")
else:
    print("Отклоняем нулевую гипотезу: данные не соответствуют нормальному распределению.")
```



### Объяснение кода:

1. **Тест Шапиро-Уилка**:
   - Функция `shapiro(data)` вычисляет статистику теста и значение $ p $.
   - Если $ p > \alpha $, мы не отклоняем гипотезу о нормальности данных.

2. **Тест Колмогорова-Смирнова**:
   - Функция `kstest(data, 'norm', args=(mean, std))` сравнивает эмпирическое распределение данных с теоретическим нормальным распределением с заданными параметрами ($ \mu $ и $ \sigma $).
   - Если $ p > \alpha $, мы не отклоняем гипотезу о том, что данные соответствуют нормальному распределению.


### Пример использования обоих тестов:

```python
from scipy.stats import shapiro, kstest
import numpy as np

# Генерация данных
data_normal = np.random.normal(loc=0, scale=1, size=100)  # Нормальные данные
data_exponential = np.random.exponential(scale=1, size=100)  # Экспоненциальные данные

# Тест Шапиро-Уилка для нормальных данных
stat_normal, p_value_normal = shapiro(data_normal)
print("Тест Шапиро-Уилка для нормальных данных:")
print(f"Статистика: {stat_normal}, Значение p: {p_value_normal}")
if p_value_normal > 0.05:
    print("Данные могут быть нормально распределены.\n")
else:
    print("Данные не являются нормально распределёнными.\n")

# Тест Шапиро-Уилка для экспоненциальных данных
stat_exp, p_value_exp = shapiro(data_exponential)
print("Тест Шапиро-Уилка для экспоненциальных данных:")
print(f"Статистика: {stat_exp}, Значение p: {p_value_exp}")
if p_value_exp > 0.05:
    print("Данные могут быть нормально распределены.\n")
else:
    print("Данные не являются нормально распределёнными.\n")

# Тест Колмогорова-Смирнова для нормальных данных
stat_ks_normal, p_value_ks_normal = kstest(data_normal, 'norm', args=(np.mean(data_normal), np.std(data_normal)))
print("Тест Колмогорова-Смирнова для нормальных данных:")
print(f"Статистика: {stat_ks_normal}, Значение p: {p_value_ks_normal}")
if p_value_ks_normal > 0.05:
    print("Данные могут соответствовать нормальному распределению.\n")
else:
    print("Данные не соответствуют нормальному распределению.\n")

# Тест Колмогорова-Смирнова для экспоненциальных данных
stat_ks_exp, p_value_ks_exp = kstest(data_exponential, 'expon', args=(0, 1))
print("Тест Колмогорова-Смирнова для экспоненциальных данных:")
print(f"Статистика: {stat_ks_exp}, Значение p: {p_value_ks_exp}")
if p_value_ks_exp > 0.05:
    print("Данные могут соответствовать экспоненциальному распределению.")
else:
    print("Данные не соответствуют экспоненциальному распределению.")
```






## 6. Ограничения метода 3-сигма

Хотя метод 3-сигма прост и эффективен, он имеет несколько существенных ограничений:

1. **Зависимость от нормальности**: Метод работает корректно только при условии, что данные действительно подчиняются нормальному распределению.
2. **Чувствительность к выбросам**: Если в данных уже присутствуют значительные выбросы, они могут исказить оценки среднего значения и стандартного отклонения.
3. **Ограниченность одномерного подхода**: Метод применим только к одномерным данным. Для многомерных данных требуется использование более сложных методов, таких как многомерное нормальное распределение или методы на основе Mahalanobis'а расстояния.


Таким образом, метод 3-сигма представляет собой мощный инструмент для обнаружения аномалий в данных, основанный на свойствах нормального распределения. Его основное преимущество заключается в простоте реализации и высокой эффективности при работе с нормально распределёнными данными. Однако для успешного применения метода необходимо удостовериться в соответствии данных нормальному распределению и учитывать возможные ограничения.


Давайте разберём несколько конкретных числовых примеров, чтобы лучше понять, как работает этот метод на практике.


## Пример 1: Обнаружение аномалий в одномерных данных

Предположим, что у нас есть следующий набор значений:

$$
X = \{10, 12, 11, 9, 8, 13, 14, 15, 7, 25\}.
$$

### Шаг 1: Вычисление среднего значения ($\mu$)

Среднее значение вычисляется по формуле:

$$
\mu = \frac{1}{n} \sum_{i=1}^{n} x_i.
$$

Подставляем данные:

$$
\mu = \frac{10 + 12 + 11 + 9 + 8 + 13 + 14 + 15 + 7 + 25}{10} = \frac{124}{10} = 12.4.
$$

Таким образом, $\mu = 12.4$.



### Шаг 2: Вычисление стандартного отклонения ($\sigma$)

Стандартное отклонение вычисляется по формуле:

$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}.
$$

Для каждого значения $x_i$ вычислим квадрат отклонения от среднего:

$$
(x_1 - \mu)^2 = (10 - 12.4)^2 = (-2.4)^2 = 5.76,
$$
$$
(x_2 - \mu)^2 = (12 - 12.4)^2 = (-0.4)^2 = 0.16,
$$
$$
(x_3 - \mu)^2 = (11 - 12.4)^2 = (-1.4)^2 = 1.96,
$$
$$
(x_4 - \mu)^2 = (9 - 12.4)^2 = (-3.4)^2 = 11.56,
$$
$$
(x_5 - \mu)^2 = (8 - 12.4)^2 = (-4.4)^2 = 19.36,
$$
$$
(x_6 - \mu)^2 = (13 - 12.4)^2 = (0.6)^2 = 0.36,
$$
$$
(x_7 - \mu)^2 = (14 - 12.4)^2 = (1.6)^2 = 2.56,
$$
$$
(x_8 - \mu)^2 = (15 - 12.4)^2 = (2.6)^2 = 6.76,
$$
$$
(x_9 - \mu)^2 = (7 - 12.4)^2 = (-5.4)^2 = 29.16,
$$
$$
(x_{10} - \mu)^2 = (25 - 12.4)^2 = (12.6)^2 = 158.76.
$$

Суммируем все квадраты отклонений:

$$
\sum (x_i - \mu)^2 = 5.76 + 0.16 + 1.96 + 11.56 + 19.36 + 0.36 + 2.56 + 6.76 + 29.16 + 158.76 = 236.4.
$$

Вычислим стандартное отклонение:

$$
\sigma = \sqrt{\frac{236.4}{10}} = \sqrt{23.64} \approx 4.86.
$$

Таким образом, $\sigma \approx 4.86$.



### Шаг 3: Определение границ нормального диапазона

Границы нормального диапазона вычисляются как:

$$
[\mu - 3\sigma, \mu + 3\sigma].
$$

Подставляем значения:

$$
[\mu - 3\sigma, \mu + 3\sigma] = [12.4 - 3 \cdot 4.86, 12.4 + 3 \cdot 4.86] = [12.4 - 14.58, 12.4 + 14.58] = [-2.18, 26.98].
$$



### Шаг 4: Поиск аномальных значений

Аномальными считаются значения, которые выходят за пределы интервала $[-2.18, 26.98]$. В нашем наборе данных это значение $25$, так как оно близко к верхней границе, но всё ещё находится внутри интервала.

Если бы мы использовали более строгие правила (например, $[\mu - 2\sigma, \mu + 2\sigma]$), то значение $25$ было бы определено как явная аномалия.


## Пример 2: Данные с выбросом

Рассмотрим другой набор данных:

$$
Y = \{5, 6, 7, 8, 9, 10, 11, 12, 13, 100\}.
$$

### Шаг 1: Вычисление среднего значения ($\mu$)

$$
\mu = \frac{5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13 + 100}{10} = \frac{181}{10} = 18.1.
$$

Таким образом, $\mu = 18.1$.



### Шаг 2: Вычисление стандартного отклонения ($\sigma$)

Вычислим квадраты отклонений для каждого значения:

$$
(x_1 - \mu)^2 = (5 - 18.1)^2 = (-13.1)^2 = 171.61,
$$
$$
(x_2 - \mu)^2 = (6 - 18.1)^2 = (-12.1)^2 = 146.41,
$$
$$
(x_3 - \mu)^2 = (7 - 18.1)^2 = (-11.1)^2 = 123.21,
$$
$$
(x_4 - \mu)^2 = (8 - 18.1)^2 = (-10.1)^2 = 102.01,
$$
$$
(x_5 - \mu)^2 = (9 - 18.1)^2 = (-9.1)^2 = 82.81,
$$
$$
(x_6 - \mu)^2 = (10 - 18.1)^2 = (-8.1)^2 = 65.61,
$$
$$
(x_7 - \mu)^2 = (11 - 18.1)^2 = (-7.1)^2 = 50.41,
$$
$$
(x_8 - \mu)^2 = (12 - 18.1)^2 = (-6.1)^2 = 37.21,
$$
$$
(x_9 - \mu)^2 = (13 - 18.1)^2 = (-5.1)^2 = 26.01,
$$
$$
(x_{10} - \mu)^2 = (100 - 18.1)^2 = (81.9)^2 = 6707.61.
$$

Суммируем все квадраты отклонений:

$$
\sum (x_i - \mu)^2 = 171.61 + 146.41 + 123.21 + 102.01 + 82.81 + 65.61 + 50.41 + 37.21 + 26.01 + 6707.61 = 7513.9.
$$

Вычислим стандартное отклонение:

$$
\sigma = \sqrt{\frac{7513.9}{10}} = \sqrt{751.39} \approx 27.41.
$$

Таким образом, $\sigma \approx 27.41$.



### Шаг 3: Определение границ нормального диапазона

$$
[\mu - 3\sigma, \mu + 3\sigma] = [18.1 - 3 \cdot 27.41, 18.1 + 3 \cdot 27.41] = [18.1 - 82.23, 18.1 + 82.23] = [-64.13, 100.33].
$$



### Шаг 4: Поиск аномальных значений

Значение $100$ находится внутри интервала $[-64.13, 100.33]$, но оно является явным выбросом, так как сильно отличается от остальных данных. Это демонстрирует, что метод 3-сигма может быть чувствителен к выбросам при небольших объёмах данных.



  
### Пример 1: Обнаружение аномалий в одномерных данных

```python
import numpy as np
import matplotlib.pyplot as plt

# Генерация данных
np.random.seed(42)
data = np.random.normal(loc=50, scale=10, size=100)  # Нормальное распределение
data = np.append(data, [80, 90, 120])  # Добавление аномалий

# Вычисление среднего и стандартного отклонения
mu = np.mean(data)
sigma = np.std(data)

# Определение границ нормального диапазона
lower_bound = mu - 3 * sigma
upper_bound = mu + 3 * sigma

# Поиск аномалий
anomalies = data[(data < lower_bound) | (data > upper_bound)]

# Визуализация
plt.figure(figsize=(10, 6))
plt.scatter(range(len(data)), data, color='blue', label='Данные')
plt.scatter(np.where((data < lower_bound) | (data > upper_bound))[0], anomalies,
            color='red', label='Аномалии')
plt.axhline(lower_bound, color='green', linestyle='--', label='Нижняя граница (μ - 3σ)')
plt.axhline(upper_bound, color='green', linestyle='--', label='Верхняя граница (μ + 3σ)')
plt.axhline(mu, color='orange', linestyle='-', label='Среднее значение (μ)')
plt.title('Обнаружение аномалий методом 3-сигма')
plt.xlabel('Индекс')
plt.ylabel('Значение')
plt.legend()
plt.show()

print(f"Среднее значение (μ): {mu:.2f}")
print(f"Стандартное отклонение (σ): {sigma:.2f}")
print(f"Аномальные значения: {anomalies}")
```

**Описание:**
1. Мы генерируем данные из нормального распределения и добавляем несколько явных аномалий.
2. Вычисляем среднее ($\mu$) и стандартное отклонение ($\sigma$).
3. Определяем границы нормального диапазона ($[\mu - 3\sigma, \mu + 3\sigma]$).
4. Находим и выделяем аномалии.
5. Строим график, где обычные значения отображаются синим цветом, а аномалии — красным.



### Пример 2: Обнаружение аномалий в реальных данных

```python
import pandas as pd
import matplotlib.pyplot as plt

# Загрузка данных
data = pd.Series([10, 12, 11, 9, 8, 13, 14, 15, 7, 25])

# Вычисление среднего и стандартного отклонения
mu = data.mean()
sigma = data.std()

# Определение границ нормального диапазона
lower_bound = mu - 3 * sigma
upper_bound = mu + 3 * sigma

# Поиск аномалий
anomalies = data[(data < lower_bound) | (data > upper_bound)]

# Визуализация
plt.figure(figsize=(10, 6))
plt.scatter(data.index, data.values, color='blue', label='Данные')
plt.scatter(anomalies.index, anomalies.values, color='red', label='Аномалии')
plt.axhline(lower_bound, color='green', linestyle='--', label='Нижняя граница (μ - 3σ)')
plt.axhline(upper_bound, color='green', linestyle='--', label='Верхняя граница (μ + 3σ)')
plt.axhline(mu, color='orange', linestyle='-', label='Среднее значение (μ)')
plt.title('Обнаружение аномалий в реальных данных')
plt.xlabel('Индекс')
plt.ylabel('Значение')
plt.legend()
plt.show()

print(f"Среднее значение (μ): {mu:.2f}")
print(f"Стандартное отклонение (σ): {sigma:.2f}")
print(f"Аномальные значения: {anomalies.tolist()}")
```

**Описание:**
1. Используем набор данных из предыдущего примера.
2. Выполняем те же шаги: вычисляем $\mu$, $\sigma$, определяем границы и находим аномалии.
3. Строим график для визуализации результатов.

---

### Пример 3: Обнаружение аномалий в многомерных данных (использование Mahalanobis'а расстояния)

```python
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import mahalanobis

# Генерация многомерных данных
np.random.seed(42)
data = np.random.multivariate_normal(mean=[0, 0], cov=[[1, 0.5], [0.5, 1]], size=100)
data = np.vstack([data, [[5, 5], [-5, -5]]])  # Добавление аномалий

# Вычисление матрицы ковариации и её обратной
cov_matrix = np.cov(data.T)
inv_cov_matrix = np.linalg.inv(cov_matrix)

# Вычисление центра данных
mean_vector = np.mean(data, axis=0)

# Вычисление Mahalanobis'а расстояния для каждой точки
distances = []
for point in data:
    distances.append(mahalanobis(point, mean_vector, inv_cov_matrix))

# Определение порогового значения (например, 3σ для многомерного случая)
threshold = np.sqrt(3 * len(mean_vector))  # Пороговое значение для 3-сигма

# Поиск аномалий
anomalies = data[np.array(distances) > threshold]

# Визуализация
plt.figure(figsize=(10, 6))
plt.scatter(data[:, 0], data[:, 1], color='blue', label='Данные')
plt.scatter(anomalies[:, 0], anomalies[:, 1], color='red', label='Аномалии')
plt.title('Обнаружение аномалий с помощью Mahalanobis\'а расстояния')
plt.xlabel('Признак 1')
plt.ylabel('Признак 2')
plt.legend()
plt.show()

print(f"Количество аномалий: {len(anomalies)}")
```

**Описание:**
1. Генерируем двумерные данные из многомерного нормального распределения.
2. Добавляем несколько аномалий.
3. Вычисляем Mahalanobis'а расстояние для каждой точки относительно центра данных.
4. Определяем аномалии как точки, чьё расстояние превышает пороговое значение.
5. Строим график для визуализации данных и аномалий.




## Использование метода 3-сигма для анализа временных рядов

Временные ряды представляют собой последовательности данных, измеренных в определённых точках времени. Примерами временных рядов могут быть курсы акций, температура воздуха, потребление электроэнергии и многие другие показатели, изменяющиеся во времени. Для анализа таких данных важно не только выявлять общие тренды или сезонные колебания, но и обнаруживать аномалии — резкие отклонения от ожидаемого поведения.

Метод 3-сигма может быть адаптирован для анализа временных рядов с учётом их специфики. В этом разделе мы рассмотрим, как применять метод 3-сигма для обнаружения аномалий в временных рядах, а также особенности его использования.



## 1. Специфика временных рядов

В отличие от статических данных, временные ряды имеют следующие характеристики:

1. **Зависимость между соседними точками**: Значения временного ряда часто коррелируют друг с другом. Например, если сегодня температура высокая, то завтра она, скорее всего, также будет выше средней.
2. **Тренды**: Во многих временных рядах наблюдается долгосрочное изменение значений (например, рост или снижение).
3. **Сезонность**: Периодические изменения, такие как суточные или годовые циклы.
4. **Шум**: Непредсказуемые случайные колебания, которые могут маскировать реальные аномалии.

При использовании метода 3-сигма для временных рядов необходимо учитывать эти особенности.



## 2. Адаптация метода 3-сигма для временных рядов

Для анализа временных рядов метод 3-сигма можно адаптировать следующими способами:

### 2.1. Вычисление скользящих показателей

Вместо глобального среднего значения ($\mu$) и стандартного отклонения ($\sigma$), которые учитывают весь временной ряд, можно использовать **скользящее среднее** и **скользящее стандартное отклонение**. Это позволяет учитывать локальные изменения в данных.

#### Формулы:
- Скользящее среднее:
  $$
  \text{MA}_t = \frac{1}{w} \sum_{i=t-w+1}^{t} x_i,
  $$
  где $w$ — размер окна, $x_i$ — значение временного ряда в момент времени $i$.

- Скользящее стандартное отклонение:
  $$
  \text{SD}_t = \sqrt{\frac{1}{w} \sum_{i=t-w+1}^{t} (x_i - \text{MA}_t)^2}.
  $$

На основе этих показателей можно вычислить локальные границы нормального диапазона:
$$
[\text{MA}_t - 3 \cdot \text{SD}_t, \text{MA}_t + 3 \cdot \text{SD}_t].
$$

Аномальными считаются точки, выходящие за пределы этих границ.



### 2.2. Удаление трендов и сезонности

Если временной ряд содержит明显的 тренды или сезонность, это может исказить результаты анализа. Чтобы этого избежать, можно выполнить следующие шаги:

1. **Детрендинг**: Убрать тренд из данных, например, путём вычитания полиномиальной аппроксимации или скользящего среднего.
2. **Устранение сезонности**: Если данные имеют периодическую компоненту, её можно удалить с помощью декомпозиции временного ряда.

После этих преобразований можно применять метод 3-сигма к полученным остаткам.



### 2.3. Обработка выбросов

Выбросы могут значительно влиять на оценку среднего значения и стандартного отклонения. Чтобы минимизировать этот эффект, можно использовать **устойчивые метрики**, такие как медиана вместо среднего значения и интерквартильный размах вместо стандартного отклонения.



## 3. Алгоритм применения метода 3-сигма для временных рядов

1. **Подготовка данных**:
   - Очистка данных от пропусков и ошибок.
   - Детектирование и удаление явных артефактов.

2. **Вычисление скользящих показателей**:
   - Вычислить скользящее среднее ($\text{MA}_t$) и скользящее стандартное отклонение ($\text{SD}_t$).

3. **Определение границ нормального диапазона**:
   - Для каждой точки времени $t$ вычислить:
     $$
     [\text{MA}_t - 3 \cdot \text{SD}_t, \text{MA}_t + 3 \cdot \text{SD}_t].
     $$

4. **Поиск аномалий**:
   - Найти все точки, выходящие за пределы вычисленных границ.

5. **Визуализация результатов**:
   - Отобразить временной ряд вместе со скользящим средним, границами нормального диапазона и выделенными аномалиями.



## 4. Преимущества и ограничения метода 3-сигма для временных рядов

### Преимущества:
1. Простота реализации.
2. Эффективность при работе с данными, близкими к нормальному распределению.
3. Возможность адаптации под локальные изменения с помощью скользящих показателей.

### Ограничения:
1. Чувствительность к выбросам: даже небольшое количество аномалий может исказить оценку скользящего среднего и стандартного отклонения.
2. Неучёт сложных зависимостей: Метод 3-сигма не учитывает автокорреляцию и другие структуры данных.
3. Требование предварительной обработки: Необходимо убирать тренды и сезонность для получения достоверных результатов.



## 5. Пример практического применения

Рассмотрим пример мониторинга потребления электроэнергии в здании. Мы имеем данные о дневном потреблении электроэнергии за несколько месяцев. Цель — обнаружить дни, когда потребление сильно отличалось от обычного.

1. **Подготовка данных**:
   - Удаляем пропущенные значения.
   - Убираем сезонность (например, различия между рабочими днями и выходными).

2. **Вычисление скользящих показателей**:
   - Вычисляем скользящее среднее за последние 7 дней.
   - Вычисляем скользящее стандартное отклонение за последние 7 дней.

3. **Определение аномалий**:
   - Для каждого дня проверяем, находится ли потребление электроэнергии внутри диапазона $[\text{MA}_t - 3 \cdot \text{SD}_t, \text{MA}_t + 3 \cdot \text{SD}_t]$.

4. **Визуализация**:
   - Строим график потребления электроэнергии, отметив аномальные дни красным цветом.




### Пример 1: Обнаружение аномалий с использованием скользящих показателей

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Генерация временного ряда
np.random.seed(42)
time = np.arange(100)
data = 5 * np.sin(0.1 * time) + np.random.normal(loc=0, scale=1, size=100)
data[10] += 10  # Искусственная аномалия
data[90] -= 10  # Искусственная аномалия

# Создание DataFrame
df = pd.DataFrame({'Time': time, 'Value': data})

# Вычисление скользящего среднего и стандартного отклонения
window_size = 10
df['Rolling Mean'] = df['Value'].rolling(window=window_size).mean()
df['Rolling Std'] = df['Value'].rolling(window=window_size).std()

# Определение границ нормального диапазона
df['Lower Bound'] = df['Rolling Mean'] - 3 * df['Rolling Std']
df['Upper Bound'] = df['Rolling Mean'] + 3 * df['Rolling Std']

# Поиск аномалий
df['Anomaly'] = (df['Value'] < df['Lower Bound']) | (df['Value'] > df['Upper Bound'])

# Визуализация
plt.figure(figsize=(12, 6))
plt.plot(df['Time'], df['Value'], label='Временной ряд', color='blue')
plt.plot(df['Time'], df['Rolling Mean'], label='Скользящее среднее', color='orange')
plt.fill_between(df['Time'], df['Lower Bound'], df['Upper Bound'], color='green', alpha=0.2, label='Нормальный диапазон')
plt.scatter(df[df['Anomaly']]['Time'], df[df['Anomaly']]['Value'], color='red', label='Аномалии')
plt.title('Обнаружение аномалий в временном ряду с помощью метода 3-сигма')
plt.xlabel('Время')
plt.ylabel('Значение')
plt.legend()
plt.show()

# Вывод аномальных значений
anomalies = df[df['Anomaly']]
print("Аномальные значения:")
print(anomalies[['Time', 'Value']])
```

**Описание:**
1. Мы генерируем временной ряд с искусственными аномалиями.
2. Вычисляем скользящее среднее и стандартное отклонение с окном размером 10.
3. Определяем границы нормального диапазона ($[\text{MA}_t - 3 \cdot \text{SD}_t, \text{MA}_t + 3 \cdot \text{SD}_t]$).
4. Находим и выделяем аномалии.
5. Строим график для визуализации результатов.



### Пример 2: Удаление трендов и сезонности перед применением метода 3-сигма

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose

# Генерация временного ряда с трендом и сезонностью
np.random.seed(42)
time = np.arange(100)
trend = 0.1 * time
seasonality = 5 * np.sin(0.2 * time)
noise = np.random.normal(loc=0, scale=1, size=100)
data = trend + seasonality + noise
data[10] += 10  # Искусственная аномалия
data[90] -= 10  # Искусственная аномалия

# Декомпозиция временного ряда
result = seasonal_decompose(pd.Series(data), model='additive', period=10)
residuals = result.resid.dropna()  # Остатки после удаления тренда и сезонности

# Вычисление среднего и стандартного отклонения для остатков
mu = residuals.mean()
sigma = residuals.std()

# Определение границ нормального диапазона
lower_bound = mu - 3 * sigma
upper_bound = mu + 3 * sigma

# Поиск аномалий в остатках
anomalies = residuals[(residuals < lower_bound) | (residuals > upper_bound)]

# Визуализация
plt.figure(figsize=(12, 8))

# График исходного временного ряда
plt.subplot(3, 1, 1)
plt.plot(time, data, label='Исходный временной ряд', color='blue')
plt.title('Исходный временной ряд')
plt.legend()

# График декомпозиции
plt.subplot(3, 1, 2)
result.plot().set_size_inches(12, 6)
plt.title('Декомпозиция временного ряда')

# График остатков с аномалиями
plt.subplot(3, 1, 3)
plt.plot(residuals.index, residuals.values, label='Остатки', color='blue')
plt.axhline(lower_bound, color='green', linestyle='--', label='Нижняя граница (μ - 3σ)')
plt.axhline(upper_bound, color='green', linestyle='--', label='Верхняя граница (μ + 3σ)')
plt.scatter(anomalies.index, anomalies.values, color='red', label='Аномалии')
plt.title('Аномалии в остатках')
plt.legend()

plt.tight_layout()
plt.show()

# Вывод аномальных значений
print("Аномальные значения в остатках:")
print(anomalies)
```

**Описание:**
1. Мы создаём временной ряд с трендом, сезонностью и шумом, добавляя искусственные аномалии.
2. Используем функцию `seasonal_decompose` из библиотеки `statsmodels` для декомпозиции временного ряда на тренд, сезонность и остатки.
3. Применяем метод 3-сигма к остаткам для обнаружения аномалий.
4. Строим графики исходного временного ряда, декомпозиции и остатков с выделенными аномалиями.



### Пример 3: Анализ реальных данных (например, курс акций)

```python
import pandas as pd
import matplotlib.pyplot as plt

# Загрузка реальных данных (например, курс акций)
data = pd.read_csv('stock_prices.csv')  # Предполагается, что файл содержит столбцы 'Date' и 'Close'
data['Date'] = pd.to_datetime(data['Date'])
data.set_index('Date', inplace=True)

# Вычисление скользящего среднего и стандартного отклонения
window_size = 20
data['Rolling Mean'] = data['Close'].rolling(window=window_size).mean()
data['Rolling Std'] = data['Close'].rolling(window=window_size).std()

# Определение границ нормального диапазона
data['Lower Bound'] = data['Rolling Mean'] - 3 * data['Rolling Std']
data['Upper Bound'] = data['Rolling Mean'] + 3 * data['Rolling Std']

# Поиск аномалий
data['Anomaly'] = (data['Close'] < data['Lower Bound']) | (data['Close'] > data['Upper Bound'])

# Визуализация
plt.figure(figsize=(12, 6))
plt.plot(data.index, data['Close'], label='Курс акций', color='blue')
plt.plot(data.index, data['Rolling Mean'], label='Скользящее среднее', color='orange')
plt.fill_between(data.index, data['Lower Bound'], data['Upper Bound'], color='green', alpha=0.2, label='Нормальный диапазон')
plt.scatter(data[data['Anomaly']].index, data[data['Anomaly']]['Close'], color='red', label='Аномалии')
plt.title('Обнаружение аномалий в курсе акций')
plt.xlabel('Дата')
plt.ylabel('Цена закрытия')
plt.legend()
plt.show()

# Вывод аномальных значений
anomalies = data[data['Anomaly']]
print("Аномальные значения:")
print(anomalies[['Close']])
```

**Описание:**
1. Мы загружаем реальные данные (например, исторические цены акций) из CSV-файла.
2. Вычисляем скользящее среднее и стандартное отклонение для цен закрытия.
3. Определяем границы нормального диапазона и находим аномалии.
4. Строим график для визуализации результатов.



Эти примеры демонстрируют, как можно адаптировать метод 3-сигма для анализа временных рядов, учитывая их особенности, такие как тренды, сезонность и автокорреляцию.