<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/Anomaly%20Detection/3_%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D1%8B_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%B0_LOF_(Local_Outlier_Factor).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#3. Математические основы метода LOF (Local Outlier Factor)

Метод LOF (Local Outlier Factor) представляет собой один из наиболее эффективных алгоритмов для обнаружения выбросов в данных. Он основан на концепции локальной плотности точек и позволяет выявлять аномалии, учитывая не только глобальную структуру данных, но и их локальные свойства. В данной лекции мы рассмотрим математические основы метода LOF, начиная с базовых определений и заканчивая формализацией самого показателя LOF.



## 1. Постановка задачи

Задача обнаружения аномалий заключается в том, чтобы найти объекты в наборе данных, которые существенно отличаются от остальных. Эти объекты называются **выбросами** или **аномалиями**. Метод LOF решает эту задачу, используя идею сравнения плотности точек в окрестностях различных объектов.

Основная идея метода состоит в том, что нормальные объекты обычно находятся в областях высокой плотности, тогда как выбросы расположены в областях низкой плотности или являются изолированными объектами.



## 2. Основные понятия и определения


### **2.1 Расстояние между объектами**

#### **Что это такое?**
Расстояние между объектами — это числовая характеристика, показывающая степень различия или близости двух объектов в пространстве признаков. В данном случае используется **евклидово расстояние**, которое является одним из самых распространенных способов измерения близости объектов.

#### **Формула:**
$$
d(x_i, x_j) = \sqrt{\sum_{k=1}^d (x_{i,k} - x_{j,k})^2},
$$
где:
- $ x_i $ и $ x_j $ — два объекта,
- $ x_{i,k} $ и $ x_{j,k} $ — значения $ k $-го признака для объектов $ x_i $ и $ x_j $ соответственно,
- $ d $ — размерность пространства признаков (количество признаков).

#### **Значение:**
Евклидово расстояние отражает прямую "геометрическую" дистанцию между двумя точками в многомерном пространстве. Чем меньше расстояние, тем ближе объекты друг к другу.



### **2.2 k-ближайшие соседи**

#### **Что это такое?**
Множество $ k $-ближайших соседей ($ k $-NN) объекта $ x_i $ — это набор из $ k $ объектов из множества $ D $, которые находятся ближе всего к $ x_i $ по заданной метрике расстояния.

#### **Формула:**
$$
N_k(x_i) = \{x_j \in D \setminus \{x_i\} : |N_k(x_i)| = k\},
$$
где:
- $ N_k(x_i) $ — множество $ k $-ближайших соседей объекта $ x_i $,
- $ D \setminus \{x_i\} $ — все объекты из множества $ D $, кроме самого $ x_i $,
- $ |N_k(x_i)| = k $ означает, что в множестве ровно $ k $ элементов.

#### **Значение:**
Эта концепция используется для определения локальной окрестности объекта. Она позволяет анализировать, как объект связан с другими объектами в его близлежащей области.



### **2.3 Достижимое расстояние**

#### **Что это такое?**
Достижимое расстояние ($ d_{\text{reach}}(x_i, x_j) $) — это модифицированное расстояние, которое учитывает не только геометрическую дистанцию между объектами, но и плотность области, где находится объект $ x_j $.

#### **Формула:**
$$
d_{\text{reach}}(x_i, x_j) = \max\{d(x_i, x_j), r_k(x_j)\},
$$
где:
- $ d(x_i, x_j) $ — евклидово расстояние между объектами $ x_i $ и $ x_j $,
- $ r_k(x_j) $ — расстояние от объекта $ x_j $ до его $ k $-го ближайшего соседа.

#### **Значение:**
Идея достижимого расстояния заключается в том, чтобы компенсировать эффект высокой плотности в областях данных. Например:
- Если объект $ x_j $ находится в густонаселенной области, то даже небольшое расстояние до него может быть значимым.
- Если объект $ x_j $ находится в редко населенной области, то расстояние до него будет больше, и это должно учитываться.

Таким образом, достижимое расстояние помогает более точно оценивать связь между объектами в разных частях пространства.



### **2.4 Локальная достижимая плотность**

#### **Что это такое?**
Локальная достижимая плотность ($ lrd_k(x_i) $) — это мера, характеризующая, насколько компактно расположены $ k $-ближайшие соседи объекта $ x_i $. Она вычисляется через среднее достижимое расстояние до этих соседей.

#### **Формула:**
$$
lrd_k(x_i) = \frac{1}{\frac{1}{|N_k(x_i)|} \sum_{x_j \in N_k(x_i)} d_{\text{reach}}(x_i, x_j)},
$$
где:
- $ lrd_k(x_i) $ — локальная достижимая плотность объекта $ x_i $,
- $ N_k(x_i) $ — множество $ k $-ближайших соседей объекта $ x_i $,
- $ d_{\text{reach}}(x_i, x_j) $ — достижимое расстояние от $ x_i $ до $ x_j $.

#### **Значение:**
- Локальная достижимая плотность обратно пропорциональна среднему достижимому расстоянию до $ k $-ближайших соседей.
- Высокое значение $ lrd_k(x_i) $ указывает на то, что объект $ x_i $ находится в густонаселенной области.
- Низкое значение $ lrd_k(x_i) $ указывает на то, что объект $ x_i $ находится в редко населенной области.

Эта метрика особенно полезна для выявления аномалий (outliers) в данных, так как аномальные объекты обычно имеют низкую локальную достижимую плотность.




## 3. Вычисление LOF

LOF (Local Outlier Factor) для объекта $ x_i $ определяется как среднее отношение локальной достижимой плотности объекта $ x_i $ к локальным достижимым плотностям его $ k $-ближайших соседей:
  
#### **Формула:**
$$
LOF_k(x_i) = \frac{\frac{1}{|N_k(x_i)|} \sum_{x_j \in N_k(x_i)} \frac{lrd_k(x_j)}{lrd_k(x_i)}}{1}.
$$

#### **Что это значит?**
LOF для объекта $ x_i $ — это среднее значение отношения локальной достижимой плотности его соседей ($ lrd_k(x_j) $) к его собственной локальной достижимой плотности ($ lrd_k(x_i) $).

- Если $ LOF_k(x_i) \approx 1 $:
  - Объект $ x_i $ имеет примерно такую же плотность, как и его соседи.
  - Это означает, что объект $ x_i $ "обычный" и не считается аномальным.

- Если $ LOF_k(x_i) > 1 $:
  - Объект $ x_i $ находится в области с более низкой плотностью по сравнению со своими соседями.
  - Это указывает на возможную аномалию, так как объект "выделяется" из своей окрестности.

- Если $ LOF_k(x_i) < 1 $:
  - Объект $ x_i $ находится в области с более высокой плотностью, чем его соседи.
  - Это может означать, что объект принадлежит к более плотной группе данных, но сам по себе он не обязательно является аномалией.



### **4. Математическая интерпретация**

#### **4.1 Достижимое расстояние**

##### **Формула:**
$$
d_{\text{reach}}(x_i, x_j) = \max\{d(x_i, x_j), r_k(x_j)\},
$$
где:
- $ d(x_i, x_j) $ — евклидово расстояние между объектами $ x_i $ и $ x_j $,
- $ r_k(x_j) $ — расстояние от объекта $ x_j $ до его $ k $-го ближайшего соседа.

##### **Зачем нужно достижимое расстояние?**
Достижимое расстояние компенсирует эффекты разной плотности данных в разных областях пространства. Например:
- Если объект $ x_j $ находится в густонаселенной области, то даже небольшое расстояние $ d(x_i, x_j) $ может быть значимым, так как в этой области много объектов близко друг к другу.
- В этом случае формула увеличивает расстояние до значения $ r_k(x_j) $, что делает сравнение более справедливым.

Таким образом, достижимое расстояние помогает учитывать контекстную информацию о плотности данных, что особенно важно для анализа аномалий.



#### **4.2 Локальная достижимая плотность**

##### **Формула:**
$$
lrd_k(x_i) = \frac{1}{\frac{1}{|N_k(x_i)|} \sum_{x_j \in N_k(x_i)} d_{\text{reach}}(x_i, x_j)},
$$
где:
- $ lrd_k(x_i) $ — локальная достижимая плотность объекта $ x_i $,
- $ N_k(x_i) $ — множество $ k $-ближайших соседей объекта $ x_i $,
- $ d_{\text{reach}}(x_i, x_j) $ — достижимое расстояние от $ x_i $ до $ x_j $.

##### **Значение:**
Локальная достижимая плотность показывает, насколько "компактно" расположены соседи объекта $ x_i $. Она вычисляется как обратная величина среднего достижимого расстояния до $ k $-ближайших соседей:
- Чем меньше среднее достижимое расстояние, тем выше локальная достижимая плотность.
- Чем больше среднее достижимое расстояние, тем ниже локальная достижимая плотность.

Эта метрика позволяет эффективно оценивать плотность данных в локальной окрестности каждого объекта, что особенно важно для выявления аномалий.



#### **4.3 LOF**

##### **Формула:**
$$
LOF_k(x_i) = \frac{\frac{1}{|N_k(x_i)|} \sum_{x_j \in N_k(x_i)} \frac{lrd_k(x_j)}{lrd_k(x_i)}}{1}.
$$

##### **Как работает LOF?**
LOF сравнивает локальную достижимую плотность объекта $ x_i $ с плотностями его соседей:
1. Для каждого соседа $ x_j $ из множества $ N_k(x_i) $ вычисляется отношение $ \frac{lrd_k(x_j)}{lrd_k(x_i)} $.
   - Если $ lrd_k(x_j) > lrd_k(x_i) $, то сосед $ x_j $ находится в более плотной области.
   - Если $ lrd_k(x_j) < lrd_k(x_i) $, то сосед $ x_j $ находится в менее плотной области.
2. Затем вычисляется среднее этих отношений для всех соседей $ x_j $.
3. Полученное значение нормализуется, чтобы получить LOF.

##### **Интерпретация LOF:**
- Если $ LOF_k(x_i) \approx 1 $:
  - Объект $ x_i $ имеет ту же плотность, что и его соседи, и не считается аномалией.
- Если $ LOF_k(x_i) > 1 $:
  - Объект $ x_i $ находится в области с более низкой плотностью, чем его соседи, что указывает на возможную аномалию.
- Если $ LOF_k(x_i) < 1 $:
  - Объект $ x_i $ находится в области с более высокой плотностью, чем его соседи.


## 5. Формализация процесса

Процесс вычисления LOF можно разделить на следующие шаги:

1. **Нахождение $ k $-ближайших соседей**: Для каждого объекта $ x_i $ определить множество его $ k $-ближайших соседей $ N_k(x_i) $.
2. **Вычисление достижимых расстояний**: Для каждого объекта $ x_i $ и его соседей $ x_j \in N_k(x_i) $ вычислить достижимые расстояния $ d_{\text{reach}}(x_i, x_j) $.
3. **Определение локальной достижимой плотности**: Для каждого объекта $ x_i $ вычислить $ lrd_k(x_i) $.
4. **Вычисление LOF**: Для каждого объекта $ x_i $ вычислить показатель LOF, используя формулу:

$$
LOF_k(x_i) = \frac{\frac{1}{|N_k(x_i)|} \sum_{x_j \in N_k(x_i)} \frac{lrd_k(x_j)}{lrd_k(x_i)}}{1}.
$$

Таким образом, метод LOF предоставляет мощный инструмент для обнаружения аномалий, основанный на сравнении плотностей в локальных окрестностях объектов. Его ключевыми преимуществами являются:
- Учет локальной структуры данных;
- Способность обнаруживать аномалии в областях с различными уровнями плотности;
- Отсутствие необходимости задавать пороговые значения заранее.

Тем не менее, метод требует выбора параметра $ k $, который может значительно влиять на результаты. Кроме того, вычислительная сложность метода растет пропорционально количеству объектов, что ограничивает его применимость для больших наборов данных.

$$
\boxed{\text{LOF — это показатель, позволяющий выявлять аномалии на основе сравнения локальных плотностей.}}
$$




Для лучшего понимания метода LOF рассмотрим конкретные числовые примеры. Мы будем использовать гипотетический набор данных и шаг за шагом вычислять необходимые величины.



## 1. Исходный набор данных

Пусть у нас есть следующий набор точек в двумерном пространстве:

$$
D = \{(2, 3), (3, 4), (4, 5), (10, 11), (11, 12), (12, 13), (6, 7)\}.
$$

Мы будем работать с параметром $ k = 3 $, то есть для каждого объекта будем рассматривать его три ближайших соседа.

---

## 2. Шаг 1: Вычисление расстояний

Сначала вычислим матрицу расстояний между всеми парами точек. Для этого используем евклидово расстояние:

$$
d(x_i, x_j) = \sqrt{(x_{i,1} - x_{j,1})^2 + (x_{i,2} - x_{j,2})^2}.
$$

Например:
- Расстояние между точками $(2, 3)$ и $(3, 4)$:
  $$
  d((2, 3), (3, 4)) = \sqrt{(2 - 3)^2 + (3 - 4)^2} = \sqrt{1 + 1} = \sqrt{2}.
  $$

Выполнив аналогичные вычисления для всех пар точек, получаем следующую таблицу расстояний:

| Точка    | $(2, 3)$   | $(3, 4)$   | $(4, 5)$   | $(10, 11)$ | $(11, 12)$ | $(12, 13)$ | $(6, 7)$   |
|----------|-------------|-------------|-------------|-------------|-------------|-------------|-------------|
| $(2, 3)$ | $0$         | $\sqrt{2}$ | $\sqrt{8}$ | $\sqrt{74}$ | $\sqrt{98}$ | $\sqrt{122}$| $\sqrt{18}$ |
| $(3, 4)$ | $\sqrt{2}$  | $0$         | $\sqrt{2}$ | $\sqrt{50}$ | $\sqrt{74}$ | $\sqrt{98}$ | $\sqrt{10}$ |
| $(4, 5)$ | $\sqrt{8}$  | $\sqrt{2}$ | $0$         | $\sqrt{34}$ | $\sqrt{50}$ | $\sqrt{74}$ | $\sqrt{2}$  |
| $(10, 11)$| $\sqrt{74}$ | $\sqrt{50}$ | $\sqrt{34}$ | $0$         | $\sqrt{2}$  | $\sqrt{8}$  | $\sqrt{18}$ |
| $(11, 12)$| $\sqrt{98}$ | $\sqrt{74}$ | $\sqrt{50}$ | $\sqrt{2}$  | $0$         | $\sqrt{2}$  | $\sqrt{10}$ |
| $(12, 13)$| $\sqrt{122}$| $\sqrt{98}$ | $\sqrt{74}$ | $\sqrt{8}$  | $\sqrt{2}$  | $0$         | $\sqrt{2}$  |
| $(6, 7)$  | $\sqrt{18}$ | $\sqrt{10}$ | $\sqrt{2}$  | $\sqrt{18}$ | $\sqrt{10}$ | $\sqrt{2}$  | $0$         |


## 3. Шаг 2: Определение $ k $-ближайших соседей

Для каждой точки найдем три ближайших соседа ($ k = 3 $).

- Для точки $(2, 3)$: ближайшие соседи — $(3, 4)$, $(4, 5)$, $(6, 7)$.
- Для точки $(3, 4)$: ближайшие соседи — $(2, 3)$, $(4, 5)$, $(6, 7)$.
- Для точки $(4, 5)$: ближайшие соседи — $(3, 4)$, $(6, 7)$, $(2, 3)$.
- Для точки $(10, 11)$: ближайшие соседи — $(11, 12)$, $(12, 13)$, $(6, 7)$.
- Для точки $(11, 12)$: ближайшие соседи — $(10, 11)$, $(12, 13)$, $(6, 7)$.
- Для точки $(12, 13)$: ближайшие соседи — $(11, 12)$, $(10, 11)$, $(6, 7)$.
- Для точки $(6, 7)$: ближайшие соседи — $(4, 5)$, $(3, 4)$, $(2, 3)$.



## 4. Шаг 3: Вычисление достижимых расстояний

Для каждой точки вычислим достижимое расстояние до ее соседей. Напомним формулу:

$$
d_{\text{reach}}(x_i, x_j) = \max\{d(x_i, x_j), r_k(x_j)\},
$$

где $ r_k(x_j) $ — расстояние от $ x_j $ до его $ k $-го ближайшего соседа.

Пример:
- Для точки $(2, 3)$:
  - Ближайшие соседи: $(3, 4)$, $(4, 5)$, $(6, 7)$.
  - Расстояния до них: $\sqrt{2}$, $\sqrt{8}$, $\sqrt{18}$.
  - $ r_k((2, 3)) = \sqrt{18} $ (расстояние до третьего ближайшего соседа).
  - Достижимые расстояния:
    - До $(3, 4)$: $ d_{\text{reach}}((2, 3), (3, 4)) = \max\{\sqrt{2}, \sqrt{10}\} = \sqrt{10} $.
    - До $(4, 5)$: $ d_{\text{reach}}((2, 3), (4, 5)) = \max\{\sqrt{8}, \sqrt{2}\} = \sqrt{8} $.
    - До $(6, 7)$: $ d_{\text{reach}}((2, 3), (6, 7)) = \max\{\sqrt{18}, \sqrt{2}\} = \sqrt{18} $.

Аналогично вычисляем достижимые расстояния для остальных точек.



## 5. Шаг 4: Вычисление локальной достижимой плотности

Локальная достижимая плотность определяется как:

$$
lrd_k(x_i) = \frac{1}{\frac{1}{|N_k(x_i)|} \sum_{x_j \in N_k(x_i)} d_{\text{reach}}(x_i, x_j)}.
$$

Пример:
- Для точки $(2, 3)$:
  - Соседи: $(3, 4)$, $(4, 5)$, $(6, 7)$.
  - Достижимые расстояния: $\sqrt{10}$, $\sqrt{8}$, $\sqrt{18}$.
  - Среднее достижимое расстояние:
    $$
    \frac{1}{3} (\sqrt{10} + \sqrt{8} + \sqrt{18}) \approx \frac{1}{3} (3.16 + 2.83 + 4.24) \approx 3.41.
    $$
  - Локальная достижимая плотность:
    $$
    lrd_k((2, 3)) = \frac{1}{3.41} \approx 0.293.
    $$

Аналогично вычисляем $ lrd_k $ для остальных точек.



## 6. Шаг 5: Вычисление LOF

LOF для точки $ x_i $ вычисляется по формуле:

$$
LOF_k(x_i) = \frac{\frac{1}{|N_k(x_i)|} \sum_{x_j \in N_k(x_i)} \frac{lrd_k(x_j)}{lrd_k(x_i)}}{1}.
$$

Пример:
- Для точки $(2, 3)$:
  - Соседи: $(3, 4)$, $(4, 5)$, $(6, 7)$.
  - Предположим, что их локальные достижимые плотности равны:
    - $ lrd_k((3, 4)) = 0.3 $,
    - $ lrd_k((4, 5)) = 0.35 $,
    - $ lrd_k((6, 7)) = 0.25 $.
  - LOF:
    $$
    LOF_k((2, 3)) = \frac{\frac{1}{3} \left(\frac{0.3}{0.293} + \frac{0.35}{0.293} + \frac{0.25}{0.293}\right)}{1}.
    $$
    $$
    LOF_k((2, 3)) \approx \frac{\frac{1}{3} (1.024 + 1.195 + 0.853)}{1} \approx 1.024.
    $$

Аналогично вычисляем LOF для остальных точек.



Итоговые значения LOF позволяют оценить, насколько каждая точка является аномалией:
- Если $ LOF_k(x_i) \approx 1 $, то точка не считается аномалией.
- Если $ LOF_k(x_i) > 1 $, то точка может быть аномалией.
- Если $ LOF_k(x_i) < 1 $, то точка находится в области с высокой плотностью.

В нашем примере можно предположить, что точки $(10, 11)$, $(11, 12)$, $(12, 13)$ имеют высокие значения LOF и могут быть классифицированы как аномалии.

$$
\boxed{\text{LOF помогает выявить аномалии на основе сравнения локальных плотностей.}}
$$





## Пример 1: Простой набор данных

### Описание
Создадим простой двумерный набор данных, содержащий нормальные точки и аномалии. Затем применим метод LOF для выявления выбросов.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация данных
np.random.seed(42)
X = 0.3 * np.random.randn(100, 2)  # Нормальные точки
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))  # Аномалии
X = np.r_[X, X_outliers]  # Объединение нормальных точек и аномалий

# Применение LOF
clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = clf.fit_predict(X)  # Предсказание (-1 для аномалий, 1 для нормальных точек)
scores = clf.negative_outlier_factor_  # Степень аномальности (чем меньше, тем больше аномальность)

# Визуализация
plt.figure(figsize=(8, 6))
colors = np.array(['blue', 'red'])[y_pred == -1]  # Синий для нормальных точек, красный для аномалий
plt.scatter(X[:, 0], X[:, 1], c=colors, s=20, edgecolor='k')
plt.title("LOF: Аномалии (красные точки)")
plt.xlabel("Признак 1")
plt.ylabel("Признак 2")
plt.show()
```



## Пример 2: Кластеры с разной плотностью

### Описание
Создадим два кластера с разной плотностью и добавим аномалии. Метод LOF должен корректно обнаруживать аномалии даже в областях с различными уровнями плотности.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация данных
np.random.seed(42)
cluster1 = 0.5 * np.random.randn(100, 2) + [2, 2]  # Первый кластер
cluster2 = 0.5 * np.random.randn(100, 2) - [2, 2]  # Второй кластер
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))  # Аномалии
X = np.r_[cluster1, cluster2, X_outliers]  # Объединение кластеров и аномалий

# Применение LOF
clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = clf.fit_predict(X)  # Предсказание (-1 для аномалий, 1 для нормальных точек)

# Визуализация
plt.figure(figsize=(8, 6))
colors = np.array(['blue', 'red'])[y_pred == -1]  # Синий для нормальных точек, красный для аномалий
plt.scatter(X[:, 0], X[:, 1], c=colors, s=20, edgecolor='k')
plt.title("LOF: Аномалии в кластерах с разной плотностью")
plt.xlabel("Признак 1")
plt.ylabel("Признак 2")
plt.show()
```



## Пример 3: Анализ зависимости от параметра $ k $

### Описание
Исследуем, как изменяется результат при различных значениях параметра $ k $ (число соседей). Для этого создадим набор данных и построим графики для разных значений $ k $.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация данных
np.random.seed(42)
X = 0.3 * np.random.randn(100, 2)  # Нормальные точки
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))  # Аномалии
X = np.r_[X, X_outliers]  # Объединение нормальных точек и аномалий

# Создание подграфиков для разных значений k
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
k_values = [10, 20, 30, 40]

for i, ax in enumerate(axes.flat):
    k = k_values[i]
    clf = LocalOutlierFactor(n_neighbors=k, contamination=0.1)
    y_pred = clf.fit_predict(X)
    
    colors = np.array(['blue', 'red'])[y_pred == -1]  # Синий для нормальных точек, красный для аномалий
    ax.scatter(X[:, 0], X[:, 1], c=colors, s=20, edgecolor='k')
    ax.set_title(f"LOF с k={k}")
    ax.set_xlabel("Признак 1")
    ax.set_ylabel("Признак 2")

plt.tight_layout()
plt.show()
```



## Пример 4: Анализ значений LOF

### Описание
Мы можем проанализировать числовые значения LOF для каждого объекта и построить их распределение. Это поможет лучше понять, как алгоритм определяет аномалии.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация данных
np.random.seed(42)
X = 0.3 * np.random.randn(100, 2)  # Нормальные точки
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))  # Аномалии
X = np.r_[X, X_outliers]  # Объединение нормальных точек и аномалий

# Применение LOF
clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = clf.fit_predict(X)  # Предсказание (-1 для аномалий, 1 для нормальных точек)
scores = clf.negative_outlier_factor_  # Степень аномальности

# Визуализация распределения LOF
plt.figure(figsize=(8, 6))
plt.hist(scores[y_pred == 1], bins=20, alpha=0.5, label='Нормальные точки')
plt.hist(scores[y_pred == -1], bins=20, alpha=0.5, label='Аномалии', color='red')
plt.title("Распределение LOF")
plt.xlabel("Значение LOF")
plt.ylabel("Частота")
plt.legend()
plt.show()
```


 ## Использование LOF для анализа временных рядов

Метод LOF (Local Outlier Factor) может быть успешно применен для обнаружения аномалий в временных рядах. Временные ряды представляют собой последовательности данных, зависящих от времени, и часто содержат сложные паттерны, шумы и выбросы. LOF позволяет выявлять такие выбросы, основываясь на локальной плотности данных.



## 1. Особенности применения LOF для временных рядов

В отличие от статических наборов данных, временные ряды имеют специфическую структуру, где каждое значение зависит не только от своих соседей по пространству, но и от предыдущих значений во времени. Это требует некоторых адаптаций метода LOF:

1. **Оконное преобразование**: Для работы с LOF временной ряд необходимо представить в виде множества точек в многомерном пространстве. Это можно сделать с помощью оконного подхода, когда каждая точка описывается значениями из фиксированного окна размера $ w $.
   
2. **Учет временной компоненты**: При вычислении расстояний между точками можно учитывать как различия в значениях, так и разницу во времени.

3. **Адаптивный выбор параметра $ k $**: Размер окна и число соседей ($ k $) могут влиять на качество обнаружения аномалий, особенно если временной ряд имеет сезонные или циклические паттерны.



## 2. Алгоритм использования LOF для временных рядов

### Шаг 1: Представление временного ряда в виде точек
Пусть у нас есть временной ряд $ T = \{t_1, t_2, \dots, t_n\} $. Мы преобразуем его в множество точек $ D $, где каждая точка представляет собой вектор значений из окна размера $ w $:

$$
x_i = [t_i, t_{i-1}, t_{i-2}, \dots, t_{i-w+1}].
$$

Например, если $ w = 3 $, то первые три точки будут:
$$
x_3 = [t_3, t_2, t_1], \quad x_4 = [t_4, t_3, t_2], \quad x_5 = [t_5, t_4, t_3].
$$

### Шаг 2: Вычисление расстояний
Для каждой точки $ x_i $ вычисляем расстояния до других точек. Можно использовать евклидово расстояние:

$$
d(x_i, x_j) = \sqrt{\sum_{k=1}^w (x_{i,k} - x_{j,k})^2}.
$$

Если важно учитывать временной компонент, можно добавить веса или нормализовать значения.

### Шаг 3: Применение LOF
Применяем стандартную процедуру LOF:
1. Находим $ k $-ближайших соседей для каждой точки.
2. Вычисляем достижимые расстояния, локальную достижимую плотность и показатель LOF.

### Шаг 4: Определение аномалий
Точки с высокими значениями LOF считаются аномалиями. Пороговое значение может быть определено эмпирически или с использованием метрик качества (например, AUC-ROC).



## 3. Числовые примеры

Рассмотрим гипотетический временной ряд $ T = \{1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100, 11, 12\} $. Здесь значение $ 100 $ является явной аномалией.

### Преобразование в оконное представление
Пусть размер окна $ w = 3 $. Тогда получаем следующие точки:
$$
x_3 = [3, 2, 1], \quad x_4 = [4, 3, 2], \quad x_5 = [5, 4, 3], \quad \dots, \quad x_{11} = [11, 10, 100].
$$

### Вычисление LOF
1. Находим $ k $-ближайших соседей для каждой точки.
2. Вычисляем LOF. Например, для точки $ x_{11} = [11, 10, 100] $ LOF будет значительно выше, чем для остальных точек, так как она находится в области с низкой плотностью.




## Пример 1: Простой временной ряд с аномалией

### Описание
Создадим простой временной ряд, содержащий одну явную аномалию, и применим метод LOF для её обнаружения.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация временного ряда
np.random.seed(42)
T = np.sin(np.linspace(0, 10, 100)) + 0.1 * np.random.randn(100)  # Синусоидальный ряд с шумом
T[50] = 5  # Искусственная аномалия

# Преобразование в оконное представление
w = 5  # Размер окна
X = np.array([T[i:i+w] for i in range(len(T) - w + 1)])  # Создание окон

# Применение LOF
clf = LocalOutlierFactor(n_neighbors=10, contamination=0.01)
y_pred = clf.fit_predict(X)  # Предсказание (-1 для аномалий, 1 для нормальных точек)

# Индексы аномалий
anomalies = np.where(y_pred == -1)[0] + w - 1  # Коррекция индексов

# Визуализация
plt.figure(figsize=(10, 6))
plt.plot(range(len(T)), T, label='Временной ряд', color='blue')
plt.scatter(anomalies, T[anomalies], color='red', label='Аномалии', s=100)
plt.title("Обнаружение аномалий в простом временном ряду")
plt.xlabel("Время")
plt.ylabel("Значение")
plt.legend()
plt.show()
```

---

## Пример 2: Временной ряд с несколькими аномалиями

### Описание
Создадим временной ряд с несколькими аномалиями и проанализируем их с помощью LOF.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация временного ряда
np.random.seed(42)
T = np.sin(np.linspace(0, 20, 200)) + 0.1 * np.random.randn(200)  # Синусоидальный ряд с шумом
T[50] = 3  # Первая аномалия
T[150] = -3  # Вторая аномалия

# Преобразование в оконное представление
w = 10  # Размер окна
X = np.array([T[i:i+w] for i in range(len(T) - w + 1)])  # Создание окон

# Применение LOF
clf = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
y_pred = clf.fit_predict(X)  # Предсказание (-1 для аномалий, 1 для нормальных точек)

# Индексы аномалий
anomalies = np.where(y_pred == -1)[0] + w - 1  # Коррекция индексов

# Визуализация
plt.figure(figsize=(10, 6))
plt.plot(range(len(T)), T, label='Временной ряд', color='blue')
plt.scatter(anomalies, T[anomalies], color='red', label='Аномалии', s=100)
plt.title("Обнаружение нескольких аномалий в временном ряду")
plt.xlabel("Время")
plt.ylabel("Значение")
plt.legend()
plt.show()
```

---

## Пример 3: Временной ряд с трендом

### Описание
Рассмотрим временной ряд с линейным трендом и добавим несколько аномалий. Проверим, как LOF справляется с такой структурой данных.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация временного ряда с трендом
np.random.seed(42)
t = np.linspace(0, 10, 200)
T = 0.5 * t + np.sin(t) + 0.1 * np.random.randn(200)  # Линейный тренд + синусоида + шум
T[50] = 10  # Аномалия 1
T[150] = -5  # Аномалия 2

# Преобразование в оконное представление
w = 15  # Размер окна
X = np.array([T[i:i+w] for i in range(len(T) - w + 1)])  # Создание окон

# Применение LOF
clf = LocalOutlierFactor(n_neighbors=25, contamination=0.01)
y_pred = clf.fit_predict(X)  # Предсказание (-1 для аномалий, 1 для нормальных точек)

# Индексы аномалий
anomalies = np.where(y_pred == -1)[0] + w - 1  # Коррекция индексов

# Визуализация
plt.figure(figsize=(10, 6))
plt.plot(range(len(T)), T, label='Временной ряд', color='blue')
plt.scatter(anomalies, T[anomalies], color='red', label='Аномалии', s=100)
plt.title("Обнаружение аномалий в временном ряду с трендом")
plt.xlabel("Время")
plt.ylabel("Значение")
plt.legend()
plt.show()
```

---

## Пример 4: Анализ значений LOF для временного ряда

### Описание
Мы можем проанализировать числовые значения LOF для каждого объекта и построить их распределение. Это поможет лучше понять, как алгоритм определяет аномалии.

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

# Генерация временного ряда
np.random.seed(42)
T = np.sin(np.linspace(0, 10, 100)) + 0.1 * np.random.randn(100)  # Синусоидальный ряд с шумом
T[50] = 5  # Искусственная аномалия

# Преобразование в оконное представление
w = 5  # Размер окна
X = np.array([T[i:i+w] for i in range(len(T) - w + 1)])  # Создание окон

# Применение LOF
clf = LocalOutlierFactor(n_neighbors=10, contamination=0.01)
y_pred = clf.fit_predict(X)  # Предсказание (-1 для аномалий, 1 для нормальных точек)
scores = clf.negative_outlier_factor_  # Значения LOF

# Визуализация распределения LOF
plt.figure(figsize=(10, 6))
plt.hist(scores[y_pred == 1], bins=20, alpha=0.5, label='Нормальные точки')
plt.hist(scores[y_pred == -1], bins=20, alpha=0.5, label='Аномалии', color='red')
plt.title("Распределение LOF для временного ряда")
plt.xlabel("Значение LOF")
plt.ylabel("Частота")
plt.legend()
plt.show()
```

