# KNN для поиска аномалий
### Найти аномалии в многомерных данных можно и другим способом — методом ближайших соседей.

### Метод ближайших соседей (англ. k-Nearest Neighbors, KNN) работает так: каждый объект датасета принимает за вектор и выбросы ищет в многомерном пространстве. Чем дальше объект от своих соседей, тем выше вероятность его аномальности. 

#### Класс KNN() находится в библиотеке PyOD (англ. Python toolkit for detecting outlying objects, «инструмент для поиска аномалий в Python»). Импортируем его из модуля pyod.models.knn:

In [16]:
import pandas as pd
from pyod.models.knn import KNN
from sklearn.ensemble import IsolationForest
import warnings
warnings.filterwarnings("ignore")

In [17]:
df = pd.read_csv('/Users/yuliabezginova/PycharmProjects/unsupervised_learning/sales.csv')

In [18]:
data = df[['Sales', 'Profit']]

Вызовом функции fit() обучим модель на выборке:

In [19]:
model = KNN()
model.fit(data)

KNN(algorithm='auto', contamination=0.1, leaf_size=30, method='largest',
  metric='minkowski', metric_params=None, n_jobs=1, n_neighbors=5, p=2,
  radius=1.0)

Когда модель обучена, можно перейти к поиску аномалий в наборе данных. Вызовем функцию predict():

In [20]:
predictions = model.predict(data)

Функция predict() вернёт список, где «1» означает аномалию, а «0» — её отсутствие.

### Моделью KNN и изоляционным лесом найдите выбросы в данных с переменными 'Sales' и 'Profit'. Выясните, сколько аномалий совпало. Напечатайте на экране два варианта количества выбросов и число совпавших аномалий. 

In [21]:
df = pd.read_csv('/Users/yuliabezginova/PycharmProjects/unsupervised_learning/sales.csv')
data = df[['Sales', 'Profit']]

model = KNN()
# model.fit(data)
estimation_knn = model.fit_predict(data)
outliers_knn = estimation_knn[estimation_knn==True].sum()
print("Количество аномалий (KNN): ", outliers_knn)

isolation_forest = IsolationForest()
# isolation_forest.fit(data)
estimation_iforest = isolation_forest.fit_predict(data)
outliers_iforest = estimation_iforest[estimation_iforest==True].sum()
print("Количество аномалий (изоляционный лес): ", outliers_iforest)
print("Совпало: ", (estimation_knn & estimation_iforest).sum())

Количество аномалий (KNN):  1000
Количество аномалий (изоляционный лес):  8898
Совпало:  1000


- Искать аномалии в одномерных данных методом boxplot;
- Выявлять выбросы в многомерных данных изоляционным лесом;
- Обнаруживать аномалии в многомерных данных методом ближайших соседей.