In [5]:
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

Распространенным методом является принятие допущения о том, что данные нормально распределены. Основываясь на этом допущении, мы можем "рисовать" эллипс вокруг данных, классифицируя любое наблюдение внутри эллипса как не
выброс (помеченный как 1) и любое наблюдение за пределами эллипса как выброс (помеченный как -1)

In [9]:
features, _ = make_blobs(
    n_samples=10,
    n_features=2,
    centers=1,
    random_state=1
)


# Change first sample values by limit values
features[0, 0] = 10000
features[0, 1] = 10000

# The detector creating
outlier_detector = EllipticEnvelope(contamination=.1)

# Fitting the detector
outlier_detector.fit(features)

# Predict outliers
outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

Основным ограничением этого подхода является необходимость указания параметра загрязнения contamination, который представляет собой долю наблюдений, являющихся выбросами, — значение, которое мы не знаем. Подумайте о загрязнении как о нашей оценке чистоты наших данных. Если мы ожидаем, что наши данные будут иметь несколько выбросов, мы можем задать параметр contamination с каким-нибудь небольшим значением. Однако, если мы считаем, что данные, скорее всего, будут иметь выбросы, мы можем установить для него более высокое значение.

Вместо того чтобы смотреть на наблюдения в целом, мы можем взглянуть на отдельные признаки и идентифицировать в этих признаках предельные значения, используя межквартильный размах (МКР, IQR)

In [14]:
feature = features[:, 0]

# Creating a function that returns outliers index
def outliers_index(x):
  q1, q3 = np.percentile(x, [25, 75])
  iqr = q3 - q1
  lower_bound = q1 - (iqr * 1.5)
  upper_bound = q3 + (iqr * 1.5)

  return np.where((x > upper_bound) | (x < lower_bound))

In [15]:
outliers_index(feature)

(array([0]),)

Межквартильный размах — это разница между первым и третьим квартилями набора данных. МКР можно представить, как разброс основной части данных, где выбросы — это наблюдения, отдаленные от основной части данных. Выбросы обычно определяются как любое значение, которое на 1.5 МКР меньше первого квартиля или на 1.5 МКР больше третьего квартиля.