## <div style="padding: 50px;color:white;margin:10;font-size:80%;text-align:left;display:fill;border-radius:10px;background-color:#323232;overflow:hidden"><b><span style='color:#F1A424'>(13/14) |</span></b> Поиск выбросов</div>

**Выброс**
    
- Результат измерения, который выделяется из общей выборки. 
- Выбросы появляются из-за ошибок в данных и сильно выделяющихся среди остальных значений. 
- Их нужно искать и удалять, иначе данные будут подстраиваться под них и давать неверный результат.

**Как искать выбросы:**

Поиск и удаление по порогу
- Способ нахождения выбросов, основанный на здравом смысле и методе пристального взгляда. Посмотреть данные и поискать невозможные и нелогичные значения, например, в столбце «высота здания» стоит 30 км.
- Поиск с помощью статистики
- Поиск с помощью здравого смысла трудно автоматизировать, поэтому эффективнее статистические методы. Например, поиск по отклонению или по распределению IQR (interquartile range, межквартильное расстояние).
- Поиск с помощью DBSCAN
- Поиск с помощью методов кластеризации, один из таких методов — DBSCAN, который может автоматически находить шум в данных.
    
Разные способы поиска выбросов могут давать разные результаты. Не всегда выделяющееся значение будет являться выбросом, возможно, у нас пока просто не хватает данных.

### <b>Задание <span style='color:#F1A424'>2.13.1</span></b> 

Что нужно делать с выбросами?

- Искать
- Удалять

### <b>Задание <span style='color:#F1A424'>2.13.2</span></b> 

Представим, что у нас есть данные об измерении температуры на улице. Несколько значений слишком большие и не похожи на правду. Как назвать эти числа?

- Выбросы

### <b>Задание <span style='color:#F1A424'>2.13.3</span></b> 

Что такое DBSCAN?

- Алгоритм кластеризации

## <div style="padding: 50px;color:white;margin:10;font-size:80%;text-align:left;display:fill;border-radius:10px;background-color:#323232;overflow:hidden"><b><span style='color:#F1A424'>(14/14) |</span></b> Практика</div>

**1. Ручной поиск выбросов**

- Рассмотрим тему поиска выбросов на том же примере со штрафами. 
- Логически мы понимаем, что лишними будут значения штрафов меньше или равно 0. 
- Поэтому проверим, что все данные больше этого значения:

In [1]:
# np.sum(vis_data.fine_amount < 0)

Посмотрим максимальное значение штрафа и как часто такой штраф встречается в данных:

In [2]:
# max_fine = np.max(vis_data.fine_amount)
# max_fine

# max_fine_count = np.sum(vis_data.fine_amount == max_fine)
# max_fine_count, max_fine_count/vis_data.shape[0]

**2. поиск по отклонению**

- Есть ещё один способ поиска выбросов — поиск по отклонению, где ищутся значения, на которое отклоняется данная точка от среднего. 
- Это делается с помощью z-score — расстояния от среднего значения точек.

In [None]:
# vis_data.distance[vis_data.distance > 30].hist()

# def outliers_z_score(ys, threshold=3):
#     mean_y = np.mean(ys)
#     std_y = np.std(ys)
#     z_scores = [(y - mean_y) / std_y for y in ys]
#     return np.where(np.abs(z_scores) > threshold)[0]

# with warnings.catch_warnings():
#     warnings.simplefilter('ignore')
#     o = outliers_z_score(vis_data.distance)

# len(o)

**3. межквартильное расстояние**

- Другой способов — IQR (interquartile range, межквартильное расстояние) — использование перцентили (в нашем случае квартили) для определения, где находятся выбросы. 
- Метод межквартильного расстояния выделяет как выбросы все значения, находящиеся за пределами коробки. 
- Посмотрим, сколько выбросов он найдет:

In [None]:
# def outliers_iqr(ys):
#     q1, q3 = np.percentile(ys, [25, 75])
#     iqr = q3 - q1
#     lower_bound = q1 - (iqr * 1.5)
#     upper_bound = q3 + (iqr * 1.5)
#     return np.where((ys > upper_bound) | (ys < lower_bound))[0]

**4. Поиск по расспределению**

- Ещё один способ найти выбросы — поиск по распределению — построить нормальное распределение поверх данных, посчитать вероятность нахождения каждого значения в данном распределении. 
- Самые невероятные значения будем считать выбросами.

In [None]:
# from scipy.stats import norm

# def estimate_gaussian(dataset):
#     mu = np.mean(dataset, axis=0)
#     sigma = np.cov(dataset.T)
#     return mu, sigma
    
# def get_gaussian(mu, sigma):
#     distribution = norm(mu, sigma)
#     return distribution

# def get_probs(distribution, dataset):
#     return distribution.pdf(dataset)

- Мы построили нормальное распределение на предоставленных данных и посчитали вероятность появления точки при данном распределении для каждого значения. 
- Важно выбрать разумное значение вероятности, ниже которой точка будет считаться выбросом.

**5. DBSCAN**

- Последний способ, который мы рассмотрим, — алгоритм кластеризации DBSCAN, который определяет группы (кластеры) объектов. 
- Кроме кластеров он находит отдельно стоящие элементы, «шум». Применим его для нахождения выбросов:

In [None]:
# from sklearn.cluster import DBSCAN
# from sklearn.preprocessing import MinMaxScaler

Когда выбросы могут быть важны?

- Если мы занимаемся поиском аномалий (Anomaly Detection), выбросы — зависимые переменные, которые необходимо найти, но необязательно выбрасывать. 
- Перечисленные способы не всегда могут выделить реальные выбросы, так как разные методы и параметры дают разные результаты.

### <b>Задание <span style='color:#F1A424'>2.14.1</span></b>   
    
Что из перечисленного является статистическим методом для определения выбросов?
    
- z score ( отклонение от среднего ) 
- ICQ ( междуквартальное расстояние )
    
### <b>Задание <span style='color:#F1A424'>2.14.2</span></b>   
    
Дана небольшая выборка: [1, 39, 2, 1, 101, 2, 1, 100, 1, 3, 101, 1, 3, 100, 101, 100, 100]. Можно ли считать число 39 выбросом?
    
- Нет это не выброс
    
### <b>Задание <span style='color:#F1A424'>2.14.3</span></b>   
    
Как работает поиск по распределению?
    
- Строим распределение по данным, находим наименее вероятные значения и считаем их выбросами
    
### <b>Задание <span style='color:#F1A424'>2.14.4</span></b>   
    
В чем преимущество DBSCAN, как метода?
    
- Находит шум в данных