# Элементы математической статистики для анализа данных

# 4. Проблемы в данных

## Выбросы
### Ошибки в данных
Очистка данных — процесс обнаружения и удаления ошибок и несоответствий в данных, необходимый для точной обработки эксперимента. На практике в реальных данных часто встречаются ошибки. Причинами могут быть ошибки ввода данных, сокрытие информации, фрод. В этом модуле мы разберем, какие существуют типы проблем в данных, как их замечать и как устранять. 

Рассмотрим следующий пример. Возьмем футболистов, играющих в студенческой команде. Введем следующие признаки нашей выборки: «имя», «страна», «возраст», «вес».

<table style="border-collapse: collapse; width: 90%; margin-right: 10%" border="1">
<tbody>
<tr>
<td style="width: 15%;"><strong>Имя</strong></td>
<td style="width: 24.69597754911132%;"><strong>Страна</strong></td>
<td style="width: 24.69597754911132%;"><strong>Возраст</strong></td>
<td style="width: 24.69597754911132%;"><strong>Вес</strong></td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Иван</td>
<td style="width: 24.69597754911132%;">Россия</td>
<td style="width: 24.69597754911132%;">22</td>
<td style="width: 24.69597754911132%;">70</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Роман</td>
<td style="width: 24.69597754911132%;">&nbsp;</td>
<td style="width: 24.69597754911132%;">23</td>
<td style="width: 24.69597754911132%;">68</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Георгий</td>
<td style="width: 24.69597754911132%;">Белоруссия</td>
<td style="width: 24.69597754911132%;">21</td>
<td style="width: 24.69597754911132%;">65</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Иван</td>
<td style="width: 24.69597754911132%;">Россия</td>
<td style="width: 24.69597754911132%;">22</td>
<td style="width: 24.69597754911132%;">&nbsp;</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Сергей</td>
<td style="width: 24.69597754911132%;">Россия</td>
<td style="width: 24.69597754911132%;">122</td>
<td style="width: 24.69597754911132%;">75</td>
</tr>
</tbody>
</table>

Признаки в данных делятся на две категории: **категориальные** и **численные**. От типа признака зависит, какие меры описательной статистики можно для него посчитать.

- **Категориальный признак** — признак, значение которого относится к определенной группе. При этом мы не можем сравнивать объекты по категориальным признакам по отношению порядка (больше/меньше). В нашем примере это «имя», «страна».

- **Вещественный** (или **численный) признак** — признак, множество значений которого — весь диапазон вещественных чисел. Объекты в изучаемом множестве можно сравнить между собой и упорядочить. В нашем примере это «возраст» и «вес». 

Встречаются несколько типов проблем в данных: **выбросы, дубли** и **пропуски**. Рассмотрим каждый из них и найдем данные проблемы в нашем примере.

#### Выбросы

**Выбросами** называют экстремальные значения, которые отклоняются от общей картины в выборке. Выбросы не должны участвовать в обработке результатов по двум причинам: они не отражают нормальное течение процесса, а сама величина «выбросов», как правило, значительно превышает колебания параметра, обусловленные действием множества «истинно случайных» факторов, приводящих к его реальному распределению (_т.е. зарплаты топ-менеджмента не отражают нормальное течение процесса? или эти выбросы и есть отражение "нормального" для данной фирмы течения процесса, где топ-менеджмент в прямом смысле слова оторван от остальной части работников? - В.Р._).

Перечислим наиболее распространенные ошибки и причины выбросов:

- **Ошибки ввода данных**   
Ошибки ввода данных (человеческие ошибки). Например, если мы попросим людей при заполнении данных указать свой возраст, и получим «147», очевидно данные были внесены неправильно, а имелся в виду другой возраст, «14», «47» или «17», — это ошибка ввода данных.

- **Экспериментальные ошибки**   
Экспериментальные ошибки (извлечение данных или планирование/выполнение эксперимента). Например, неправильно настроенный термометр при измерении температуры.

- **Ошибки обработки данных**   
Ошибки обработки данных (манипулирование данными или непреднамеренные изменения в наборе данных). Например, ошибка оператора при переписывании данных из одной таблицы в другую.

- **Ошибки выборки**   
Ошибки выборки (извлечение или смешивание данных из неправильных или различных источников). Например, смешивание данных о зарплате кассиров продуктовых магазинов и топ-менеджеров в крупном банке.

- **Естественные причины**   
Естественные причины (не ошибка, а реализация маловероятных случайных событий). Например, полуфинал чемпионата мира по футболу Бразилия — Германия, который закончился со счетом 0:7.

## Методы исследования выбросов
Существует много методов обнаружения выбросов в данных. Например, **анализ экстремальных значений, вероятностное и статистическое моделирование, модели линейной регрессии, модели на основе приближения** и другие.

Если выборка небольшая, выбросы можно отследить, внимательно изучив данные. В нашем примере выбросом является возраст Сергея. Если мы возьмем среднее значение возраста футболистов, получим 42 года. Очевидно, это далеко от истины, и выброс «122» года у Сергея мешает объективно оценить средний возраст игроков. Можем предположить, что произошла ошибка ввода данных, и заменить значение на «22» года.
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/57c20db0-913b-11eb-a5ba-0242ac190002" alt="возраст футболистов" style="width: 500px; margin-right: 75%"></div>

Также иногда встречаются выбросы, заметить которые можно, построив scatter plot или двумерную гистограмму. Возьмем, например выборку людей, пользующихся фитнес-трекерами.


Рассмотрим распределение веса и возраста на диаграмме рассеяния:
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/6641da5a-913b-11eb-821a-0242ac190003" alt="вес и возраст людей" style="width: 400px; margin-right: 75%"></div>

Даже если распределения имеют нормальный вид, может получиться так, что будет человек 12 лет, вес которого 90 килограммов — это выброс (отмечен на графике оранжевым цветом). Таким образом, комбинация двух реальных значений (а отдельно 12 лет и 90 килограммов вполне адекватные значения) может быть недопустима. Заметим также, что если таких выбросов в данном примере значимый процент от общей выборки (например, больше 1%), то это может говорить о тенденции повышения среднего веса у детей. Это можно использовать для дальнейших исследований, но **для обучения алгоритмов машинного обучения следует очистить данные от выбросов**.

Рассмотрим два метода исследования наличия выбросов.

### 1. Построение гистограммы.
Если построить гистограмму, то выбросы обычно лежат за пределами интервала трех стандартных отклонений (**интервал 3𝝈**) относительно среднего значения. А если дополнительно известно, что данные распределены нормально, то только 1% данных лежит вне этого интервала. Таким образом, данные, которые находятся по краям распределения, — это и есть выбросы, отсекая которые, мы получаем **очищенные данные**. На рисунке представлено нормальное распределение, а выбросы выделены оранжевым цветом.
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/f451fc5a-ecf2-11ea-8474-0242966aaeec" alt="гистограмма" style="width: 500px; margin-right: 75%"></div>

### 2. Оценка интерквартильного размаха.
Иногда пользуются характеристикой выборки, которая называется **интерквартильным размахом**. Отсеются данные, лежащие вне интервала, который рассчитывается по формуле: считают разность между третьим и первым квартилем

`IQR = Q3 – Q1`  

(это и есть интерквартильный размах) и берут интервал с границами:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/1000/auto/upsize/75063162-913b-11eb-ad00-0242ac1c0003" alt="формула" style="width: 200px; margin-right: 75%"></div>

где k обычно равняется 1,5.

<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/322a456e-ecf3-11ea-b3a7-024283e6cae5" alt="схема" style="width: 500px; margin-right: 75%"></div>

В целом методы схожи: мы отсекаем крайние значения слева и справа, вопрос только в том, сколько отсекать. 

> _Выбор конкретного метода зависит от задачи._ 

Но с другой стороны 

> **выброс ни в коем случае не следует исключать из анализа только потому, что он имеет экстремальное значение**

так как он может быть результатом какой-то ранее не известной закономерности, как в примере с фитнес-трекерами. Если мы имеем дело с данными, содержащими выбросы, следует правильно выбирать меры центральной тенденции и разброса. Например, среднее арифметическое (математическое ожидание) очень чувствительно к выбросам, поэтому его значение может сильно исказиться. А медиана и мода не чувствительны к выбросам. То есть, даже при наличии экстремальных значений они будут показывать реальную картину. 


## Дубли и пропуски
**Дублями** называют повторяющиеся значения в выборке. Они возникают из-за ошибки сбора данных: это может быть как человеческий фактор, так и ошибка в обмене данных между несколькими базами. Например, если мы собираем данные людей, которые взяли кредит в нашем банке, и людей, у кого открыт вклад в этом банке, множества людей могут пересекаться, и мы получим дублированные данные.

Работать с дублями несложно: необходимо удалить дублирующиеся данные, а вот заметить их бывает гораздо сложнее. В общем случае надо внимательно изучать поступившие данные.  В большинстве библиотек для работы с данными существуют методы для автоматического удаления полных дублей (все значения которых совпадают во всех колонках). Однако обнаружение неполных дублей зависит от типа данных и задачи.

В нашем примере с футболистами можно заметить, что дублирующимися данными скорее всего являются первая и четвертая строка. Можем предположить, что это произошло из-за подбора данных о футболистах из нескольких баз. 

<table style="border-collapse: collapse; width: 90%; margin-right: 10%" border="1">
<tbody>
<tr>
<td style="width: 15%;"><strong>Имя</strong></td>
<td style="width: 25%;"><strong>Страна</strong></td>
<td style="width: 25%;"><strong>Возраст</strong></td>
<td style="width: 25%;"><strong>Вес</strong></td>
</tr>
<tr>
<td style="width: 24.69597754911132%;"><span style="color: #236fa1;">Иван</span></td>
<td style="width: 24.69597754911132%;"><span style="color: #236fa1;">Россия</span></td>
<td style="width: 24.69597754911132%;"><span style="color: #236fa1;">22</span></td>
<td style="width: 24.69597754911132%;"><span style="color: #236fa1;">70</span></td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Роман</td>
<td style="width: 24.69597754911132%;">&nbsp;</td>
<td style="width: 24.69597754911132%;">23</td>
<td style="width: 24.69597754911132%;">68</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Георгий</td>
<td style="width: 24.69597754911132%;">Белоруссия</td>
<td style="width: 24.69597754911132%;">21</td>
<td style="width: 24.69597754911132%;">65</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;"><span style="color: #236fa1;">Иван</span></td>
<td style="width: 24.69597754911132%;"><span style="color: #236fa1;">Россия</span></td>
<td style="width: 24.69597754911132%;"><span style="color: #236fa1;">22</span></td>
<td style="width: 24.69597754911132%;">&nbsp;</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Сергей</td>
<td style="width: 24.69597754911132%;">Россия</td>
<td style="width: 24.69597754911132%;">22</td>
<td style="width: 24.69597754911132%;">75</td>
</tr>
</tbody>
</table>

Часто случается так, что в наборе данных пропущены некоторые значения. Такая проблема называется **пропуском**. Пропуски возникают по разным причинам: 

- Невозможность получения или обработки данных. Например, отсутствие данных по пользователю в системе или ошибка в работе серверов.
- Искажение обработки данных. Например, если машина принимает только символ «.», при обработке «100,00» либо превратится в «10000» — выброс, либо в пропуск.

Избавиться от пропусков в данных можно несколькими способами: первый способ — **удалить данные, часть информации в которых пропущена**. Но иногда это приводит к удалению слишком большого количества информации. 

Другой способ избавиться от данных с пропуском — **заполнить эти самые пропуски**. Существует много методов заполнения, приведем некоторые из них: 

- если пропуск в категориальном признаке, можно заменить пропущенное значение, введя новую категорию «Неизвестно»;
- часто пропуск в категориальном признаке заменяют наиболее популярным значением — модой;
- если пропуск в численном признаке, можно заменить пропущенное значение средним значением. Но тогда выброс может сильно повлиять на среднее, и этот метод не всегда подходит;
- если в данных присутствуют выбросы, предпочтительнее заменять пропущенное значение численного признака медианой выборки.

В каждой конкретной задаче необходимо оценить, какой метод заполнения оптимален. В нашем примере пропуск видим в значении страны для Романа.
<p style="margin-top: 25px; margin-bottom: 25px"></p>
<table style="border-collapse: collapse; width: 90%; margin-right: 10%" border="1">
<tbody>
<tr>
<td style="width: 15%;"><strong>Имя</strong></td>
<td style="width: 25%;"><strong>Страна</strong></td>
<td style="width: 25%;"><strong>Возраст</strong></td>
<td style="width: 25%;"><strong>Вес</strong></td>
</tr>
<tr>
<td style="width: 25%;">Иван</td>
<td style="width: 25%;">Россия</td>
<td style="width: 25%;">22</td>
<td style="width: 25%;">70</td>
</tr>
<tr>
<td style="width: 25%;">Роман</td>
<td style="width: 25%;"><span style="background-color: #f8cac6;">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;</span></td>
<td style="width: 25%;">23</td>
<td style="width: 25%;">68</td>
</tr>
<tr>
<td style="width: 25%;">Георгий</td>
<td style="width: 25%;">Белоруссия</td>
<td style="width: 25%;">21</td>
<td style="width: 25%;">65</td>
</tr>
<tr>
<td style="width: 25%;">Сергей</td>
<td style="width: 25%;">Россия</td>
<td style="width: 25%;">22</td>
<td style="width: 25%;">75</td>
</tr>
</tbody>
</table>
<p style="margin-top: 25px; margin-bottom: 25px"></p>

Финальные очищенные данные, готовые к дальнейшей обработке:

<p style="margin-top: 25px; margin-bottom: 25px"></p>
<table style="border-collapse: collapse; width: 90%; margin-right: 10%" border="1">
<tbody>
<tr>
<td style="width: 15%;"><strong>Имя</strong></td>
<td style="width: 25%;"><strong>Страна</strong></td>
<td style="width: 25%;"><strong>Возраст</strong></td>
<td style="width: 25%;"><strong>Вес</strong></td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Иван</td>
<td style="width: 24.69597754911132%;">Россия</td>
<td style="width: 24.69597754911132%;">22</td>
<td style="width: 24.69597754911132%;">70</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Роман</td>
<td style="width: 24.69597754911132%;">Россия</td>
<td style="width: 24.69597754911132%;">23</td>
<td style="width: 24.69597754911132%;">68</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Георгий</td>
<td style="width: 24.69597754911132%;">Белоруссия</td>
<td style="width: 24.69597754911132%;">21</td>
<td style="width: 24.69597754911132%;">65</td>
</tr>
<tr>
<td style="width: 24.69597754911132%;">Сергей</td>
<td style="width: 24.69597754911132%;">Россия</td>
<td style="width: 24.69597754911132%;">22</td>
<td style="width: 24.69597754911132%;">75</td>
</tr>
</tbody>
</table>
<p style="margin-top: 25px; margin-bottom: 25px"></p>

### Главный вывод
Данные нужно восстанавливать, и делать это нужно в каждой отдельной ситуации индивидуально. Нельзя каждый раз просто брать и удалять ячейки с неполными данными. 


# Задачи из теста по проблемам данных

In [65]:
# Определить медиану
# справедливо только для нечетного числа элментов, иначе нужно вводить условие и считать среднее арифметическое

lst = [52, 49, 31, 53, 44, 36, 50, 50, 43, 44, 45, 43, 52, 48, 42]
lst.sort()
medium = lst[int(len(lst)/2)]

print(lst)
print(medium)

[31, 36, 42, 43, 43, 44, 44, 45, 48, 49, 50, 50, 52, 52, 53]
45


In [53]:
# Найти интерквартильный размах

lst = [52, 49, 31, 53, 44, 36, 50, 50, 43, 44, 45, 43, 52, 48, 42]
lst.sort()

one = lst[round(len(lst)/4)]
three = lst[round(len(lst)*3/4)]
iqr = three - one

print(iqr)


7


In [52]:
# Какие данные являются выбросами, если мы используем метод интерквартильного размаха с коэффициентом k=1.5

lst = [52, 49, 31, 53, 44, 36, 50, 50, 43, 44, 45, 43, 52, 48, 42]
lst.sort()

one = lst[round(len(lst)/4)]
three = lst[round(len(lst)*3/4)]
iqr = three - one
k = 1.5

# print(one - k*iqr, three + k*iqr)

for i in lst:
    if i < one - k*iqr or i > three + k*iqr:
        print(i)


31


In [73]:
# Используя правило 3sigma, ответьте, какие точки являются выбросами?

lst = [52, 49, 31, 53, 44, 36, 50, 50, 43, 44, 45, 43, 52, 48, 42]
lst.sort()

summ = 0
for i in lst:
    summ+=i
Ex = round(summ/len(lst), 1)

expectation = 0 
for i in lst:
    expectation += (i-Ex)**2
VarX = expectation/len(lst)
sigma3 = round(VarX**(1/2)*3, 1)

print(lst)
print('3сигма:', Ex - sigma3, Ex + sigma3)
a = None
for i in lst:
    if i < Ex - sigma3 or i > Ex + sigma3:
        print(i)
        a = 'Done'
print(a)


[31, 36, 42, 43, 43, 44, 44, 45, 48, 49, 50, 50, 52, 52, 53]
3сигма: 27.7 63.3
None
