# Причины пропусков в данных

Пропущенные данные возникают по разным причинам.

1. Неисправность приборов;
2. Респондент не ответил на вопрос;
3. Ошибки при передачи данных;
4. Временная или перманентная недоступность части данных;
5. `join` нескольких таблиц.

---------------------------

# Типы пропущенных значений

**Missing completely at random (MCAR)**

Вероятность пропуска в данных не зависит от значений наблюдаемых и пропущенных данных.

$P\big(\ f_i(x)\ is\ None\ \big|\ X_{obs}, X_{mis}\big) = const$

_Пример: массу измерили у случайной части пациентов._

--------------------------------

**Missing at random (MAR)**

Вероятность пропуска зависит от значений наблюдаемых данных, но не зависит от значений пропущенных.

$P\big(\ f_i(x)\ is\ None\ \big|\ X_{obs}, X_{mis}\big) = f\big(\ X_{obs}\big)$

_Пример: массу измерили у пациентов, имеющих высокое давление._

--------------------------------

**Missing not at random (MNAR)**

Вероятность пропуска зависит от значений пропущенных данных (и, возможно, от пропущенных).

$P\big(\ f_i(x)\ is\ None\ \big|\ X_{obs}, X_{mis}\big) = f\big(\ X_{obs}, X_{mis}\big)$

_Пример: массу измерили только у пациентов, страдающих ожирением._

--------------------------------

# Простые методы восстановления данных

1. Удаление объектов с пропущенными значениями;
2. Удаление признаков с пропущенными значениями;
3. Замена на константы (0, -1, 999999999, `other`). Может хорошо работать на методах с древовидной структурой. Иногда помогает при MNAR;
4. Замена средним/медианой/модой. Для большей точности можно считать эти значения по сгруппированным данным.
5. Last Observation Carried Forward (LOCF). В случае объектов с временной отметкой можно "размазывать" значения признака между известными значениями.

-----------------------

# Продвинутые методы

1. SVD-разложение. Восстанавливаем пропуски простым методом, делаем SVD-разложение и восстанавливаем матрицу. Повторять последние два шага до сходимости.
    * используем всю матрицу для восстановления;
    * долго работает;
    * не работает с категориальными признаками;
    * нужно настраивать число итераций.
2. KNN
    * высокая точность;
    * работает и для категориальных признаков;
    * нужна настройка kNN;
    * нужно много данных без пропусков;
    * может долго работать.
3. Кластеризация
    * аналогично kNN.
4. Обучение модели по известным факторам
    * высокое качество;
    * настройка модели.
--------------------------------------

# Резюме
1. Стоит убедиться, что пропущенные данные влияют на качество.
2. Выбор метода зависит от имеющихся данных.
3. Стоит попробовать начать с простых методов.