# Вирішення проблеми пропущених даних

У реальних додатках нерідко трапляються випадки, коли у зразках з різних причин пропущено одне або кілька значень. Можливо, у процес збирання даних вкралася помилка, деякі дані вимірювань виявилися неприйнятними, окремо взяті поля могли просто залишитися незаповненими, наприклад під час опитування. Ми зазвичай розглядаємо пропущені значення як пропуски в таблиці даних або як рядкові заповнювачі, такі як `NaN` (тобто not а number, не число).

На жаль, більшість обчислювальних інструментів нездатна обробляти такі пропущені значення або генерує непередбачувані результати, якщо їх просто проігнорувати. Тому, перш ніж продовжити подальший аналіз, вкрай важливо розібратися в цих пропущених значеннях.

## Чому дані відсутні у наборі даних?

Існує багато причин, чому певні значення відсутні в даних. Причини відсутності даних у наборі даних впливають на підхід до обробки відсутніх даних. Тому необхідно розуміти, чому дані можуть бути відсутніми. Деякі з причин наведені нижче:

- минулі дані можуть бути пошкоджені через неналежне обслуговування;
- спостереження не реєструються для певних полів з певних причин. Можливий збій у записі значень через людський фактор;
- користувач не надав значення навмисно;
- відсутність відповіді на питання: Це означає, що учасник відмовився відповідати.

## Типи відсутніх значень

Виділяють три типи відсутніх даних: 

- Missing Completely At Random (MCAR);
- Missing At Random (MAR);
- Missing Not At Random (MNAR).

**Missing Completely At Random**. У цьому випадку ймовірність відсутності даних однакова для всіх спостережень. У цьому випадку немає ніякого зв'язку між відсутніми даними та будь-якими іншими значеннями, що спостерігаються або не спостерігаються (дані, які не записані) в даному наборі даних. Тобто, відсутні значення повністю незалежні від інших даних. Немає жодної закономірності.

У випадку даних MCAR значення може бути відсутнім через людську помилку, збій системи/обладнання, втрату зразка або незадовільні технічні умови під час запису значень. Наприклад, припустимо, що в бібліотеці є прострочені книги. Деякі значення прострочених книг у комп'ютерній системі відсутні. Причиною може бути людська помилка, наприклад, бібліотекар забув ввести значення. Отже, відсутні значення прострочених книг не пов'язані з будь-якою іншою змінною/даними в системі. Це не повинно бути припущенням, оскільки це рідкісний випадок. Перевага таких даних полягає в тому, що статистичний аналіз залишається неупередженим.

**Missing At Random**. Дані MAR означають, що причину відсутності значень можна пояснити змінними, про які ви маєте повну інформацію, оскільки існує певний зв'язок між відсутніми даними та іншими значеннями/даними. У цьому випадку дані відсутні не для всіх спостережень. Вони відсутні лише в межах підвибірок даних, і існує певна закономірність у відсутніх значеннях.

Наприклад, якщо ви перевірите дані опитування, ви можете виявити, що всі люди відповіли на питання "Стать", але значення "Вік" здебільшого відсутні для людей, які відповіли на питання "Стать" як "жіноча". (Причина в тому, що більшість жінок не хочуть розкривати свій вік).

Отже, ймовірність відсутності даних залежить лише від спостережуваного значення або даних. У цьому випадку змінні "Стать" і "Вік" пов'язані між собою. Причину відсутності значень змінної "Вік" можна пояснити змінною "Стать", але не можна передбачити саме відсутнє значення.

Припустимо, що в бібліотеці проводиться опитування щодо прострочених книг. В опитуванні запитується стать та кількість прострочених книг. Припустимо, що більшість жінок відповідають на опитування, а чоловіки відповідають рідше. Отже, відсутність даних можна пояснити іншим фактором, а саме статтю. У цьому випадку статистичний аналіз може призвести до упередженості. Отримати незміщену оцінку параметрів можна лише шляхом моделювання відсутніх даних.

**Missing Not At Random**. Пропущені значення залежать від неспостережуваних даних. Якщо у пропущених даних є певна структура/закономірність, а інші спостережувані дані не можуть її пояснити, то це вважається пропуском не випадковим (MNAR).

Якщо відсутні дані не підпадають під MCAR або MAR, їх можна класифікувати як MNAR. Це може статися через небажання людей надавати необхідну інформацію. Певна група респондентів може не відповісти на деякі запитання в опитуванні.

Наприклад, уявімо, що в опитуванні про бібліотеку запитують назву та кількість прострочених книг. Більшість людей, які не мають прострочених книг, скоріш за все, відповідатимуть на запитання. Люди, які мають більше прострочених книг, мають менше шансів відповісти на опитування. Отже, в цьому випадку пропущене значення кількості прострочених книг залежить від людей, які мають більше прострочених книг.

Іншим прикладом є те, що люди з меншим доходом можуть відмовитися надавати певну інформацію в опитуванні або анкеті. У випадку MNAR статистичний аналіз також може призвести до упередженості.

## Набір даних для демонстрації проблеми пропущених даних

У якості прикладу розглянемо відомий набір даних `Pima Indians Diabetes Database` або просто `Diabetes Dataset`. Набір даних `Diabetes Dataset` передбачає прогнозування початку діабету протягом 5 років за заданими медичними даними. 

Це бінарна (2-класова) задача класифікації. Кількість спостережень для кожного класу не збалансована. Є 768 спостережень з 8 вхідними змінними та 1 вихідною змінною. Імена змінних наступні:  

0. Кількість вагітностей.
1. Концентрація глюкози в плазмі через 2 години після перорального тесту на толерантність до глюкози
2. Діастолічний артеріальний тиск (мм рт.ст.)
3. Товщина шкірної складки трицепса (мм)
4. 2-годинний інсулін сироватки крові (мОд/мл).
5. Індекс маси тіла (вага в кг/(зріст в м)^2).
6. Функція спадковості по цукровому діабету.
7. Вік (роки).
8. Змінна класу (0 або 1).

Базові показники прогнозування найбільш поширеного класу мають точність класифікації приблизно `65%`. Найкращі результати досягають точності класифікації приблизно `77%`.

Відомо, що в цьому наборі даних є пропущені значення. Зокрема, відсутні спостереження для деяких стовпчиків, які позначені нульовим значенням. Ми можемо підтвердити це визначенням цих стовпчиків і знаннями з предметної області, що нульове значення є неприпустимим для цих показників, наприклад, нульове значення для індексу маси тіла або артеріального тиску є неприпустимим.

## Позначення відсутніх значень

Більшість даних мають пропущені значення, і ймовірність пропущених значень зростає зі збільшенням розміру набору даних.

Відсутність даних не є рідкістю в реальних наборах даних. Насправді, ймовірність того, що хоча б одна точка даних буде відсутня, зростає зі збільшенням розміру набору даних.

Завантажимо датасет за допомогою бібліотеки Pandas та роздрукуємо зведену статистику за кожним атрибутом.

In [25]:
from pandas import read_csv

# Завантажуємо датасет, header = None означає, що в датасеті нема першого рядку із заголовками, тому
# у першому рядку одразу ідуть значення
dataset = read_csv('assets/missing.csv', header = None)

# Роздрукування зведеної статистики
print(dataset.describe())

                0           1           2           3           4           5  \
count  768.000000  768.000000  768.000000  768.000000  768.000000  768.000000   
mean     3.845052  120.894531   69.105469   20.536458   79.799479   31.992578   
std      3.369578   31.972618   19.355807   15.952218  115.244002    7.884160   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      1.000000   99.000000   62.000000    0.000000    0.000000   27.300000   
50%      3.000000  117.000000   72.000000   23.000000   30.500000   32.000000   
75%      6.000000  140.250000   80.000000   32.000000  127.250000   36.600000   
max     17.000000  199.000000  122.000000   99.000000  846.000000   67.100000   

                6           7           8  
count  768.000000  768.000000  768.000000  
mean     0.471876   33.240885    0.348958  
std      0.331329   11.760232    0.476951  
min      0.078000   21.000000    0.000000  
25%      0.243750   24.000000    0.000000  
50%   

Ми бачимо, що є стовпці, які мають мінімальне значення `0`. У деяких стовпчиках нульове значення не має сенсу і вказує на невірне або відсутнє значення.

**Відсутні значення часто вказують на те, що вони знаходяться за межами діапазону; це може бути від'ємне число (наприклад, `-1`) в числовому полі, яке зазвичай має бути тільки додатним, або `0` в числовому полі, яке зазвичай ніколи не може бути `0`.**

Зокрема, наступні стовпчики мають невірне нульове мінімальне значення:

1. Концентрація глюкози в плазмі крові
2. Діастолічний артеріальний тиск
3. Товщина шкірної складки трицепса
4. 2-годинний інсулін у сироватці крові
5. Індекс маси тіла

Підтвердимо це, подивившись на вихідні дані, приклад виводить перші 20 рядків даних.

In [26]:
from pandas import read_csv

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

print(dataset.head(20))

     0    1   2   3    4     5      6   7  8
0    6  148  72  35    0  33.6  0.627  50  1
1    1   85  66  29    0  26.6  0.351  31  0
2    8  183  64   0    0  23.3  0.672  32  1
3    1   89  66  23   94  28.1  0.167  21  0
4    0  137  40  35  168  43.1  2.288  33  1
5    5  116  74   0    0  25.6  0.201  30  0
6    3   78  50  32   88  31.0  0.248  26  1
7   10  115   0   0    0  35.3  0.134  29  0
8    2  197  70  45  543  30.5  0.158  53  1
9    8  125  96   0    0   0.0  0.232  54  1
10   4  110  92   0    0  37.6  0.191  30  0
11  10  168  74   0    0  38.0  0.537  34  1
12  10  139  80   0    0  27.1  1.441  57  0
13   1  189  60  23  846  30.1  0.398  59  1
14   5  166  72  19  175  25.8  0.587  51  1
15   7  100   0   0    0  30.0  0.484  32  1
16   0  118  84  47  230  45.8  0.551  31  1
17   7  107  74   0    0  29.6  0.254  31  1
18   1  103  30  38   83  43.3  0.183  33  0
19   1  115  70  30   96  34.6  0.529  32  1


Ми можемо підрахувати кількість відсутніх значень у кожному з цих стовпчиків. Ми можемо зробити це, позначивши всі значення у підмножині `DataFrame`, що нас цікавить, які мають нульові значення, як `True`. Після цього ми можемо підрахувати кількість значень `True` у кожному стовпчику.

In [27]:
from pandas import read_csv

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

num_missing = (dataset[[1,2,3,4,5]] == 0).sum()
print(num_missing)

1      5
2     35
3    227
4    374
5     11
dtype: int64


Ми бачимо, що стовпчики 1, 2 і 5 мають лише кілька нульових значень, тоді як у стовпчиках 3 і 4 їх набагато більше - майже половина рядків. Це свідчить про те, що для різних стовпців можуть знадобитися різні стратегії "пропущених значень", наприклад, щоб забезпечити наявність достатньої кількості записів для навчання прогнозної моделі.

У Python, зокрема у Pandas, NumPy та Scikit-Learn, ми позначаємо пропущені значення як `NaN`. Елементи зі значенням `NaN` ігноруються при виконанні таких операцій, як сума, підрахунок тощо.

Ми можемо легко позначити значення як `NaN` за допомогою Pandas `DataFrame`, використовуючи функцію `replace()` на підмножині стовпців, які нас цікавлять. Перш ніж замінити відсутні значення на `NaN`, корисно переконатися, що стовпці містять допустимі числові типи даних, запустивши `dataset.dtypes`

In [28]:
from pandas import read_csv

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

print(dataset.dtypes)

0      int64
1      int64
2      int64
3      int64
4      int64
5    float64
6    float64
7      int64
8      int64
dtype: object


Ми бачимо, що всі стовпці мають тип `int` або `float`. Після того, як ми позначили відсутні значення, ми можемо використати функцію `isull()`, щоб позначити всі значення `NaN` у наборі даних як `True` і отримати підрахунок відсутніх значень для кожного стовпчика.

In [29]:
from pandas import read_csv
from numpy import nan

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Підраховуємо кількість значень NaN у кожному стовпчику
print(dataset.isnull().sum())

0      0
1      5
2     35
3    227
4    374
5     11
6      0
7      0
8      0
dtype: int64


Запуск прикладу виводить кількість пропущених значень у кожному стовпчику. Ми бачимо, що стовпчики 1-5 мають таку ж кількість відсутніх значень, як і нульові значення, визначені вище. Це ознака того, що ми правильно позначили знайдені пропущені значення.

Роздрукуємо перші 20 рядків даних:

In [30]:
from pandas import read_csv
from numpy import nan

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

print(dataset.head(20))

     0      1     2     3      4     5      6   7  8
0    6  148.0  72.0  35.0    NaN  33.6  0.627  50  1
1    1   85.0  66.0  29.0    NaN  26.6  0.351  31  0
2    8  183.0  64.0   NaN    NaN  23.3  0.672  32  1
3    1   89.0  66.0  23.0   94.0  28.1  0.167  21  0
4    0  137.0  40.0  35.0  168.0  43.1  2.288  33  1
5    5  116.0  74.0   NaN    NaN  25.6  0.201  30  0
6    3   78.0  50.0  32.0   88.0  31.0  0.248  26  1
7   10  115.0   NaN   NaN    NaN  35.3  0.134  29  0
8    2  197.0  70.0  45.0  543.0  30.5  0.158  53  1
9    8  125.0  96.0   NaN    NaN   NaN  0.232  54  1
10   4  110.0  92.0   NaN    NaN  37.6  0.191  30  0
11  10  168.0  74.0   NaN    NaN  38.0  0.537  34  1
12  10  139.0  80.0   NaN    NaN  27.1  1.441  57  0
13   1  189.0  60.0  23.0  846.0  30.1  0.398  59  1
14   5  166.0  72.0  19.0  175.0  25.8  0.587  51  1
15   7  100.0   NaN   NaN    NaN  30.0  0.484  32  1
16   0  118.0  84.0  47.0  230.0  45.8  0.551  31  1
17   7  107.0  74.0   NaN    NaN  29.6  0.254 

З вихідних даних видно, що позначення пропущених значень дало очікуваний ефект.

## Відсутність значень спричиняє проблеми

Відсутність значень у наборі даних може призвести до помилок у деяких алгоритмах машинного навчання. Для прикладу, спробуємо скористатися алгоритмом лінійного дискримінантного аналізу (Linear Discriminant Analysis, LDA) на наборі даних з пропущеними значеннями.

In [31]:
from numpy import nan
from pandas import read_csv
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Розділяємо набір даних на вхідні значення та цільову змінну
values = dataset.values
X = values[:,:8]
y = values[:,8]

# Виконання закоментованого нижче коду призведе до помилки

# Створюємо об'єкт моделі
# model = LinearDiscriminantAnalysis()

# Визначаємо процедуру оцінювання моделі
# cv = KFold(n_splits=3, shuffle=True, random_state=1)

# Оцінюємо модель
# При виконанні даної операції буде показана помилка:
# ValueError: Input X contains NaN.
# LinearDiscriminantAnalysis does not accept missing values encoded as NaN natively
# result = cross_val_score(model, X, y, cv=cv, scoring='accuracy')

# Роздрукуємо показник середньої точності
# print(f'Точність: {result.mean():.3f}')

**Багато популярних моделей прогнозування, таких як машини опорних векторів, glmnet та нейронні мережі, не можуть терпіти жодної кількості пропущених значень.**

## Видалення рядків з пропущеними значеннями

**Найпростіший підхід до роботи з пропущеними значеннями - видалити всі цільові змінні та\або дані, які містять пропущені значення.**

Ми можемо зробити це, створивши новий Pandas DataFrame з видаленими рядками, що містять пропущені значення. Pandas надає функцію `dropna()`, яку можна використовувати для видалення стовпців або рядків з відсутніми даними. Ми можемо використати `dropna()` для видалення всіх рядків з відсутніми даними:

In [32]:
from numpy import nan
from pandas import read_csv

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

# Роздрукуємо "форму" датасету, тобто кількість рядків та сповпців
print(dataset.shape)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Видалення пропущених значень. Параметр inplace визначає, що повертає метод
# Якщо параметр дорівнює True, видалення відбувається безпосередньо в датасеті, для
# якого був викликаний метод. Якщо параметр дорівнює False, метод dropna() повертає новий датасет
# з видаленими пропущеними значеннями, об'єкт, для якого був викликаний метод, залишається незмінним.
dataset.dropna(inplace=True)

print(dataset.shape)

(768, 9)
(392, 9)


Тепер у нас є набір даних, який ми можемо використовувати для оцінки алгоритму, чутливого до пропущених значень, такого як LDA.

In [33]:
from numpy import nan
from pandas import read_csv
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# Завантажуємо датасет
dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Видалення пропущених значень
dataset.dropna(inplace=True)

# Розділяємо набір даних на вхідні значення та цільову змінну
values = dataset.values
X = values[:,:8]
y = values[:,8]

# Створюємо об'єкт моделі
model = LinearDiscriminantAnalysis()

# Визначаємо процедуру оцінювання моделі
cv = KFold(n_splits=3, shuffle=True, random_state=1)

# Оцінюємо модель
result = cross_val_score(model, X, y, cv=cv, scoring='accuracy')

# Роздрукуємо показник середньої точності
print(f'Точність: {result.mean():.3f}')

Точність: 0.781


Недоліком даного подходу є те, що видалення рядків із пропущеними значеннями може суттєво зменшити об'єм вибірки та призвести до зменшення якості навчання моделі. Тому далі треба розглянути інші стратегії для вирішення проблеми пропущених рядків.

## Імпутація пропущених значень

Імпутація - це використання моделі для заміни відсутніх значень. Існує багато варіантів, які можна розглянути, наприклад, при заміні відсутнього значення:

- постійне значення, яке має значення в межах домену, наприклад, 0, відмінне від усіх інших значень;
- значення з іншого випадково вибраного запису;
- середнє, медіана або мода для стовпчика;
- значення, оцінене іншою моделлю прогнозування.

Будь-яке обчислення, виконане на навчальному наборі даних, доведеться виконувати на нових даних у майбутньому, коли знадобляться прогнози від доопрацьованої моделі. Це потрібно враховувати при виборі способу обчислення пропущених значень. Наприклад, якщо ви вирішите провести імпутацію за середніми значеннями стовпців, ці середні значення стовпців потрібно буде зберегти у файлі для подальшого використання з новими даними, які містять пропущені значення.

Pandas надає функцію `fillna()` для заміни пропущених значень певним значенням. Використаємо цю функцію для заміни відсутпніх значень середніми значеннями для кожного стовпчику:

In [34]:
from pandas import read_csv
from numpy import nan

dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Заповнюємо пропущені значення середніми значеннями стовпців
dataset.fillna(dataset.mean(), inplace=True)

# Підрахуємо кількість значень NaN у кожному стовпчику
print(dataset.isnull().sum())

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
8    0
dtype: int64


Бібліотека scikit-learn надає клас попередньої обробки [`SimpleImputer`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html), який можна використовувати для заміни відсутніх значень.

Це гнучкий клас, який дозволяє вам вказати значення для заміни (це може бути щось інше, ніж `NaN`) і метод, який використовується для заміни (наприклад, середнє значення, медіана або мода). Клас `SimpleImputer` працює безпосередньо з масивом NumPy замість DataFrame.

У наведеному нижче прикладі клас `SimpleImputer` замінює відсутні значення середнім значенням кожного стовпчика, а потім виводить кількість значень `NaN` у перетвореній матриці.

In [35]:
from pandas import read_csv
from numpy import nan
from numpy import isnan
from sklearn.impute import SimpleImputer

dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Отримуємо масив numpy
values = dataset.values

# Створюємо об'єкт імпутера
imputer = SimpleImputer(missing_values=nan, strategy='mean')

# Трансформуємо датасет
transformed_values = imputer.fit_transform(values)

# Підрахуємо кількість значень NaN у кожному стовпчику
print(f'Відсутні значення: {isnan(transformed_values).sum()}')

Відсутні значення: 0


## Імпутація пропущених значень за допомогою KNN-імпутера

Дотепер ми розглядали прості стратегії імпутації за допомогою методу pandas `fillna()` та `SimpleImputer` від scikit-learn.

Імпутація KNN або K найближчих сусідів є ще однією технікою для обробки пропущених значень. Для виконання цієї імпутації ви можете використовувати клас `KNNImputer` з scikit-learn.

Для точки даних з відсутніми значеннями цей метод визначає `K` найближчих точок за обраною метрикою відстані (за замовчуванням - евклідова). Кількість найближчих точок або сусідів задається параметром `n_neighbors`. За замовчуванням розглядаються 5 найближчих сусідів.

Розглянемо функцію з пропущеними значеннями. Відсутнє значення є середнім значенням значень цієї ознаки для `K` найближчих сусідів, за замовчуванням зважених рівномірно.

У наведеному нижче прикладі використовується клас `KNNImputer` з `n_neighbors`, встановленим у `4`, для обчислення відсутніх значень за алгоритмом найближчих сусідів.

In [36]:
from pandas import read_csv
from numpy import nan
from numpy import isnan
from sklearn.impute import KNNImputer

dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Отримуємо масив numpy
values = dataset.values

# Створюємо об'єкт імпутера
imputer = KNNImputer(n_neighbors=4)

# Трансформуємо набір даних
transformed_values = imputer.fit_transform(values)

# Підрахуємо кількість значень NaN у кожному стовпчику
print(f'Вістутні значення: {isnan(transformed_values).sum()}')

Вістутні значення: 0


Розглянемо приклад роботи алгоритму LDA з трансформованим набором даних. Щоб уникнути витоку даних, ми використовуємо KNN імпутер в конвеєрі разом з LDA класифікатором, щоб він підходив лише до вибірок з навчального набору даних.

In [37]:
from numpy import nan
from pandas import read_csv
from sklearn.pipeline import Pipeline
from sklearn.impute import KNNImputer
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Розділяємо набір даних на вхідні значення та цільову змінну
values = dataset.values
X = values[:,:8]
y = values[:,8]

# Створюємо об'єкт імпутера
imputer = KNNImputer(n_neighbors=4)

# Створюємо об'єкт моделі
model = LinearDiscriminantAnalysis()

# Визначаємо конвеєр для моделювання
pipeline = Pipeline(steps=[('imputer', imputer),('model', model)])

# Визначаємо процедуру оцінювання моделі
cv = KFold(n_splits=3, shuffle=True, random_state=1)

# Оцінюємо модель
result = cross_val_score(pipeline, X, y, cv=cv, scoring='accuracy')

# Роздрукуємо показник середньої точності
print(f'Точність: {result.mean():.3f}')

Точність: 0.763


## Імпутація пропущених значень за допомогою ітеративного імпутатора

Клас `IterativeImputer` від Scikit-learn - це більш складна техніка багатовимірної імплікації.

`IterativeImputer` прогнозує відсутні значення ознаки, моделюючи її як функцію інших ознак. Таким чином, імпутер прогнозує відсутні значення ознаки, використовуючи інші ознаки як предиктори. Потім він обчислює всі пропущені показники по колу. Ця процедура продовжується ітеративно протягом `max_iter` кількості разів і за замовчуванням дорівнює `10`. Оскільки функція `IterativeImputer` все ще є експериментальною, ви повинні увімкнути її явно.

In [38]:
from numpy import nan
from pandas import read_csv
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Розділяємо набір даних на вхідні значення та цільову змінну
values = dataset.values

# Створюємо об'єкт імпутера
imputer = IterativeImputer(random_state=0)

# Трансформуємо набір даних
transformed_values = imputer.fit_transform(values)

# Підрахуємо кількість значень NaN у кожному стовпчику
print(f'Вістутні значення: {isnan(transformed_values).sum()}')

Вістутні значення: 0


Розглянемо приклад роботи з алгоритмом LDA з використанням `IterativeImputer`

In [39]:
from numpy import nan
from pandas import read_csv
from sklearn.pipeline import Pipeline
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Розділяємо набір даних на вхідні значення та цільову змінну
values = dataset.values
X = values[:,:8]
y = values[:,8]

# Створюємо об'єкт імпутера
imputer = IterativeImputer(random_state=1)

# Створюємо об'єкт моделі
model = LinearDiscriminantAnalysis()

# Визначаємо конвеєр для моделювання
pipeline = Pipeline(steps=[('imputer', imputer),('model', model)])

# Визначаємо процедуру оцінювання моделі
cv = KFold(n_splits=3, shuffle=True, random_state=1)

# Оцінюємо модель
result = cross_val_score(pipeline, X, y, cv=cv, scoring='accuracy')

# Роздрукуємо показник середньої точності
print(f'Точність: {result.mean():.3f}')

Точність: 0.760


## Алгоритми, які працюють за умов наявності пропущених значень

Не всі алгоритми дають збій за відсутності даних.

Існують алгоритми, які можна зробити стійкими до пропущених даних, наприклад, метод k-найближчих сусідів, який може ігнорувати стовпчик з виміру відстані, коли значення відсутнє. Наївний Байєс також може підтримувати відсутні значення при прогнозуванні.

Існують також алгоритми, які можуть використовувати відсутнє значення як унікальне і відмінне від інших при побудові прогнозної моделі, наприклад, класифікаційні та регресійні дерева.

Реалізації scikit-learn для бустінг-оцінок природно обробляють пропущені значення. Однак scikit-learn реалізації наївного байєсу, дерев рішень та k-найближчих сусідів не є стійкими до пропущених значень.

## Кодування пропущених значень за допомогою MissingIndicator

Модуль Scikit-learn Impute також надає клас `MissingIndicator` для створення бінарних індикаторів пропущених значень у наборах даних. Позначення відсутніх значень за допомогою індикаторів корисно в наступному:

- розуміння шаблонів пропусків у даних;
- керування стратегіями інтерполяції для різних ознак;
- створення нової ознаки, яка вказує на наявність або відсутність значень для певної ознаки.

У наступному прикладі показано, як використовувати `MissingIndicator` для позначення відсутніх значень і отримання матриці бінарних індикаторів. Параметр `features` за замовчуванням має значення `missing-only`, щоб включити лише стовпці ознаки з відсутніми значеннями.

In [40]:
from numpy import nan
from numpy import isnan
from pandas import read_csv
from sklearn.impute import MissingIndicator

dataset = read_csv('assets/missing.csv', header = None)

# Замінюємо нульові значення на NaN
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, nan)

# Розділяємо набір даних на вхідні значення та цільову змінну
values = dataset.values

# Створюємо об'єкт індикатора
indicator = MissingIndicator(features="missing-only", error_on_new=True)

# Трансформуємо набір даних
transformed_values = indicator.fit_transform(values)

# Підрахуємо кількість значень NaN у кожному стовпчику
print(f'Вістутні значення: \n{transformed_values}')

Вістутні значення: 
[[False False False  True False]
 [False False False  True False]
 [False False  True  True False]
 ...
 [False False False False False]
 [False False  True  True False]
 [False False False  True False]]


## Витік даних в процесі імпутації пропущених значень

**Витік даних (Data leakage)** при імпутації пропущених значень - це ситуація, коли інформація з тестового набору даних ненароком використовується під час тренування моделі, що може призвести до переоцінки її ефективності. Це особливо актуально, коли використовуються методи імпутації, що залежать від статистичних характеристик всього набору даних.

Якщо для імпутації пропущених значень використовуються статистики (середнє, медіана, мода тощо), отримані з усього набору даних, включно з тестовими даними, це може призвести до витоку даних. Наприклад, якщо медіана використовується для заповнення пропусків і вона розрахована на основі всього набору даних, то модель непомітно отримує інформацію про розподіл тестових даних.

Один із способів уникнути витоку даних - це розділити дані на тренувальну та тестову вибірки до імпутації. Імпутація тренувальної вибірки повинна виконуватися незалежно, використовуючи лише статистики, отримані з цієї вибірки. Тестові дані потім можуть бути імпутовані використовуючи статистики, отримані тільки з тренувального набору.

Якщо використовуються більш складні методи імпутації, наприклад, машинне навчання, то тренування таких моделей повинно виконуватись тільки на тренувальних даних. Модель, використана для імпутації, не повинна бути обучена на тестових даних, навіть непрямо через характеристики набору даних.

Під час використання крос-валідації імпутація повинна проводитися окремо в кожному фолді. Це запобігає використанню інформації з валидаційного фолду при обчисленні статистик для імпутації.

Завжди важливо моніторити імпутовані значення та перевіряти, чи не призвела імпутація до нелогічних чи неправдоподібних значень. Також корисно перевіряти, чи не впливає імпутація на зміщення моделі.

Загалом, ключ до уникнення витоку даних при імпутації полягає у суворому розділенні даних на тренувальні та тестові перед імпутацією та у використанні лише інформації з тренувальної вибірки для обчислення статистик, які використовуються при імпутації.