---

author: Юрій Клебан

---

# Оцінки якості даних

Матеріали розділу описують інформацію про виміри оцінки якості даних, підходи до визначення та обробки пропущених значень, а також розглядаються способи боротьби зі статистичними викидами.

## Що таке валідація даних?

Валідація даних відноситься до процесу забезпечення точності та якості даних. Він реалізується шляхом вбудовування кількох перевірок у систему або звітування для забезпечення логічної узгодженості введених і збережених даних.

---

Якість даних залежить від очищення та коригування даних, які відсутні, некоректні, недійсні або нечитабельні. Для забезпечення достовірності даних важливо зрозуміти ключові аспекти якості даних, щоб оцінити, наскільки дані погані/хороші.

На перший погляд, очевидно, що перетворення даних до якісних полягає в очищенні поганих даних – даних, які відсутні, неправильні або якимось чином недійсні. Але щоб переконатися, що дані заслуговують довіри, важливо розуміти ключові виміри якості даних, щоб оцінити, наскільки дані є «поганими».

Окремі компанії мають внутрішні документи, що визначають виміри оцінки якості даних та порядок його проведення - `Data Validation Framework` або `Data Quality Framework`.

Коли говорять про якість даних, то мається на увазі їх оцінка у кількох вимірах. Розглянемо коротко ці виміри:

- [x] Правильність / `Accuracy`
- [x] Повнота / `Completeness`
- [x] Узгодженість / `Consistency`
- [x] Відповідність / `Conformity`
- [x] Цілісність / `Integrity`
- [x] Своєчасність / `Timeliness`
- [x] Унікальність / `Uniqueness`


---

## Правильність / (Accuracy)

**Правильність** — це ступінь, до якого дані правильно відображають реальний об’єкт АБО описувану подію. 

Приклади:
- [x] Реальною вартістю є ціна продажу одиниці товару.
- [x] Адреса співробітника в `базі даних співробітників` є справжньою адресою.

Запитання, які ви можете задати собі: 

- [x] Чи об’єкти даних точно представляють значення «реального світу», які вони повинні моделювати? _Наприклад, чи правильно вказувати вік у сотнях тисяч років?_
- [x] Чи присутнє неправильне написання назв товарів чи осіб, адрес і навіть несвоєчасних чи неактуальних даних? 

Ці проблеми можуть вплинути на результатати аналітичних звітів, наприклад, неправильні середні значення певних показників.

---

## Повнота / (Completeness)

Повнота визначається як очікувана всебічність. Дані можуть бути повними, навіть якщо додаткові дані відсутні. Поки дані відповідають очікуванням, вони вважаються повними.

Наприклад, ім’я та прізвище замовника є обов'язковими, але прізвище необов’язково; тому запис можна вважати повним, навіть якщо прізвища не існує.

Питання, які ви можете задати собі: 

- [x] Чи доступна вся необхідна інформація? 
- [x] Чи мають якісь дані відсутні елементи? 
- [x] Або вони перебувають у непридатному для роботи вигляді?


---

## Узгодженість / Consistency

**Узгодженість** означає, що дані в усіх системах/таблицях відображають однакову інформацію та синхронізовані між собою.  

Приклади:
- [x] Статус бізнес-підрозділу "закритий", але є продажі для цього підрозділу.
- [x] Статус працівника "звільнено", але статус випалати заробіної плати містить суму відмінну від 0 за той самий період.
- [x] Зафіксовано, що клієнт має у банку депозити, але у даних про депозити записи по клієнту відсутні.

Запитання, які ви можете поставити собі: 

- [x] Чи однакові значення даних у наборах даних? 
- [x] Чи існують якісь різні випадки, коли однакові екземпляри даних надають суперечливу інформацію?

---

## Відповідність / Conformity

**Відповідність** означає, що дані відповідають набору стандартних визначень даних, як-от тип даних, розмір і формат. Наприклад, дата народження клієнта у форматі `dd/mm/yyyy` або відстань у км числом `100`, а не записом `100км`.

Запитання, які ви можете задати собі: 
- [x] Чи відповідають значення даних зазначеним форматам? 
- [x] Якщо так, то чи всі значення даних відповідають цим форматам?

Важливо підтримувати відповідність конкретним форматам.

---

## Цілісність / Integrity

**Цілісність** означає достовірність даних у взаємозв’язках і гарантує, що всі дані в базі даних можна відстежити та з’єднати з іншими даними.

Наприклад, у базі даних клієнтів має бути дійсний клієнт, адреси та відношення/зв'язки між ними. Якщо є дані про зв’язок адреси без клієнта, то ці дані недійсні й вважаються загубленим записом.

Запитайте себе: 
- [x] Чи є якісь дані без важливих зв’язків?

Неможливість пов’язати записи разом може призвести до дублювання у ваших системах.

---

## Своєчасність / Timeliness

**Своєчасність** показує, чи є інформація доступною, коли вона очікується та потрібна. Своєчасність даних дуже важлива. 

Це відображається в:
- [x] Компанії, які зобов’язані публікувати свої квартальні результати протягом певного періоду часу
- [x] Обслуговування клієнтів надає клієнтам актуальну інформацію
- [x] Кредитна система перевіряє активність рахунку кредитної картки в режимі реального часу

Своєчасність залежить від очікувань користувача. Доступність даних в Інтернеті може знадобитися для системи розподілу номерів у сфері готельного бізнесу.

Як бачите, якість даних є важливим питанням, яке слід враховувати, починаючи від етапу визначення цілей проекту, аж до впровадження, обслуговування та використання готово рішення у виробничі процесі підприємства.

---

## Набори даних

1. https://github.com/kleban/r-book-published/tree/main/datasets/untitled.csv
2. https://github.com/kleban/r-book-published/tree/main/datasets/badtitled.csv
3. https://github.com/kleban/r-book-published/tree/main/datasets/cleaned_titled.csv
4. https://github.com/kleban/r-book-published/tree/main/datasets/cleaned_titled2.csv
5. https://github.com/kleban/r-book-published/tree/main/datasets/river_eco.csv

---

## Використані та додаткові джерела

1. [KPMG Virtual Internship](https://www.insidesherpa.com/virtual-internships/m7W4GMqeT3bh9Nb2c)
2. [An introduction to data cleaning with R / Edwin de Jonge, Mark van der Loo, 2013](https://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf)
3. [Anomaly Detection in R](datacamp.com/courses/anomaly-detection-in-r)
4. [K-nearest Neighbor: The maths behind it, how it works and an example](https://medium.com/analytics-vidhya/k-nearest-neighbor-the-maths-behind-it-how-it-works-and-an-example-f1de1208546c)
5. [Quantile. Wikipedia](https://en.wikipedia.org/wiki/Quantile)