# Індивідуальна робота

 ## Загальна частина

### 1. Набір даних та його застосування

Для аналізу в індивідуальній роботі буде використано набір даних медичних показників пацієнтів, яким проводили діагностику хвороби серця. Набір даних складається з усіх звернень до медичної установи, яка погодилась прийняти участь у зборі відповідних даних. Від так, у наборі наявні дані як пацієнтів, у яких проблеми з серцем підтвердились, так і такі, що були діагностовані здоровими. До бази даних було внесено базові показники пацієнта (вік, стать, тощо), так і спеціалізовані медичні (результати кардіограми, тощо). Кожен запис також містить індикатор (флаг), який свідчить, в кінцевому результати діагностовані проблеми серця у пацієнта чи ні, та важкість захворювання на шкалі від 0 до 4, де 0 - захворювання відсутні, 4 - важке серцеве захворювання.

Використання подібних наборів даних із алгоритмами машинного навчання може допомогти у створенні моделей діагностування та аналізу виникнення та протікання серцевих хвороб у пацієнтів, що в майбутньому може сприяти не лише більш ефективному лікуванню, а й попередженню та профілактиці даних захворювань, результатом чого очікувано може бути покращення якості та тривалості життя. Також, навколо створених моделей можна побудувати сервіс - інформаційну систему, до якої можуть долучатись медичні установи, приватні особи, тощо.

### 2. Опис набору даних

З усіх застосувань машинного навчання діагностування будь-яких серйозних захворювань завжди буде викликати багато запитань, адже машинне навчання є свого роду чорною скринькою. Якщо результатом моделі є конкретний курс лікування (можливо, з побічними ефектами), хірургічне втручання або відсутність лікування, люди хочуть знати, чому.

Наш набір містить ряд змінних, цільовою з яких є стан наявності або відсутності захворювання серця. Імена та номери соціального страхування пацієнтів були видалені з бази даних та замінені фіктивними значеннями.

Набір даних є публічним та доступний за посиланням https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/

## Технічна частина

### 1. Завантажуємо дані з веб-ресурсу

Зберігаємо їх у змінну `rawBinaryData`

In [12]:
from urllib.request import urlopen

dataUrl = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/cleveland.data"
rawBinaryData = urlopen(dataUrl).read()

Виведемо змінну `rawBinaryData` для наочного її представлення (виведемо лише перші 1000 символів, оскільки змінна досить об'ємна):

In [13]:
rawBinaryData[:1000]

b'1 0 63 1 -9 -9 -9\n-9 1 145 1 233 -9 50 20\n1 -9 1 2 2 3 81 0\n0 0 0 0 1 10.5 6 13\n150 60 190 90 145 85 0 0\n2.3 3 -9 172 0 -9 -9 -9\n-9 -9 -9 6 -9 -9 -9 2\n16 81 0 1 1 1 -9 1\n-9 1 -9 1 1 1 1 1\n1 1 -9 -9 name\n2 0 67 1 -9 -9 -9\n-9 4 160 1 286 -9 40 40\n0 -9 1 2 3 5 81 0\n1 0 0 0 1 9.5 6 13\n108 64 160 90 160 90 1 0\n1.5 2 -9 185 3 -9 -9 -9\n-9 -9 -9 3 -9 -9 -9 2\n5 81 2 1 2 2 -9 2\n-9 1 -9 1 1 1 1 1\n1 1 -9 -9 name\n3 0 67 1 -9 -9 -9\n-9 4 120 1 229 -9 20 35\n0 -9 1 2 2 19 81 0\n1 0 0 0 1 8.5 6 10\n129 78 140 80 120 80 1 0\n2.6 2 -9 150 2 -9 -9 -9\n-9 -9 -9 7 -9 -9 -9 2\n20 81 1 1 1 1 -9 1\n-9 1 -9 2 2 1 1 1\n7 3 -9 -9 name\n4 0 37 1 -9 -9 -9\n-9 3 130 0 250 -9 0 0\n0 -9 1 0 2 13 81 0\n1 0 0 0 1 13 13 17\n187 84 195 68 130 78 0 0\n3.5 3 -9 167 0 -9 -9 -9\n-9 -9 -9 3 -9 -9 -9 2\n4 81 0 1 1 1 -9 1\n-9 1 -9 1 1 1 1 1\n1 1 -9 -9 name\n6 0 41 0 -9 -9 -9\n-9 2 130 1 204 -9 0 0\n0 -9 1 2 2 7 81 0\n0 0 0 0 1 7 -9 9\n172 71 160 74 130 86 0 0\n1.4 1 -9 40 0 -9 -9 -9\n-9 -9 -9 3 -9 -9 -9 2\

`rawBinaryData` є сирим набором **бінарних** даних (що зрозуміло з назви) результатів діагностики хвороб серця у пацієнтів (чиї імена були замінені на `name`). У подальшому (у пункті 3) буде продемонстровано, як підготовити ці дані до подальшої роботи з ними. Результатом буде tidy dataset у форматі `pandas.DataFrame`

### 2. Code Book

Початковий набір даних (`rawBinaryData`) містить 77 значень (property) для кожного запису (entity). Сутність entity - проходження діагностики пацієнтом, тобто для кожного звернення та подальшої діагностики пацієнта створюється окремий запис, у який вносятся дані пацієнта та результати дагностування. Від так, кожен запис характеризується ім'ям пацієнта (завжди `name`) та його 76 показниками. Тлумачення кожного з показників привожится нижче:

#### Study Design

У створенні та наповненні набору даних приймали участь 4 медичні установи під керівництвом докторів:
1. Hungarian Institute of Cardiology. Budapest: Andras Janosi, M.D.
2. University Hospital, Zurich, Switzerland: William Steinbrunn, M.D.
3. University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D.
4. V.A. Medical Center, Long Beach and Cleveland Clinic Foundation: Robert Detrano, M.D., Ph.D.

Дані отримувались у процесі звичного обстеження пацієнта на наявність серцевих хвороб: проводилося опитування щодо його самопочуття, занотовувався вік, стать, історія шкідливих звичок (особливо, куріння), вносились дані його лабораторних аналізів (кардіограми, тощо). Потім, із згоди пацієнтів та за умови анонімізації, дані надавались у відкритий доступ.

####  Повна документація атрибутів

```
1 id: patient identification number
2 ccf: social security number (для всіх замінено фіктивним значенням 0 в цілях безпеки)
3 age: age in years
4 sex: sex (1 = male; 0 = female)
5 painloc: chest pain location (1 = substernal; 0 = otherwise)
6 painexer (1 = provoked by exertion; 0 = otherwise)
7 relrest (1 = relieved after rest; 0 = otherwise)
8 pncaden (sum of 5, 6, and 7)
9 cp: chest pain type
-- Value 1: typical angina
-- Value 2: atypical angina
-- Value 3: non-anginal pain
-- Value 4: asymptomatic
10 trestbps: resting blood pressure (in mm Hg on admission to the hospital)
11 htn
12 chol: serum cholestoral in mg/dl
13 smoke: 1 = yes; 0 = no (is or is not a smoker)
14 cigs (cigarettes per day)
15 years (number of years as a smoker)
16 fbs: (fasting blood sugar > 120 mg/dl) (1 = true; 0 = false)
17 dm (1 = history of diabetes; 0 = no such history)
18 famhist: family history of coronary artery disease (1 = yes; 0 = no)
19 restecg: resting electrocardiographic results
-- Value 0: normal
-- Value 1: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV)
-- Value 2: showing probable or definite left ventricular hypertrophy by Estes' criteria
20 ekgmo (month of exercise ECG reading)
21 ekgday(day of exercise ECG reading)
22 ekgyr (year of exercise ECG reading)
23 dig (digitalis used furing exercise ECG: 1 = yes; 0 = no)
24 prop (Beta blocker used during exercise ECG: 1 = yes; 0 = no)
25 nitr (nitrates used during exercise ECG: 1 = yes; 0 = no)
26 pro (calcium channel blocker used during exercise ECG: 1 = yes; 0 = no)
27 diuretic (diuretic used used during exercise ECG: 1 = yes; 0 = no)
28 proto: exercise protocol
1 = Bruce
2 = Kottus
3 = McHenry
4 = fast Balke
5 = Balke
6 = Noughton
7 = bike 150 kpa min/min
8 = bike 125 kpa min/min
9 = bike 100 kpa min/min
10 = bike 75 kpa min/min
11 = bike 50 kpa min/min
12 = arm ergometer
29 thaldur: duration of exercise test in minutes
30 thaltime: time when ST measure depression was noted
31 met: mets achieved
32 thalach: maximum heart rate achieved
33 thalrest: resting heart rate
34 tpeakbps: peak exercise blood pressure (first of 2 parts)
35 tpeakbpd: peak exercise blood pressure (second of 2 parts)
36 dummy
37 trestbpd: resting blood pressure
38 exang: exercise induced angina (1 = yes; 0 = no)
39 xhypo: (1 = yes; 0 = no)
40 oldpeak = ST depression induced by exercise relative to rest
41 slope: the slope of the peak exercise ST segment
-- Value 1: upsloping
-- Value 2: flat
-- Value 3: downsloping
42 rldv5: height at rest
43 rldv5e: height at peak exercise
44 ca: number of major vessels (0-3) colored by flourosopy
45 restckm: irrelevant
46 exerckm: irrelevant
47 restef: rest raidonuclid ejection fraction
48 restwm: rest wall motion abnormality
0 = none
1 = mild or moderate
2 = moderate or severe
3 = akinesis or dyskmem
49 exeref: exercise radinalid ejection fraction
50 exerwm: exercise wall motion
51 thal: 3 = normal; 6 = fixed defect; 7 = reversable defect
52 thalsev: not used
53 thalpul: not used
54 earlobe: not used
55 cmo: month of cardiac cath
56 cday: day of cardiac cath
57 cyr: year of cardiac cath
58 num: diagnosis of heart disease (angiographic disease status)
-- Value 0: < 50% diameter narrowing
-- Value 1: > 50% diameter narrowing
(in any major vessel: attributes 59 through 68 are vessels)
59 lmt
60 ladprox
61 laddist
62 diag
63 cxmain
64 ramus
65 om1
66 om2
67 rcaprox
68 rcadist
69 lvx1: not used
70 lvx2: not used
71 lvx3: not used
72 lvx4: not used
73 lvf: not used
74 cathef: not used
75 junk: not used
76 name: last name of patient (замінено фіктивним значенням "name")
```

У кінцевому наборі даних (tidy dataset), який буде використовуватись для подальшої роботи, нам необхідно залишити лише атрибути, які можуть мати значення для нашої моделі та нормалізувати/підготувати їх.

В кінцевому наборі даних ми будемо очікувати наступні атрибути у нормалізованому вигляді (номер `#` вказує на порядковий номер атрибуту у початковому наборі даних):
```
1. #3 (age)
2. #4 (sex)
3. #9 (cp)
4. #10 (trestbps)
5. #12 (chol)
6. #16 (fbs)
7. #19 (restecg)
8. #32 (thalach)
9. #38 (exang)
10. #40 (oldpeak)
11. #41 (slope)
12. #44 (ca)
13. #51 (thal)
14. #58 (num) (прогнозований показник)
```

### 3. Підготовка даних

1. Трансформує бінарні дані до текстового представлення, декодуючи бінарне представлення за допомогою `'unicode_escape'` кодування задля уникнення конфліктів. Виведемо перші 1000 символів отриманого результату.

In [14]:
rawTextData = rawBinaryData.decode('unicode_escape')
rawTextData[:1000]

'1 0 63 1 -9 -9 -9\n-9 1 145 1 233 -9 50 20\n1 -9 1 2 2 3 81 0\n0 0 0 0 1 10.5 6 13\n150 60 190 90 145 85 0 0\n2.3 3 -9 172 0 -9 -9 -9\n-9 -9 -9 6 -9 -9 -9 2\n16 81 0 1 1 1 -9 1\n-9 1 -9 1 1 1 1 1\n1 1 -9 -9 name\n2 0 67 1 -9 -9 -9\n-9 4 160 1 286 -9 40 40\n0 -9 1 2 3 5 81 0\n1 0 0 0 1 9.5 6 13\n108 64 160 90 160 90 1 0\n1.5 2 -9 185 3 -9 -9 -9\n-9 -9 -9 3 -9 -9 -9 2\n5 81 2 1 2 2 -9 2\n-9 1 -9 1 1 1 1 1\n1 1 -9 -9 name\n3 0 67 1 -9 -9 -9\n-9 4 120 1 229 -9 20 35\n0 -9 1 2 2 19 81 0\n1 0 0 0 1 8.5 6 10\n129 78 140 80 120 80 1 0\n2.6 2 -9 150 2 -9 -9 -9\n-9 -9 -9 7 -9 -9 -9 2\n20 81 1 1 1 1 -9 1\n-9 1 -9 2 2 1 1 1\n7 3 -9 -9 name\n4 0 37 1 -9 -9 -9\n-9 3 130 0 250 -9 0 0\n0 -9 1 0 2 13 81 0\n1 0 0 0 1 13 13 17\n187 84 195 68 130 78 0 0\n3.5 3 -9 167 0 -9 -9 -9\n-9 -9 -9 3 -9 -9 -9 2\n4 81 0 1 1 1 -9 1\n-9 1 -9 1 1 1 1 1\n1 1 -9 -9 name\n6 0 41 0 -9 -9 -9\n-9 2 130 1 204 -9 0 0\n0 -9 1 2 2 7 81 0\n0 0 0 0 1 7 -9 9\n172 71 160 74 130 86 0 0\n1.4 1 -9 40 0 -9 -9 -9\n-9 -9 -9 3 -9 -9 -9 2\n

2. Замінюємо `\n` на `' '`, щоб помістити дані на однаковий поряд вкладення (щоб не було розривів у записах). Виведемо перші 1000 символів отриманого результату.

In [15]:
plainTextData = rawTextData.replace('\n', ' ')
plainTextData[:1000]

'1 0 63 1 -9 -9 -9 -9 1 145 1 233 -9 50 20 1 -9 1 2 2 3 81 0 0 0 0 0 1 10.5 6 13 150 60 190 90 145 85 0 0 2.3 3 -9 172 0 -9 -9 -9 -9 -9 -9 6 -9 -9 -9 2 16 81 0 1 1 1 -9 1 -9 1 -9 1 1 1 1 1 1 1 -9 -9 name 2 0 67 1 -9 -9 -9 -9 4 160 1 286 -9 40 40 0 -9 1 2 3 5 81 0 1 0 0 0 1 9.5 6 13 108 64 160 90 160 90 1 0 1.5 2 -9 185 3 -9 -9 -9 -9 -9 -9 3 -9 -9 -9 2 5 81 2 1 2 2 -9 2 -9 1 -9 1 1 1 1 1 1 1 -9 -9 name 3 0 67 1 -9 -9 -9 -9 4 120 1 229 -9 20 35 0 -9 1 2 2 19 81 0 1 0 0 0 1 8.5 6 10 129 78 140 80 120 80 1 0 2.6 2 -9 150 2 -9 -9 -9 -9 -9 -9 7 -9 -9 -9 2 20 81 1 1 1 1 -9 1 -9 1 -9 2 2 1 1 1 7 3 -9 -9 name 4 0 37 1 -9 -9 -9 -9 3 130 0 250 -9 0 0 0 -9 1 0 2 13 81 0 1 0 0 0 1 13 13 17 187 84 195 68 130 78 0 0 3.5 3 -9 167 0 -9 -9 -9 -9 -9 -9 3 -9 -9 -9 2 4 81 0 1 1 1 -9 1 -9 1 -9 1 1 1 1 1 1 1 -9 -9 name 6 0 41 0 -9 -9 -9 -9 2 130 1 204 -9 0 0 0 -9 1 2 2 7 81 0 0 0 0 0 1 7 -9 9 172 71 160 74 130 86 0 0 1.4 1 -9 40 0 -9 -9 -9 -9 -9 -9 3 -9 -9 -9 2 18 81 0 1 1 1 -9 1 -9 1 -9 1 1 1 1 1 1 1 -9 -9 

3. На даному етапі записи поміщені в один рядок та розділені ім'ям (`name`). Тому, щоб помістити кожен запис на свій окремий рядок, замінемо `' name '` на `\n`. (`name` - константа, яка нам ні про що не говорить). Виведемо перші 1000 символів отриманого результату.

In [16]:
csvLikeTextData = plainTextData.replace(' name ', '\n').replace(' ', ',')
csvLikeTextData[:1000]

'1,0,63,1,-9,-9,-9,-9,1,145,1,233,-9,50,20,1,-9,1,2,2,3,81,0,0,0,0,0,1,10.5,6,13,150,60,190,90,145,85,0,0,2.3,3,-9,172,0,-9,-9,-9,-9,-9,-9,6,-9,-9,-9,2,16,81,0,1,1,1,-9,1,-9,1,-9,1,1,1,1,1,1,1,-9,-9\n2,0,67,1,-9,-9,-9,-9,4,160,1,286,-9,40,40,0,-9,1,2,3,5,81,0,1,0,0,0,1,9.5,6,13,108,64,160,90,160,90,1,0,1.5,2,-9,185,3,-9,-9,-9,-9,-9,-9,3,-9,-9,-9,2,5,81,2,1,2,2,-9,2,-9,1,-9,1,1,1,1,1,1,1,-9,-9\n3,0,67,1,-9,-9,-9,-9,4,120,1,229,-9,20,35,0,-9,1,2,2,19,81,0,1,0,0,0,1,8.5,6,10,129,78,140,80,120,80,1,0,2.6,2,-9,150,2,-9,-9,-9,-9,-9,-9,7,-9,-9,-9,2,20,81,1,1,1,1,-9,1,-9,1,-9,2,2,1,1,1,7,3,-9,-9\n4,0,37,1,-9,-9,-9,-9,3,130,0,250,-9,0,0,0,-9,1,0,2,13,81,0,1,0,0,0,1,13,13,17,187,84,195,68,130,78,0,0,3.5,3,-9,167,0,-9,-9,-9,-9,-9,-9,3,-9,-9,-9,2,4,81,0,1,1,1,-9,1,-9,1,-9,1,1,1,1,1,1,1,-9,-9\n6,0,41,0,-9,-9,-9,-9,2,130,1,204,-9,0,0,0,-9,1,2,2,7,81,0,0,0,0,0,1,7,-9,9,172,71,160,74,130,86,0,0,1.4,1,-9,40,0,-9,-9,-9,-9,-9,-9,3,-9,-9,-9,2,18,81,0,1,1,1,-9,1,-9,1,-9,1,1,1,1,1,1,1,-9,-9\n7,0,56,1,-9,-9,

4. Створюємо `dataFrame` із сирих даних: ініціалізуємо конструктор із отриманим csv-like тестовим представленням данних, у результаті отримуємо нормалізований датасет початкових даних

In [17]:
import pandas as pd
import io

dataFrame = pd.read_csv(
    io.StringIO(csvLikeTextData),
    error_bad_lines=False,
    warn_bad_lines=False,
    header=None,
    engine="c",
    comment='#'
).dropna()
dataFrame

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,65,66,67,68,69,70,71,72,73,74
0,1,0.0,63.0,1.0,-9.0,-9.0,-9.0,-9.0,1,145,...,-9.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-9.0,-9.0
1,2,0.0,67.0,1.0,-9.0,-9.0,-9.0,-9.0,4,160,...,-9.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-9.0,-9.0
2,3,0.0,67.0,1.0,-9.0,-9.0,-9.0,-9.0,4,120,...,-9.0,2.0,2.0,1.0,1.0,1.0,7.0,3.0,-9.0,-9.0
3,4,0.0,37.0,1.0,-9.0,-9.0,-9.0,-9.0,3,130,...,-9.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-9.0,-9.0
4,6,0.0,41.0,0.0,-9.0,-9.0,-9.0,-9.0,2,130,...,-9.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-9.0,-9.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,294,0.0,39.0,0.0,-9.0,-9.0,-9.0,-9.0,3,138,...,-9.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,-9.0,-9.0
278,295,0.0,57.0,1.0,-9.0,-9.0,-9.0,-9.0,2,154,...,-9.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-9.0,-9.0
279,296,0.0,58.0,0.0,-9.0,-9.0,-9.0,-9.0,4,130,...,-9.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-9.0,-9.0
280,297,0.0,57.0,1.0,-9.0,-9.0,-9.0,-9.0,4,110,...,-9.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,-9.0,-9.0


5. Створимо `filderedDataFrame`. Для цього виберемо колонки з оригінального дата фрейму, які на цікавлять та надамо відповідні назви колонкам (назви дублюють оригінальні):

In [18]:
columnNames = [
    'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang',
    'oldpeak', 'slope', 'ca', 'thal', 'num'
]
filderedDataFrame = dataFrame[[2, 3, 8, 9, 11, 15, 18, 31, 37, 39, 40, 43, 50, 57]]
filderedDataFrame.columns = columnNames
filderedDataFrame

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
0,63.0,1.0,1,145,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0.0
1,67.0,1.0,4,160,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2.0
2,67.0,1.0,4,120,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1.0
3,37.0,1.0,3,130,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0.0
4,41.0,0.0,2,130,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,39.0,0.0,3,138,220.0,0.0,0.0,152.0,0.0,0.0,2.0,0.0,3.0,0.0
278,57.0,1.0,2,154,232.0,0.0,2.0,164.0,0.0,0.0,1.0,1.0,3.0,1.0
279,58.0,0.0,4,130,197.0,0.0,0.0,131.0,0.0,0.6,2.0,0.0,3.0,0.0
280,57.0,1.0,4,110,335.0,0.0,0.0,143.0,1.0,3.0,2.0,1.0,7.0,2.0


6. Надамо колонкам більш зрозумілі назви:

In [19]:
namedDataFrame = filderedDataFrame
namedDataFrame.columns = ['age', 'sex', 'chest_pain_type', 'resting_blood_pressure', 'cholesterol',
                          'fasting_blood_sugar', 'rest_ecg', 'max_heart_rate_achieved','exercise_induced_angina',
                          'st_depression', 'st_slope', 'num_major_vessels', 'thalassemia', 'target']
namedDataFrame

Unnamed: 0,age,sex,chest_pain_type,resting_blood_pressure,cholesterol,fasting_blood_sugar,rest_ecg,max_heart_rate_achieved,exercise_induced_angina,st_depression,st_slope,num_major_vessels,thalassemia,target
0,63.0,1.0,1,145,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0.0
1,67.0,1.0,4,160,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2.0
2,67.0,1.0,4,120,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1.0
3,37.0,1.0,3,130,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0.0
4,41.0,0.0,2,130,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,39.0,0.0,3,138,220.0,0.0,0.0,152.0,0.0,0.0,2.0,0.0,3.0,0.0
278,57.0,1.0,2,154,232.0,0.0,2.0,164.0,0.0,0.0,1.0,1.0,3.0,1.0
279,58.0,0.0,4,130,197.0,0.0,0.0,131.0,0.0,0.6,2.0,0.0,3.0,0.0
280,57.0,1.0,4,110,335.0,0.0,0.0,143.0,1.0,3.0,2.0,1.0,7.0,2.0


7. Змінимо значення категоріальних величин, щоб покращити їх інтерпретацію:

In [20]:
df = namedDataFrame
df['sex'][df['sex'] == 0] = 'female'
df['sex'][df['sex'] == 1] = 'male'

df['chest_pain_type'][df['chest_pain_type'] == 1] = 'typical angina'
df['chest_pain_type'][df['chest_pain_type'] == 2] = 'atypical angina'
df['chest_pain_type'][df['chest_pain_type'] == 3] = 'non-anginal pain'
df['chest_pain_type'][df['chest_pain_type'] == 4] = 'asymptomatic'

df['fasting_blood_sugar'][df['fasting_blood_sugar'] == 0] = 'lower than 120mg/ml'
df['fasting_blood_sugar'][df['fasting_blood_sugar'] == 1] = 'greater than 120mg/ml'

df['rest_ecg'][df['rest_ecg'] == 0] = 'normal'
df['rest_ecg'][df['rest_ecg'] == 1] = 'ST-T wave abnormality'
df['rest_ecg'][df['rest_ecg'] == 2] = 'left ventricular hypertrophy'

df['exercise_induced_angina'][df['exercise_induced_angina'] == 0] = 'no'
df['exercise_induced_angina'][df['exercise_induced_angina'] == 1] = 'yes'

df['st_slope'][df['st_slope'] == 1] = 'upsloping'
df['st_slope'][df['st_slope'] == 2] = 'flat'
df['st_slope'][df['st_slope'] == 3] = 'downsloping'

df['thalassemia'][df['thalassemia'] == 1] = 'normal'
df['thalassemia'][df['thalassemia'] == 2] = 'fixed defect'
df['thalassemia'][df['thalassemia'] == 3] = 'reversable defect'

df

Unnamed: 0,age,sex,chest_pain_type,resting_blood_pressure,cholesterol,fasting_blood_sugar,rest_ecg,max_heart_rate_achieved,exercise_induced_angina,st_depression,st_slope,num_major_vessels,thalassemia,target
0,63.0,male,1,145,233.0,greater than 120mg/ml,left ventricular hypertrophy,150.0,no,2.3,downsloping,0.0,6,0.0
1,67.0,male,4,160,286.0,lower than 120mg/ml,left ventricular hypertrophy,108.0,yes,1.5,flat,3.0,reversable defect,2.0
2,67.0,male,4,120,229.0,lower than 120mg/ml,left ventricular hypertrophy,129.0,yes,2.6,flat,2.0,7,1.0
3,37.0,male,3,130,250.0,lower than 120mg/ml,normal,187.0,no,3.5,downsloping,0.0,reversable defect,0.0
4,41.0,female,2,130,204.0,lower than 120mg/ml,left ventricular hypertrophy,172.0,no,1.4,upsloping,0.0,reversable defect,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,39.0,female,3,138,220.0,lower than 120mg/ml,normal,152.0,no,0.0,flat,0.0,reversable defect,0.0
278,57.0,male,2,154,232.0,lower than 120mg/ml,left ventricular hypertrophy,164.0,no,0.0,upsloping,1.0,reversable defect,1.0
279,58.0,female,4,130,197.0,lower than 120mg/ml,normal,131.0,no,0.6,flat,0.0,reversable defect,0.0
280,57.0,male,4,110,335.0,lower than 120mg/ml,normal,143.0,yes,3.0,flat,1.0,7,2.0


8. Перевіримо типи даних:

In [21]:
df.dtypes

age                        float64
sex                         object
chest_pain_type             object
resting_blood_pressure      object
cholesterol                float64
fasting_blood_sugar         object
rest_ecg                    object
max_heart_rate_achieved    float64
exercise_induced_angina     object
st_depression              float64
st_slope                    object
num_major_vessels          float64
thalassemia                 object
target                     float64
dtype: object

9. Деякі з них не відповідають дійсності (наприклад, категоріальні величини, які ми змінили у попередньому кроці), адаптуємо їх:

In [22]:
df['sex'] = df['sex'].astype('object')
df['chest_pain_type'] = df['chest_pain_type'].astype('object')
df['fasting_blood_sugar'] = df['fasting_blood_sugar'].astype('object')
df['resting_blood_pressure'] = df['resting_blood_pressure'].astype('float64')
df['rest_ecg'] = df['rest_ecg'].astype('object')
df['exercise_induced_angina'] = df['exercise_induced_angina'].astype('object')
df['st_slope'] = df['st_slope'].astype('object')
df['thalassemia'] = df['thalassemia'].astype('object')

df.dtypes

age                        float64
sex                         object
chest_pain_type             object
resting_blood_pressure     float64
cholesterol                float64
fasting_blood_sugar         object
rest_ecg                    object
max_heart_rate_achieved    float64
exercise_induced_angina     object
st_depression              float64
st_slope                    object
num_major_vessels          float64
thalassemia                 object
target                     float64
dtype: object

10. Для категоріальних змінних нам потрібно створити фіктивні змінні. Наприклад, замість того, щоб мати "чоловіків" і "жінок", у нас буде "чоловік" зі значеннями 0 або 1 (1 - чоловік, а 0, отже, жінка). Нормалізуючи таким чином датасет, отримуємо кінцевий - `tidyDataset`.

In [23]:
tidyDataset = pd.get_dummies(df, drop_first=True)
tidyDataset

Unnamed: 0,age,resting_blood_pressure,cholesterol,max_heart_rate_achieved,st_depression,num_major_vessels,target,sex_male,chest_pain_type_2,chest_pain_type_3,chest_pain_type_4,fasting_blood_sugar_lower than 120mg/ml,rest_ecg_left ventricular hypertrophy,rest_ecg_normal,exercise_induced_angina_yes,st_slope_flat,st_slope_upsloping,thalassemia_6.0,thalassemia_7.0,thalassemia_reversable defect
0,63.0,145.0,233.0,150.0,2.3,0.0,0.0,1,0,0,0,0,1,0,0,0,0,1,0,0
1,67.0,160.0,286.0,108.0,1.5,3.0,2.0,1,0,0,1,1,1,0,1,1,0,0,0,1
2,67.0,120.0,229.0,129.0,2.6,2.0,1.0,1,0,0,1,1,1,0,1,1,0,0,1,0
3,37.0,130.0,250.0,187.0,3.5,0.0,0.0,1,0,1,0,1,0,1,0,0,0,0,0,1
4,41.0,130.0,204.0,172.0,1.4,0.0,0.0,0,1,0,0,1,1,0,0,0,1,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,39.0,138.0,220.0,152.0,0.0,0.0,0.0,0,0,1,0,1,0,1,0,1,0,0,0,1
278,57.0,154.0,232.0,164.0,0.0,1.0,1.0,1,1,0,0,1,1,0,0,0,1,0,0,1
279,58.0,130.0,197.0,131.0,0.6,0.0,0.0,0,0,0,1,1,0,1,0,1,0,0,0,1
280,57.0,110.0,335.0,143.0,3.0,1.0,2.0,1,0,0,1,1,0,1,1,1,0,0,1,0


11. Зберігаємо дані у форматі csv:

In [24]:
tidyDataset.to_csv('tidy_dataset.csv', index=False)

### 4. Огляд даних 

Продемонструємо декілька верхніх записів:

In [25]:
tidyDataset.head()

Unnamed: 0,age,resting_blood_pressure,cholesterol,max_heart_rate_achieved,st_depression,num_major_vessels,target,sex_male,chest_pain_type_2,chest_pain_type_3,chest_pain_type_4,fasting_blood_sugar_lower than 120mg/ml,rest_ecg_left ventricular hypertrophy,rest_ecg_normal,exercise_induced_angina_yes,st_slope_flat,st_slope_upsloping,thalassemia_6.0,thalassemia_7.0,thalassemia_reversable defect
0,63.0,145.0,233.0,150.0,2.3,0.0,0.0,1,0,0,0,0,1,0,0,0,0,1,0,0
1,67.0,160.0,286.0,108.0,1.5,3.0,2.0,1,0,0,1,1,1,0,1,1,0,0,0,1
2,67.0,120.0,229.0,129.0,2.6,2.0,1.0,1,0,0,1,1,1,0,1,1,0,0,1,0
3,37.0,130.0,250.0,187.0,3.5,0.0,0.0,1,0,1,0,1,0,1,0,0,0,0,0,1
4,41.0,130.0,204.0,172.0,1.4,0.0,0.0,0,1,0,0,1,1,0,0,0,1,0,0,1


Продемонструємо декілька заключних записів:

In [26]:
tidyDataset.tail()

Unnamed: 0,age,resting_blood_pressure,cholesterol,max_heart_rate_achieved,st_depression,num_major_vessels,target,sex_male,chest_pain_type_2,chest_pain_type_3,chest_pain_type_4,fasting_blood_sugar_lower than 120mg/ml,rest_ecg_left ventricular hypertrophy,rest_ecg_normal,exercise_induced_angina_yes,st_slope_flat,st_slope_upsloping,thalassemia_6.0,thalassemia_7.0,thalassemia_reversable defect
277,39.0,138.0,220.0,152.0,0.0,0.0,0.0,0,0,1,0,1,0,1,0,1,0,0,0,1
278,57.0,154.0,232.0,164.0,0.0,1.0,1.0,1,1,0,0,1,1,0,0,0,1,0,0,1
279,58.0,130.0,197.0,131.0,0.6,0.0,0.0,0,0,0,1,1,0,1,0,1,0,0,0,1
280,57.0,110.0,335.0,143.0,3.0,1.0,2.0,1,0,0,1,1,0,1,1,1,0,0,1,0
281,47.0,130.0,253.0,179.0,0.0,0.0,0.0,1,0,1,0,1,0,1,0,0,1,0,0,1


Покажемо структуру даних `tidyDataset`

In [27]:
tidyDataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 282 entries, 0 to 281
Data columns (total 20 columns):
age                                        282 non-null float64
resting_blood_pressure                     282 non-null float64
cholesterol                                282 non-null float64
max_heart_rate_achieved                    282 non-null float64
st_depression                              282 non-null float64
num_major_vessels                          282 non-null float64
target                                     282 non-null float64
sex_male                                   282 non-null uint8
chest_pain_type_2                          282 non-null uint8
chest_pain_type_3                          282 non-null uint8
chest_pain_type_4                          282 non-null uint8
fasting_blood_sugar_lower than 120mg/ml    282 non-null uint8
rest_ecg_left ventricular hypertrophy      282 non-null uint8
rest_ecg_normal                            282 non-null uint8
exercise_indu

Виведемо описову статистику отриманого набору даних:

In [28]:
tidyDataset.describe()

Unnamed: 0,age,resting_blood_pressure,cholesterol,max_heart_rate_achieved,st_depression,num_major_vessels,target,sex_male,chest_pain_type_2,chest_pain_type_3,chest_pain_type_4,fasting_blood_sugar_lower than 120mg/ml,rest_ecg_left ventricular hypertrophy,rest_ecg_normal,exercise_induced_angina_yes,st_slope_flat,st_slope_upsloping,thalassemia_6.0,thalassemia_7.0,thalassemia_reversable defect
count,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0,282.0
mean,54.411348,131.56383,249.092199,149.765957,1.02695,0.595745,0.907801,0.677305,0.152482,0.297872,0.471631,0.851064,0.503546,0.489362,0.326241,0.457447,0.478723,0.049645,0.379433,0.56383
std,9.053083,17.757496,51.217546,22.923869,1.138825,1.23691,1.224894,0.468338,0.360127,0.458136,0.500082,0.356658,0.500876,0.500776,0.46967,0.499072,0.500435,0.217597,0.486108,0.496791
min,29.0,94.0,126.0,71.0,0.0,-9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,48.0,120.0,213.0,133.25,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,55.0,130.0,244.0,153.5,0.8,0.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
75%,61.0,140.0,277.0,165.75,1.6,1.0,2.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0
max,77.0,200.0,564.0,202.0,6.2,3.0,4.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


У результаті ми отримали `tidyDataset`, збережений у файлі `tidy_dataset.csv`. Набір даних готовий до подальшої роботи, створення моделей на його основі та використання у машинному навчанні.