In [21]:
import pandas as pd
df = pd.read_csv('data/heart_disease_uci.csv')

"Как правило, больший размер выборки - лучше, большего признакового пространства. Увеличение размера выборки за счет объединения датасетов может помочь в обучении более точных моделей, особенно если исходный размер выборки небольшой. При этом отказ от части признаков может быть оправданным, если эти признаки либо не несут существенной информации для решаемой задачи, либо их наличие может внести 'шум' или излишнюю сложность в модель."

# <center>1. Проверка данных</center>

<u>**Описание колонок**</u>

1) **id** - уникальный идентификатор для каждого пациента;

2) **age** - возраст пациента в годах;

3) **origin** - место учебы;

4) **sex** - пол: *Male/Female* (Мужской/Женский);

5) **cp** - chest pain type (тип загрудинной боли):
* *typical angina* (типичная стенокардия), 
* *atypical angina* (атипичная стенокардия), 
* *non-anginal* (неангинальная), 
* *asymptomatic* (бессимптомная);

6) **trestbps** - кровяное давление покоя, при поступлении в стационар (в мм рт.ст.);

7) **chol** - холестерин сыворотки (в мг/дл);

8) **fbs** - уровень сахара в крови натощак > 120 мг/дл:
* *True* (Да),
* *False* (Нет);

9) **restecg** - результаты электрокардиографии в состоянии покоя:
* *normal* (норма), 
* *st-t abnormality* (отклонения от нормы), 
* *lv hypertrophy* (гипертрофия ЛЖ);

10) **thalach** - достигаемая максимальная частота сердечных сокращений;

11) **exang** - стенокардия, вызванная физической нагрузкой:
* *True* (Да),
* *False* (Нет);

12) **oldpeak** - депрессия ST, вызванная нагрузкой по сравнению с отдыхом;

13) **slope** - наклон пикового сегмента ST при нагрузке;

14) **ca** - количество крупных сосудов (0–3), окрашенных при рентгеноскопии;

15) **thal**:
* *normal* (нормальный),
* *fixed defect* (исправленный дефект),
* *reversible defect* (обратимый дефект);

16) **num** - прогнозируемый атрибут:
* *0* (no heart disease / нет болезней сердца),
* *1* (mild heart disease / легкая болезнь сердца),
* *2* (moderate heart disease / умеренная болезнь сердца),
* *3* (severe heart disease / тяжелая болезнь сердца),
* *4* (critical heart disease / критическое заболевание сердца).

In [22]:
# Визуализируем сам датасет (начало и конец), чтобы ознакомиться с таблицей
display(df)

# Посмотрим основную информацию о датасете
df.info()

# И посмотрим описательную статистику
df.describe()

Unnamed: 0,id,age,sex,origin,cp,trestbps,chol,fbs,restecg,thalch,exang,oldpeak,slope,ca,thal,num
0,1,63,Male,Cleveland,typical angina,145.0,233.0,True,lv hypertrophy,150.0,False,2.3,downsloping,0.0,fixed defect,0
1,2,67,Male,Cleveland,asymptomatic,160.0,286.0,False,lv hypertrophy,108.0,True,1.5,flat,3.0,normal,2
2,3,67,Male,Cleveland,asymptomatic,120.0,229.0,False,lv hypertrophy,129.0,True,2.6,flat,2.0,reversable defect,1
3,4,37,Male,Cleveland,non-anginal,130.0,250.0,False,normal,187.0,False,3.5,downsloping,0.0,normal,0
4,5,41,Female,Cleveland,atypical angina,130.0,204.0,False,lv hypertrophy,172.0,False,1.4,upsloping,0.0,normal,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
915,916,54,Female,VA Long Beach,asymptomatic,127.0,333.0,True,st-t abnormality,154.0,False,0.0,,,,1
916,917,62,Male,VA Long Beach,typical angina,,139.0,False,st-t abnormality,,,,,,,0
917,918,55,Male,VA Long Beach,asymptomatic,122.0,223.0,True,st-t abnormality,100.0,False,0.0,,,fixed defect,2
918,919,58,Male,VA Long Beach,asymptomatic,,385.0,True,lv hypertrophy,,,,,,,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 920 entries, 0 to 919
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   id        920 non-null    int64  
 1   age       920 non-null    int64  
 2   sex       920 non-null    object 
 3   origin    920 non-null    object 
 4   cp        920 non-null    object 
 5   trestbps  861 non-null    float64
 6   chol      890 non-null    float64
 7   fbs       830 non-null    object 
 8   restecg   918 non-null    object 
 9   thalch    865 non-null    float64
 10  exang     865 non-null    object 
 11  oldpeak   858 non-null    float64
 12  slope     611 non-null    object 
 13  ca        309 non-null    float64
 14  thal      434 non-null    object 
 15  num       920 non-null    int64  
dtypes: float64(5), int64(3), object(8)
memory usage: 115.1+ KB


Unnamed: 0,id,age,trestbps,chol,thalch,oldpeak,ca,num
count,920.0,920.0,861.0,890.0,865.0,858.0,309.0,920.0
mean,460.5,53.51087,132.132404,199.130337,137.545665,0.878788,0.676375,0.995652
std,265.725422,9.424685,19.06607,110.78081,25.926276,1.091226,0.935653,1.142693
min,1.0,28.0,0.0,0.0,60.0,-2.6,0.0,0.0
25%,230.75,47.0,120.0,175.0,120.0,0.0,0.0,0.0
50%,460.5,54.0,130.0,223.0,140.0,0.5,0.0,1.0
75%,690.25,60.0,140.0,268.0,157.0,1.5,1.0,2.0
max,920.0,77.0,200.0,603.0,202.0,6.2,3.0,4.0


In [23]:
# Выведем отдельно кол-во пропущенных значений по столбцам
df.isnull().sum()

id            0
age           0
sex           0
origin        0
cp            0
trestbps     59
chol         30
fbs          90
restecg       2
thalch       55
exang        55
oldpeak      62
slope       309
ca          611
thal        486
num           0
dtype: int64

# <center>2.Очистка данных

In [24]:
# Избавиимся от дубликатов
import pandas as pd

df_copy = df.copy()
df_copy.drop_duplicates()

Unnamed: 0,id,age,sex,origin,cp,trestbps,chol,fbs,restecg,thalch,exang,oldpeak,slope,ca,thal,num
0,1,63,Male,Cleveland,typical angina,145.0,233.0,True,lv hypertrophy,150.0,False,2.3,downsloping,0.0,fixed defect,0
1,2,67,Male,Cleveland,asymptomatic,160.0,286.0,False,lv hypertrophy,108.0,True,1.5,flat,3.0,normal,2
2,3,67,Male,Cleveland,asymptomatic,120.0,229.0,False,lv hypertrophy,129.0,True,2.6,flat,2.0,reversable defect,1
3,4,37,Male,Cleveland,non-anginal,130.0,250.0,False,normal,187.0,False,3.5,downsloping,0.0,normal,0
4,5,41,Female,Cleveland,atypical angina,130.0,204.0,False,lv hypertrophy,172.0,False,1.4,upsloping,0.0,normal,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
915,916,54,Female,VA Long Beach,asymptomatic,127.0,333.0,True,st-t abnormality,154.0,False,0.0,,,,1
916,917,62,Male,VA Long Beach,typical angina,,139.0,False,st-t abnormality,,,,,,,0
917,918,55,Male,VA Long Beach,asymptomatic,122.0,223.0,True,st-t abnormality,100.0,False,0.0,,,fixed defect,2
918,919,58,Male,VA Long Beach,asymptomatic,,385.0,True,lv hypertrophy,,,,,,,0


Дубликатов в нашем датасете не было, т.к. кол-во строк не изменилось.

# <center>3. Обработка данных</center>

Проанализировав наш датасет при помощи описательной статистики и исходного описания датасета, наметим план по его обработке::

1) Удалим столбцы:
* **origin** (т.к. эта информация нам никак не поможет в предсказании диагноза пациента);
* **thalch** (до конца непонятно, при каких обстоятельствах достигалась такая максимальная ЧСС: во время тредмил-теста, в покое; следовательно этот признак может внести 'шум' или добавить излюшнюю сложность в модель);
* **slope** (в данном признаке процент пропусков >30%, что является критерием для его удаления; а т.к. это медицинские данные, применять здесь подставление среднего для заполнения пропусков будет неправильно и скажется на итоговом результате);
* **ca** (процент пропусков >60%);
* **thal** (процент пропусков >50%).

2) Подчистим строки с пропусками. Опять же, т.к. это медицинские данные по пациентам (где все значения очень индивидуальны), заменять их средним или модой (в случае категориальных признаков) - неправильно.

3) Переименуем ряд признаков, чтобы было удобнее в них ориентироваться, и преобразуем в них данные. Например в столбце `num` вместо нумерации от 0 (здоров) до 4 (где 1-4 это степени тяжести заболевания), сделаем значения 0 (здоров) и 1 (болен, независимо от тяжести).

Итого: Мы потеряем 5 признаков, но как правило больший размер выборки - лучше, большего признакового пространства.

In [25]:
# Удаляем столбцы 
df_copy = df_copy.drop(['origin', 'thalch', 'slope', 'ca', 'thal'], axis=1, inplace=False)

In [26]:
# Удаляем строки с пропусками
df_copy = df_copy.dropna()

In [27]:
# Переименуем столбцы
df_copy.rename(columns={
    'cp': 'chest_pain',
    'trestbps': 'rest_bp',
    'chol': 'cholesterol',
    'fbs': 'diabetes',
    'restecg': 'rest_ecg',
    'exang': 'phis_ang',
    'oldpeak': 'ST_depres',
    'num': 'diagnosis'
    },
    inplace=True
)

In [29]:
# Изменим значения в столбце 'sex' на двоичные
# mask_1 = df_copy['sex'] == 'Female'
# df_copy.loc[mask_1, 'sex'] == 0

# mask_2 = df_copy['sex'] == 'Male'
# df_copy.loc[mask_2, 'sex'] == 1

display(df_copy)
df_copy.isnull().sum()

Unnamed: 0,id,age,sex,chest_pain,rest_bp,cholesterol,diabetes,rest_ecg,phis_ang,ST_depres,diagnosis
0,1,63,Male,typical angina,145.0,233.0,True,lv hypertrophy,False,2.3,0
1,2,67,Male,asymptomatic,160.0,286.0,False,lv hypertrophy,True,1.5,2
2,3,67,Male,asymptomatic,120.0,229.0,False,lv hypertrophy,True,2.6,1
3,4,37,Male,non-anginal,130.0,250.0,False,normal,False,3.5,0
4,5,41,Female,atypical angina,130.0,204.0,False,lv hypertrophy,False,1.4,0
...,...,...,...,...,...,...,...,...,...,...,...
913,914,62,Male,asymptomatic,158.0,170.0,False,st-t abnormality,True,0.0,1
914,915,46,Male,asymptomatic,134.0,310.0,False,normal,False,0.0,2
915,916,54,Female,asymptomatic,127.0,333.0,True,st-t abnormality,False,0.0,1
917,918,55,Male,asymptomatic,122.0,223.0,True,st-t abnormality,False,0.0,2


id             0
age            0
sex            0
chest_pain     0
rest_bp        0
cholesterol    0
diabetes       0
rest_ecg       0
phis_ang       0
ST_depres      0
diagnosis      0
dtype: int64