In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Prepare Dataset

`cleveland.csv` là một phần của Bộ dữ liệu bệnh tim UCI, được thu thập từ Phòng khám Cleveland.
Bộ dữ liệu gồm 14 thuộc tính:
1. `age`: Tuổi của bệnh nhân (tính bằng năm)
2. `sex`: Giới tính (1 = nam, 0 = nữ)
3. `cp`: Loại đau ngực (giá trị từ 1 đến 4)
    1. Đau thắt ngực điển hình
    2. Đau thắt ngực không điển hình
    3. Đau không do tim
    4. Không có triệu chứng
4. `trestbps`: Huyết áp lúc nghỉ (tính bằng mm Hg)
5. `chol`: Cholesterol huyết thanh (mg/dl)
6. `fbs`: Đường huyết lúc đói > 120 mg/dl (1 = đúng; 0 = sai)
7. `restecg`: Kết quả điện tâm đồ lúc nghỉ (giá trị từ 0 đến 2)
    0. Bình thường
    1. Có bất thường sóng ST-T (đảo ngược sóng T và/hoặc chênh lên hoặc chênh xuống ST > 0.05 mV)
    2. Phì đại thất trái có thể hoặc chắc chắn theo tiêu chuẩn Estes
8. `thalach`: Nhịp tim tối đa đạt được
9. `exang`: Đau thắt ngực khi gắng sức (1 = có; 0 = không)
10. `oldpeak`: ST chênh xuống do gắng sức so với lúc nghỉ
11. `slope`: Độ dốc của đoạn ST tại đỉnh gắng sức (giá trị từ 1 đến 3)
    1. Đoạn ST đi lên (upsloping)
    2. Đoạn ST nằm ngang (flat)
    3. Đoạn ST đi xuống (downsloping)
12. `ca`: Số lượng mạch máu chính (0-3) được tô màu bởi flourosopy
    0. Không có mạch máu chính nào bị tắc nghẽn
    1. Một mạch máu chính bị tắc nghẽn
    2. Hai mạch máu chính bị tắc nghẽn
    3. Ba mạch máu chính bị tắc nghẽn
13. `thal`: thiếu máu tán huyết bẩm sinh(thalassemia) (3 = bình thường; 6 = khuyết tật cố định; 7 = khuyết tật có thể đảo ngược)
14. `target`: Chẩn đoán bệnh tim (giá trị từ 0 đến 4)
    0. Không có bệnh tim
    1. Bệnh tim loại 1
    2. Bệnh tim loại 2
    3. Bệnh tim loại 3
    4. Bệnh tim loại 4
    
    ***Note:*** Đơn giản hóa vấn đề bằng 2 giá trị (0 = không bị bệnh tim; 1 = bị bệnh tim)

In [30]:
col = ['age', 'sex',  'cp', 'trestbps', 'chol', 'fbs', 'restecg',
              'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']
df = pd.read_csv('cleveland.csv', names=col)
df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,1,145,233,1,2,150,0,2.3,3,0.0,6.0,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3.0,3.0,2
2,67,1,4,120,229,0,2,129,1,2.6,2,2.0,7.0,1
3,37,1,3,130,250,0,0,187,0,3.5,3,0.0,3.0,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0.0,3.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,45,1,1,110,264,0,0,132,0,1.2,2,0.0,7.0,1
299,68,1,4,144,193,1,0,141,0,3.4,2,2.0,7.0,2
300,57,1,4,130,131,0,0,115,1,1.2,2,1.0,7.0,3
301,57,0,2,130,236,0,2,174,0,0.0,2,1.0,3.0,1


Bộ dữ liệu có 303 samples với 14 features

In [31]:
na_col = df.isna().sum()
print(f'Các cột có các giá trị bị trống là\n{na_col[na_col > 0]}')

Các cột có các giá trị bị trống là
ca      4
thal    2
dtype: int64


Fill missing value cho các giá trị NaN

In [32]:
df['thal'] = df['thal'].fillna(df['thal'].mean())
df['ca'] = df['ca'].fillna(df['ca'].mean())

Mapping target thành 0 và 1 (0 = không bệnh tim, 1 = bệnh tim)

In [35]:
df['target'] = df['target'].map({0: 0, 1: 1, 2: 1, 3: 1, 4: 1})
df['target'].value_counts()

target
0    164
1    139
Name: count, dtype: int64

In [38]:
df.to_csv('cleveland.csv')
df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,1,145,233,1,2,150,0,2.3,3,0.000000,6.0,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3.000000,3.0,1
2,67,1,4,120,229,0,2,129,1,2.6,2,2.000000,7.0,1
3,37,1,3,130,250,0,0,187,0,3.5,3,0.000000,3.0,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0.000000,3.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,45,1,1,110,264,0,0,132,0,1.2,2,0.000000,7.0,1
299,68,1,4,144,193,1,0,141,0,3.4,2,2.000000,7.0,1
300,57,1,4,130,131,0,0,115,1,1.2,2,1.000000,7.0,1
301,57,0,2,130,236,0,2,174,0,0.0,2,1.000000,3.0,1
