In [1]:
import wfdb
import matplotlib.pyplot as plt
import numpy as np
from hrv.filters import quotient, moving_median
from scipy import interpolate
from tqdm import tqdm
import os
FS = 100.0

In [2]:
#看rii的时间长度
def create_time_info(rri):
    rri_time = np.cumsum(rri) / 1000.0  # make it seconds
    return rri_time - rri_time[0]   # force it to start at zero

#创造插值时间的range
def create_interp_time(rri, fs):
    time_rri = create_time_info(rri)
    return np.arange(0, time_rri[-1], 1 / float(fs))

#找到一维曲线的B样条曲线表示。给定数据点集，确定区间上度k的平滑样条近似
def interp_cubic_spline(rri, fs):
    time_rri = create_time_info(rri)
    time_rri_interp = create_interp_time(rri, fs)
    tck = interpolate.splrep(time_rri, rri, s=0)
    rri_interp = interpolate.splev(time_rri_interp, tck, der=0)
    return time_rri_interp, rri_interp

#招到qrs波群的三次插入取样
def interp_cubic_spline_qrs(qrs_index, qrs_amp, fs):
    time_qrs = qrs_index / float(FS)
    time_qrs = time_qrs - time_qrs[0]
    time_qrs_interp = np.arange(0, time_qrs[-1], 1/float(fs))
    tck = interpolate.splrep(time_qrs, qrs_amp, s=0)
    qrs_interp = interpolate.splev(time_qrs_interp, tck, der=0)
    return time_qrs_interp, qrs_interp


In [3]:
data_path = 'D:/ML/Ipy/data/apnea/apnea-ecg/'

In [4]:
train_data_name = ['a01', 'a02', 'a03', 'a04', 'a05',
             'a06', 'a07', 'a08', 'a09', 'a10',
             'a11', 'a12', 'a13', 'a14', 'a15',
             'a16', 'a17', 'a18', 'a19',
             'b01', 'b02', 'b03', 'b04',
             'c01', 'c02', 'c03', 'c04', 'c05',
             'c06', 'c07', 'c08', 'c09',
             ]
test_data_name = ['a20','b05','c10']

In [5]:
age = [51, 38, 54, 52, 58,
       63, 44, 51, 52, 58,
       58, 52, 51, 51, 60,
       44, 40, 52, 55, 58,
       44, 53, 53, 42, 52,
       31, 37, 39, 41, 28,
       28, 30, 42, 37, 27]

In [6]:
sex = [1, 1, 1, 1, 1,
       1, 1, 1, 1, 1,
       1, 1, 1, 1, 1,
       1, 1, 1, 1, 1,
       0, 1, 1, 1, 1,
       1, 1, 1, 0, 0,
       0, 0, 1, 1, 1]

In [7]:
#获得当前每个qrs的最大amp
def get_qrs_amp(ecg, qrs):
    interval = int(FS * 0.250)
    qrs_amp = []
    for index in range(len(qrs)):
        curr_qrs = qrs[index]
        amp = np.max(ecg[curr_qrs-interval:curr_qrs+interval])
        qrs_amp.append(amp)

    return qrs_amp

In [8]:
MARGIN = 10
FS_INTP = 4
MAX_HR = 300.0
MIN_HR = 20.0
MIN_RRI = 1.0 / (MAX_HR / 60.0) * 1000
MAX_RRI = 1.0 / (MIN_HR / 60.0) * 1000
train_input_array = []
train_label_array = []


In [9]:
for data_index in range(len(train_data_name)):
    print (train_data_name[data_index])
    win_num = len(wfdb.rdann(os.path.join(data_path,train_data_name[data_index]), 'apn').symbol)
    signals, fields = wfdb.rdsamp(os.path.join(data_path,train_data_name[data_index]))
    for index in tqdm(range(1, win_num)):
        samp_from = index * 60 * FS # 60 seconds
        samp_to = samp_from + 60 * FS  # 60 seconds

#rdann -a 注释名 -r 记录名 -f 记录起始时间 -t 记录终止时间 -p 选定的要打印的注释类型（例如V代表室性早博，A代表房性早搏） > test.txt
        qrs_ann = wfdb.rdann(data_path + train_data_name[data_index], 'qrs', sampfrom=samp_from - (MARGIN*100), sampto=samp_to + (MARGIN*100)).sample
        apn_ann = wfdb.rdann(data_path + train_data_name[data_index], 'apn', sampfrom=samp_from, sampto=samp_to-1).symbol

        qrs_amp = get_qrs_amp(signals, qrs_ann)

        rri = np.diff(qrs_ann)
        rri_ms = rri.astype('float') / FS * 1000.0
        try:
            rri_filt = moving_median(rri_ms)

            if len(rri_filt) > 5 and (np.min(rri_filt) >= MIN_RRI and np.max(rri_filt) <= MAX_RRI):
                time_intp, rri_intp = interp_cubic_spline(rri_filt, FS_INTP)
                qrs_time_intp, qrs_intp = interp_cubic_spline_qrs(qrs_ann, qrs_amp, FS_INTP)
                rri_intp = rri_intp[(time_intp >= MARGIN) & (time_intp < (60+MARGIN))]
                qrs_intp = qrs_intp[(qrs_time_intp >= MARGIN) & (qrs_time_intp < (60 + MARGIN))]
                #time_intp = time_intp[(time_intp >= MARGIN) & (time_intp < (60+MARGIN))]

                if len(rri_intp) != (FS_INTP * 60):
                    skip = 1
                else:
                    skip = 0

                if skip == 0:
                    rri_intp = rri_intp - np.mean(rri_intp)
                    qrs_intp = qrs_intp - np.mean(qrs_intp)
                    if apn_ann[0] == 'N': # Normal
                        label = 0.0
                    elif apn_ann[0] == 'A': # Apnea
                        label = 1.0
                    else:
                        label = 2.0

                    train_input_array.append([rri_intp, qrs_intp, age[data_index], sex[data_index]])
                    train_label_array.append(label)
        except:
            hrv_module_error = 1

a01


100%|████████████████████████████████████████████████████████████████████████████████| 488/488 [02:37<00:00,  1.73it/s]


a02


100%|████████████████████████████████████████████████████████████████████████████████| 527/527 [03:11<00:00,  1.44it/s]


a03


100%|████████████████████████████████████████████████████████████████████████████████| 518/518 [02:55<00:00,  1.52it/s]


a04


100%|████████████████████████████████████████████████████████████████████████████████| 491/491 [02:36<00:00,  1.72it/s]


a05


100%|████████████████████████████████████████████████████████████████████████████████| 453/453 [02:10<00:00,  1.76it/s]


a06


100%|████████████████████████████████████████████████████████████████████████████████| 509/509 [02:24<00:00,  1.91it/s]


a07


100%|████████████████████████████████████████████████████████████████████████████████| 510/510 [03:05<00:00,  1.42it/s]


a08


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [03:11<00:00,  1.38it/s]


a09


100%|████████████████████████████████████████████████████████████████████████████████| 494/494 [02:20<00:00,  1.84it/s]


a10


100%|████████████████████████████████████████████████████████████████████████████████| 516/516 [02:32<00:00,  1.76it/s]


a11


100%|████████████████████████████████████████████████████████████████████████████████| 465/465 [02:21<00:00,  1.77it/s]


a12


100%|████████████████████████████████████████████████████████████████████████████████| 576/576 [03:06<00:00,  1.65it/s]


a13


100%|████████████████████████████████████████████████████████████████████████████████| 494/494 [03:00<00:00,  1.42it/s]


a14


100%|████████████████████████████████████████████████████████████████████████████████| 508/508 [02:07<00:00,  2.05it/s]


a15


100%|████████████████████████████████████████████████████████████████████████████████| 509/509 [02:31<00:00,  1.69it/s]


a16


100%|████████████████████████████████████████████████████████████████████████████████| 481/481 [02:30<00:00,  1.67it/s]


a17


100%|████████████████████████████████████████████████████████████████████████████████| 484/484 [02:41<00:00,  1.59it/s]


a18


100%|████████████████████████████████████████████████████████████████████████████████| 488/488 [02:14<00:00,  1.86it/s]


a19


100%|████████████████████████████████████████████████████████████████████████████████| 501/501 [02:57<00:00,  1.49it/s]


b01


100%|████████████████████████████████████████████████████████████████████████████████| 486/486 [02:34<00:00,  1.58it/s]


b02


100%|████████████████████████████████████████████████████████████████████████████████| 516/516 [02:46<00:00,  1.62it/s]


b03


100%|████████████████████████████████████████████████████████████████████████████████| 440/440 [01:57<00:00,  1.99it/s]


b04


100%|████████████████████████████████████████████████████████████████████████████████| 428/428 [01:40<00:00,  2.23it/s]


c01


100%|████████████████████████████████████████████████████████████████████████████████| 483/483 [02:02<00:00,  1.96it/s]


c02


100%|████████████████████████████████████████████████████████████████████████████████| 501/501 [02:25<00:00,  1.79it/s]


c03


100%|████████████████████████████████████████████████████████████████████████████████| 453/453 [01:40<00:00,  2.37it/s]


c04


100%|████████████████████████████████████████████████████████████████████████████████| 481/481 [02:04<00:00,  1.96it/s]


c05


100%|████████████████████████████████████████████████████████████████████████████████| 465/465 [01:59<00:00,  2.08it/s]


c06


100%|████████████████████████████████████████████████████████████████████████████████| 467/467 [02:01<00:00,  1.97it/s]


c07


100%|████████████████████████████████████████████████████████████████████████████████| 428/428 [02:07<00:00,  1.83it/s]


c08


100%|████████████████████████████████████████████████████████████████████████████████| 512/512 [02:27<00:00,  1.82it/s]


c09


100%|████████████████████████████████████████████████████████████████████████████████| 467/467 [02:12<00:00,  1.80it/s]


In [10]:
np.save('D:/ML/Ipy/data/apnea/result/train_input.npy', train_input_array)
np.save('D:/ML/Ipy/data/apnea/result/train_label.npy', train_label_array)

In [11]:
test_input_array = []
test_label_array = []

In [12]:
for data_index in range(len(test_data_name)):
    print (test_data_name[data_index])
    win_num = len(wfdb.rdann(os.path.join(data_path,test_data_name[data_index]), 'apn').symbol)
    signals, fields = wfdb.rdsamp(os.path.join(data_path,test_data_name[data_index]))
    for index in tqdm(range(1, win_num)):
        samp_from = index * 60 * FS # 60 seconds
        samp_to = samp_from + 60 * FS  # 60 seconds

        qrs_ann = wfdb.rdann(data_path + test_data_name[data_index], 'qrs', sampfrom=samp_from - (MARGIN*100), sampto=samp_to + (MARGIN*100)).sample
        apn_ann = wfdb.rdann(data_path + test_data_name[data_index], 'apn', sampfrom=samp_from, sampto=samp_to-1).symbol

        qrs_amp = get_qrs_amp(signals, qrs_ann)

        rri = np.diff(qrs_ann)
        rri_ms = rri.astype('float') / FS * 1000.0
        try:
            rri_filt = moving_median(rri_ms)

            if len(rri_filt) > 5 and (np.min(rri_filt) >= MIN_RRI and np.max(rri_filt) <= MAX_RRI):
                time_intp, rri_intp = interp_cubic_spline(rri_filt, FS_INTP)
                qrs_time_intp, qrs_intp = interp_cubic_spline_qrs(qrs_ann, qrs_amp, FS_INTP)
                rri_intp = rri_intp[(time_intp >= MARGIN) & (time_intp < (60+MARGIN))]
                qrs_intp = qrs_intp[(qrs_time_intp >= MARGIN) & (qrs_time_intp < (60 + MARGIN))]
                #time_intp = time_intp[(time_intp >= MARGIN) & (time_intp < (60+MARGIN))]

                if len(rri_intp) != (FS_INTP * 60):
                    skip = 1
                else:
                    skip = 0

                if skip == 0:
                    rri_intp = rri_intp - np.mean(rri_intp)
                    qrs_intp = qrs_intp - np.mean(qrs_intp)
                    if apn_ann[0] == 'N': # Normal
                        label = 0.0
                    elif apn_ann[0] == 'A': # Apnea
                        label = 1.0
                    else:
                        label = 2.0

                    test_input_array.append([rri_intp, qrs_intp, age[data_index], sex[data_index]])
                    test_label_array.append(label)
        except:
            hrv_module_error = 1

a20


100%|████████████████████████████████████████████████████████████████████████████████| 509/509 [02:40<00:00,  1.64it/s]


b05


100%|████████████████████████████████████████████████████████████████████████████████| 432/432 [01:57<00:00,  1.91it/s]


c10


100%|████████████████████████████████████████████████████████████████████████████████| 430/430 [01:34<00:00,  2.29it/s]


In [13]:
np.save('D:/ML/Ipy/data/apnea/result/test_input.npy', test_input_array)
np.save('D:/ML/Ipy/data/apnea/result/test_label.npy', test_label_array)

In [6]:
wget -r -np http://www.physionet.org/physiobank/database/apnea-ecg/

'wget' 不是内部或外部命令，也不是可运行的程序
或批处理文件。
