In [22]:
import glob
import pickle

import numpy as np
import pandas as pd

from preprocessing_tools import read_data, Preprocessor

from tqdm import tqdm

In [23]:
ecg_names = [file + '\ECG.txt' for file in glob.glob('train_data/*') if file[-4:] != '8805']
dataset_names = [file + '\dataset.xlsx' for file in glob.glob('train_data/*') if file[-4:] != '8805']

In [24]:
for idx, ecg_name, dataset_name in zip(np.arange(13), ecg_names, dataset_names):
    print(f'Preprocessing {ecg_name} and {dataset_name}')
    pandas_ecg, pandas_desc = read_data(ecg=ecg_name, desc=dataset_name)
    preprocessor = Preprocessor()
    lead_dct = preprocessor.preprocess(pandas_ecg, pandas_desc)
    
    with open(f'preprocessed_data/train_set_{idx}.pkl', 'wb') as f:
        pickle.dump(lead_dct, f)
        
    print()

Preprocessing train_data\10156\ECG.txt and train_data\10156\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:47<00:00,  6.83s/it]



Preprocessing train_data\5722\ECG.txt and train_data\5722\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:54<00:00,  7.78s/it]



Preprocessing train_data\5947\ECG.txt and train_data\5947\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:55<00:00,  7.95s/it]



Preprocessing train_data\7743\ECG.txt and train_data\7743\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:07<00:00,  9.57s/it]



Preprocessing train_data\7916\ECG.txt and train_data\7916\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:05<00:00,  9.33s/it]



Preprocessing train_data\8088\ECG.txt and train_data\8088\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:07<00:00,  9.58s/it]



Preprocessing train_data\8610\ECG.txt and train_data\8610\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:52<00:00,  7.45s/it]



Preprocessing train_data\8644\ECG.txt and train_data\8644\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:31<00:00,  4.56s/it]



Preprocessing train_data\8773\ECG.txt and train_data\8773\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:00<00:00,  8.69s/it]



Preprocessing train_data\9128\ECG.txt and train_data\9128\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:44<00:00,  6.31s/it]



Preprocessing train_data\9359\ECG.txt and train_data\9359\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:06<00:00,  9.48s/it]



Preprocessing train_data\9677\ECG.txt and train_data\9677\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:59<00:00,  8.50s/it]



Preprocessing train_data\9774\ECG.txt and train_data\9774\dataset.xlsx


100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:42<00:00,  6.08s/it]





In [31]:
pandas_ecg_a, pandas_desc = read_data(
    ecg=f'train_data/8805/ECG1.txt', desc='train_data/8805/dataset.xlsx'
)
pandas_ecg_b, pandas_desc = read_data(
    ecg=f'train_data/8805/ECG2.txt', desc='train_data/8805/dataset.xlsx'
)

pandas_ecg_combined = pd.concat([pandas_ecg_a, pandas_ecg_b])
preprocessor = Preprocessor()
lead_dct = preprocessor.preprocess(pandas_ecg_combined, pandas_desc)

with open('preprocessed_data/train_set_13.pkl', 'wb') as f:
    pickle.dump(lead_dct, f)

100%|████████████████████████████████████████████████████████████████████████████████████| 7/7 [01:34<00:00, 13.44s/it]


In [32]:
for lead in ['i', 'ii', 'v5', 'iii', 'avl', 'avr', 'avf']:
    full_train_X = np.empty(shape=(0, 1330))
    for i in tqdm(range(14)):
        with open(f'preprocessed_data/train_set_{i}.pkl', 'rb') as f:
            dct = pickle.load(f)
            
        full_train_X = np.vstack((full_train_X, dct[lead]))
    
    with open(f'preprocessed_data/full_train_{lead}.pkl', 'wb') as f:
        pickle.dump(full_train_X, f)

100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:10<00:00,  1.37it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:09<00:00,  1.55it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:09<00:00,  1.53it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:09<00:00,  1.55it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:09<00:00,  1.55it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:09<00:00,  1.54it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:09<00:00,  1.51it/s]


In [33]:
full_train_y = np.empty(shape=0)
for i in tqdm(range(14)):
    with open(f'preprocessed_data/train_set_{i}.pkl', 'rb') as f:
        dct = pickle.load(f)
        
    full_train_y = np.hstack((full_train_y, dct['y']))
            
with open(f'preprocessed_data/full_train_y.pkl', 'wb') as f:
    pickle.dump(full_train_y, f)

100%|██████████████████████████████████████████████████████████████████████████████████| 14/14 [00:05<00:00,  2.49it/s]
