In [1]:
from lib import utils, model, dataset, training, codes

import os
import h5py

from glob import glob
from sklearn.model_selection import train_test_split
import torch
import numpy as np
import pandas as pd
import json

import os

from lib import utils, model, dataset, training, codes

In [2]:
test_metrics = {'accuracy': 0.7648809523809523, 
                'atrial fibrillation_rocauc': 0.9171844215707146, 
                'atrial fibrillation_prauc': 0.4361265410523662, 
                'incomplete right bundle branch block_rocauc': 0.9088251470467772, 
                'incomplete right bundle branch block_prauc': 0.4297674746792139, 
                'left anterior fascicular block_rocauc': 0.9268139069260974, 
                'left anterior fascicular block_prauc': 0.42671961405195336, 
                'left ventricular hypertrophy_rocauc': 0.7587642655965638, 
                'left ventricular hypertrophy_prauc': 0.2757720380334504, 
                'myocardial infarction_rocauc': 0.840214852022878, 
                'myocardial infarction_prauc': 0.618194706110927, 
                'sinus rhythm_rocauc': 0.844971891867679, 
                'sinus rhythm_prauc': 0.9638187216373598, 
                'st depression_rocauc': 0.8141247154000085, 
                'st depression_prauc': 0.18970414424421614, 
                'mean_rocaucs': 0.8586998857758169, 
                'mean_praucs': 0.47715760568706955}

zero_shot_test_metrics = {'accuracy': 0.14308608058608058, 
                          'left axis deviation_rocauc': 0.5401977190506834, 
                          'left axis deviation_prauc': 0.26244650701746625, 
                          'ventricular ectopics_rocauc': 0.7736850775542983, 
                          'ventricular ectopics_prauc': 0.14137467752900137, 
                          'myocardial ischemia_rocauc': 0.7947370443020241, 
                          'myocardial ischemia_prauc': 0.23642724160072665, 
                          't wave abnormal_rocauc': 0.6003195771799039, 
                          't wave abnormal_prauc': 0.14246834225638647, 
                          'mean_rocaucs': 0.6772348545217273, 
                          'mean_praucs': 0.1956791921008952}

exp2_metrics_trained = {'accuracy': 0.09355840124175398, 
                        'sinus arrhythmia_rocauc': 0.5895783964056902, 
                        'sinus arrhythmia_prauc': 0.07774905749756673, 
                        'left ventricular hypertrophy_rocauc': 0.8941801477243011, 
                        'left ventricular hypertrophy_prauc': 0.09694352683924748, 
                        'sinus tachycardia_rocauc': 0.9082690054453708, 
                        'sinus tachycardia_prauc': 0.5379829291033716, 
                        'atrial fibrillation_rocauc': 0.9616839712795083, 
                        'atrial fibrillation_prauc': 0.4379333718137916, 
                        'sinus bradycardia_rocauc': 0.71066942466592, 
                        'sinus bradycardia_prauc': 0.21737268705116214, 
                        'mean_rocaucs': 0.812876189104158, 
                        'mean_praucs': 0.27359631446102795}

exp2_metrics_untrained = {'accuracy': 0.5838571982925883, 
                          'incomplete right bundle-branch block_rocauc': 0.8064123614532502, 
                          'incomplete right bundle-branch block_prauc': 0.19526101242705962, 
                          'st deviation_rocauc': 0.716575594805385, 
                          'st deviation_prauc': 0.2400055776428945, 
                          't-wave abnormality_rocauc': 0.6992063931745451, 
                          't-wave abnormality_prauc': 0.17219488821487497, 
                          'right bundle-branch block_rocauc': 0.8781902764200318, 
                          'right bundle-branch block_prauc': 0.648628640444118, 
                          'prolonged pr interval_rocauc': 0.6579848060170331, 
                          'prolonged pr interval_prauc': 0.019533055742954115, 
                          'atrial premature complex(es)_rocauc': 0.6521667804330289, 
                          'atrial premature complex(es)_prauc': 0.0532194289301259, 
                          'normal ecg_rocauc': 0.7021679286919714, 
                          'normal ecg_prauc': 0.6681558074606322, 
                          'st deviation with t-wave change_rocauc': 0.7112457722285048, 
                          'st deviation with t-wave change_prauc': 0.09995219189713328, 
                          'ventricular premature complex(es)_rocauc': 0.7305275710112804, 
                          'ventricular premature complex(es)_prauc': 0.153588974502212, 
                          'low voltage_rocauc': 0.46869746319861133, 
                          'low voltage_prauc': 0.012805849968587496, 
                          'mean_rocaucs': 0.7023174947433641, 
                          'mean_praucs': 0.22633454272305925}



In [6]:
config = utils.CFG({})
config.seed = 43
config.cache_path = 'cache'
config.data_path = '/ayb/vol1/datasets/ecg_datasets/physionet.org/files/challenge-2021/1.0.3/training/ptb-xl'
config.logs_path = 'results'
config.models_path = 'results'
config.test_size = 0.2
config.valid_size = 0.25
config.min_class_count = 200
config.batch_size = 256
config.num_workers = 12
config.ecg_sr = 128
config.window = 1280
config.text_embedding_size = 768
config.projection_dim = 256
config.dropout = 0.15
config.pretrained = True
config.text_encoder_model = 'emilyalsentzer/Bio_ClinicalBERT'
config.text_tokenizer = 'emilyalsentzer/Bio_ClinicalBERT'
config.temperature = 10.0
config.head_lr = 0.0001
config.image_encoder_lr = 0.001
config.device = 'cuda:0'
config.epochs = 30
config.max_length = 200
config.ecg_encoder_model = 'ECGConvEncoder'
config.ecg_encoder_channels = [32, 32, 64, 64, 128, 128, 256, 256]
config.ecg_encoder_kernels = [7, 7, 5, 5, 3, 3, 3, 3]
config.ecg_linear_size = 512
config.ecg_embedding_size = 512
config.ecg_channels = 12
config.excluded_classes = ['abnormal QRS']
config.train_required_classes = ['normal ecg']
config.zero_shot_classes_size = 0.4

In [7]:
os.environ["TOKENIZERS_PARALLELISM"] = "false"

utils.set_seed(config.seed)
df = lib.dataset.code15.load_df()

train, test = train_test_split(df, test_size=config.test_size, random_state=config.seed)
train, valid = train_test_split(train, test_size=config.valid_size, random_state=config.seed)
 
train_classes =  utils.calsses_from_captions(train['label'].values, threshold=config.min_class_count)
valid_classes =  utils.calsses_from_captions(valid['label'].values, threshold=config.min_class_count)
test_classes = utils.calsses_from_captions(test['label'].values, threshold=config.min_class_count)

train_classes = [class_ for class_ in train_classes if class_ not in config.excluded_classes]
valid_classes = [class_ for class_ in valid_classes if class_ in train_classes]
test_classes = [class_ for class_ in test_classes if class_ in train_classes]

excluded = list()
for class_ in config.train_required_classes:
    if class_ in test_classes:
        test_classes.remove(class_)
        excluded.append(class_)
        
test_classes, zero_shot_classes = train_test_split(test_classes, test_size=config.zero_shot_classes_size, random_state=config.seed)

test_classes += excluded

train_classes = [class_ for class_ in train_classes if class_ not in zero_shot_classes]
valid_classes = [class_ for class_ in valid_classes if class_ not in zero_shot_classes]

train_classes = sorted(train_classes)
valid_classes = sorted(valid_classes)
test_classes = sorted(valid_classes)

print('Train/valid/test classes counts:', len(train_classes), len(valid_classes), len(test_classes), len(zero_shot_classes))

train['label'] = utils.remove_classes(zero_shot_classes, train['label'].to_list())


Train/valid/test classes counts: 20 6 6 5


In [8]:
config.train_classes = train_classes
config.valid_classes = valid_classes
config.test_classes = test_classes
config.zero_shot_classes = zero_shot_classes

train_ds = dataset.CLIP_ECG_Dataset(train, config)
valid_ds = dataset.CLIP_ECG_Dataset(valid, config)

train_dl = torch.utils.data.DataLoader(train_ds, batch_size=config.batch_size, num_workers=config.num_workers, shuffle=True)
valid_dl = torch.utils.data.DataLoader(valid_ds, batch_size=config.batch_size, num_workers=config.num_workers, shuffle=False)

net = model.CLIPModel(config)
net = net.to(config.device)
params = [
    {"params": net.image_encoder.parameters(), "lr": config.image_encoder_lr},
    {"params": net.image_projection.parameters(), "lr": config.head_lr},
    {"params": net.text_projection.parameters(), "lr": config.head_lr},
]

optimizer = torch.optim.Adam(params)

cfg = {k:v for k, v in config.__dict__.items() if not k.startswith('__')}
cfg_hash = utils.generate_dict_hash(cfg)

with open(f'{config.logs_path}/{cfg_hash}.cfg', 'w') as fp:
    json.dump(cfg, fp)

history = list()
best_valid_score = 0.0
for epoch in range(config.epochs):
    print(f"Epoch: {epoch + 1}")
    hrow = dict()
    hrow['epoch'] = epoch
    net.train()
    train_loss_meter, train_accuracy_meter = training.train_epoch(net, train_dl, optimizer, train_classes, config)
    hrow['train_loss'] = train_loss_meter.avg
    
    metrics = training.valid_epoch(net, train_dl, train_classes, config) 
    hrow.update({f'train_{key}': val for key, val in metrics.items()})
    #hrow['train_mean_rocaucs'] = np.mean([val for key, val in metrics.items() if key.endswith('_rocauc') and val is not None])
    #hrow['train_mean_praucs'] = np.mean([val for key, val in metrics.items() if key.endswith('_prauc') and val is not None])
    print('Train:', hrow['train_mean_rocaucs'], hrow['train_mean_praucs'])
    
    metrics = training.valid_epoch(net, valid_dl, valid_classes, config) 
    hrow.update({f'valid_{key}': val for key, val in metrics.items()})
    #hrow['valid_mean_rocaucs'] = np.mean([val for key, val in metrics.items() if key.endswith('_rocauc') and val is not None])
    #hrow['valid_mean_praucs'] = np.mean([val for key, val in metrics.items() if key.endswith('_prauc') and val is not None])
    print('Valid:', hrow['valid_mean_rocaucs'], hrow['valid_mean_praucs'])
    
    history.append(hrow)
    pd.DataFrame(history).to_csv(config.logs_path + f'/{cfg_hash}.csv', index=False)

    if hrow['valid_mean_rocaucs'] > best_valid_score:
        best_valid_score = hrow['valid_mean_rocaucs']
        torch.save(net.state_dict(), config.models_path + f'/{cfg_hash}.pt')      

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13101/13101 [00:02<00:00, 6342.22it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4368/4368 [00:04<00:00, 1081.60it/s]


Epoch: 1


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:27<00:00,  1.92it/s, train_accuracy=0.15, train_loss=5.22]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.6964327166667119 0.1732649198718541


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.80it/s]


Valid: 0.7866917427707077 0.33670307383112524
Epoch: 2


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.11it/s, train_accuracy=0.274, train_loss=4.72]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.6467053881078058 0.19514899228999277


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.7555480236607942 0.3228308482812955
Epoch: 3


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.15it/s, train_accuracy=0.345, train_loss=4.52]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.6717790967066846 0.2624200258465691


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.79it/s]


Valid: 0.7742371612313499 0.3947304364203837
Epoch: 4


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.369, train_loss=4.35]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.41it/s]


Train: 0.7029707392611447 0.31152724040876306


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.80it/s]


Valid: 0.8053936825334858 0.4686925218023872
Epoch: 5


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.13it/s, train_accuracy=0.394, train_loss=4.23]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.7100251298747188 0.32228956542427245


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.80it/s]


Valid: 0.7808048820405092 0.4582248421249524
Epoch: 6


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.15it/s, train_accuracy=0.411, train_loss=4.13]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.7185803570152053 0.33432591173339504


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.7763713392598787 0.43760982183997404
Epoch: 7


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.12it/s, train_accuracy=0.416, train_loss=4.01]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.40it/s]


Train: 0.7045027519711857 0.34939710548672187


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.79it/s]


Valid: 0.7677698767074714 0.4274169149021128
Epoch: 8


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.444, train_loss=3.9]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.7604579907285268 0.39149739665129457


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.80it/s]


Valid: 0.8056128794025607 0.48290044952575695
Epoch: 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.11it/s, train_accuracy=0.444, train_loss=3.77]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.45it/s]


Train: 0.7549184060651609 0.3962016587739308


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.80it/s]


Valid: 0.7849079751801584 0.4507476563135013
Epoch: 10


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.16it/s, train_accuracy=0.456, train_loss=3.63]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.771974475246059 0.42479371796853915


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.80it/s]


Valid: 0.7877920977796049 0.4560553739873223
Epoch: 11


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.11it/s, train_accuracy=0.47, train_loss=3.51]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.45it/s]


Train: 0.821762030689208 0.45791408270952916


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.8151902410394909 0.5164095461174569
Epoch: 12


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.48, train_loss=3.39]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.41it/s]


Train: 0.7763374004121587 0.4456137283872793


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.79it/s]


Valid: 0.7799530118639831 0.4549477505340473
Epoch: 13


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.16it/s, train_accuracy=0.485, train_loss=3.26]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.47it/s]


Train: 0.74307561479589 0.3897283854228522


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.79it/s]


Valid: 0.7316509794008078 0.3693203817225304
Epoch: 14


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.11it/s, train_accuracy=0.499, train_loss=3.16]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.7974221742915106 0.478571461032894


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.82it/s]


Valid: 0.7724121938762728 0.4496382679174962
Epoch: 15


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.13it/s, train_accuracy=0.501, train_loss=3.02]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.7658853535156248 0.4506076464988544


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.82it/s]


Valid: 0.7463675310891104 0.4135507534054823
Epoch: 16


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:23<00:00,  2.17it/s, train_accuracy=0.5, train_loss=2.96]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:19<00:00,  2.66it/s]


Train: 0.7435620789874012 0.4080564912938122


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.82it/s]


Valid: 0.6877862485258598 0.3373181691020759
Epoch: 17


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.16it/s, train_accuracy=0.505, train_loss=2.88]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.46it/s]


Train: 0.7569933174737776 0.4364327959842833


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.7111409055363224 0.38888159048808335
Epoch: 18


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.16it/s, train_accuracy=0.516, train_loss=2.78]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.8194094243009257 0.5148067694856014


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.771727598807011 0.4384115894215895
Epoch: 19


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.15it/s, train_accuracy=0.521, train_loss=2.67]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:13<00:00,  3.77it/s]


Train: 0.7843160670867785 0.4671918006370383


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.71it/s]


Valid: 0.7076749262105678 0.3732829038178351
Epoch: 20


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.528, train_loss=2.63]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.7468963151369087 0.4299758919860664


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.6995652924128274 0.35434064485080946
Epoch: 21


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.533, train_loss=2.58]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.41it/s]


Train: 0.7716100562756175 0.4653259949291823


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.80it/s]


Valid: 0.7094127489118462 0.38959032944526495
Epoch: 22


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.536, train_loss=2.54]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.7616906620542587 0.4474481059297939


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.75it/s]


Valid: 0.7006693653033 0.35997737636049115
Epoch: 23


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.15it/s, train_accuracy=0.534, train_loss=2.51]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.46it/s]


Train: 0.7444821901413265 0.4304907705827904


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.80it/s]


Valid: 0.6563750307419184 0.336389865706932
Epoch: 24


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.533, train_loss=2.49]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.7684952340991894 0.4660999955230973


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.7122246361311824 0.3945256053733926
Epoch: 25


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.16it/s, train_accuracy=0.539, train_loss=2.49]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.7677563742784486 0.47021632616847125


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.7090099012074247 0.380879937852179
Epoch: 26


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.14it/s, train_accuracy=0.535, train_loss=2.45]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.44it/s]


Train: 0.8063944000440066 0.5048147456033295


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.7351361407737489 0.40393175974144757
Epoch: 27


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.15it/s, train_accuracy=0.542, train_loss=2.42]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.42it/s]


Train: 0.7981578843624866 0.5105358842252297


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.7208512955802858 0.40369769658558763
Epoch: 28


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.11it/s, train_accuracy=0.544, train_loss=2.4]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.43it/s]


Train: 0.7545289191737896 0.4513978184611876


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.6596122862354381 0.3369173494628274
Epoch: 29


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.13it/s, train_accuracy=0.55, train_loss=2.39]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:21<00:00,  2.42it/s]


Train: 0.7396870483000364 0.43988940880508476


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.80it/s]


Valid: 0.6850310117420749 0.35069846713437847
Epoch: 30


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:24<00:00,  2.12it/s, train_accuracy=0.55, train_loss=2.38]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 52/52 [00:22<00:00,  2.29it/s]


Train: 0.7447740054388751 0.45541626324140666


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:09<00:00,  1.81it/s]


Valid: 0.6719039313065379 0.3571537360701325


In [9]:
net = model.CLIPModel(config)
net.load_state_dict(torch.load(config.models_path + f'/{cfg_hash}.pt', weights_only=True))
net.to(config.device)

CLIPModel(
  (image_encoder): ECGEncoder(
    (ecg_encoder): ECGConvEncoder(
      (conv_encoder): ConvEncoder(
        (in_layer): Conv1dBlock(
          (conv): Conv1d(12, 32, kernel_size=(7,), stride=(1,), bias=False)
          (bn): BatchNorm1d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (act): ReLU()
          (maxpool): MaxPool1d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
        )
        (conv_layers): ModuleList(
          (0): Conv1dBlock(
            (conv): Conv1d(32, 32, kernel_size=(7,), stride=(1,), bias=False)
            (bn): BatchNorm1d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (act): ReLU()
            (maxpool): MaxPool1d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
          )
          (1): Conv1dBlock(
            (conv): Conv1d(32, 64, kernel_size=(5,), stride=(1,), bias=False)
            (bn): BatchNorm1d(64, eps=1e-05, momentum=0.1, affine=True, 

In [10]:
test_ds = dataset.CLIP_ECG_Dataset(test, config)
test_dl = torch.utils.data.DataLoader(test_ds, batch_size=config.batch_size, num_workers=config.num_workers, shuffle=True)
metrics = training.valid_epoch(net, test_dl, config.test_classes, config) 
config.test_metrics = metrics

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4368/4368 [00:07<00:00, 558.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.74it/s]


In [11]:
metrics = training.valid_epoch(net, test_dl, config.zero_shot_classes, config) 
config.zero_shot_test_metrics = metrics

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:10<00:00,  1.73it/s]


In [12]:
config

seed: 43
cache_path: cache
data_path: /ayb/vol1/datasets/ecg_datasets/physionet.org/files/challenge-2021/1.0.3/training/ptb-xl
logs_path: results
models_path: results
test_size: 0.2
valid_size: 0.25
min_class_count: 200
batch_size: 256
num_workers: 12
ecg_sr: 128
window: 1280
text_embedding_size: 768
projection_dim: 256
dropout: 0.15
pretrained: True
text_encoder_model: emilyalsentzer/Bio_ClinicalBERT
text_tokenizer: emilyalsentzer/Bio_ClinicalBERT
temperature: 10.0
head_lr: 0.0001
image_encoder_lr: 0.001
device: cuda:2
epochs: 30
max_length: 200
ecg_encoder_model: ECGConvEncoder
ecg_encoder_channels: [32, 32, 64, 64, 128, 128, 256, 256]
ecg_encoder_kernels: [7, 7, 5, 5, 3, 3, 3, 3]
ecg_linear_size: 512
ecg_embedding_size: 512
ecg_channels: 12
excluded_classes: ['abnormal QRS']
train_required_classes: ['sinus rhythm']
zero_shot_classes_size: 0.4
train_classes: ['1st degree av block', 'anterior myocardial infarction', 'atrial fibrillation', 'complete right bundle branch block', 'incompl

In [13]:
def remove_nonprimary_code(x):
    r = []
    for cx in x:
        for c in cx.split('+'):
            if int(c) < 200 or int(c) >= 500:
                if c not in r:
                    r.append(c)
    return r

def codes_to_caption(codes):
    classes = [description_dict[int(code)].lower() for code in codes]
    caption = ', '.join(classes)
    return caption

In [14]:
data_path = '/ayb/vol1/datasets/ecg_datasets/SPH'
ecg_files = sorted(glob(f'{data_path}/records/*.h5'))
df = pd.read_csv(f'{data_path}/metadata.csv')
df['primary_codes'] = df['AHA_Code'].str.split(';').apply(remove_nonprimary_code)
description_dict = pd.read_csv(f'{data_path}/code.csv').set_index('Code')['Description'].to_dict()
df['label'] = df['primary_codes'].apply(codes_to_caption)
df['ecg_file'] = df['ECG_ID'].apply(lambda x: f'{data_path}/records/{x}.h5')

In [15]:
df = df[['ecg_file', 'label']]

In [16]:
config.exp2_classes = utils.calsses_from_captions(df['label'].values, threshold=config.min_class_count)
config.exp2_trained_classes = list(set(config.exp2_classes) & set(config.train_classes))
config.exp2_untrained_classes = list(set(config.exp2_classes) - set(config.train_classes))

In [17]:
test_ds = dataset.CLIP_ECG_Dataset(df, config)
test_dl = torch.utils.data.DataLoader(test_ds, batch_size=config.batch_size, num_workers=config.num_workers, shuffle=True)
metrics = training.valid_epoch(net, test_dl, config.exp2_trained_classes, config) 
config.exp2_metrics_trained = metrics

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25770/25770 [00:31<00:00, 819.29it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 101/101 [00:32<00:00,  3.08it/s]


In [18]:
metrics = training.valid_epoch(net, test_dl, config.exp2_untrained_classes, config) 
config.exp2_metrics_untrained = metrics

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 101/101 [00:32<00:00,  3.14it/s]


In [19]:
config

seed: 43
cache_path: cache
data_path: /ayb/vol1/datasets/ecg_datasets/physionet.org/files/challenge-2021/1.0.3/training/ptb-xl
logs_path: results
models_path: results
test_size: 0.2
valid_size: 0.25
min_class_count: 200
batch_size: 256
num_workers: 12
ecg_sr: 128
window: 1280
text_embedding_size: 768
projection_dim: 256
dropout: 0.15
pretrained: True
text_encoder_model: emilyalsentzer/Bio_ClinicalBERT
text_tokenizer: emilyalsentzer/Bio_ClinicalBERT
temperature: 10.0
head_lr: 0.0001
image_encoder_lr: 0.001
device: cuda:2
epochs: 30
max_length: 200
ecg_encoder_model: ECGConvEncoder
ecg_encoder_channels: [32, 32, 64, 64, 128, 128, 256, 256]
ecg_encoder_kernels: [7, 7, 5, 5, 3, 3, 3, 3]
ecg_linear_size: 512
ecg_embedding_size: 512
ecg_channels: 12
excluded_classes: ['abnormal QRS']
train_required_classes: ['sinus rhythm']
zero_shot_classes_size: 0.4
train_classes: ['1st degree av block', 'anterior myocardial infarction', 'atrial fibrillation', 'complete right bundle branch block', 'incompl

In [23]:
config.exp2_metrics_trained

{'accuracy': 0.11567714396585177,
 'sinus bradycardia_rocauc': 0.7796572514920068,
 'sinus bradycardia_prauc': 0.3991722290142541,
 'left ventricular hypertrophy_rocauc': 0.829403309355292,
 'left ventricular hypertrophy_prauc': 0.10562400276016287,
 'sinus tachycardia_rocauc': 0.9401822650264008,
 'sinus tachycardia_prauc': 0.7631617791201941,
 'atrial fibrillation_rocauc': 0.8981419642395932,
 'atrial fibrillation_prauc': 0.7331563995521371,
 'sinus arrhythmia_rocauc': 0.6221664196823521,
 'sinus arrhythmia_prauc': 0.09724195016364243,
 'mean_rocaucs': 0.8139102419591291,
 'mean_praucs': 0.41967127212207805}

In [22]:
config.exp2_metrics_untrained

{'accuracy': 0.10597594101668607,
 'atrial premature complex(es)_rocauc': 0.7764319653011003,
 'atrial premature complex(es)_prauc': 0.10388642318618857,
 'right bundle-branch block_rocauc': 0.8843651606102649,
 'right bundle-branch block_prauc': 0.5774824759878731,
 'normal ecg_rocauc': 0.49462562845556807,
 'normal ecg_prauc': 0.4955339106990464,
 'low voltage_rocauc': 0.6135682116838916,
 'low voltage_prauc': 0.023486244179204356,
 'st deviation with t-wave change_rocauc': 0.7765202148484092,
 'st deviation with t-wave change_prauc': 0.165673467244756,
 'st deviation_rocauc': 0.6026836187169626,
 'st deviation_prauc': 0.15810989138781661,
 'prolonged pr interval_rocauc': 0.6416224918606013,
 'prolonged pr interval_prauc': 0.22577283677201485,
 'incomplete right bundle-branch block_rocauc': 0.8057669492639005,
 'incomplete right bundle-branch block_prauc': 0.24711554812334352,
 'ventricular premature complex(es)_rocauc': 0.7395847295675815,
 'ventricular premature complex(es)_prauc':