In [1]:
import numpy as np
import sys
import time
import h5py
from tqdm import tqdm

import numpy as np
import re
from math import ceil
from sklearn.metrics import average_precision_score
from torch.utils.data import Dataset
import torch
import torch.nn as nn
import pandas as pd
import matplotlib.pyplot as plt
import pickle
#import pickle5 as pickle

from sklearn.model_selection import train_test_split

from scipy.sparse import load_npz
from glob import glob

from transformers import get_constant_schedule_with_warmup
from sklearn.metrics import precision_score,recall_score,accuracy_score
import copy

from src.train import trainModel

#from src.dataloader import getData,spliceDataset,h5pyDataset,collate_fn
from src.dataloader import get_GTEX_v8_Data,spliceDataset,h5pyDataset,getDataPointList,getDataPointListGTEX,DataPointGTEX
from src.weight_init import keras_init
from src.losses import categorical_crossentropy_2d,kl_div_2d
from src.model import SpliceFormer
from src.evaluation_metrics import print_topl_statistics,cross_entropy_2d

In [2]:
!nvidia-smi

Fri Jun  2 10:36:33 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.43.04    Driver Version: 515.43.04    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA A100-PCI...  Off  | 00000000:31:00.0 Off |                    0 |
| N/A   36C    P0    36W / 250W |      0MiB / 40960MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA A100-PCI...  Off  | 00000000:98:00.0 Off |                    0 |
| N/A   34C    P0    37W / 250W |      0MiB / 40960MiB |      0%      Defaul

In [3]:
#!pip install pickle5

In [4]:
rng = np.random.default_rng(23673)

In [5]:
#gtf = None

In [6]:
L = 32
N_GPUS = 3
k = 2
NUM_ACCUMULATION_STEPS=1
# Hyper-parameters:
# L: Number of convolution kernels
# W: Convolution window size in each residual unit
# AR: Atrous rate in each residual unit

W = np.asarray([11, 11, 11, 11, 11, 11, 11, 11,
                21, 21, 21, 21, 41, 41, 41, 41])
AR = np.asarray([1, 1, 1, 1, 4, 4, 4, 4,
                 10, 10, 10, 10, 25, 25, 25, 25])
BATCH_SIZE = 16*k*N_GPUS

k = NUM_ACCUMULATION_STEPS*k

CL = 2 * np.sum(AR*(W-1))

In [7]:
data_dir = '/odinn/tmp/benediktj/Data/SplicePrediction-rnasplice-blood-250523/'
setType = 'all'
annotation, gene_to_label, seqData = get_GTEX_v8_Data(data_dir, setType,'annotation_rnasplice-blood.txt')

In [8]:
from collections import defaultdict

In [9]:
# Maximum nucleotide context length (CL_max/2 on either side of the 
# position of interest)
# CL_max should be an even number
# Sequence length of SpliceAIs (SL+CL will be the input length and
# SL will be the output length)

SL=5000
CL_max=40000

In [10]:
assert CL_max % 2 == 0

In [11]:
#train_gene, validation_gene = train_test_split(annotation['gene'].drop_duplicates(),test_size=.1,random_state=435)
#annotation_train = annotation[annotation['gene'].isin(train_gene)]
#annotation_validation = annotation[annotation['gene'].isin(validation_gene)]

In [12]:
#with open('{}/sparse_discrete_gene_label_data_{}.pickle'.format(data_dir,setType), 'rb') as handle:
#    gene_to_label_old = pickle.load(handle)

In [13]:
#for gene in gene_to_label_old.keys():
#    if len(gene_to_label[gene])==0:
#        gene_to_label[gene] = gene_to_label_old[gene]

In [14]:
train_dataset = spliceDataset(getDataPointListGTEX(annotation,gene_to_label,SL,CL_max,shift=SL))
#val_dataset = spliceDataset(getDataPointListGTEX(annotation_validation,gene_to_label,SL,CL_max,shift=SL))
train_dataset.seqData = seqData
#val_dataset.seqData = seqData

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=16, pin_memory=True)
#val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=BATCH_SIZE//4, shuffle=False, num_workers=16)

In [15]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
epochs = 4
hs = []
learning_rate= k*1e-4
gamma=0.5
temp = 1
#final_lr = 1e-5
#gamma = 1/(learning_rate/final_lr)**(1/5) 

In [16]:
for model_nr in range(10):
    model_m = SpliceFormer(CL_max,bn_momentum=0.01/NUM_ACCUMULATION_STEPS,depth=4,heads=4,n_transformer_blocks=2)
    model_m.apply(keras_init)
    model_m = model_m.to(device)
    if torch.cuda.device_count() > 1:
        #print("Let's use", torch.cuda.device_count(), "GPUs!")
        # dim = 0 [30, xxx] -> [10, ...], [10, ...], [10, ...] on 3 GPUs
        model_m = nn.DataParallel(model_m)
    
    model_m.load_state_dict(torch.load('../Results/PyTorch_Models/transformer_encoder_40k_031122_{}'.format(model_nr)))
    modelFileName = '../Results/PyTorch_Models/transformer_encoder_40k_finetune_rnasplice-blood_all_250523_{}'.format(model_nr)
    loss = categorical_crossentropy_2d().loss
    #loss = kl_div_2d(temp=temp).loss
    optimizer = torch.optim.AdamW(model_m.parameters(), lr=learning_rate, weight_decay=1e-5)
    scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=1, gamma=gamma)
    warmup = get_constant_schedule_with_warmup(optimizer, num_warmup_steps=100)
    #if model_nr>0:
    h = trainModel(model_m,modelFileName,loss,train_loader,None,optimizer,scheduler,warmup,BATCH_SIZE,epochs,device,skipValidation=True,lowValidationGPUMem=True,NUM_ACCUMULATION_STEPS=NUM_ACCUMULATION_STEPS,CL_max=CL_max,reinforce=True,continous_labels=False)
    #else:
    #    h = trainModel(model_m,modelFileName,loss,train_loader,val_loader,optimizer,scheduler,warmup,BATCH_SIZE,epochs,device,skipValidation=False,lowValidationGPUMem=True,NUM_ACCUMULATION_STEPS=NUM_ACCUMULATION_STEPS,CL_max=CL_max,reinforce=True,continous_labels=False)
    #    plt.plot(range(epochs),h['loss'],label='Train')
    #    plt.plot(range(epochs),h['val_loss'],label='Validation')
    #    plt.xlabel('Epoch')
    #    plt.ylabel('Loss')
    #    plt.legend()
    #    plt.show()
    hs.append(h)

Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [52:18<00:00,  1.26s/it, a_r=0.758, d_r=0.788, loss=0.000406, r_a=0.997, r_d=0.997, r_loss=2.72]


epoch: 1/4, train loss = 0.000424


Epoch (train) 2/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:26<00:00,  1.24s/it, a_r=0.762, d_r=0.789, loss=0.000397, r_a=0.997, r_d=0.997, r_loss=2.64]


epoch: 2/4, train loss = 0.000392


Epoch (train) 3/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:20<00:00,  1.24s/it, a_r=0.767, d_r=0.794, loss=0.000376, r_a=0.998, r_d=0.998, r_loss=2.59]


epoch: 3/4, train loss = 0.000380


Epoch (train) 4/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:30<00:00,  1.25s/it, a_r=0.765, d_r=0.791, loss=0.000385, r_a=0.998, r_d=0.998, r_loss=2.57]


epoch: 4/4, train loss = 0.000371


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:39<00:00,  1.25s/it, a_r=0.758, d_r=0.786, loss=0.000399, r_a=0.997, r_d=0.997, r_loss=2.38]


epoch: 1/4, train loss = 0.000422


Epoch (train) 2/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:31<00:00,  1.25s/it, a_r=0.764, d_r=0.79, loss=0.000387, r_a=0.997, r_d=0.997, r_loss=2.34]


epoch: 2/4, train loss = 0.000390


Epoch (train) 3/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:40<00:00,  1.25s/it, a_r=0.764, d_r=0.792, loss=0.000379, r_a=0.998, r_d=0.998, r_loss=2.34]


epoch: 3/4, train loss = 0.000378


Epoch (train) 4/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:43<00:00,  1.25s/it, a_r=0.767, d_r=0.794, loss=0.000362, r_a=0.998, r_d=0.998, r_loss=2.2]


epoch: 4/4, train loss = 0.000368


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:23<00:00,  1.24s/it, a_r=0.764, d_r=0.788, loss=0.000404, r_a=0.997, r_d=0.997, r_loss=5.68]


epoch: 1/4, train loss = 0.000428


Epoch (train) 2/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:49<00:00,  1.25s/it, a_r=0.763, d_r=0.793, loss=0.000394, r_a=0.998, r_d=0.998, r_loss=5.71]


epoch: 2/4, train loss = 0.000394


Epoch (train) 3/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:28<00:00,  1.24s/it, a_r=0.764, d_r=0.794, loss=0.000375, r_a=0.998, r_d=0.998, r_loss=5.7]


epoch: 3/4, train loss = 0.000383


Epoch (train) 4/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:25<00:00,  1.24s/it, a_r=0.766, d_r=0.793, loss=0.000383, r_a=0.998, r_d=0.998, r_loss=5.82]


epoch: 4/4, train loss = 0.000374


Epoch (train) 1/4: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:52<00:00,  1.25s/it, a_r=0.764, d_r=0.79, loss=0.0004, r_a=0.997, r_d=0.997, r_loss=2.68]


epoch: 1/4, train loss = 0.000425


Epoch (train) 2/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:11<00:00,  1.24s/it, a_r=0.763, d_r=0.785, loss=0.000389, r_a=0.997, r_d=0.998, r_loss=2.61]


epoch: 2/4, train loss = 0.000392


Epoch (train) 3/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:45<00:00,  1.25s/it, a_r=0.759, d_r=0.788, loss=0.000386, r_a=0.998, r_d=0.998, r_loss=2.78]


epoch: 3/4, train loss = 0.000382


Epoch (train) 4/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:52<00:00,  1.25s/it, a_r=0.77, d_r=0.798, loss=0.000365, r_a=0.998, r_d=0.998, r_loss=2.71]


epoch: 4/4, train loss = 0.000373


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:22<00:00,  1.24s/it, a_r=0.759, d_r=0.787, loss=0.000414, r_a=0.997, r_d=0.997, r_loss=2.67]


epoch: 1/4, train loss = 0.000424


Epoch (train) 2/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:36<00:00,  1.25s/it, a_r=0.762, d_r=0.79, loss=0.000396, r_a=0.998, r_d=0.998, r_loss=2.67]


epoch: 2/4, train loss = 0.000391


Epoch (train) 3/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:42<00:00,  1.25s/it, a_r=0.768, d_r=0.796, loss=0.00038, r_a=0.997, r_d=0.998, r_loss=2.63]


epoch: 3/4, train loss = 0.000380


Epoch (train) 4/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:32<00:00,  1.25s/it, a_r=0.77, d_r=0.794, loss=0.000375, r_a=0.998, r_d=0.998, r_loss=2.75]


epoch: 4/4, train loss = 0.000371


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:43<00:00,  1.25s/it, a_r=0.759, d_r=0.785, loss=0.000406, r_a=0.997, r_d=0.997, r_loss=5.43]


epoch: 1/4, train loss = 0.000428


Epoch (train) 2/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:45<00:00,  1.25s/it, a_r=0.764, d_r=0.793, loss=0.000395, r_a=0.997, r_d=0.998, r_loss=5.59]


epoch: 2/4, train loss = 0.000395


Epoch (train) 3/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:35<00:00,  1.25s/it, a_r=0.77, d_r=0.792, loss=0.000378, r_a=0.998, r_d=0.998, r_loss=5.69]


epoch: 3/4, train loss = 0.000384


Epoch (train) 4/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:41<00:00,  1.25s/it, a_r=0.766, d_r=0.792, loss=0.000372, r_a=0.998, r_d=0.998, r_loss=5.47]


epoch: 4/4, train loss = 0.000375


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:43<00:00,  1.25s/it, a_r=0.758, d_r=0.787, loss=0.000403, r_a=0.997, r_d=0.997, r_loss=2.95]


epoch: 1/4, train loss = 0.000424


Epoch (train) 2/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:49<00:00,  1.25s/it, a_r=0.759, d_r=0.792, loss=0.000392, r_a=0.997, r_d=0.998, r_loss=2.88]


epoch: 2/4, train loss = 0.000392


Epoch (train) 3/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:52<00:00,  1.25s/it, a_r=0.766, d_r=0.79, loss=0.000377, r_a=0.998, r_d=0.998, r_loss=2.85]


epoch: 3/4, train loss = 0.000381


Epoch (train) 4/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:40<00:00,  1.25s/it, a_r=0.768, d_r=0.795, loss=0.000377, r_a=0.998, r_d=0.998, r_loss=2.89]


epoch: 4/4, train loss = 0.000372


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:22<00:00,  1.24s/it, a_r=0.757, d_r=0.787, loss=0.000411, r_a=0.997, r_d=0.997, r_loss=5.43]


epoch: 1/4, train loss = 0.000425


Epoch (train) 2/4: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:40<00:00,  1.25s/it, a_r=0.752, d_r=0.786, loss=0.0004, r_a=0.997, r_d=0.998, r_loss=5.18]


epoch: 2/4, train loss = 0.000393


Epoch (train) 3/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:26<00:00,  1.24s/it, a_r=0.757, d_r=0.784, loss=0.000388, r_a=0.998, r_d=0.998, r_loss=5.32]


epoch: 3/4, train loss = 0.000381


Epoch (train) 4/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:35<00:00,  1.25s/it, a_r=0.77, d_r=0.801, loss=0.000368, r_a=0.998, r_d=0.998, r_loss=5.39]


epoch: 4/4, train loss = 0.000371


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:33<00:00,  1.25s/it, a_r=0.757, d_r=0.785, loss=0.000408, r_a=0.997, r_d=0.997, r_loss=5.57]


epoch: 1/4, train loss = 0.000426


Epoch (train) 2/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:55<00:00,  1.26s/it, a_r=0.761, d_r=0.79, loss=0.000392, r_a=0.997, r_d=0.998, r_loss=5.58]


epoch: 2/4, train loss = 0.000393


Epoch (train) 3/4: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:16<00:00,  1.24s/it, a_r=0.77, d_r=0.796, loss=0.000374, r_a=0.998, r_d=0.998, r_loss=5.7]


epoch: 3/4, train loss = 0.000381


Epoch (train) 4/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [52:01<00:00,  1.26s/it, a_r=0.762, d_r=0.795, loss=0.000375, r_a=0.998, r_d=0.998, r_loss=5.79]


epoch: 4/4, train loss = 0.000371


Epoch (train) 1/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:45<00:00,  1.25s/it, a_r=0.759, d_r=0.783, loss=0.000415, r_a=0.997, r_d=0.997, r_loss=6.03]


epoch: 1/4, train loss = 0.000425


Epoch (train) 2/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:53<00:00,  1.25s/it, a_r=0.767, d_r=0.793, loss=0.000391, r_a=0.997, r_d=0.998, r_loss=6.04]


epoch: 2/4, train loss = 0.000393


Epoch (train) 3/4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [51:16<00:00,  1.24s/it, a_r=0.766, d_r=0.795, loss=0.000385, r_a=0.998, r_d=0.998, r_loss=5.87]


epoch: 3/4, train loss = 0.000382


Epoch (train) 4/4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2481/2481 [52:04<00:00,  1.26s/it, a_r=0.767, d_r=0.793, loss=0.00037, r_a=0.998, r_d=0.998, r_loss=5.81]

epoch: 4/4, train loss = 0.000372



