In [1]:
import os
import sys
import h5py
import numpy as np
import torch as pt
import pandas as pd
import matplotlib.pyplot as plt
from tqdm import tqdm
from sklearn.metrics import roc_auc_score

import mdtraj_utils as mdu
from CLoNe.clone import CLoNe
from src.structure import clean_structure, tag_hetatm_chains, split_by_chain, filter_non_atomic_subunits, remove_duplicate_tagged_subunits, concatenate_chains, atom_select, data_to_structure, encode_bfactor
from src.data_encoding import config_encoding, encode_structure, encode_features, extract_topology, extract_all_contacts, std_elements, std_resnames, std_names
from src.dataset import collate_batch_features
from src.structure_io import save_pdb

In [2]:
def traj_to_struct(traj):
    df = traj.topology.to_dataframe()[0]
    return {
        "xyz": np.transpose(traj.xyz, (1,0,2))*1e1,
        "name": df["name"].values,
        "element": df["element"].values,
        "resname": df["resName"].values,
        "resid": df["resSeq"].values,
        "het_flag": np.array(['A']*traj.xyz.shape[1]),
        "chain_name": df["chainID"].values,
        "icode": np.array([""]*df.shape[0]),
    }


def process_structure(structure):
    # process structure
    structure = clean_structure(structure)

    # update molecules chains
    structure = tag_hetatm_chains(structure)

    # split structure
    subunits = split_by_chain(structure)

    # remove non atomic structures
    subunits = filter_non_atomic_subunits(subunits)

    # remove duplicated molecules and ions
    subunits = remove_duplicate_tagged_subunits(subunits)
    
    return subunits


def superpose_transform(xyz_ref, xyz):
    # centering
    t = np.expand_dims(np.mean(xyz,axis=1),1)
    t_ref = np.expand_dims(np.mean(xyz_ref,axis=1),1)

    # SVD decomposition
    U, S, Vt = np.linalg.svd(np.matmul(np.swapaxes(xyz_ref-t_ref,1,2), xyz-t))

    # reflection matrix
    Z = np.zeros(U.shape) + np.expand_dims(np.eye(U.shape[1], U.shape[2]),0)
    Z[:,-1,-1] = np.linalg.det(U) * np.linalg.det(Vt)

    R = np.matmul(np.swapaxes(Vt,1,2), np.matmul(Z, np.swapaxes(U,1,2)))

    return t_ref, t, R


def superpose(xyz_ref, xyz):
    # centering
    t = np.expand_dims(np.mean(xyz,axis=1),1)
    t_ref = np.expand_dims(np.mean(xyz_ref,axis=1),1)

    # SVD decomposition
    U, S, Vt = np.linalg.svd(np.matmul(np.swapaxes(xyz_ref-t_ref,1,2), xyz-t))

    # reflection matrix
    Z = np.zeros(U.shape) + np.expand_dims(np.eye(U.shape[1], U.shape[2]),0)
    Z[:,-1,-1] = np.linalg.det(U) * np.linalg.det(Vt)

    R = np.matmul(np.swapaxes(Vt,1,2), np.matmul(Z, np.swapaxes(U,1,2)))

    return xyz_ref-t_ref, np.matmul(xyz-t, R)

In [3]:
# model parameters
# R3
#save_path = "save/i_v3_0_2021-05-27_14-27"  # 89
#save_path = "save/i_v3_1_2021-05-28_12-40"  # 90
# R4
#save_path = "save/i_v4_0_2021-09-07_11-20"  # 89
save_path = "save/i_v4_1_2021-09-07_11-21"  # 91

# select saved model
model_filepath = os.path.join(save_path, 'model_ckpt.pt')
#model_filepath = os.path.join(save_path, 'model.pt')

In [4]:
# add module to path
if save_path not in sys.path:
    sys.path.insert(0, save_path)
    
# load functions
from config import config_model, config_data
from data_handler import Dataset
from model import Model

In [5]:
# define device
device = pt.device("cuda")

# create model
model = Model(config_model)

# reload model
model.load_state_dict(pt.load(model_filepath, map_location=pt.device("cpu")))

# set model to inference
model = model.eval().to(device)

In [6]:
# parameters
pdbids = ["1JTG","1CLV","1Z0K","1AK4","1R6Q","1D6R","2I25","3F1P","1R0R","1E96","1GPW","1RKE","1FLE","2O3B","3SGQ","1ZHH","1CGI","2UUY","2HQS","2OOB"]
mdids = ["uR", "uL"]

# setup data connector
dc = mdu.data.DataConnector("database")

In [7]:
# parameters
n_skip = 100

for pdbid in pdbids:
    # load reference
    dc.load_reference(pdbid, "C")

    # convert and process structure
    struct_ref = traj_to_struct(dc[pdbid]["C"]["traj_ref"])
    struct_ref['xyz'] = struct_ref['xyz'][:,0]
    subunits_ref = process_structure(struct_ref)

    # find interfaces
    contacts = extract_all_contacts(subunits_ref, 5.0, device=device)
    
    # for each md
    for mdid in mdids:
        # debug print
        print(pdbid, mdid)

        # load trajectory
        dc.load_trajectory(pdbid, mdid)

        # convert to structure
        structure = traj_to_struct(dc[pdbid][mdid]['traj'])

        # process structure
        subunits = process_structure(structure)

        # concatenate subunits
        structure = concatenate_chains(subunits)

        # encode structure and features
        X_traj, M = encode_structure(structure)
        q_all = pt.cat(encode_features(structure), dim=1)
        q = encode_features(structure)[0]

        # extract topology
        ids_topk, D_topk, R_topk, D, R = extract_topology(X_traj[:,0], 64)

        # pack data and setup sink (IMPORTANT)
        _, ids_topk, q, M = collate_batch_features([[X_traj[:,0], ids_topk, q, M]])
        
        # auto-detect chains
        ids_sim = mdu.utils.align(dc[pdbid]["C"]["traj_ref"], dc[pdbid][mdid]["traj"], selection="all")
        cids_ref = dc[pdbid]["C"]["traj_ref"].topology.to_dataframe()[0].iloc[ids_sim[:,0]]['chainID'].unique().astype('str')
        cids = np.array(list(contacts))
        
        # define labels
        ids = contacts[cids_ref[0]][cids[~np.isin(cids, cids_ref)][0]]['ids']
        y = np.zeros(M.shape[0])
        y[ids[:,0]] = 1.0
        y = (np.matmul(y, M.detach().cpu().numpy()) > 0.5).astype(float)

        # run model
        P, t = [], []
        with pt.no_grad():
            for i in tqdm(range(0, X_traj.shape[1], n_skip)):
                # extract frame coordinates
                X = X_traj[:,i]

                # make prediction
                z = model(X.to(device), ids_topk.to(device), q.to(device), M.float().to(device))
                #p = pt.sigmoid(z).flatten()
                p = pt.sigmoid(z)[:,0].flatten()

                # store results
                P.append(p.detach().cpu().numpy())
                t.append(dc[pdbid][mdid]['traj'].time[i])
            
        # get atom coordinates for C_alpha for predicted frames
        X_traj_slice = X_traj[:, pt.arange(0, X_traj.shape[1], n_skip)]
        Xp = (pt.matmul(X_traj_slice.transpose(0,2), M) / pt.sum(M, axis=0).reshape(1,1,-1)).transpose(0,2).transpose(0,1).numpy()
        _, Xp = superpose(np.expand_dims(Xp[0],0), Xp)

        # pack results
        P = np.array(P)
        t = np.array(t)
        
        # save results
        np.savez("outputs/{}_{}.npz".format(pdbid, mdid), P=P, t=t, Xp=Xp, y=y)
        
        # unload data
        dc.unload_md(pdbid, mdid)
        
    # unload data
    dc.unload_pdb(pdbid)

1JTG bR


100%|██████████████████████████████████████████████████████████████████████████████| 534/534 [00:40<00:00, 13.10it/s]


1JTG bL


100%|██████████████████████████████████████████████████████████████████████████████| 546/546 [01:04<00:00,  8.51it/s]


1CLV bR


100%|██████████████████████████████████████████████████████████████████████████████| 513/513 [01:47<00:00,  4.77it/s]


1CLV bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:18<00:00, 26.88it/s]


1Z0K bR


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:41<00:00, 11.96it/s]


1Z0K bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:21<00:00, 23.26it/s]


1AK4 bR


100%|██████████████████████████████████████████████████████████████████████████████| 536/536 [00:41<00:00, 12.91it/s]


1AK4 bL


100%|██████████████████████████████████████████████████████████████████████████████| 536/536 [00:37<00:00, 14.13it/s]


1R6Q bR


100%|██████████████████████████████████████████████████████████████████████████████| 506/506 [00:35<00:00, 14.21it/s]


1R6Q bL


100%|██████████████████████████████████████████████████████████████████████████████| 558/558 [00:28<00:00, 19.73it/s]


1D6R bR


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:48<00:00, 10.34it/s]


1D6R bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:20<00:00, 24.27it/s]


2I25 bR


100%|██████████████████████████████████████████████████████████████████████████████| 533/533 [00:31<00:00, 17.02it/s]


2I25 bL


100%|██████████████████████████████████████████████████████████████████████████████| 547/547 [00:35<00:00, 15.57it/s]


3F1P bR


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:29<00:00, 16.95it/s]


3F1P bL


100%|██████████████████████████████████████████████████████████████████████████████| 574/574 [00:34<00:00, 16.62it/s]


1R0R bR


  gamma = np.arccos(np.einsum('...i, ...i', a, b) / (a_length * b_length))
100%|██████████████████████████████████████████████████████████████████████████████| 554/554 [01:02<00:00,  8.88it/s]


1R0R bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:20<00:00, 25.09it/s]


1E96 bR


100%|██████████████████████████████████████████████████████████████████████████████| 542/542 [00:47<00:00, 11.52it/s]


1E96 bL


100%|██████████████████████████████████████████████████████████████████████████████| 506/506 [00:47<00:00, 10.66it/s]


1GPW bR


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:57<00:00,  8.76it/s]


1GPW bL


100%|██████████████████████████████████████████████████████████████████████████████| 533/533 [00:51<00:00, 10.42it/s]


1RKE bR


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:39<00:00, 12.76it/s]


1RKE bL


100%|██████████████████████████████████████████████████████████████████████████████| 512/512 [00:57<00:00,  8.87it/s]


1FLE bR


100%|██████████████████████████████████████████████████████████████████████████████| 547/547 [00:58<00:00,  9.33it/s]


1FLE bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:19<00:00, 25.85it/s]


2O3B bR


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:54<00:00,  9.22it/s]


2O3B bL


100%|██████████████████████████████████████████████████████████████████████████████| 547/547 [00:36<00:00, 14.84it/s]


3SGQ bR


100%|██████████████████████████████████████████████████████████████████████████████| 540/540 [00:43<00:00, 12.51it/s]


3SGQ bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:20<00:00, 25.06it/s]


1ZHH bR


100%|██████████████████████████████████████████████████████████████████████████████| 516/516 [01:22<00:00,  6.25it/s]


1ZHH bL


100%|██████████████████████████████████████████████████████████████████████████████| 546/546 [00:56<00:00,  9.70it/s]


1CGI bR


100%|██████████████████████████████████████████████████████████████████████████████| 652/652 [01:09<00:00,  9.41it/s]


1CGI bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:20<00:00, 24.13it/s]


2UUY bR


100%|██████████████████████████████████████████████████████████████████████████████| 536/536 [00:51<00:00, 10.34it/s]


2UUY bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:20<00:00, 24.90it/s]


2HQS bR


100%|██████████████████████████████████████████████████████████████████████████████| 509/509 [01:28<00:00,  5.74it/s]


2HQS bL


100%|██████████████████████████████████████████████████████████████████████████████| 544/544 [00:31<00:00, 17.34it/s]


2OOB bR


100%|██████████████████████████████████████████████████████████████████████████████| 552/552 [00:20<00:00, 26.77it/s]


2OOB bL


100%|██████████████████████████████████████████████████████████████████████████████| 502/502 [00:22<00:00, 22.26it/s]
