In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import json
import numpy as np
from torch.utils.data import Dataset, DataLoader
import glob
import wandb
import os
import torch.optim as optimizers
import dfs_code
from torch_geometric.data import InMemoryDataset, Data
import pickle
import torch
import torch.nn as nn
import tqdm
import copy
import pandas as pd
import torch.nn.functional as F
import sys
import yaml
import functools
from ml_collections import ConfigDict
sys.path = ['../../src'] + sys.path
from dfs_transformer import DFSCodeSeq2SeqFC, Deepchem2TorchGeometric, Trainer, to_cuda, Enzymes
from graphein.protein.resi_atoms import RESI_THREE_TO_1, AMINO_ACIDS




To use the Graphein submodule graphein.protein.features.sequence.embeddings, you need to install biovec.

To do so, use the following command:

    pip install biovec
To use the Graphein submodule graphein.protein.visualisation, you need to install pytorch3d.

pytorch3d cannot be installed via pip
To use the Graphein submodule graphein.protein.meshes, you need to install pytorch3d.

pytorch3d cannot be installed via pip


In [3]:
def collate_fn(dlist, alpha=0, n_classes=384):
    node_batch = [] 
    edge_batch = []
    y_batch = []
    code_batch = []
    for d in dlist:
        node_batch += [d.node_features.clone()]
        edge_batch += [d.edge_features.clone()]
        code_batch += [d.min_dfs_code.clone()]
        y_batch += [d.y]
    y = torch.tensor(y_batch, dtype=torch.long)
    #y = (1-alpha)*y + alpha/n_classes
    return code_batch, node_batch, edge_batch, y

In [4]:
m = ConfigDict()
t = ConfigDict()
d = ConfigDict()

In [5]:
m["class"] = "DFSCodeSeq2SeqFC"
m["n_atoms"] = 26
m["n_bonds"] = 8
m["emb_dim"] = 120
m["nhead"] = 12
m["nlayers"] = 6
m["max_nodes"] = 1000
m["max_edges"] = 500
m["dim_feedforward"] = 2048
m["missing_value"] = None
m["n_node_features"] = 26
m["n_edge_features"] = 8
m["n_class_tokens"] = 1 
m["use_min"] = True

t["batch_size"] = 50
t["gpu_id"] = 0
t["load_last"] = False
t["fingerprint"] = "cls"
t["accumulate_grads"] = 2
t["alpha"] = 0.0
t["clip_gradient"] = 0.5
t["decay_factor"] = 0.8
t["es_improvement"] = 0.0
t["es_path"] = None
t["es_patience"] = 30
t["es_period"] = 203
t["lr_head"] = 0.003
t["lr_encoder"] = 0.00003 # 0.00003
t["lr_patience"] = 3
t["lr_adjustment_period"] = 203
t["wdecay_encoder"] = 0.0
t["n_epochs"] = 1000
t["struct"] = True
t["seed"] = 123
t["num_workers"] = 8

d["n_classes"] = 384
d["path"] = "/mnt/ssd/datasets/enzyme/graphein_basic_n1000_m500.pkl"
d["n_edge_types"] = 8
d["n_node_types"] = 26

In [6]:
mode = "online"
name = "dfstr*.-%d-%d"%(m.emb_dim*5, m.nhead)
project = "enzymes-n200"

In [7]:
dataset = Enzymes(path=d.path, acids2int=AMINO_ACIDS)

In [8]:
train_idx = torch.tensor([idx for idx, d in enumerate(dataset) if d.split == "train"], dtype=torch.long)
valid_idx = torch.tensor([idx for idx, d in enumerate(dataset) if d.split == "valid"], dtype=torch.long)
test_idx = torch.tensor([idx for idx, d in enumerate(dataset) if d.split == "test"], dtype=torch.long)

In [9]:
coll_train = functools.partial(collate_fn, alpha=t.alpha, n_classes=d.n_classes)

In [10]:
trainloader = DataLoader(dataset, sampler=torch.utils.data.SubsetRandomSampler(train_idx), 
                         batch_size=t.batch_size, collate_fn=coll_train, num_workers=t.num_workers)
validloader = DataLoader(dataset, sampler=torch.utils.data.SubsetRandomSampler(valid_idx), 
                         batch_size=t.batch_size, collate_fn=collate_fn, num_workers=t.num_workers)
testloader = DataLoader(dataset, sampler=torch.utils.data.SubsetRandomSampler(test_idx), 
                        batch_size=t.batch_size, collate_fn=collate_fn, num_workers=t.num_workers)

In [11]:
data = next(iter(trainloader))

In [12]:
config = ConfigDict()
config["model"] = m
config["training"] = t
config["data"] = d

In [13]:
run = wandb.init(mode=mode, project=project, entity="dfstransformer", 
                 name=name, config=config.to_dict(), job_type="evaluation")

ERROR:wandb.jupyter:Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mchrisxx[0m (use `wandb login --relogin` to force relogin)
[34m[1mwandb[0m: wandb version 0.12.4 is available!  To upgrade, please run:
[34m[1mwandb[0m:  $ pip install wandb --upgrade
2021-10-05 10:43:12.594719: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/opt/cuda/extras/CUPTI/lib64/:/opt/intel/lib:/opt/intel/mkl/lib/intel64:/opt/intel:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/bin/x86-64_linux:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/python/3.7/x86-64_linux:/opt/intel/clck_latest/lib:/opt/intel/daal/lib:/opt/intel/intelpython3/lib:/opt/intel/ipp/lib:/opt/intel/itac_2019/lib:/opt/intel/itac_latest/lib:/opt/in

In [14]:
ce = nn.CrossEntropyLoss(ignore_index=-1)

In [15]:
class TransformerPlusHead(nn.Module):
    def __init__(self, encoder, n_classes, fingerprint='cls'):
        super(TransformerPlusHead, self).__init__()
        self.encoder = encoder
        n_encoding = encoder.get_n_encoding(fingerprint)
        self.head = nn.Linear(n_encoding, n_classes)
        self.fingerprint = fingerprint
    
    def forward(self, C, N, E):
        features = self.encoder.encode(C, N, E, method=self.fingerprint)
        output = self.head(features)
        return output
        

In [16]:
def loss(pred, y, ce=ce):
    return ce(pred, y)

def acc(pred, y):
    return torch.sum(torch.argmax(pred, dim=1) == y)/len(y)

In [17]:
device = torch.device('cuda:%d'%t.gpu_id if torch.cuda.is_available()  else 'cpu')
encoder = DFSCodeSeq2SeqFC(**m)
    
#if t.load_last and model_dir is not None:
#    encoder.load_state_dict(torch.load(model_dir+'/checkpoint.pt', map_location=device))

In [18]:
model = TransformerPlusHead(encoder, d.n_classes, fingerprint=t.fingerprint)

In [19]:
param_groups = [
    {'amsgrad': False,
     'betas': (0.9,0.98),
     'eps': 1e-09,
     'lr': t.lr_encoder,
     'params': model.encoder.parameters(),
     'weight_decay': t.wdecay_encoder},
    {'amsgrad': False,
     'betas': (0.9, 0.999),
     'eps': 1e-08,
     'lr': t.lr_head,
     'params': model.head.parameters(),
     'weight_decay': 0}
]

In [20]:
t

accumulate_grads: 2
alpha: 0.0
batch_size: 50
clip_gradient: 0.5
decay_factor: 0.8
es_improvement: 0.0
es_path: null
es_patience: 30
es_period: 203
fingerprint: cls
gpu_id: 0
load_last: false
lr_adjustment_period: 203
lr_encoder: 3.0e-05
lr_head: 0.003
lr_patience: 3
n_epochs: 1000
num_workers: 8
seed: 123
struct: true
wdecay_encoder: 0.0

In [21]:
trainer = Trainer(model, trainloader, loss, validloader=validloader, metrics={'acc': acc}, es_argument=lambda log: -log['valid-acc'], wandb_run = run, param_groups=param_groups, **t)

In [None]:
trainer.fit()

Epoch 1: loss 4.181831 0.0800: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 202/203 [01:39<00:00,  2.13it/s]
  0%|                                                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 1: loss 5.800221 0.0200:   0%|                                                                                                                                                        | 0/11 [00:00<?, ?it/s][A
Valid 1: loss 5.800221 0.0200:   9%|█████████████                                                                                                                                   | 1/11 [00:00<00:08,  1.22it/s][A
Valid 1: loss 6.037851 0.0000:   9%|█████████████                                                                                              

Valid 2: loss 5.820556 0.0000:  55%|██████████████████████████████████████████████████████████████████████████████▌                                                                 | 6/11 [00:01<00:01,  4.82it/s][A
Valid 2: loss 5.820556 0.0000:  64%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 7/11 [00:01<00:00,  5.39it/s][A
Valid 2: loss 5.849097 0.0200:  64%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 7/11 [00:01<00:00,  5.39it/s][A
Valid 2: loss 5.849097 0.0200:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 8/11 [00:01<00:00,  5.26it/s][A
Valid 2: loss 5.854482 0.0400:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████

Valid 4: loss 5.872092 0.0400:   9%|█████████████                                                                                                                                   | 1/11 [00:00<00:06,  1.48it/s][A
Valid 4: loss 5.872092 0.0400:  18%|██████████████████████████▏                                                                                                                     | 2/11 [00:00<00:03,  2.58it/s][A
Valid 4: loss 5.694737 0.1200:  18%|██████████████████████████▏                                                                                                                     | 2/11 [00:01<00:03,  2.58it/s][A
Valid 4: loss 5.694737 0.1200:  27%|███████████████████████████████████████▎                                                                                                        | 3/11 [00:01<00:02,  3.36it/s][A
Valid 4: loss 5.566234 0.0800:  27%|███████████████████████████████████████▎                                                                

Valid 5: loss 5.410118 0.1200:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 8/11 [00:02<00:00,  5.42it/s][A
Valid 5: loss 5.410118 0.1200:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 9/11 [00:02<00:00,  5.12it/s][A
Valid 5: loss 5.434542 0.1200:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 9/11 [00:02<00:00,  5.12it/s][A
Valid 5: loss 5.434542 0.1200:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 10/11 [00:02<00:00,  5.72it/s][A
Valid 5: loss 5.318668 0.1429: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████

Valid 7: loss 5.279176 0.1800:  27%|███████████████████████████████████████▎                                                                                                        | 3/11 [00:01<00:02,  3.26it/s][A
Valid 7: loss 5.279176 0.1800:  36%|████████████████████████████████████████████████████▎                                                                                           | 4/11 [00:01<00:01,  4.15it/s][A
Valid 7: loss 5.432065 0.0800:  36%|████████████████████████████████████████████████████▎                                                                                           | 4/11 [00:01<00:01,  4.15it/s][A
Valid 7: loss 5.432065 0.0800:  45%|█████████████████████████████████████████████████████████████████▍                                                                              | 5/11 [00:01<00:01,  4.88it/s][A
Valid 7: loss 5.425924 0.1200:  45%|█████████████████████████████████████████████████████████████████▍                                      

Valid 8: loss 5.592531 0.2857: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:02<00:00,  4.63it/s][A
Epoch 8: loss 1.401274 0.6800: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 203/203 [01:44<00:00,  1.95it/s]
Epoch 9: loss 1.251902 0.6800: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 202/203 [01:40<00:00,  2.09it/s]
  0%|                                                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 9: loss 5.655877 0.1000:   0%|                                                                                                              

EarlyStopping counter: 1 out of 30


Epoch 10: loss 1.086893 0.8400: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 202/203 [01:40<00:00,  2.12it/s]
  0%|                                                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 10: loss 6.501890 0.0800:   0%|                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 10: loss 6.501890 0.0800:   9%|█████████████                                                                                                                                  | 1/11 [00:00<00:05,  1.94it/s][A
Valid 10: loss 6.195400 0.2000:   9%|█████████████                                                                                             

EarlyStopping counter: 2 out of 30


Epoch 11: loss 0.976906 0.8000: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 202/203 [01:40<00:00,  2.07it/s]
  0%|                                                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 11: loss 5.261324 0.1800:   0%|                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 11: loss 5.261324 0.1800:   9%|█████████████                                                                                                                                  | 1/11 [00:00<00:05,  1.92it/s][A
Valid 11: loss 5.383399 0.2000:   9%|█████████████                                                                                             

EarlyStopping counter: 3 out of 30


Epoch 12: loss 0.849468 0.9200: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 202/203 [01:41<00:00,  2.08it/s]
  0%|                                                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 12: loss 5.964271 0.1600:   0%|                                                                                                                                                       | 0/11 [00:00<?, ?it/s][A
Valid 12: loss 5.964271 0.1600:   9%|█████████████                                                                                                                                  | 1/11 [00:00<00:06,  1.54it/s][A
Valid 12: loss 5.418965 0.2400:   9%|█████████████                                                                                             

Valid 13: loss 6.239170 0.1600:  55%|██████████████████████████████████████████████████████████████████████████████                                                                 | 6/11 [00:01<00:01,  4.89it/s][A
Valid 13: loss 6.239170 0.1600:  64%|███████████████████████████████████████████████████████████████████████████████████████████                                                    | 7/11 [00:01<00:00,  5.46it/s][A
Valid 13: loss 6.196571 0.1400:  64%|███████████████████████████████████████████████████████████████████████████████████████████                                                    | 7/11 [00:01<00:00,  5.46it/s][A
Valid 13: loss 6.196571 0.1400:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 8/11 [00:01<00:00,  5.91it/s][A
Valid 13: loss 6.054846 0.2800:  73%|███████████████████████████████████████████████████████████████████████████████████████████████████████

EarlyStopping counter: 1 out of 30


Epoch 14: loss 0.655697 0.7800:  44%|██████████████████████████████████████████████████████████████▌                                                                              | 90/203 [00:44<00:52,  2.15it/s]

In [None]:
model.load_state_dict(torch.load(trainer.es_path+'checkpoint.pt'))

In [None]:
def compute_acc(model, loader):
    with torch.no_grad():
        preds = []
        ys = []
        for data in tqdm.tqdm(loader):
            data = [to_cuda(dd, device) for dd in data]
            pred = model(*data[:-1])
            pred = torch.argmax(pred, dim=1).detach().cpu().numpy().tolist()
            y = data[-1].detach().cpu().numpy().tolist()
            preds += pred
            ys += y
    return (np.asarray(preds) == np.asarray(ys)).sum()/len(ys)
            

In [None]:
run.log({'Valid Accuracy': compute_acc(model, validloader)})
run.log({'Test Accuracy': compute_acc(model, testloader)})

In [None]:
compute_acc(model, testloader)

In [None]:
compute_acc(model, validloader)