In [1]:
%env CUDA_VISIBLE_DEVICES=0

env: CUDA_VISIBLE_DEVICES=0


In [2]:
%load_ext autoreload
%autoreload 2

In [3]:
import os
import sys
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import selfies as sf
import torch
import time
from tqdm import tqdm, trange
from rdkit import RDLogger, Chem
RDLogger.DisableLog('rdApp.*')

In [4]:
## Inter-op parallelism
torch.set_num_interop_threads(4)
torch.get_num_interop_threads()
## Intra-op parallelism
torch.set_num_threads(4)
torch.get_num_threads()

4

In [5]:
class GPUCONFIGS:
    def __init__(self):
        self.use_cuda = torch.cuda.is_available()
        self.device = torch.device('cuda:0' if self.use_cuda else 'cpu')
        if self.use_cuda: torch.cuda.set_device(self.device)
        
gpuconfigs = GPUCONFIGS()
print(torch.cuda.current_device())

0


In [6]:
REBADD_LIB_PATH = os.path.abspath(os.pardir)
if REBADD_LIB_PATH not in sys.path:
    sys.path = [REBADD_LIB_PATH] + sys.path

from rebadd.stackVAE import StackAugmentedVAE
from rebadd.datautils import GeneratorData
from rebadd.evaluate import TanimotoSimilarity_OneToBulk

In [7]:
from ReBADD_config import Reward_gsk3_jnk3_qed_sa as Reward

In [8]:
class DATACONFIGS:
    def __init__(self):
        ## input
        self.input_dir = os.path.join('processed_data', 'gsk3_jnk3_qed_sa')
        self.train_data_path = os.path.join(self.input_dir, 'fragments_list.pkl')
        self.vocab_data_path = os.path.join(self.input_dir, 'vocabulary.csv')
        ## output
        self.output_dir = os.path.join('outputs_3_checkpoints', 'gsk3_jnk3_qed_sa')
        assert os.path.exists(self.output_dir)

dataconfigs = DATACONFIGS()

In [9]:
gen_data = GeneratorData(pickle_data_path=dataconfigs.train_data_path,
                         vocabulary_path=dataconfigs.vocab_data_path,
                         use_cuda=gpuconfigs.use_cuda)

print(f"Number of training samples: {len(gen_data.data)}")
print(f"Number of vocabulary: {len(gen_data.vocabs)}")
print(f"Maximum of seqlen: {gen_data.max_seqlen}")

Number of training samples: 781797
Number of vocabulary: 53687
Maximum of seqlen: 40


In [10]:
filepath_ref = os.path.join(os.pardir, 'data', 'chembl', 'actives.txt')
referece_smiles_iter = pd.read_csv(filepath_ref).iloc[:,0].values.tolist()
calc_sim = TanimotoSimilarity_OneToBulk(referece_smiles_iter, aggregate='max')

In [11]:
reward_ft = Reward()

[DEBUG] GSK3(8515) = 0.740 (GT:0.740)
[DEBUG] JNK#(8515) = 0.670 (GT:0.670)
[DEBUG] QED(8515) = 0.495 (GT:0.495)
[DEBUG] SA(8515) = 2.127 (GT:2.127)


In [12]:
kwargs_generator = {"input_size"         : gen_data.n_characters,
                    "output_size"        : gen_data.n_characters,
                    "max_seqlen"         : 40,
                    "hidden_size"        : 256,
                    "latent_size"        : 64,
                    "n_layers"           : 4,
                    "has_stack"          : True,
                    "stack_width"        : 256,
                    "stack_depth"        : 20,
                    "lr"                 : 1e-4,
                    "use_cuda"           : gpuconfigs.use_cuda,
                    "device"             : gpuconfigs.device,
                    "optimizer_instance" : torch.optim.RMSprop}

generator = StackAugmentedVAE(**kwargs_generator)

In [13]:
class CKPTCONFIGS:
    def __init__(self):
        self.input_dir = 'outputs_2_optimize_ReBADD'
        self.modelnames = ['gsk3_jnk3_qed_sa']
        self.numbers = ['0050', '0100', '0150', '0200', '0250', '0300', '0350', '0400', '0450', '0500']
        
ckptconfigs = CKPTCONFIGS()

In [14]:
def normalize_SMILES(smi):
    mol = Chem.MolFromSmiles(smi)
    smi_rdkit = Chem.MolToSmiles(
        mol,
        isomericSmiles=False,   # modified because this option allows special tokens (e.g. [125I])
        kekuleSmiles=False,     # default
        rootedAtAtom=-1,        # default
        canonical=True,         # default
        allBondsExplicit=False, # default
        allHsExplicit=False     # default
    )
    return smi_rdkit


def generate_single_SMILES(data, generator, reward_ft, K, threshold):
    best_smi = 'C'
    best_rwd = threshold
    
    for _ in range(K):
        ## SELFIES
        z = generator.sample_latent_vectors()
        sel = generator.evaluate(data, z=z, return_z=False, greedy=False)
        sel = sel.replace(data.start_token, '').replace(data.end_token, '')
        
        ## SMILES
        smi = sf.decoder(sel)
    
        ## Reward
        try:
            smi = normalize_SMILES(smi)
            rwd = reward_ft(smi, return_min=True)
        except:
            rwd = threshold
            
        if rwd > best_rwd:
            best_smi = smi
            best_rwd = rwd
        
    return best_smi


def generate_SMILES(data, generator, reward_ft, sample_size, K, threshold):
    results = []
    for _ in trange(sample_size):
        best_smi = generate_single_SMILES(data, generator, reward_ft, K, threshold)
        results.append(best_smi)
    return results


def generate_novel_SMILES(data, generator, reward_ft, sample_size, K, threshold, calc_sim):
    results = []
    for _ in trange(sample_size):
        best_smi = 'C'
        best_sim = 1.
        for _ in range(K):
            smi = generate_single_SMILES(data, generator, reward_ft, K, threshold)
            sim = calc_sim(smi)
            if sim < best_sim:
                best_sim = sim
                best_smi = smi
        results.append(best_smi)
    return results


def SMILES_generate(data, generator, reward_ft, sample_size=5000, K=5, threshold=0., calc_sim=None):
    generator.eval()
    if calc_sim:
        return generate_novel_SMILES(data, generator, reward_ft, sample_size, K, threshold, calc_sim)
    else:
        return generate_SMILES(data, generator, reward_ft, sample_size, K, threshold)
    

def save_smiles(filepath, smiles):
    with open(filepath, 'w') as fout:
        for smi in smiles:
            fout.write(f"{smi}\n")
    print(f"[INFO] {len(smiles)} SMILES were saved in {filepath}")

In [15]:
n_sampling = 5000

In [16]:
for modelname in ckptconfigs.modelnames:
    for num in ckptconfigs.numbers:
        
        filepath = os.path.join(ckptconfigs.input_dir, modelname, f'checkpoint.pth.{num}')
        generator.load_model(filepath)
        
        generated = SMILES_generate(gen_data, generator, reward_ft, sample_size=n_sampling, calc_sim=calc_sim)
        
        save_smiles(os.path.join(dataconfigs.output_dir, f'smi_after.csv.{num}'), generated)
        

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:17:14<00:00,  1.08it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0050


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:14:48<00:00,  1.11it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:14:10<00:00,  1.12it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0150


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:14:00<00:00,  1.13it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0200


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:13:53<00:00,  1.13it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0250


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:13:48<00:00,  1.13it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0300


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:13:51<00:00,  1.13it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0350


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:14:04<00:00,  1.12it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0400


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:14:05<00:00,  1.12it/s]


[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0450


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [1:13:51<00:00,  1.13it/s]

[INFO] 5000 SMILES were saved in outputs_3_checkpoints/gsk3_jnk3_qed_sa-Copy1/smi_after.csv.0500



