In [1]:
import os
import sys
import numpy as np
import pandas as pd
import tqdm
import selfies as sf
from rdkit import Chem

SCORING_LIB_PATH = os.path.join('/Data1', 'sungmin', 'mo_vq', 'props')
if SCORING_LIB_PATH not in sys.path:
    sys.path = [SCORING_LIB_PATH] + sys.path
    
from properties import similarity, drd2, qed

In [2]:
class CONFIGS:
    HOME_PATH = os.path.join('/Data1', 'sungmin', 'fairseq')
    DATA_TYPE = "drd2"
    TOKEN_TYPE = "frag"
    NUM_IDX = 5
    
    FILE_NAME = 'drd2_{NUM}.csv' if DATA_TYPE == 'drd2' else 'qed_v{NUM}.csv'
    
    OUTPUT_DIR = 'outputs_1_evaluate_property_similarity_scores'
    if not os.path.exists(OUTPUT_DIR):
        os.mkdir(OUTPUT_DIR)
    OUTPUT_DIR = os.path.join(OUTPUT_DIR, DATA_TYPE)
    if not os.path.exists(OUTPUT_DIR):
        os.mkdir(OUTPUT_DIR)
    
configs = CONFIGS()

In [3]:
calc_prop = drd2 if configs.DATA_TYPE == 'drd2' else qed

## Generated molecules

In [4]:
def get_canonical(sel):
    return Chem.CanonSmiles(sf.decoder(sel))

In [5]:
frames_generated = []
for i in tqdm.trange(configs.NUM_IDX):
    filepath_generated = os.path.join(configs.HOME_PATH, 'fairseq_cli', 'result', configs.FILE_NAME)
    df_generated = pd.read_csv(filepath_generated.format(NUM=i+1), index_col=0)
    df_generated.loc[:,'SELFIES_ori'] = df_generated.loc[:,'original'].map(lambda x:x.replace(' ',''))
    df_generated.loc[:,'SELFIES_opt'] = df_generated.loc[:,'optimized'].map(lambda x:x.replace(' ',''))
    df_generated.loc[:,'SELFIES_tar'] = df_generated.loc[:,'target'].map(lambda x:x.replace(' ',''))
    df_generated.loc[:,'SMILES_ori'] = df_generated.loc[:,'SELFIES_ori'].map(get_canonical)
    df_generated.loc[:,'SMILES_opt'] = df_generated.loc[:,'SELFIES_opt'].map(get_canonical)
    df_generated.loc[:,'SMILES_tar'] = df_generated.loc[:,'SELFIES_tar'].map(get_canonical)
    frames_generated.append(df_generated)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [02:12<00:00, 26.45s/it]


In [6]:
frames_generated[0]

Unnamed: 0,original,optimized,target,SELFIES_ori,SELFIES_opt,SELFIES_tar,SMILES_ori,SMILES_opt,SMILES_tar
0,[C][C] [Branch2][Ring1][=Branch1][C][=Branch1]...,[C] [Branch2][Ring1][Branch2][C][C][C][N][C][C...,[C] [Branch2][Ring1][Branch2][C][C][C][N][C][C...,[C][C][Branch2][Ring1][=Branch1][C][=Branch1][...,[C][Branch2][Ring1][Branch2][C][C][C][N][C][C]...,[C][Branch2][Ring1][Branch2][C][C][C][N][C][C]...,CC(Oc1ccc2c(c1)OC(=O)C1CCCC=C21)C(=O)NC(C(=O)O...,COc1ccccc1N1CCN(CCCCOc2ccc3c(c2)OC(=O)C2CCCC=C...,COc1ccccc1N1CCN(CCCCOc2ccc3c(c2)OC(=O)C2CCCC=C...
1,[C][=C][C][=C][Branch1][O][C][=C][C][=C][C][=C...,[C][=C][Branch1][=C][C][C][C][C][N][Branch1][R...,[C][=C][Branch1][=C][C][C][C][C][N][Branch1][R...,[C][=C][C][=C][Branch1][O][C][=C][C][=C][C][=C...,[C][=C][Branch1][=C][C][C][C][C][N][Branch1][R...,[C][=C][Branch1][=C][C][C][C][C][N][Branch1][R...,CCCN1CCOC(C(=O)c2cccc3ccccc23)C1,CCCN1CCCC(c2cccc(C(=O)OC)c2)C1,CCCN1CCCC(c2cccc(C(=O)OC)c2)C1
2,[C] [Branch1][O][C][=Branch1][C][=O][N][C][C][...,[N][Branch1][=Branch2][C][C][C][C][C][C][Ring1...,[N][Branch1][=Branch2][C][C][C][C][C][C][Ring1...,[C][Branch1][O][C][=Branch1][C][=O][N][C][C][C...,[N][Branch1][=Branch2][C][C][C][C][C][C][Ring1...,[N][Branch1][=Branch2][C][C][C][C][C][C][Ring1...,COCCCNC(=O)CN1CCN(c2ccc(Cl)cc2)C1=O,O=C1N(CCN2CCCCCC2)CCN1c1ccc(Cl)cc1,O=C1N(CCN2CCCCCC2)CCN1c1ccc(Cl)cc1
3,[C] [Branch1][Ring1][O][C] [C] [N][C][Branch1]...,[C] [=C][C][=Branch1][=Branch1][=C][C][=C][Rin...,[C] [=C][C][=Branch1][=Branch1][=C][C][=C][Rin...,[C][Branch1][Ring1][O][C][C][N][C][Branch1][O]...,[C][=C][C][=Branch1][=Branch1][=C][C][=C][Ring...,[C][=C][C][=Branch1][=Branch1][=C][C][=C][Ring...,COCCn1c(SCC(F)(F)F)nc2ccccc21,Clc1ccc(Cn2c(SCc3ccccc3)nc3ccccc32)cc1,Clc1ccc(Cn2c(SCc3ccccc3)nc3ccccc32)cc1
4,[C][C][N][Branch1][=Branch2][C][C][N][Ring1][=...,[C][Cl][=C][C][=Branch1][#Branch1][=C][C][=C][...,[N][Branch1][=Branch2][C][=C][C][=C][C][=C][Ri...,[C][C][N][Branch1][=Branch2][C][C][N][Ring1][=...,[C][Cl][=C][C][=Branch1][#Branch1][=C][C][=C][...,[N][Branch1][=Branch2][C][=C][C][=C][C][=C][Ri...,C#CCN1CCN(Cc2coc(-c3cccc(Cl)c3)n2)CC1,CCl,c1ccc(-c2nc(CN3CCN(c4ccccc4)CC3)co2)cc1
...,...,...,...,...,...,...,...,...,...
19995,[C] [Branch1][C][Cl] [=C][C][=C] [Branch1][C][...,[C] [Branch1][C][Cl] [=C][C][=C] [Branch1][C][...,[C] [Branch1][C][Cl] [=C][C][=C] [Branch1][C][...,[C][Branch1][C][Cl][=C][C][=C][Branch1][C][C][...,[C][Branch1][C][Cl][=C][C][=C][Branch1][C][C][...,[C][Branch1][C][Cl][=C][C][=C][Branch1][C][C][...,Cc1ccc(Cl)cc1N1CCN(S(=O)(=O)N2CCCCCC2)CC1,Cc1ccc(Cl)cc1N1CCN(CC(=O)C=O)CC1,Cc1ccc(Cl)cc1N1CCN(CC(=O)Nc2ccc(CN3CCCCC3)cc2)CC1
19996,[C][=C][C][=C] [Branch1][C][Cl] [C] [=Branch1]...,[C][=C][C][=C] [Branch1][C][Cl] [C] [=Branch1]...,[C][=C][C][=C] [Branch1][C][Cl] [C] [=Branch1]...,[C][=C][C][=C][Branch1][C][Cl][C][=Branch1][Ri...,[C][=C][C][=C][Branch1][C][Cl][C][=Branch1][Ri...,[C][=C][C][=C][Branch1][C][Cl][C][=Branch1][Ri...,CN(C(=O)NC1CCCN(c2ccccc2Cl)C1)C1CCOCC1,CNC(=O)NN1CCN(c2ccccc2Cl)CC1,CN(C)C(=O)NC1CCC(CCN2CCN(c3ccccc3Cl)CC2)CC1
19997,[C] [C][=C][Branch1][C][C][S][C][=C][Ring1][=B...,[C] [C][=C][Branch1][C][C][S][C][=C][Ring1][=B...,[C] [C][=C][Branch1][C][C][S][C][=C][Ring1][=B...,[C][C][=C][Branch1][C][C][S][C][=C][Ring1][=Br...,[C][C][=C][Branch1][C][C][S][C][=C][Ring1][=Br...,[C][C][=C][Branch1][C][C][S][C][=C][Ring1][=Br...,CCOC(=O)CSc1nc2sc(C)c(C)c2c(=O)n1N,Cc1sc2nc(N3CCC(c4ccccc4C=O)CC3)n(N)c(=O)c2c1C,COc1ccccc1C1CCN(CCCSc2nc3sc(C)c(C)c3c(=O)n2N)CC1
19998,[C] [C][=C][Branch1][C][C][S][C][=C][Ring1][=B...,[C] [C][=C][Branch1][C][C][S][C][=C][Ring1][=B...,[C] [C][=C][Branch1][C][C][S][C][=C][Ring1][=B...,[C][C][=C][Branch1][C][C][S][C][=C][Ring1][=Br...,[C][C][=C][Branch1][C][C][S][C][=C][Ring1][=Br...,[C][C][=C][Branch1][C][C][S][C][=C][Ring1][=Br...,CCOC(=O)CSc1nc2sc(C)c(C)c2c(=O)n1N,Cc1sc2nc(N3CCC(c4ccccc4C=O)CC3)n(N)c(=O)c2c1C,COc1ccccc1C1CCN(CCCSc2nc3sc(C)c(C)c3c(=O)n2N)CC1


## Evaluate property and simiarity scores

In [7]:
frames_scoring = []
for i, df_ in enumerate(frames_generated):
    print(f'Now: {i}')
    df = df_.copy()
    
    scores_prop = []
    for smi_opt in tqdm.tqdm(df.loc[:,'SMILES_opt'].values, total=len(df)):
        scores_prop.append(calc_prop(smi_opt))
    
    scores_sim = []
    for smi_ori, smi_opt in tqdm.tqdm(df.loc[:,('SMILES_ori', 'SMILES_opt')].values, total=len(df)):
        scores_sim.append(similarity(smi_ori, smi_opt))
        
    df.loc[:,'PROPERTY_opt'] = scores_prop
    df.loc[:,'SIMILARITY_ori_opt'] = scores_sim
    frames_scoring.append(df)

Now: 0


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, copy_X=True, fit_path=True,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, copy_X=True, fit_path=True,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, positive=False):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  max_n_alphas=1000, n_jobs=None, eps=np.finfo(np.float).eps,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  max_n_alpha

Now: 1


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [01:34<00:00, 212.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [00:06<00:00, 3062.11it/s]


Now: 2


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [01:34<00:00, 212.38it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [00:06<00:00, 3059.91it/s]


Now: 3


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [01:34<00:00, 212.32it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [00:06<00:00, 3052.01it/s]


Now: 4


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [01:34<00:00, 212.43it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20000/20000 [00:06<00:00, 3061.76it/s]


In [8]:
for i, df in enumerate(frames_scoring, start=1):
    filepath = os.path.join(configs.OUTPUT_DIR, f'generated_edit_iter{i}.csv')
    df.to_csv(filepath, index=False)