In [13]:
import json

from rdkit import Chem
from tqdm import tqdm
import selfies as sf

In [3]:
with open("./data-subsets/gdb13.1M.training.txt", "r") as f:
    train_data = f.read().splitlines()

In [4]:
with open("./data-subsets/gdb13.1M.validation.txt", "r") as f:
    valid_data = f.read().splitlines()

In [5]:
len(train_data), len(valid_data)

(1000000, 1000000)

In [6]:
train_data[:5]

['CC1OC2(C)C1C(=N)N(O)C2C',
 'NC1CC2CCC(C1)C1NC1CO2',
 'CC(CO)N1CC2OC2(CN)C=N1',
 'N#CC(=CC1CO1)c1cocc1N',
 'CC1C(C)(N)C1(N)C1C=CC(N)C1']

In [7]:
valid_data[:5]

['CCOC(C#N)=C1CNC(=O)CN1',
 'CC12OC=NOC13CON=CC23O',
 'C=CC(=NN)OC1(C=NO)CCC1',
 'CCC1C2OCC3NC3C(CO)C12',
 'C#CC=CC1COC2C(CO)C12N']

In [8]:
def check_canon(smi):
    return smi == Chem.MolToSmiles(Chem.MolFromSmiles(smi))

In [32]:
def make_canon(smi):
    canon_smi = None
    
    try:
        canon_smi = Chem.MolToSmiles(Chem.MolFromSmiles(smi))
    except:
        pass
    
    return canon_smi

In [20]:
count = 0
for split in (train_data, valid_data):
    for smi in tqdm(split):
        b = check_canon(smi)
        if not b:
            print(smi)
            count+=1

  2%|██▉                                                                                                                                                         | 18823/1000000 [00:02<01:55, 8467.43it/s]

CCc1nccoc2cc(no2)[nH]1


  3%|█████▏                                                                                                                                                      | 33263/1000000 [00:03<01:54, 8464.52it/s]

c1ncc2cncc3csc(n1)c23


  6%|█████████▋                                                                                                                                                  | 62148/1000000 [00:07<01:53, 8288.20it/s]

Nc1ccconc2[nH]cc1-n-2


  7%|██████████▌                                                                                                                                                 | 68015/1000000 [00:08<01:52, 8263.89it/s]

O=c1ccnc[nH]c2c[nH]cc1o2


  7%|███████████▏                                                                                                                                                | 71418/1000000 [00:08<01:51, 8337.79it/s]

Cc1nnc2occc3nsc1c32
O=c1-c2c#cc#cc(=O)[nH]c-1cc2


  7%|███████████▌                                                                                                                                                | 73967/1000000 [00:08<01:50, 8373.30it/s]

Clc1cc2ccocnnc(c1)-o-2


  8%|████████████▎                                                                                                                                               | 79060/1000000 [00:09<01:51, 8224.69it/s]

Cn1[nH]c(=O)ccoc2ncc1s2


 11%|████████████████▎                                                                                                                                          | 105447/1000000 [00:12<01:44, 8544.71it/s]

N=c1nc2ccoc3scc(o1)c23


 12%|█████████████████▉                                                                                                                                         | 115839/1000000 [00:13<01:41, 8707.50it/s]

Cc1nnc2scc(c(C)no1)-s-2
Cc1coccoc2sc1nc2C


 13%|███████████████████▊                                                                                                                                       | 128050/1000000 [00:15<01:41, 8551.81it/s]

C1=Nc2c3[nH]cc2c1c[nH]cn[nH]3


 16%|████████████████████████▋                                                                                                                                  | 158901/1000000 [00:18<01:38, 8528.86it/s]

Cc1nncoc2ccc(o2)n1N


 18%|████████████████████████████▏                                                                                                                              | 181981/1000000 [00:21<01:34, 8632.70it/s]

c1cc2cncnc3ncc(n1)n23


 19%|█████████████████████████████▎                                                                                                                             | 188953/1000000 [00:22<01:33, 8695.06it/s]

c1c2n[nH]c(nc3ncc(c#1)s3)-s-2


 20%|██████████████████████████████▌                                                                                                                            | 196810/1000000 [00:23<01:33, 8630.58it/s]

Nc1ccnoc2scc(o1)c2O


 20%|███████████████████████████████▏                                                                                                                           | 201130/1000000 [00:23<01:33, 8564.14it/s]

c1cc2cc(c[nH]2)[nH]n2ccc1c2
c1cnc2nncc3ccc(n1)n32


 21%|███████████████████████████████▊                                                                                                                           | 205405/1000000 [00:24<01:33, 8507.15it/s]

Cc1c[nH]nc[nH]c2occ1c2C


 22%|█████████████████████████████████▍                                                                                                                         | 215705/1000000 [00:25<01:31, 8589.26it/s]

Cn1nc2ccoccoc1c2


 22%|██████████████████████████████████▊                                                                                                                        | 224285/1000000 [00:26<01:30, 8533.33it/s]

Cc1ncc2occc3ccc1n32


 24%|████████████████████████████████████▉                                                                                                                      | 237986/1000000 [00:28<01:30, 8391.89it/s]

Oc1cc2[nH]nc3cccc(o1)c32


 24%|█████████████████████████████████████▎                                                                                                                     | 240540/1000000 [00:28<01:30, 8416.02it/s]

OCc1coccc2nc(n[nH]2)o1
Cc1cc2ncnc(n2)occo1


 25%|███████████████████████████████████████                                                                                                                    | 251703/1000000 [00:29<01:27, 8574.99it/s]

Cc1cc2csc(n2)[nH]c(=S)[nH][nH]1


 26%|████████████████████████████████████████                                                                                                                   | 258578/1000000 [00:30<01:26, 8575.75it/s]

Cc1c(C)c2[nH]c1nc[nH]nco2


 26%|████████████████████████████████████████▉                                                                                                                  | 263742/1000000 [00:31<01:25, 8578.84it/s]

c1ncncn2ccc(c2)ncn1


 27%|██████████████████████████████████████████                                                                                                                 | 271472/1000000 [00:32<01:24, 8573.08it/s]

O=c1occccc2cnc(o1)s2


 28%|███████████████████████████████████████████▎                                                                                                               | 279154/1000000 [00:32<01:24, 8516.35it/s]

c1ccoc2ccc(ccc#1)o2


 30%|██████████████████████████████████████████████▏                                                                                                            | 298037/1000000 [00:35<01:21, 8647.78it/s]

Nn1ccc2cccc3[nH]nc1c23


 30%|██████████████████████████████████████████████▊                                                                                                            | 302337/1000000 [00:35<01:22, 8468.35it/s]

O=c1onconc2ccc(o1)=c-2


 30%|███████████████████████████████████████████████▏                                                                                                           | 304050/1000000 [00:35<01:21, 8503.50it/s]

OCc1nnc[nH]c2cc(co2)[nH]1


 31%|████████████████████████████████████████████████▍                                                                                                          | 312669/1000000 [00:36<01:19, 8606.56it/s]

Cc1cc2cncc3ncn(o1)c23
N=c1[nH]c2c(=O)ccc#ccc1-c=2


 32%|█████████████████████████████████████████████████▊                                                                                                         | 321325/1000000 [00:37<01:18, 8624.96it/s]

Cc1coccc2nc(N)c(o1)s2


 33%|███████████████████████████████████████████████████▎                                                                                                       | 330732/1000000 [00:38<01:19, 8399.12it/s]

Oc1coc2ncnc3nsc1c32


 33%|███████████████████████████████████████████████████▊                                                                                                       | 334102/1000000 [00:39<01:19, 8333.35it/s]

O=c1ccc2ccc(Cl)c(o1)c2Cl


 34%|████████████████████████████████████████████████████▊                                                                                                      | 340955/1000000 [00:40<01:16, 8564.04it/s]

Cc1c2c#cc#ccn[nH]c1n[nH]2
CNc1cc[nH]nc2cc(c1)[nH]o2


 35%|██████████████████████████████████████████████████████                                                                                                     | 348669/1000000 [00:41<01:17, 8439.30it/s]

Cn1cnc2cc(Cl)c([nH]2)ocn1
O=c1c2c#cccoccn1sc2


 36%|████████████████████████████████████████████████████████▌                                                                                                  | 364896/1000000 [00:43<01:15, 8403.34it/s]

Cc1nncn(C)oc2cnc1o2
N=c1[nH]ccc2ccc(cn2)o[nH]1


 37%|█████████████████████████████████████████████████████████▏                                                                                                 | 369098/1000000 [00:43<01:17, 8127.04it/s]

Cc1c(=N)n2[nH]cnccoc1s2
Oc1cc2[nH]c1c#ccccco2
O=c1cc2occcnnc([nH]1)-n-2


 38%|███████████████████████████████████████████████████████████▎                                                                                               | 382845/1000000 [00:45<01:11, 8595.45it/s]

Cc1cccoc2cc(cc1)[nH]n2


 39%|████████████████████████████████████████████████████████████▏                                                                                              | 388002/1000000 [00:45<01:11, 8560.03it/s]

N=c1ccccc2csc(n[nH]1)-s-2


 40%|██████████████████████████████████████████████████████████████▎                                                                                            | 401762/1000000 [00:47<01:10, 8433.64it/s]

c1sc2ncn3cc(oc1n2)CC3
Cc1cc2ncncn(C)oc1o2


 42%|█████████████████████████████████████████████████████████████████                                                                                          | 419832/1000000 [00:49<01:07, 8557.44it/s]

Nc1ccc2ccoc3[nH]nc1c23
CCNc1noc2oc1c(Cl)c2O


 43%|██████████████████████████████████████████████████████████████████▏                                                                                        | 426720/1000000 [00:50<01:07, 8520.97it/s]

Cc1cccnnc2[nH]nc(c1)-n-2


 43%|██████████████████████████████████████████████████████████████████▌                                                                                        | 429290/1000000 [00:50<01:06, 8550.70it/s]

C=Cn1cc2ccnc[nH]nc1-n-2


 44%|████████████████████████████████████████████████████████████████████▉                                                                                      | 444881/1000000 [00:52<01:04, 8634.27it/s]

c1cc2nc(c1)ocnnc[nH]2


 47%|████████████████████████████████████████████████████████████████████████▎                                                                                  | 466384/1000000 [00:54<01:03, 8424.55it/s]

O=c1ccccoc2cn(nn2)[nH]1


 49%|████████████████████████████████████████████████████████████████████████████▏                                                                              | 491379/1000000 [00:57<00:59, 8591.58it/s]

C#Cc1c2cc[nH]ncoc1n[nH]2


 51%|███████████████████████████████████████████████████████████████████████████████▏                                                                           | 511022/1000000 [01:00<00:59, 8268.43it/s]

c1cc2nnn(n2)c2csc(c2)o1


 52%|████████████████████████████████████████████████████████████████████████████████                                                                           | 516146/1000000 [01:00<00:56, 8516.50it/s]

Cn1cnc2csc(nc[nH]1)c2Cl


 52%|████████████████████████████████████████████████████████████████████████████████▉                                                                          | 522232/1000000 [01:01<00:55, 8670.62it/s]

CN=c1[nH]ccc2[nH]c1c(O)c2O


 54%|███████████████████████████████████████████████████████████████████████████████████                                                                        | 535946/1000000 [01:03<00:55, 8417.03it/s]

S=c1[nH]ccccc2nccn1-n-2


 56%|███████████████████████████████████████████████████████████████████████████████████████                                                                    | 561452/1000000 [01:06<00:52, 8355.64it/s]

Cc1nc2ccoc3nccc1n23
c1nc2ccc([nH]2)c2cc(co2)[nH]1


 57%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 565748/1000000 [01:06<00:51, 8359.26it/s]

Oc1c2cnnc1occcno2


 58%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 576719/1000000 [01:08<00:52, 8001.14it/s]

Cc1c#cccc2n[nH]c(c1)no2


 61%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 605744/1000000 [01:11<00:47, 8228.47it/s]

CCc1n[nH]cnnc2occ1-o-2


 61%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 611695/1000000 [01:12<00:46, 8362.77it/s]

Cc1nncon2ccc(o1)c2O


 62%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 615123/1000000 [01:12<00:45, 8433.63it/s]

Cn1cccnnc2n(O)cc1-o-2


 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 654701/1000000 [01:17<00:39, 8720.22it/s]

Cc1nnc2cc(cno1)nco2


 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 661675/1000000 [01:18<00:38, 8703.51it/s]

Cc1ccc2cc(n[nH]2)n(C)[nH]c1


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 666017/1000000 [01:18<00:38, 8665.77it/s]

Clc1c2c#ccccnoc1sn2
Clc1cc2cnc1[nH]cncc[nH]2


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 670374/1000000 [01:19<00:38, 8649.50it/s]

Cc1coccoc2cc1n(O)n2


 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 679783/1000000 [01:20<00:37, 8508.96it/s]

CCc1nnc2scc(cno1)-s-2


 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 682314/1000000 [01:20<00:38, 8285.87it/s]

c1cc2nc(cs2)c2cnn(n2)o1


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 695872/1000000 [01:22<00:36, 8350.77it/s]

O=c1oc2ccc1[nH]cnnc[nH]2


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 704355/1000000 [01:23<00:35, 8431.81it/s]

Cc1c[nH]c2coc(c2)o[nH]c1=O


 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 721334/1000000 [01:25<00:33, 8426.35it/s]

NCc1sc2cnnc[nH]oc1c2


 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 728180/1000000 [01:25<00:31, 8537.70it/s]

Nc1cc2[nH]ncc3ccnn1c32


 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 734974/1000000 [01:26<00:31, 8401.45it/s]

Cc1oc2cc1o[nH]c(=N)cc[nH]2
Cn1c2ncoc1ccccnn2


 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 746881/1000000 [01:28<00:29, 8454.47it/s]

c1cc2csc(c2)c2cnn(n2)o1


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 752839/1000000 [01:28<00:29, 8502.39it/s]

N=c1[nH]nc2ccc3cccn1-n32


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 761406/1000000 [01:29<00:27, 8538.03it/s]

Cc1c2nnccc[nH]n(c1C)-o-2


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 763123/1000000 [01:30<00:27, 8531.13it/s]

N=c1ccccoc2cc([nH]1)sn2


 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 769974/1000000 [01:30<00:26, 8544.08it/s]

Cc1con2nc(cco1)sc2=O


 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 771693/1000000 [01:31<00:26, 8571.60it/s]

Cc1cnc[nH]c2cc(ncn2)o1


 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 788799/1000000 [01:33<00:24, 8471.22it/s]

On1c2cccnc[nH]nc1cc2


 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 791352/1000000 [01:33<00:24, 8410.41it/s]

Oc1oc2ccccoccc1c2


 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 793900/1000000 [01:33<00:24, 8408.37it/s]

Cc1nc2onc3cnnc(o1)c32


 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 808417/1000000 [01:35<00:22, 8486.54it/s]

N=c1[nH]ccoc2cc(ns2)o1
Cc1con2cnc(cco1)c2


 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 813535/1000000 [01:36<00:22, 8418.95it/s]

Oc1cc2ccoccc#cc1s2


 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 833088/1000000 [01:38<00:20, 8230.22it/s]

O=c1[nH]cc2[nH]cc3occc1c23


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 848403/1000000 [01:40<00:17, 8542.33it/s]

N=c1ccccn2cnc(c2)o[nH]1


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 851818/1000000 [01:40<00:17, 8384.78it/s]

c1oc2cnn3ccc(n3)[nH]c1c2


 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 860382/1000000 [01:41<00:16, 8560.71it/s]

c1cnnc2[nH]cc3c2cnc-3c1
N=c1-c2c#cccccn-1c(=N)n2
O=c1[nH]c2ccc(cc[nH]o1)nn2


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 870607/1000000 [01:42<00:15, 8476.02it/s]

Cc1c2c#cc#cccon1nn2


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 882559/1000000 [01:44<00:13, 8507.88it/s]

O=c1cc2[nH]cnc3snc(o1)c23


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 887714/1000000 [01:44<00:13, 8571.70it/s]

Clc1coc2nccc3c[nH]c1c32


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 898026/1000000 [01:46<00:12, 8397.59it/s]

Cc1ccnnc2occ([nH]1)-n-2C


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 900575/1000000 [01:46<00:11, 8305.42it/s]

Cc1nnc[nH]c2cc([nH]1)[nH]c2C


 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 909074/1000000 [01:47<00:11, 8056.64it/s]

Cc1nc2cc(Cl)c(cco[nH]1)o2


 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 926973/1000000 [01:49<00:08, 8214.64it/s]

Cc1noc2oc1c1[nH]cc(O)c21


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 929547/1000000 [01:49<00:08, 8450.02it/s]

O=c1c#cc2c[nH]c(n2)onc[nH]1
Nc1cc2ncoc3n[nH]c(c1)c23


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 931227/1000000 [01:50<00:08, 8240.73it/s]

C=Cc1cnnc2snc(oc1)-n-2


 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 946652/1000000 [01:51<00:06, 8545.91it/s]

On1c2ccnc[nH]ncc1cc2


 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 950958/1000000 [01:52<00:05, 8569.09it/s]

On1cnc2scc3ncnc1c32


 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 988518/1000000 [01:56<00:01, 8485.57it/s]

Cc1c(N)c2nc[nH]ccoc1[nH]2


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 994470/1000000 [01:57<00:00, 8370.61it/s]

Nc1coc2nccc3csc1c32


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 999557/1000000 [01:58<00:00, 8382.94it/s]

N=Cn1cnncoc2coc1c2


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000000/1000000 [01:58<00:00, 8461.33it/s]
  1%|█▊                                                                                                                                                          | 11992/1000000 [00:01<01:57, 8377.24it/s]

Cc1oc2onc[nH]ncc1c2Cl


  6%|█████████▋                                                                                                                                                  | 62261/1000000 [00:07<01:49, 8554.56it/s]

O=c1[nH]c2ccn3nccc(o1)c23


  6%|██████████                                                                                                                                                  | 64826/1000000 [00:07<01:49, 8504.16it/s]

Cn1oc2ccc(O)c(c2Cl)c1=N


  8%|████████████▉                                                                                                                                               | 82800/1000000 [00:09<01:47, 8539.55it/s]

O=c1[nH]c2ccc(O)c(O)c1cc2


  9%|█████████████▊                                                                                                                                              | 88801/1000000 [00:10<01:46, 8570.27it/s]

Nc1ccccc2nnc(c1)o[nH]2


  9%|██████████████▋                                                                                                                                             | 93907/1000000 [00:11<01:47, 8440.65it/s]

Cc1c2nncoccn(c1O)-s-2


 10%|███████████████▉                                                                                                                                           | 102432/1000000 [00:12<01:45, 8518.83it/s]

Cc1noc2sc(cno1)cc2Cl
Nc1c2occoccn1[nH]c2=O


 11%|████████████████▌                                                                                                                                          | 106706/1000000 [00:12<01:45, 8499.19it/s]

O=c1occ2ocnc3[nH]nc1c32


 11%|█████████████████▏                                                                                                                                         | 111007/1000000 [00:13<01:43, 8574.18it/s]

Cc1cc(O)c(O)c2oc1cc2O


 14%|█████████████████████▏                                                                                                                                     | 136707/1000000 [00:16<01:43, 8367.86it/s]

Cc1coccc2nsc(n2)o1
Clc1ccn2ncc3occc1c32


 14%|█████████████████████▍                                                                                                                                     | 138414/1000000 [00:16<01:41, 8452.32it/s]

c1oc2nc(c[nH]2)cc2oc1CC2


 17%|██████████████████████████▎                                                                                                                                | 170128/1000000 [00:20<01:38, 8434.72it/s]

Cc1cc2cnnc3ccc(o1)n23
Cc1sc2cc[nH]oc(=N)[nH]c1n2


 17%|███████████████████████████                                                                                                                                | 174372/1000000 [00:20<01:37, 8480.89it/s]

Cc1ccc(O)c2cc(c[nH]2)[nH][nH]1
Cc1cc2nc(O)c(o1)c(Cl)c2O


 19%|█████████████████████████████                                                                                                                              | 187237/1000000 [00:22<01:34, 8596.84it/s]

On1ccc2scc3cnnc1c32


 19%|█████████████████████████████▋                                                                                                                             | 191527/1000000 [00:22<01:34, 8559.92it/s]

Cc1nc2ocnn(C)cnc1o2


 20%|██████████████████████████████▍                                                                                                                            | 196580/1000000 [00:23<01:37, 8206.30it/s]

ON=c1ccoc2cc(cs2)[nH][nH]1
Cc1cc2[nH]ncoccnc1-n=2


 20%|██████████████████████████████▉                                                                                                                            | 199998/1000000 [00:23<01:36, 8284.86it/s]

Cc1c2coc1oc(=O)[nH][nH]cn2
c1ccn2ncc3c(oc1)scc32
O=c1[nH][nH]cnccc2ccc1s2


 22%|█████████████████████████████████▊                                                                                                                         | 218003/1000000 [00:25<01:34, 8311.86it/s]

COc1cccc2sc1c(Cl)c2O


 22%|██████████████████████████████████▊                                                                                                                        | 224841/1000000 [00:26<01:34, 8244.47it/s]

O=c1cc2ccnc[nH]ncn1o2
Oc1ncc2coc3ncoc1c23


 24%|█████████████████████████████████████▏                                                                                                                     | 240108/1000000 [00:28<01:31, 8294.48it/s]

Cc1cn(C)cnc2nc(c[nH]2)o1


 29%|████████████████████████████████████████████▎                                                                                                              | 285686/1000000 [00:33<01:25, 8361.56it/s]

Cc1nncoc2occ(o1)c2O


 30%|██████████████████████████████████████████████▍                                                                                                            | 299281/1000000 [00:35<01:22, 8453.56it/s]

O=Cc1sc2cc1occcco2
Cc1cc(=N)[nH]oc2ccc([nH]2)o1


 32%|█████████████████████████████████████████████████▌                                                                                                         | 319710/1000000 [00:37<01:21, 8352.74it/s]

Cc1ccccn[nH]c2cc1[nH]n2


 33%|██████████████████████████████████████████████████▊                                                                                                        | 327421/1000000 [00:38<01:19, 8440.92it/s]

Clc1c2coc1[nH]cnnco2


 34%|███████████████████████████████████████████████████▉                                                                                                       | 335144/1000000 [00:39<01:18, 8521.00it/s]

Cc1coc2ncn(nc[nH]1)c2O


 34%|████████████████████████████████████████████████████▍                                                                                                      | 338540/1000000 [00:40<01:22, 8010.16it/s]

Oc1ncn2ccc3nc[nH]c1c32


 35%|█████████████████████████████████████████████████████▊                                                                                                     | 347061/1000000 [00:41<01:19, 8229.96it/s]

c1cc2ncnc3ccoc(c1)c23


 36%|███████████████████████████████████████████████████████▊                                                                                                   | 359866/1000000 [00:42<01:17, 8308.90it/s]

NN=c1ccc#cc2cnc(n1)-c=2
Cc1cc2cc[nH]oc(=O)[nH]c1[nH]2


 37%|█████████████████████████████████████████████████████████▍                                                                                                 | 370176/1000000 [00:43<01:13, 8626.39it/s]

c1c2cnc([nH]c3ncc(c#1)o3)o2


 37%|█████████████████████████████████████████████████████████▉                                                                                                 | 373589/1000000 [00:44<01:16, 8233.23it/s]

N=Cn1ccccc2cc(no2)o1


 38%|██████████████████████████████████████████████████████████▊                                                                                                | 379492/1000000 [00:45<01:14, 8383.83it/s]

Cc1cocnnc2oc(C)c1-o-2


 39%|█████████████████████████████████████████████████████████████                                                                                              | 393820/1000000 [00:46<01:11, 8433.68it/s]

CCc1ccc2cnc([nH][nH]c1)[nH]2


 40%|█████████████████████████████████████████████████████████████▊                                                                                             | 398923/1000000 [00:47<01:11, 8428.92it/s]

Cc1c#ccnnc2onc(c1)-o-2


 40%|██████████████████████████████████████████████████████████████▏                                                                                            | 401456/1000000 [00:47<01:11, 8351.63it/s]

c1cc2ccocc3cnc(c1)c2-3


 43%|██████████████████████████████████████████████████████████████████▌                                                                                        | 429321/1000000 [00:51<01:08, 8321.16it/s]

Cn1oc2ncc([nH]ccc1=O)s2


 44%|████████████████████████████████████████████████████████████████████▍                                                                                      | 441256/1000000 [00:52<01:05, 8532.31it/s]

Cc1coc2csc(c2)[nH]c(=N)[nH]1


 46%|███████████████████████████████████████████████████████████████████████▊                                                                                   | 463277/1000000 [00:55<01:03, 8433.03it/s]

Cn1cc2ocnc3cncc1c32
N#Cc1ccoc2cc(n[nH]2)[nH]c1


 47%|████████████████████████████████████████████████████████████████████████▋                                                                                  | 469214/1000000 [00:55<01:04, 8279.55it/s]

Cc1coccc2oc(cc2N)o1


 48%|██████████████████████████████████████████████████████████████████████████▋                                                                                | 482049/1000000 [00:57<01:01, 8381.37it/s]

Cc1con2cnc(nc[nH]1)c2C
c1c2coc(n2)oc2ncc(c#1)s2


 50%|█████████████████████████████████████████████████████████████████████████████▉                                                                             | 502472/1000000 [00:59<00:58, 8509.19it/s]

N=c1cc[nH]c2cc(cn2O)o[nH]1


 54%|████████████████████████████████████████████████████████████████████████████████████                                                                       | 542275/1000000 [01:04<00:54, 8434.56it/s]

N=Cn1ccoccn2ccc1c2
c1c2csc(nc3ccc(c#1)[nH]3)-n-2


 55%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 554219/1000000 [01:05<00:53, 8381.50it/s]

Cc1c2[nH]cncnoc1c(O)o2


 56%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 560127/1000000 [01:06<00:52, 8341.59it/s]

Cc1cc2ncc3ncnc([nH]1)n32


 57%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 569473/1000000 [01:07<00:52, 8246.59it/s]

Cn1cn[nH]ccc2oc1cc2N


 58%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 583071/1000000 [01:09<00:49, 8353.32it/s]

S=c1[nH]nc2ccc#cccn1-o-2


 61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 610249/1000000 [01:12<00:46, 8466.53it/s]

Cn1ccc2cc(cs2)c(O)c[nH]1


 63%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 627255/1000000 [01:14<00:44, 8467.41it/s]

O=c1onc2cncc3ccn1-n-3-2
O=c1[nH]cc2cc1ocnnc[nH]2
N#Cc1c[nH]c2cnn(cco1)n2


 63%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 632372/1000000 [01:15<00:43, 8489.39it/s]

OCc1n[nH]c2c[nH]c(cco1)c2


 64%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 640846/1000000 [01:16<00:43, 8244.57it/s]

Cc1c2cccccn[nH]c1n[nH]2


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 645096/1000000 [01:16<00:42, 8358.98it/s]

Cc1c(N)c2ccoccon1c2


 65%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 647638/1000000 [01:17<00:42, 8353.35it/s]

Cc1c[nH]c(=N)onc2ccn1-s-2


 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 652724/1000000 [01:17<00:41, 8457.31it/s]

Cc1oc2n[nH]c(=O)[nH]ccc1-n-2


 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 658661/1000000 [01:18<00:41, 8239.26it/s]

Cc1cc2ocn[nH]c(=O)[nH]c1o2


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 667865/1000000 [01:19<00:40, 8241.52it/s]

O=c1c#cccon2ccc(c2)o1


 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 677183/1000000 [01:20<00:38, 8449.06it/s]

N=Cc1c2ccocnnc1s[nH]2


 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 686559/1000000 [01:21<00:36, 8515.94it/s]

Oc1[nH]c2ncnc3occc1c23


 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 731078/1000000 [01:27<00:32, 8374.64it/s]

Oc1cnc2[nH]ncc3coc1c32


 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 745433/1000000 [01:28<00:30, 8290.75it/s]

c1c2csc(nn3cc(c#1)nn3)-o-2


 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 759883/1000000 [01:30<00:28, 8371.24it/s]

C=c1c#cc(=C)oc2nc(c[nH]2)o1


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 763269/1000000 [01:30<00:28, 8254.75it/s]

Cc1ccoc2c(C)sc(nn1)-n-2
Oc1cc2cc(n1)[nH]nccc[nH]2


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 778495/1000000 [01:32<00:27, 8185.83it/s]

O=c1c#cccoc2noc(n1)-n-2


 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 814121/1000000 [01:37<00:22, 8241.18it/s]

Cc1ccn[nH]ccc2cc1[nH]n2


 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 842977/1000000 [01:40<00:18, 8297.26it/s]

O=c1sn2cc1c#ccccco2
Cc1nncoc2nn(cc2C)o1


 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 844661/1000000 [01:40<00:18, 8341.06it/s]

c1cn2ccc3c(csc32)nc[nH]1


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 849772/1000000 [01:41<00:17, 8423.39it/s]

Cc1c[nH]c2cc([nH]n2)o[nH]c1=O
c1cc[nH]c2nncc(cc#1)-n-2


 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 856533/1000000 [01:42<00:17, 8197.03it/s]

Cc1cn2ccnc3occc1c32


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 870790/1000000 [01:43<00:15, 8238.42it/s]

Cn1cc2cnc3nncc([nH]1)c3-2
c1cc2ccoc3coc(n1)c23


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 878405/1000000 [01:44<00:14, 8358.33it/s]

Cc1cnc2snc([nH][nH]c1)c2O


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 886106/1000000 [01:45<00:13, 8560.98it/s]

Cc1cc2occocnn1c2O


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 897279/1000000 [01:47<00:12, 8528.60it/s]

O=c1c#ccnnc2scc([nH]1)-s-2


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 900708/1000000 [01:47<00:11, 8554.65it/s]

Cn1c(=N)o[nH]ccc2coc1n2


 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 910144/1000000 [01:48<00:10, 8570.77it/s]

c1c2cc(oc3nnc(c#1)s3)sn2
Cc1cccnnc2occ(c1)-s-2


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 916149/1000000 [01:49<00:09, 8526.76it/s]

OCc1cc2ccoccon1c2


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 935636/1000000 [01:51<00:07, 8281.23it/s]

C=Cn1cnc2ccc1c(Cl)c2Cl


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 944123/1000000 [01:52<00:06, 8466.02it/s]

Cn1[nH]c2ccc(cn[nH]c1=O)s2


 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 953397/1000000 [01:53<00:05, 8279.74it/s]

NCc1coccc2c[nH]c(n2)o1


 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 974554/1000000 [01:56<00:03, 8221.42it/s]

Cn1cccnn2ccc(n1)-o-2


 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 988933/1000000 [01:57<00:01, 8253.85it/s]

CCc1cc(=O)c2o[nH]cc1-c=2O


 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 992345/1000000 [01:58<00:00, 8462.05it/s]

Clc1cc2cco[nH]ccc1o2


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 995779/1000000 [01:58<00:00, 8544.81it/s]

O=c1ccccc2c(=O)[nH]c(c1)-n=2


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000000/1000000 [01:59<00:00, 8383.32it/s]

Cc1c#cc2c(=O)cc(cnn1)-n=2
Nc1cc2ccoccon1c2N





In [18]:
count

216

### Check Canonical

In [22]:
# Check only for SMILES
count = 0
with open("./data-subsets/All/train_all.jsonl", "r") as f:
    for line_str in tqdm(f):
        line_obj = json.loads(line_str)
        smi = line_obj["text"]
        is_canon = check_canon(smi)
        if not is_canon:
            print(smi)
            count+=1
count            

1000000it [01:53, 8820.98it/s]


0

In [21]:
Chem.MolToSmiles(Chem.MolFromSmiles("CC=1N=CN=C(N(C)C)C(=O)C=1C"))

'Cc1ncnc(N(C)C)c(=O)c1C'

### Make Canonical

In [33]:
def make_canonical_smiles(path):
    with open(path, "r") as file_1:
        path_smi = path.split(".jsonl")[0]
        
        with open(f"{path_sf}_canonical.jsonl", "w") as file_2:
            for line_str in tqdm(file_1):
                line_obj = json.loads(line_str)
                smi = line_obj["text"]
                
                # Make canonical
                canon_smi = make_canon(smi)
                
                if canon_smi:
                    # Write
                    new_line = {"text": canon_smi}
                    json.dump(new_line, file_2)
                    file_2.write("\n")

### Convert smiles to selfies 

In [25]:
def convert_smi_to_sf(path):
    with open(path, "r") as file_1:
        path_sf = path.split(".jsonl")[0]
        
        with open(f"{path_sf}_selfies.jsonl", "w") as file_2:
            for line_str in tqdm(file_1):
                line_obj = json.loads(line_str)
                
                # Transform to selfies
                selfies_str = sf.encoder(line_obj["text"])
                
                # Write
                new_line = {"text": selfies_str}
                json.dump(new_line, file_2)
                file_2.write("\n")

In [34]:
convert_smi_to_sf("./data-subsets/Sas_3/valid_sas_3.jsonl")

100000it [00:17, 5734.40it/s]
