Copyright (c) 2024 Mitsuru Ohno  
Use of this source code is governed by a BSD-3-style  
license that can be found in the LICENSE file.  

08/13/2024, M. Ohno  
Markush構造から、SMARTS を発生させる構造発生器の機能を有する、Pythonのmarkushmartsの使用例  

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
os.chdir('/content/drive/MyDrive/Colab Notebooks/markushmarts-main')

In [None]:
import pickle
from src import markushmarts

### 1. 骨格 "skelton" 中の2か所の可変官能基 "Q1", "Q2" に、同じ候補置換基 Q を導入していく場合  

註）コード<-> テキスト : #ctrl + cmd + MM / MY

In [None]:
#改変したい置換基を"Q<一桁添数>"で記載した骨格のSMARTSを記述する
skelton = '[CX3H2;!R:1]=[CX3;!R:2](Q1)[CX3;!R](=[OX1])[OX2,SX2,NX3:3]Q2'

#全ての可変置換基で、候補官能基が同一な場合には、それをリストとして与える。異なる場合には、可変置換基をキー、その候補官能基のリストを値とする辞書で与える
Q = ['[H]', '[CX4;H3,H2:10]', '[CX3;!R](=[OX1])[OX2,SX2,NX3:10]', '[CX2]#[NX1]', ]

In [None]:
rsl = markushmarts(skelton, Q)
rsl

### 2. 骨格のリスト "skeltons" 中の2か所の可変官能基 "Q1", "Q2" に、それぞれの候補置換基 QQ を導入していく場合  
例：acrylやbEGole  

In [None]:
# for acryl
#改変したい置換基を"Q<一桁添数>"で記載した骨格のSMARTSを記述し、それぞれをリストの要素として与える
skeltons = ['[CX3H2;!R:1]=[CX3;!R:2](Q1)Q2', '[CX3;H0;!R:1]([F])([F])=[CX3;!R:2](Q1)Q2', '[CX3;H1;!R:1]([F])=[CX3;!R:2](Q1)Q2']

#全ての可変置換基で、候補官能基が同一な場合には、それをリストとして与える。異なる場合には、可変置換基をキー、その候補官能基のリストを値とする辞書で与える
QQ = {'Q1':['[H]', '[CX4;H3]', '[F,Cl,Br:4]', '[CX4;H2][F,Cl:4]', '[CX4;H1]([F,Cl:4])[F,Cl:5]', '[CX4;H0]([F])([F])[F]',
            '[CX4;H2][c:4]', '[CX4;H1]([CX4;H3])[CX4;H3]', '[CX4;H1]([CX4;H3])[CX4;H2:4]'
            #'[OX2;H0][CX4;H2][CX4,c:4]', '[NX3;H1][CX3](=[OX1])[CX4:4]',
            '[CX3;!R](=[OX1])[OX2,SX2,NX3:4]', '[CX2]#[NX1]', '[NX2]=[CX2]=[OX1]',
            '[SX4](=[OX1])(=[OX1])[OX2:4]', '[PX4](=[OX1])(=[OX1])[OX2:4]', ],
      'Q2':['[CX3;!R](=[OX1])[OX2,SX2,NX3:3]', ]}

In [None]:
# for bEWole
#改変したい置換基を"Q<一桁添数>"で記載した骨格のSMARTSを記述し、それぞれをリストの要素として与える
skeltons = ['[CX3H2;!R:1]=[CX3;!R:2](Q1)Q2', '[CX3;H0;!R:1]([F])([F])=[CX3;!R:2](Q1)Q2', '[CX3;H1;!R:1]([F])=[CX3;!R:2](Q1)Q2']

#全ての可変置換基で、候補官能基が同一な場合には、それをリストとして与える。異なる場合には、可変置換基をキー、その候補官能基のリストを値とする辞書で与える
QQ = {'Q1':['[H]', '[CX4;H3]', '[F,Cl,Br:4]', '[CX4;H2][F,Cl:4]', '[CX4;H1]([F,Cl:4])[F,Cl:5]', '[CX4;H0]([F])([F])[F]',
            '[CX4;H2][c:4]', '[CX4;H1]([CX4;H3])[CX4;H3]', '[CX4;H1]([CX4;H3])[CX4;H2:4]'
            #'[OX2;H0][CX4;H2][CX4,c:4]', '[NX3;H1][CX3](=[OX1])[CX4:4]',
            '[CX3;!R](=[OX1])[OX2,SX2,NX3:4]', '[CX2]#[NX1]', '[NX2]=[CX2]=[OX1]',
            '[SX4](=[OX1])(=[OX1])[OX2:4]', '[PX4](=[OX1])(=[OX1])[OX2:4]', ],
      'Q2':['[CX2]#[NX1]', '[NX2]=[CX2]=[OX1]',
            '[SX4](=[OX1])(=[OX1])[OX2:3]', '[PX4](=[OX1])(=[OX1])[OX2:3]']}

In [None]:
rsl1 = list(map(lambda x: markushmarts(x, QQ), skeltons))
rsl1

In [None]:
#出力された構造がネストしたリスト場合、可読性向上のため展開
rsl2 = [x for y in rsl1 for x in y]
print(len(rsl2))
rsl2

In [None]:
#結果をpickleで保存
with open('acryl.pkl', mode='wb') as f:
  pickle.dump(rsl2, f)

### 3. 骨格リストの中に含まれる各骨格に、可変官能基が１つ含まれる場合  
例：styryl  

In [None]:
# for styryl
#改変したい置換基を"Q<一桁添数>"で記載した骨格のSMARTSを記述し、それぞれをリストの要素として与える
#skelton = '[CX3H2;!R:1]=[CX3;!R:2](Q1)[c]'
skeltons = ['[CX3H2;!R:1]=[CX3;!R:2](Q1)[c:3]', '[CX3;H0;!R:1]([F])([F])=[CX3;!R:2](Q1)[c:3]', '[CX3;H1;!R:1]([F])=[CX3;!R:2](Q1)[c:3]',
            '[CX3H2;!R:1]=[CX3;!R:2](Q1)[n:3]', '[CX3;H0;!R:1]([F])([F])=[CX3;!R:2](Q1)[n:3]', '[CX3;H1;!R:1]([F])=[CX3;!R:2](Q1)[n:3]', ] #'[CX3;H1;r5:1]=[CX3;H1;r5:2][c:3]'

#全ての可変置換基で、候補官能基が同一な場合には、それをリストとして与える。異なる場合には、可変置換基をキー、その候補官能基のリストを値とする辞書で与える
Q = ['[H]', '[CX4;H3]', '[F]', '[CX4;H2][F]', '[CX4;H1]([F])[F]', '[CX4;H0]([F])([F])[F]',
     '[OX2][CX4,SiX4:4]', ]

In [None]:
rsl3 = [x for y in [markushmarts(e,Q) for e in skeltons] for x in y]
rsl3

In [None]:
rsl3.append('[CX3;H1;r5:1]=[CX3;H1;r5:2][c:3]') #可変置換基を設定しないindene骨格を追加
print(len(rsl3))
rsl3

以下出力の確認及び結果の保存

In [None]:
with open('styryl.pkl', mode='wb') as f:
  pickle.dump(rsl3, f)

### 4. 発生したSMARTSの構造を目視確認  

In [None]:
!pip install rdkit

In [None]:
from rdkit import Chem
from rdkit.Chem import Draw

In [None]:
#l = [Chem.MolFromSmarts(e) for e in rsl]
l3 = [Chem.MolFromSmarts(e) for e in rsl2]

In [None]:
l3

In [None]:
m = l3[20]
m

### 5. 部分構造チェック  

In [None]:
m1 = Chem.MolFromSmiles('C1(=CC=CC=C1)C(=C)OC(C)(C)C')
indene =Chem.MolFromSmiles('C1C=CC2=CC=CC=C21 ')
patt = Chem.MolFromSmarts('[CX3;H2:1]=[CX3;H0:2]([OX2][CX4,SiX4:4])[c:3]')

In [None]:
patt

In [None]:
m1.HasSubstructMatch(patt)

In [None]:
#end