#  开启化学信息学之旅 | 快速上手RDKit
<div style="color:black; background-color:#FFF3E9; border: 1px solid #FFE0C3; border-radius: 10px; margin-bottom:0rem">
    <p style="margin:1rem; padding-left: 1rem; line-height: 2.5;">
        ©️ <b><i>Copyright 2023 @ Authors</i></b><br/>
        <i>作者：
            <b>
            <a href="mailto:yanghe@dp.tech">杨合 📨 </a>
            </b>
        </i>
        <br/>
        <i>日期：2023-06-13</i><br/>
        <i>共享协议：</a>本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议</a>进行许可。</i><br/>
        <i>快速开始：点击上方的</i> <span style="background-color:rgb(85, 91, 228); color:white; padding: 3px; border-radius: 5px;box-shadow: 2px 2px 3px rgba(0, 0, 0, 0.3); font-size:0.75rem;">开始连接</span> <i>按钮，选择 <b><u>bohrium-notebook:05-31</u>镜像</b>及任意节点配置，稍等片刻即可运行。
    </p>
</div>

🎯 <b style='color:purple'>本教程旨在<u>快速掌握</u> RDKit ，使用 RDKit 获取关于化合物分子的各种数据。</b>

* 一键运行，你可以快速在实践中检验你的想法。

* 丰富完善的注释，对于入门者友好。

**在 [Bohrium Notebook](https://bohrium-doc.dp.tech/docs/userguide/Notebook) 界面，你可以点击界面上方蓝色按钮 `开始连接`，选择 `bohrium-notebook` 镜像及任何一款节点配置，稍等片刻即可运行。**

<div style="width:auto; height:2px; background:linear-gradient(244deg,rgba(0,0,0,0) 0%,rgba(0,0,0,0.5) 50%,rgba(0,0,0,1) 100%)"></div>

## 目标

> **了解 RDKit 的基础功能，并能够使用 RDKit 进行简单的组合任务。**

在学习本教程后，你将能够：

- 读取、输出各种格式的化合物文件
- 绘制化合物结构
- 生成2D和3D构象
- 根据子结构搜索化合物
- 计算化合物的描述符
- 了解分子指纹， 计算分子相似性

**阅读该教程约需 30 分钟，让我们开始吧！**

## 目录

![RDKit](https://rdkit.org/docs/_static/logo.png)


* [1 认识 RDKit](#whatisrdkit)
  * [1.1 RDKit 的历史](#1-1)
  * [1.2 RDKit 的特点](#1-2)  
  * [1.3 安装方法](#1-3)
* [2 RDKit 基础功能](#rdkitfeatures)
  * [2.1 读取、输出和绘制分子](#2-1)
  * [2.2 获取原子与化学键信息](#2-2)
  * [2.3 生成2D和3D构象](#2-3)
  * [2.4 子结构搜索](#2-4)
  * [2.5 计算分子描述符](#2-5)
  * [2.6 分子指纹与分子相似性](#2-6)
* [总结](#summary)

### 1 认识 RDKit <a id='whatisrdkit'></a>
在这一节，你会了解到RDKit的发展历史，特点以及安装方法。

#### 1.1 RDKit 的历史 <a id='1-1'></a>  
2000年，针对市面上化学信息学开源工具较少的情况，Rational Discovery 公司开始编写 RDKit，用于辅助药物ADMET性质以及生物活性的预测。  
2006年， Rational Discovery 公司关闭，创始人Greg选择将 RDKit 开源。   
之后，RDKit 作为一个开源项目被不断更新。Greg加入了诺华公司，继续参与 RDKit 的开发工作。

#### 1.2 RDKit 的特点 <a id='1-2'></a>  
- BSD许可证 - 开源的商业友好许可证
- 核心数据结构和算法C++编写
- 使用Boost.Python生成的Python 3.x包装器
- 使用SWIG生成的Java和C＃包装器
- 2D和3D分子操作
- 用于机器学习的描述符和指纹生成
- 用于PostgreSQL的分子数据库 cartridge ，支持子结构和相似性搜索以及许多描述符
- KNIME的化学信息学节点

#### 1.3 安装方法 <a id='1-3'></a>  

In [1]:
! pip install rdkit

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
[0m

### 2 RDKit 基础功能 <a id='rdkitfeatures'></a>
在这一节，你会通过notebook的代码示例了解 RDKit 的基础功能，包括：
* 读取、输出和绘制化合物
* 获取原子和化学键信息
* 生成化合物的2D和3D构象
* 子结构搜索
* 计算分子描述符
* 分子指纹

在开始前，下载一些化合物文件

In [2]:
!git clone https://github.com/UR-Free/RDKit-data.git

fatal: destination path 'RDKit-data' already exists and is not an empty directory.


#### 2.1 读取、输出和绘制分子 <a id='2-1'></a>  

##### **读取单个分子** 
rdkit.Chem 是RDKit的核心模块，大部分的基础功能都可以在这里找到。  
<font color=DarkGoldenRod>可以在命令行输入"Chem.", 然后按Tap键查看Chem所包含的函数和模块。     
RDKit的函数名称简洁易懂，通过查看函数名称就可以便捷地找到相应功能的函数。<font>  

In [3]:
from rdkit import Chem

In [4]:
#根据smiles读取分子
m = Chem.MolFromSmiles('Cc1ccccc1')

#根据mol格式文件读取
m = Chem.MolFromMolFile('RDKit-data/input.mol')

#从符合mol格式的字符串读取分子
stringWithMolData=open('RDKit-data/input.mol','r').read()
m = Chem.MolFromMolBlock(stringWithMolData)

所有这些函数在运行成功后会返回一个rdkit.Chem.rdchem.Mol对象

In [5]:
type(m)

rdkit.Chem.rdchem.Mol

如果运行失败，则返回None，并输出运行失败的原因

In [6]:
m2 = Chem.MolFromSmiles('CO(C)C')
m2 is None

[17:39:51] Explicit valence for atom # 1 O, 3, is greater than permitted


True

##### **读取多个分子** 
RDKit也可以同时读取多个分子。

In [7]:
suppl = Chem.SDMolSupplier('RDKit-data/ligands.sdf')
for mol in suppl:
    #在进行信息处理前，测试化合物是否被读取成功
    if mol is not None:
        print(mol.GetNumAtoms())

7
10
13


当读取的分子数目比较大时, 可以使用MultithreadedMolSuppliers:

In [8]:
i = 0
with Chem.MultithreadedSDMolSupplier('RDKit-data/ligands.sdf') as sdSupl:
  for mol in sdSupl:
    if mol is not None:
      i += 1

print(i)

3


##### **输出分子**  
有数个函数可以完成单个的分子输出。比如，如果输出smiles:

In [9]:
m = Chem.MolFromMolFile('RDKit-data/input.mol')
Chem.MolToSmiles(m)

'O=C1/C=C\\C=C/C=C(/O)O1'

In [10]:
smi1 = Chem.MolToSmiles(Chem.MolFromSmiles('C1=CC=CN=C1'))

也可以输出MDL Mol格式:

In [11]:
m2 = Chem.MolFromSmiles('C1CCC1')
print(Chem.MolToMolBlock(m2))    


     RDKit          2D

  4  4  0  0  0  0  0  0  0  0999 V2000
    1.0607    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -0.0000   -1.0607    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -1.0607    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    1.0607    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
  1  2  1  0
  2  3  1  0
  3  4  1  0
  4  1  1  0
M  END



In [12]:
#为了在输出中包含分子名称信息, 可以设置它的 “_Name” 属性:
m2.SetProp("_Name","cyclobutane")
print(Chem.MolToMolBlock(m2))

cyclobutane
     RDKit          2D

  4  4  0  0  0  0  0  0  0  0999 V2000
    1.0607    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -0.0000   -1.0607    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -1.0607    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    1.0607    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
  1  2  1  0
  2  3  1  0
  3  4  1  0
  4  1  1  0
M  END



如果要输出信息到文件，可以使用print函数。

In [13]:
print(Chem.MolToMolBlock(m2),file=open('foo.mol','w+'))

多个分子的输出可以使用rdkit.Chem.rdmolfiles.SDWriter:

In [14]:
mols = Chem.SDMolSupplier('RDKit-data/ligands.sdf')
with Chem.SDWriter('foo.sdf') as w:
    for m in mols:
        w.write(m)

#### **绘制分子** 
使用Chem.Draw.MolToImage()绘制单个分子。

In [15]:
from rdkit.Chem import Draw
Draw.MolToImage(m)

<PIL.PngImagePlugin.PngImageFile image mode=RGB size=300x300>

也可以将图像保存到文件。

In [16]:
Draw.MolToFile(m, filename = '/data/mol1.png')    

使用Chem.Draw.MolsToGridImage()展示多个分子。   
此时的化合物结构没有“舒展地”显示。这个问题在后面[生成2D和3D构象](#2-3)可以得到解决。

In [17]:
suppl = Chem.SDMolSupplier('RDKit-data/ligands.sdf')
mols = [x for x in suppl if x is not None ]

Draw.MolsToImage(mols, molsPerRow=4,subImgSize=(200,200),legends=[x.GetProp("_Name") for x in mols])    

<PIL.Image.Image image mode=RGBA size=600x200>

#### 2.2 获取原子与化学键信息 <a id='2-2'></a>  
##### **遍历原子与化学键**  
得到 RDKit Mol 对象后，我们可以遍历它的原子或者化学键，获取包括原子序数、化学符号、原子质量、原子中非成对电子数、化学键类型等在内的信息。

In [18]:
m = Chem.MolFromSmiles('C1OC1')
for atom in m.GetAtoms():
    print(atom.GetAtomicNum())

6
8
6


In [19]:
for bond in m.GetBonds():
    print(bond.GetBondType())

SINGLE
SINGLE
SINGLE


也可以根据索引，获取对应的原子或者化学键。

In [20]:
m.GetAtomWithIdx(0).GetSymbol()

'C'

##### **环信息**
可以查看某个原子是否位于环中。

In [21]:
m = Chem.MolFromSmiles('OC1C2C1CC2')
m.GetAtomWithIdx(0).IsInRing()

False

In [22]:
m.GetAtomWithIdx(2).IsInRingSize(3)

True

##### **氢原子的添加与移除**
为了方便显示和理解，RDKit默认读取到的Mol对象不含有氢原子。  
当在某些情况下,氢原子不能被忽略时，可以将氢原子重新添加到化合物上。

In [23]:
m=Chem.MolFromSmiles('CCO')
m2 = Chem.AddHs(m)
Chem.Draw.MolsToImage([m,m2])

<PIL.Image.Image image mode=RGBA size=400x200>

也可以用rdkit.Chem.RemoveHs()将氢原子从结构中移除：

In [24]:
m3 = Chem.RemoveHs(m2)
Chem.Draw.MolToImage(m3)

<PIL.PngImagePlugin.PngImageFile image mode=RGB size=300x300>

#### 2.3 生成2D和3D构象 <a id='2-3'></a>  
**2D构象**

在前面学习“绘制多个分子”时，我们发现分子结构展示效果不是很好，现在可用AllChem.Compute2DCoords()解决这个问题。

In [25]:
from rdkit.Chem import AllChem
suppl = Chem.SDMolSupplier('RDKit-data/ligands.sdf')
mols = [x for x in suppl if x is not None ]

# 重新计算2D构象
for mol in mols:
    AllChem.Compute2DCoords(mol)
Chem.Draw.MolsToImage(mols,molsPerRow=4,subImgSize=(200,200),legends=[x.GetProp("_Name") for x in mols])    

<PIL.Image.Image image mode=RGBA size=600x200>

**3D构象**  
RDKit 可以通过两种方法为化合物生成3D构象。
1. 几何距离法生成初始构象，然后用力场UFF或者MMFF优化构象；
2. ETKDG方法，它使用来自剑桥结构数据库的扭转角信息对生成的构象进行校正。  

<font color=DarkGoldenRod>值得注意的是，构象生成是一项困难且细微的工作，RDKit为使用者提供了一个较为快速的3D构象生成方法，但这种方法并不能取代真正的构象生成程序。</font> 

这里是一个使用MMFF94通过能量最小化生成化合物3D构象的例子：

In [26]:
mols2 = []
for mol in mols:
    AllChem.Compute2DCoords(mol)
    mol2=Chem.AddHs(mol)
    AllChem.EmbedMolecule(mol2)
    AllChem.MMFFOptimizeMolecule(mol2)
    mols2.append(mol2)
    
Draw.MolsToImage(mols2,molsPerRow=4,subImgSize=(200,200),legends=[x.GetProp("_Name") for x in mols])    

<PIL.Image.Image image mode=RGBA size=600x200>

RDKit也可以为化合物生成多种构象，我们需要通过numConfs设置想要的构象数量。  

In [27]:
m = Chem.MolFromSmiles('C1CCC1OC')
m2=Chem.AddHs(m)
# run ETKDG 10 times
cids = AllChem.EmbedMultipleConfs(m2, numConfs=10)
print(len(cids))

rmslist = []
#使用AllChem.AlignMolConformers(),计算不同构象间的RMSD差异。
AllChem.AlignMolConformers(m2, RMSlist=rmslist)
print(len(rmslist))

10
9


当计算量比较大时，我们可以使用多线程的方法来提高运行速度。  
把numThreads设为0时，程序会使用计算机所允许的所有线程。

In [28]:
cids = AllChem.EmbedMultipleConfs(m2, numThreads=0)
res = AllChem.MMFFOptimizeMoleculeConfs(m2, numThreads=0)

#### 2.4 搜索结构 <a id='2-4'></a>  

可以使用SMARTS进行子结构匹配:

In [29]:
m = Chem.MolFromSmiles('c1ccccc1O')
patt = Chem.MolFromSmarts('ccO')
m.HasSubstructMatch(patt)

True

分子中每个原子都含有原子序号，可以查看是哪些原子与查询结构相匹配

In [30]:
m.GetSubstructMatches(patt)

((0, 5, 6), (4, 5, 6))

我们可以使用这个功能快速地对分子进行查找、过滤

In [31]:
matches = [] 
with Chem.SDMolSupplier('RDKit-data/ligands.sdf') as suppl: 
    for mol in suppl: 
        if mol.HasSubstructMatch(patt): 
            matches.append(mol) 
len(matches)

1

除了smarts，smiles也可以用作结构查询

In [32]:
m = Chem.MolFromSmiles('C1=CC=CC=C1OC') 
m.HasSubstructMatch(Chem.MolFromSmarts('CO'))

True

<font color=DarkGoldenRod>smarts和smiles是不等价的，不能混淆使用<font>

In [33]:
m.HasSubstructMatch(Chem.MolFromSmiles('COC'))

True

In [34]:
m.HasSubstructMatch(Chem.MolFromSmarts('COC'))

False

#### 2.5 描述符   <a id='2-5'></a>  
RDKit提供了非常多的用于描述化合物理化性质的描述符，例如气相点电荷、脂水分配系数、分子质量、可旋转键数量、芳香环数量等。 

In [35]:
from rdkit.Chem import Descriptors
m = Chem.MolFromSmiles('c1ccccc1C(=O)O')
# TPSA 表示拓扑极表面积
Descriptors.TPSA(m)

37.3

In [36]:
#脂水分配系数
Descriptors.MolLogP(m)

1.3848

##### **计算点电荷**

In [37]:
from rdkit.Chem import AllChem
m = Chem.MolFromSmiles('c1ccccc1C(=O)O')
AllChem.ComputeGasteigerCharges(m)
m.GetAtomWithIdx(0).GetDoubleProp('_GasteigerCharge')

-0.04769375004654255

##### **计算所有的描述符**  

In [38]:
vals = Descriptors.CalcMolDescriptors(m)
# 此时，vals包含了关于m的所有描述符
len(vals.keys())

209

使用pandas查看描述符的计算情况

In [39]:
import pandas
from rdkit import Chem
from rdkit.Chem import Descriptors

suppl = Chem.SDMolSupplier('RDKit-data/ligands.sdf')
mols = [x for x in suppl if x is not None ]

descrs = [Descriptors.CalcMolDescriptors(mol) for mol in mols]
df = pandas.DataFrame(descrs)
df.head()

Unnamed: 0,MaxAbsEStateIndex,MaxEStateIndex,MinAbsEStateIndex,MinEStateIndex,qed,MolWt,HeavyAtomMolWt,ExactMolWt,NumValenceElectrons,NumRadicalElectrons,...,fr_sulfide,fr_sulfonamd,fr_sulfone,fr_term_acetylene,fr_tetrazole,fr_thiazole,fr_thiocyan,fr_thiophene,fr_unbrch_alkane,fr_urea
0,8.632222,8.632222,0.321759,0.321759,0.51473,94.113,88.065,94.041865,36,0,...,0,0,0,0,0,0,0,0,0,0
1,10.5025,10.5025,0.383704,-0.571204,0.508796,138.122,132.074,138.031694,52,0,...,0,0,0,0,0,0,0,0,0,0
2,10.852689,10.852689,0.11287,-0.572361,0.565967,180.159,172.095,180.042259,68,0,...,0,0,0,0,0,0,0,0,0,0


#### 2.6 分子指纹与分子相似性   <a id='2-6'></a>  
在化学信息学的领域中，分子指纹是一项重要的技术，用于将分子结构转化为数值表示，以便进行相似性比较、机器学习和药物发现等任务。  
RDKit支持多种分子指纹，包括Morgan、MACCS、原子对、拓扑扭转角、拓扑指纹等。 

获取指纹最直接的方法是为感兴趣的指纹类型创建一个FingeprintGenerator对象，然后使用它来计算指纹。  

**Morgan指纹**   
Morgan指纹是常用的分子指纹之一，它基于分子中的环形子结构来描述分子的拓扑结构特征。

Morgan指纹的生成过程：
1. 半径分配。为分子中的每个原子分配一个半径，以便确定分子中各个原子的邻居关系。
2. 环形子结构生成。在每个半径层次上，通过遍历分子的原子和键的关系，我们可以找到分子中的所有环形子结构。
3. 使用哈希函数对这些环形子结构进行编码，并将其映射为二进制位串。

In [41]:
from rdkit.Chem import AllChem
from rdkit import DataStructs
fpgen = AllChem.GetMorganGenerator(radius=2)
m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncccc1')
fp1 = fpgen.GetSparseCountFingerprint(m1)
fp2 = fpgen.GetSparseCountFingerprint(m2)
DataStructs.DiceSimilarity(fp1,fp2)

0.55

**MACCS指纹**  
MACCS指纹是另一种常用的分子指纹类型，它基于分子中的化学功能团和子结构来描述分子的结构特征。 

MACCS指纹的生成过程：
1. 定义了一组SMARTS模式，这些模式描述了常见的化学功能团和子结构。
2. 对于给定的分子，我们逐个匹配这些SMARTS模式，如果分子中存在与模式匹配的子结构，则将相应的位设置为1，否则为0。
3. 将所有子结构模式的匹配结果合并为一个MACCS指纹。

In [42]:
from rdkit.Chem import MACCSkeys

m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncccc1')
fp1 = MACCSkeys.GenMACCSKeys(m1)
fp2 = MACCSkeys.GenMACCSKeys(m2)
DataStructs.DiceSimilarity(fp1,fp2)

0.5714285714285714

##### **Atom Pair指纹**  
Atom Pair指纹是一种基于分子中原子对（atom pair）的特征表示方法。它通过计算分子中所有原子对之间的距离，并将这些距离转化为二进制位串来表示分子的结构特征。Atom Pair指纹可以捕捉原子之间的相互作用和空间关系，因此在描述分子的立体结构和性质时非常有用。

Atom Pair指纹的生成过程如下：
1. 计算分子中所有原子对之间的距离，并将其映射到一个固定的范围。
2. 将这些距离分配给对应的位，如果某个原子对的距离落在某个范围内，则将对应位设置为1，否则为0。
3. 将所有位的状态合并为一个Atom Pair指纹。

In [43]:
from rdkit.Chem import AllChem
fpgen = AllChem.GetRDKitFPGenerator(maxPath=2,fpSize=1024)
m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncccc1')
fp1 = fpgen.GetSparseCountFingerprint(m1)
fp2 = fpgen.GetSparseCountFingerprint(m2)
DataStructs.DiceSimilarity(fp1,fp2)

0.6

**Topological Torsion指纹**  
Topological Torsion指纹基于分子中的拓扑扭曲特征来描述分子的结构。它主要用于捕捉分子中的环形子结构和扭曲性质，对于描述分子的立体化学特征具有重要意义。

Topological Torsion指纹的生成过程如下：
1. 识别分子中的所有环形子结构，并确定这些环形子结构的扭曲程度。环的扭曲程度是通过计算环中的化学键的旋转角度来衡量的。
2. 将这些扭曲程度映射到一个固定的范围，并将其分配给对应的位。如果某个环形子结构的扭曲程度落在某个范围内，则将对应位设置为1，否则为0。
3. 将所有位的状态合并为一个Topological Torsion指纹。

In [44]:
from rdkit.Chem import AllChem

pgen = AllChem.GetTopologicalTorsionGenerator()
m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncccc1')
fp1 = fpgen.GetSparseCountFingerprint(m1)
fp2 = fpgen.GetSparseCountFingerprint(m2)
DataStructs.DiceSimilarity(fp1,fp2)

0.6

#### 总结 <a id='summary'></a>  
总的来说，在这份notebook中，我们学习了RDKit的基本功能，包括读取、输出和绘制化合物，获取原子和化学键的信息，生成化合物构象、搜索子结构、计算描述符和分子指纹。  
经过上面的学习，相信大家对RDKit是什么，能干啥已经有了较为深刻的认识。实践是最好的老师，快点把RDKit用到自己的课题中吧，当然也可以浏览Bohrium案例广场的其余教程，学习更多有用知识！

#### 参考
https://www.rdkit.org/docs/index.html