现在使用同一种化合物的SDF与SMILES进行计算与比较

N-乙基乙酰胺

https://pubchem.ncbi.nlm.nih.gov/#query=CCNC(C)%3DO

In [1]:
from rdkit import Chem, DataStructs
from rdkit.Chem import AllChem

# 使用SDF进行计算化学相似性

In [21]:
file_name = '../data/CCNC(C)=O.sdf'
num = 48
# Load SDF file and obtain molecule objects
supp = Chem.SDMolSupplier(file_name)
molecules = [mol for mol in supp if mol is not None]

# Compute Morgan fingerprints for each molecule
fingerprints = [AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits = num) for mol in molecules]

# Print the number of bits and the bit string representation for each fingerprint
for fp in fingerprints:
    print(fp.GetNumBits())
    print(fp.ToBitString())

48
100001010111000000000110100001101100000000000000


# 使用SMILES进行计算化学相似性

In [22]:
smiles = 'CCNC(C)=O'
ms = Chem.MolFromSmiles(smiles)
mfp = AllChem.GetMorganFingerprintAsBitVect(ms, 2, nBits = num)
print(mfp.GetNumBits())
print(mfp.ToBitString())

48
100001010111000000000110100001101100000000000000


In [23]:
def count_differing_bits(str1, str2):
    if len(str1) != len(str2):
        raise ValueError("Strings must have the same length")

    count = 0
    for bit1, bit2 in zip(str1, str2):
        if bit1 != bit2:
            count += 1

    return count

# Example usage:
diff_bits = count_differing_bits(fp.ToBitString(), mfp.ToBitString())
print("Number of differing bits:", diff_bits)

Number of differing bits: 0


# ECFP 与FCFP不同之处

ECFP（Extended Connectivity Fingerprints）和FCFP（Functional Class Fingerprints）是两种常用的分子指纹类型，它们在特征提取和描述化学结构方面有所不同：

- 连接性：

ECFP：ECFP是一种连接性指纹，它基于原子之间的连接关系来描述分子的结构。它考虑了原子之间的相邻关系，通常通过迭代地将相邻原子的哈希编码进行合并来生成指纹。
FCFP：FCFP也是一种连接性指纹，但它更加灵活，不仅考虑了原子之间的连接关系，还考虑了功能类别（functional class）之间的相互作用。功能类别是一组原子的集合，具有相似的化学性质，因此FCFP更具有化学信息的含义。
- 原子的表示：

ECFP：在ECFP中，原子通常以其哈希编码作为指纹的一部分，但**不考虑其具体的化学性质或功能**。
FCFP：在FCFP中，原子除了考虑其哈希编码外，还**根据其所属的功能类别进行编码。这样可以更好地捕捉分子的化学特征**，因为功能类别通常反映了原子在分子中的特定角色或功能。
- 指纹长度：

ECFP：ECFP指纹的长度通常由指定的半径和比特数确定。较大的半径和比特数通常会产生更大、更具区分性的指纹。
FCFP：FCFP指纹的长度也由指定的参数（例如半径和比特数）决定，但由于同时**考虑了功能类别**，因此在相同的指纹长度下，它**可能会比ECFP包含更多的化学信息**。
- 应用场景：

ECFP：ECFP常用于**分子的相似性搜索**、药物筛选和QSAR（定量结构-活性关系）建模等任务。
FCFP：FCFP通常用于**与生物活性相关**的任务，如蛋白质-小分子相互作用预测、**药物目标预测和药物相似性分析**等。
总的来说，ECFP和FCFP在原理和应用方面有所不同，选择合适的指纹类型取决于具体的研究目标和化学任务。

<u>*建议使用FCFP*</u>