# T002 · 分子筛选：ADME和类药性标准


## 教程目标

在药物设计领域，根据例如它们的物理化学性质来筛选候选分子非常重要。在这个教程中，我们将使用 Lipinski 的五规则来筛选从 ChEMBL 获取的化合物（见课程 __T001__），以保留只有口服生物利用度的化合物。


### _理论_ 部分

* ADME - 吸收、分布、代谢和排泄
* 类药性与利平斯基五规则（Ro5）
* 在类药性背景下的雷达图


### _实践_ 部分

* 定义并可视化示例分子
* 计算并绘制Ro5的分子属性
* 检查Ro5的合规性
* 将Ro5应用于EGFR数据集
* 可视化Ro5属性（雷达图）


### 参考文献

* ADME criteria ([Wikipedia](https://en.wikipedia.org/wiki/ADME) and [<i>Mol Pharm.</i> (2010), <b>7(5)</b>, 1388-1405](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3025274/))
* [SwissADME](https://www.nature.com/articles/srep42717) webserver
* What are lead compounds? ([Wikipedia](https://en.wikipedia.org/wiki/Lead_compound))
* What is the LogP value? ([Wikipedia](https://en.wikipedia.org/wiki/Partition_coefficient))
* Lipinski et al. "Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings." ([<i>Adv. Drug Deliv. Rev.</i> (1997), <b>23</b>, 3-25](https://www.sciencedirect.com/science/article/pii/S0169409X96004231))
* Ritchie et al. "Graphical representation of ADME-related molecule properties for medicinal chemists" ([<i>Drug. Discov. Today</i> (2011), <b>16</b>, 65-72](https://www.ncbi.nlm.nih.gov/pubmed/21074634))

## 理论

在虚拟筛选中，我们的目标是预测一个化合物是否可能与特定靶标结合并与之相互作用。然而，如果我们想要鉴定一种新药，这个化合物能否以有利的方式到达目标并最终从体内清除也很重要。因此，我们还应该考虑一个化合物是否真的被吸收进入体内，以及它是否能够穿越某些屏障以到达其目标。它在代谢上是否稳定，一旦不再作用于目标，它将如何被排泄？这些过程在药代动力学领域进行了研究。与药效学（“药物对我们的身体做了什么？”）不同，药代动力学处理的问题是“药物在我们体内发生了什么？”。

### ADME - 吸收、分布、代谢和排泄

药代动力学主要分为四个步骤：
**A**bsorption（吸收），
**D**istribution（分布），
**M**etabolism（代谢），
**E**xcretion（排泄）。
这些步骤被总结为**ADME**。
通常，ADME还包括**T**oxicology（毒理学），因此被称为ADMET或ADMETox。
下面将更详细地讨论ADME步骤（[维基百科](https://en.wikipedia.org/wiki/ADME) 和 [<i>Mol Pharm.</i> (2010), <b>7(5)</b>, 1388-1405](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3025274/)）。


**吸收**：药物进入体内的量和时间取决于多种因素，这些因素可能因个体及其状况以及物质本身的特性而有所不同。诸如（差）化合物溶解度、胃排空时间、肠道通过时间、在胃中的化学（不）稳定性以及（不）能够穿透肠壁等因素，都可能影响药物在例如口服、吸入或皮肤接触后的被吸收程度。


**分布**: 吸收物质在体内的分布，即在血液和不同组织之间，以及穿越血脑屏障，受区域血流速率、化合物的分子大小和极性，以及与血清蛋白和转运酶的结合能力的影响。在毒理学中，关键效应可能是高度非极性物质在脂肪组织的积累，或穿越血脑屏障。


**代谢**: 进入体内后，化合物将被代谢。这意味着只有部分化合物实际上会到达其目标。主要是肝脏和肾脏的酶负责分解异物（对身体来说是外来的物质）。

**排泄**: 化合物及其代谢产物需要通过排泄从体内清除，通常通过肾脏（尿液）或粪便排出。排泄不完全可能导致外来物质的积累或对正常代谢产生不利干扰。


![ADME processes in the human body](images/adme.png)

_Figure 1_: ADME 过程在人体中（图表取自[Openclipart](https://openclipart.org/)，已改编）。

### 先导化合物的相似性与利平斯基五规则（Ro5）

[**先导**化合物](https://en.wikipedia.org/wiki/Lead_compound) 是具有良好属性的潜在药物候选物。它们被用作起始结构，并进行修改，目的是开发有效的药物。除了生物活性（化合物与感兴趣的靶标结合）之外，有利的ADME属性也是设计高效药物的重要标准。

化合物的生物利用度是一个重要的ADME属性。利平斯基五规则（Ro5，[<i>Adv. Drug Deliv. Rev.</i> (1997), <b>23</b>, 3-25](https://www.sciencedirect.com/science/article/pii/S0169409X96004231)）被引入，以仅基于其化学结构来估计化合物的生物利用度。
Ro5规定，如果化合物的化学结构违反了以下规则中的超过一条，则化合物的吸收或渗透可能性较差：

- 分子量（MWT）<= 500 Da
- 氢键受体（HBAs）数量<= 10
- 氢键供体（HBD）数量<= 5
- 计算的LogP（辛醇-水系数）<= 5

注意：Ro5中的所有数字都是五的倍数；这是规则名称的由来。

附加说明：

- [LogP](https://en.wikipedia.org/wiki/Partition_coefficient) 也称为分配系数或辛醇-水系数。它测量化合物的分布，通常介于疏水性（例如1-辛醇）和亲水性（例如水）相之间。
- 疏水分子在水中的溶解度可能降低，而更亲水的分子（例如氢键受体和供体数量多）或大分子（分子量高）可能在通过磷脂膜时遇到更多困难。


### 在先导化合物相似性背景下的雷达图

分子属性，如Ro5属性，可以通过多种方式进行可视化（例如，克雷格图、花朵图或黄金三角），以支持药物化学家的解释（[<i>Drug. Discov. Today</i> (2011), <b>16(1-2)</b>, 65-72](https://www.ncbi.nlm.nih.gov/pubmed/21074634)）。

由于它们的外观，[雷达图](https://en.wikipedia.org/wiki/Radar_chart) 有时也被称为“蜘蛛”或“蛛网”图。
它们以360度的圆形排列，并且每个条件都有一个从中心开始的轴。每个参数的值在轴上被绘制出来，并用线条连接。
阴影区域可以指示参数满足条件的区域。

![Radar plot for physicochemical properties](images/radarplot.png)

_Figure 2_: 雷达图显示化合物数据集的物理化学属性


## 实战

In [1]:
from pathlib import Path
import math

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.lines import Line2D
import matplotlib.patches as mpatches
from rdkit import Chem
from rdkit.Chem import Descriptors, Draw, PandasTools

In [None]:
# Set path to this notebook
HERE = Path(_dh[-1])
DATA = HERE / "data"

### 定义并可视化示例分子

在处理从ChEMBL检索到的整个数据集之前，我们选择了四种示例化合物来研究它们的化学性质。
我们根据它们的SMILES绘制了四种示例分子。


In [None]:
smiles = [
    "CCC1C(=O)N(CC(=O)N(C(C(=O)NC(C(=O)N(C(C(=O)NC(C(=O)NC(C(=O)N(C(C(=O)N(C(C(=O)N(C(C(=O)N(C(C(=O)N1)C(C(C)CC=CC)O)C)C(C)C)C)CC(C)C)C)CC(C)C)C)C)C)CC(C)C)C)C(C)C)CC(C)C)C)C",
    "CN1CCN(CC1)C2=C3C=CC=CC3=NC4=C(N2)C=C(C=C4)C",
    "CC1=C(C(CCC1)(C)C)C=CC(=CC=CC(=CC=CC=C(C)C=CC=C(C)C=CC2=C(CCCC2(C)C)C)C)C",
    "CCCCCC1=CC(=C(C(=C1)O)C2C=C(CCC2C(=C)C)C)O",
]
names = ["cyclosporine", "clozapine", "beta-carotene", "cannabidiol"]

首先，我们将分子的名称和SMILES与它们的结构一起放到一个DataFrame中。


In [None]:
molecules = pd.DataFrame({"name": names, "smiles": smiles})
PandasTools.AddMoleculeColumnToFrame(molecules, "smiles")
molecules

### 计算并绘制Ro5分子属性

1. 使用 `rdkit` 中可用的[描述符](http://www.rdkit.org/docs/GettingStartedInPython.html#descriptor-calculation)计算分子量、氢键受体和供体的数量以及logP。


In [None]:
molecules["molecular_weight"] = molecules["ROMol"].apply(Descriptors.ExactMolWt)
molecules["n_hba"] = molecules["ROMol"].apply(Descriptors.NumHAcceptors)
molecules["n_hbd"] = molecules["ROMol"].apply(Descriptors.NumHDonors)
molecules["logp"] = molecules["ROMol"].apply(Descriptors.MolLogP)
# Colors are used for plotting the molecules later
molecules["color"] = ["red", "green", "blue", "cyan"]
# NBVAL_CHECK_OUTPUT
molecules[["molecular_weight", "n_hba", "n_hbd", "logp"]]

In [None]:
# Full preview
molecules

2. 将分子属性绘制为条形图。

In [None]:
ro5_properties = {
    "molecular_weight": (500, "molecular weight (Da)"),
    "n_hba": (10, "# HBA"),
    "n_hbd": (5, "# HBD"),
    "logp": (5, "logP"),
}

In [None]:
# Start 1x4 plot frame
fig, axes = plt.subplots(figsize=(10, 2.5), nrows=1, ncols=4)
x = np.arange(1, len(molecules) + 1)
colors = ["red", "green", "blue", "cyan"]

# Create subplots
for index, (key, (threshold, title)) in enumerate(ro5_properties.items()):
    axes[index].bar([1, 2, 3, 4], molecules[key], color=colors)
    axes[index].axhline(y=threshold, color="black", linestyle="dashed")
    axes[index].set_title(title)
    axes[index].set_xticks([])

# Add legend
legend_elements = [
    mpatches.Patch(color=row["color"], label=row["name"]) for index, row in molecules.iterrows()
]
legend_elements.append(Line2D([0], [0], color="black", ls="dashed", label="Threshold"))
fig.legend(handles=legend_elements, bbox_to_anchor=(1.2, 0.8))

# Fit subplots and legend into figure
plt.tight_layout()
plt.show()

在条形图中，我们比较了四种具有不同属性的示例分子的Ro5属性。在接下来的步骤中，我们将研究每种化合物是否违反了Ro5规则。

### 检查Ro5的合规性

In [None]:
def calculate_ro5_properties(smiles):
    """
    Test if input molecule (SMILES) fulfills Lipinski's rule of five.

    Parameters
    ----------
    smiles : str
        SMILES for a molecule.

    Returns
    -------
    pandas.Series
        Molecular weight, number of hydrogen bond acceptors/donor and logP value
        and Lipinski's rule of five compliance for input molecule.
    """
    # RDKit molecule from SMILES
    molecule = Chem.MolFromSmiles(smiles)
    # Calculate Ro5-relevant chemical properties
    molecular_weight = Descriptors.ExactMolWt(molecule)
    n_hba = Descriptors.NumHAcceptors(molecule)
    n_hbd = Descriptors.NumHDonors(molecule)
    logp = Descriptors.MolLogP(molecule)
    # Check if Ro5 conditions fulfilled
    conditions = [molecular_weight <= 500, n_hba <= 10, n_hbd <= 5, logp <= 5]
    ro5_fulfilled = sum(conditions) >= 3
    # Return True if no more than one out of four conditions is violated
    return pd.Series(
        [molecular_weight, n_hba, n_hbd, logp, ro5_fulfilled],
        index=["molecular_weight", "n_hba", "n_hbd", "logp", "ro5_fulfilled"],
    )

In [None]:
# NBVAL_CHECK_OUTPUT
for name, smiles in zip(molecules["name"], molecules["smiles"]):
    print(f"Ro5 fulfilled for {name}: {calculate_ro5_properties(smiles)['ro5_fulfilled']}")

根据Ro5规则，cyclosporin 环孢素和cyclosporin β-胡萝卜素被估计具有较差的生物利用度。然而，由于它们都是获批的药物，它们是很好的例证，说明Ro5可以作为**警示使用**，但**不一定非得作为筛选的过滤器**。

### 将Ro5应用于EGFR数据集

`calculate_ro5_properties` 函数可以应用于EGFR数据集，以确定符合Ro5规则的化合物。

In [None]:
molecules = pd.read_csv(HERE / "../T001_query_chembl/data/EGFR_compounds.csv", index_col=0)
print(molecules.shape)
molecules.head()

对所有小分子利用Ro5规则

In [None]:
# This takes a couple of seconds
ro5_properties = molecules["smiles"].apply(calculate_ro5_properties)
ro5_properties.head()

In [None]:
molecules = pd.concat([molecules, ro5_properties], axis=1)
molecules.head()

In [None]:
# Note that the column "ro5_fulfilled" contains boolean values.
# Thus, we can use the column values directly to subset data.
# Note that ~ negates boolean values.
molecules_ro5_fulfilled = molecules[molecules["ro5_fulfilled"]]
molecules_ro5_violated = molecules[~molecules["ro5_fulfilled"]]

print(f"# compounds in unfiltered data set: {molecules.shape[0]}")
print(f"# compounds in filtered data set: {molecules_ro5_fulfilled.shape[0]}")
print(f"# compounds not compliant with the Ro5: {molecules_ro5_violated.shape[0]}")
# NBVAL_CHECK_OUTPUT

In [None]:
# Save filtered data
molecules_ro5_fulfilled.to_csv(DATA / "EGFR_compounds_lipinski.csv")
molecules_ro5_fulfilled.head()

### 可视化Ro5属性（雷达图）

#### 计算Ro5属性的统计数据

定义一个辅助函数来计算DataFrame的平均值和标准偏差。


In [None]:
def calculate_mean_std(dataframe):
    """
    Calculate the mean and standard deviation of a dataset.

    Parameters
    ----------
    dataframe : pd.DataFrame
        Properties (columns) for a set of items (rows).

    Returns
    -------
    pd.DataFrame
        Mean and standard deviation (columns) for different properties (rows).
    """
    # Generate descriptive statistics for property columns
    stats = dataframe.describe()
    # Transpose DataFrame (statistical measures = columns)
    stats = stats.T
    # Select mean and standard deviation
    stats = stats[["mean", "std"]]
    return stats

我们为符合 __Ro5__ 规则的化合物数据集计算统计数据。

In [None]:
molecules_ro5_fulfilled_stats = calculate_mean_std(
    molecules_ro5_fulfilled[["molecular_weight", "n_hba", "n_hbd", "logp"]]
)
molecules_ro5_fulfilled_stats
# NBVAL_CHECK_OUTPUT

我们为 __违反Ro5规则__ 的化合物数据集计算统计数据。

In [None]:
molecules_ro5_violated_stats = calculate_mean_std(
    molecules_ro5_violated[["molecular_weight", "n_hba", "n_hbd", "logp"]]
)
molecules_ro5_violated_stats

#### 定义辅助函数以准备数据进行雷达图绘制

接下来，我们将定义一些仅用于雷达图绘制的辅助函数。

__准备雷达图绘制所需的Y值__ ：
用于Ro5标准的属性具有不同的量级。
分子量阈值（MWT）为500，而氢键供体数（HBAs）和氢键受体数（HBDs）以及对数P（LogP）的阈值仅为10、5和5。为了最简单地可视化这些不同的尺度，我们将所有属性值缩放到一个缩放阈值为5的标准：

`缩放后的属性值` = `属性值` / `属性阈值` * `缩放属性阈值`

- 缩放后的分子量 = MWT / 500 * 5 = MWT / 100
- 缩放后的氢键供体数 = HBA / 10 * 5 = HBA / 2
- 缩放后的氢键受体数 = HBD / 5 * 5 = HBD
- 缩放后的对数P = LogP / 5 * 5 = LogP

这导致分子量缩小了100倍，氢键供体数缩小了2倍，而氢键受体数和对数P保持不变。

以下辅助函数执行这种缩放，并将在稍后的雷达图绘制中使用。


In [None]:
def _scale_by_thresholds(stats, thresholds, scaled_threshold):
    """
    Scale values for different properties that have each an individually defined threshold.

    Parameters
    ----------
    stats : pd.DataFrame
        Dataframe with "mean" and "std" (columns) for each physicochemical property (rows).
    thresholds : dict of str: int
        Thresholds defined for each property.
    scaled_threshold : int or float
        Scaled thresholds across all properties.

    Returns
    -------
    pd.DataFrame
        DataFrame with scaled means and standard deviations for each physiochemical property.
    """
    # Raise error if scaling keys and data_stats indicies are not matching
    for property_name in stats.index:
        if property_name not in thresholds.keys():
            raise KeyError(f"Add property '{property_name}' to scaling variable.")
    # Scale property data
    stats_scaled = stats.apply(lambda x: x / thresholds[x.name] * scaled_threshold, axis=1)
    return stats_scaled

__准备X值：__
下面的辅助函数返回雷达图的 __物理化学属性轴的角度__ 。例如，如果我们想为4个属性生成雷达图，我们希望将轴设置在0°、90°、180°和270°。该辅助函数以弧度返回这些角度。

In [None]:
def _define_radial_axes_angles(n_axes):
    """Define angles (radians) for radial (x-)axes depending on the number of axes."""
    x_angles = [i / float(n_axes) * 2 * math.pi for i in range(n_axes)]
    x_angles += x_angles[:1]
    return x_angles

这两个函数将作为辅助函数在 __雷达绘图函数__ 中使用，该函数接下来定义。

#### 最后，我们生成雷达图！

现在，我们定义一个函数，以雷达图的形式可视化化合物的化学性质。我们遵循了[这些在Stack Overflow上的指导](https://stackoverflow.com/questions/42227409/tutorial-for-python-radar-chart-plot)。

In [None]:
def plot_radar(
    y,
    thresholds,
    scaled_threshold,
    properties_labels,
    y_max=None,
    output_path=None,
):
    """
    Plot a radar chart based on the mean and standard deviation of a data set's properties.

    Parameters
    ----------
    y : pd.DataFrame
        Dataframe with "mean" and "std" (columns) for each physicochemical property (rows).
    thresholds : dict of str: int
        Thresholds defined for each property.
    scaled_threshold : int or float
        Scaled thresholds across all properties.
    properties_labels : list of str
        List of property names to be used as labels in the plot.
    y_max : None or int or float
        Set maximum y value. If None, let matplotlib decide.
    output_path : None or pathlib.Path
        If not None, save plot to file.
    """

    # Define radial x-axes angles -- uses our helper function!
    x = _define_radial_axes_angles(len(y))
    # Scale y-axis values with respect to a defined threshold -- uses our helper function!
    y = _scale_by_thresholds(y, thresholds, scaled_threshold)
    # Since our chart will be circular we append the first value of each property to the end
    y = pd.concat([y, y.head(1)])

    # Set figure and subplot axis
    plt.figure(figsize=(6, 6))
    ax = plt.subplot(111, polar=True)

    # Plot data
    ax.fill(x, [scaled_threshold] * len(x), "cornflowerblue", alpha=0.2)
    ax.plot(x, y["mean"], "b", lw=3, ls="-")
    ax.plot(x, y["mean"] + y["std"], "orange", lw=2, ls="--")
    ax.plot(x, y["mean"] - y["std"], "orange", lw=2, ls="-.")

    # From here on, we only do plot cosmetics
    # Set 0° to 12 o'clock
    ax.set_theta_offset(math.pi / 2)
    # Set clockwise rotation
    ax.set_theta_direction(-1)

    # Set y-labels next to 180° radius axis
    ax.set_rlabel_position(180)
    # Set number of radial axes' ticks and remove labels
    plt.xticks(x, [])
    # Get maximal y-ticks value
    if not y_max:
        y_max = int(ax.get_yticks()[-1])
    # Set axes limits
    plt.ylim(0, y_max)
    # Set number and labels of y axis ticks
    plt.yticks(
        range(1, y_max),
        ["5" if i == scaled_threshold else "" for i in range(1, y_max)],
        fontsize=16,
    )

    # Draw ytick labels to make sure they fit properly
    # Note that we use [:1] to exclude the last element which equals the first element (not needed here)
    for i, (angle, label) in enumerate(zip(x[:-1], properties_labels)):
        if angle == 0:
            ha = "center"
        elif 0 < angle < math.pi:
            ha = "left"
        elif angle == math.pi:
            ha = "center"
        else:
            ha = "right"
        ax.text(
            x=angle,
            y=y_max + 1,
            s=label,
            size=16,
            horizontalalignment=ha,
            verticalalignment="center",
        )

    # Add legend relative to top-left plot
    labels = ("mean", "mean + std", "mean - std", "rule of five area")
    ax.legend(labels, loc=(1.1, 0.7), labelspacing=0.3, fontsize=16)

    # Save plot - use bbox_inches to include text boxes
    if output_path:
        plt.savefig(output_path, dpi=300, bbox_inches="tight", transparent=True)

    plt.show()

在接下来的内容中，我们希望为我们的两个数据集绘制雷达图：
1. 符合Ro5的化合物
2. 违反Ro5的化合物

定义对于两个雷达图都应该保持不变的输入参数：

In [None]:
thresholds = {"molecular_weight": 500, "n_hba": 10, "n_hbd": 5, "logp": 5}
scaled_threshold = 5
properties_labels = [
    "Molecular weight (Da) / 100",
    "# HBA / 2",
    "# HBD",
    "LogP",
]
y_max = 8

1. 我们为 __符合Ro5__ 的化合物数据集绘制雷达图。


In [None]:
plot_radar(
    molecules_ro5_fulfilled_stats,
    thresholds,
    scaled_threshold,
    properties_labels,
    y_max,
)

蓝色方块显示了分子的物理化学性质符合Ro5规则的区域。
蓝线突出显示了平均值，而橙色虚线显示了标准偏差。
我们可以看到平均值从未违反Lipinski的任何规则。
然而，根据标准偏差，有些性质的值大于Ro5的阈值。
这是可以接受的，因为根据Ro5规则，四个规则中的一个可以被违反。

2. 我们为 __违反Ro5__ 的化合物数据集绘制雷达图。

In [None]:
plot_radar(
    molecules_ro5_violated_stats,
    thresholds,
    scaled_threshold,
    properties_labels,
    y_max,
)

我们可以看到，化合物主要因为它们的logP值和分子量而违反Ro5。

## 讨论

在本教程中，我们学习了利平斯基的“五规则”（Ro5），这是一种用来估算化合物口服生物利用度的方法，并且我们使用`rdkit`在数据集上应用了这一规则。请注意，药物也可以通过其他途径给药，例如吸入、皮肤渗透和注射。

在本教程中，我们只研究了众多药物动力学（ADME）属性中的一个。像[SwissADME](https://www.nature.com/articles/srep42717)这样的网络服务器提供了对化合物属性更全面的视角。

## 课后思考
* Ro5描述的化学属性如何影响ADME？
* 找到一个或设计一个违反三到四条规则的分子。
* 你如何在我们在本教程中创建的雷达图中为另一个分子绘制信息？

## 本文作者

- Michele Wichmann, CADD seminars 2017, Charité/FU Berlin
- Mathias Wajnberg, CADD seminars 2018, Charité/FU Berlin
- Dominique Sydow, 2018-2020, [Volkamer lab](https://volkamerlab.org), Charité
- Andrea Volkamer, 2018-2020, [Volkamer lab](https://volkamerlab.org), Charité

## 翻译校对
- ByteTora