化学与材料中的量子机器学习  
https://link.springer.com/referenceworkentry/10.1007/978-3-319-42913-7_67-1

**摘要**

在过去几年中，我们目睹了量子机器学习（QML）模型的兴起，它推断出分子和材料的电子特性，而不是求解电子薛定谔方程的近似。大量子力学参考数据集的日益普及使这些发展成为可能。我们回顾了流行的QML模型的基本理论和关键要素，例如**回归量的选择**，不同可信度的数据，表示的作用以及训练集选择的效果。在我们对不同QML模型的比较评估中，我们强调学习曲线不可或缺的作用。

# 简介

随着新的抗生素或高效储能和转换材料的出现，社会越来越意识到其对新分子和材料的迫切需求。不幸的是，化学化合物存在于或者更确切地说是隐藏在不可思议的大量可能性中，也称为化合物空间（CCS）。CCS是一组稳定的化合物，可通过化学元素和原子间距离的所有组合获得。对于中型药物样分子，CCS被认为超过10 60（Kirkpatrick和Ellis 2004）。因此，探索CCS和定位“最佳”化合物是一项极其困难的任务，即使不是不可能的。通常，需要在CCS中约束搜索域并获得子空间内化合物的某些相关属性，然后选择具有最接近某些预设标准的属性的化合物作为后续更新或验证的潜在候选者。当然，人们可以对每种化合物进行实验。或者，人们也可以尝试使用现代原子模拟工具来估计其属性，这些工具在一个近似或另一个中试图在现代强大的计算机上解决薛定谔方程。

后一种方法实际上更有利，并称为高通量（HT）计算筛选（Greeley等人，2006）。尽管它很受欢迎，但考虑到（1）可能的化合物的数量远远超过HT通常能够处理的数量（~10 3）和（2）通常非常时间，它本身就受到计算能力的限制。明确消耗电子相关方法对于达到化学精确度（能量1千卡/摩尔）是必要的，计算成本通常按比例缩放为O（N 6）（N是电子的数量，衡量系统的大小）。计算上更有效的方法通常遭受相当弱的预测能力。它们的范围从力场和半经验分子轨道方法，密度泛函理论（DFT）方法到所谓的线性缩放方法，这些方法通过碎片或局部轨道假设局部性（Kitaura等人，1999）。在传统的计算化学中，它仍然是一个突出的挑战，效率和准确性显然不能共存。

为了解决这个问题，Rupp等人。（2012）在2012 年引入了机器学习（ML）Ansatz，能够首次快速准确地预测样品外分子的雾化能量。到目前为止，许多后续研究表明ML模型能够快速且任意地准确预测任何量子力学性质。这不是“免费午餐”; 但是，支付的价格包括获得一组预先计算好的训练数据集，这些数据集必须具有足够的代表性和密集性。

什么是机器学习？它是计算机科学领域，使计算机无需明确编程即可学习（Samuel 2000）。在ML任务的广泛类别中，我们关注的是一种称为带有连续输出的监督学习，它从标记的训练数据中推断出一种功能。正式提出，给定一组N个训练样本{{ x 1，y 1），（x 2，y 2），...，（x N，y N）}与x i和y i分别是示例i的输入（表示）和输出（标签），ML算法模拟将输入空间X映射到标签空间Y的隐式函数f  。然后可以应用训练的模型来预测训练示例中不存在的新输入x（属于所谓的测试集）的y。对于量子化学问题，QML（也称为表示）的输入通常是从化合物的成分和几何形状{ Z I，R I } 直接获得的矢量/矩阵/张量，而标签可以是任何系统的电子特性，特别是能量。函数f是根据Born-Oppenheimer近似中的非相对论Schrödinger方程（SE）隐式编码的，，其精确了最小的和最简单的系统。为了生成训练数据，必须使用具有不同近似程度的方法，例如上述DFT，QMC等。 H^Ψ= E.Ψ

给定一对特定的X和Y  ，有多种策略可以学习隐式函数f  ：  X  →  Y  。一些最流行的是人工神经网络（ANN，包括其各种衍生物，例如卷积神经网络）和核岭回归（KRR，或更一般地说是高斯过程回归）。

根据最近的基准论文（Faber等人，2017b），KRR和ANN在性能方面具有竞争力。然而，如果使用有效的表示，KRR具有解释简单和易于训练的巨大优势。因此，在本章中，我们专注于KRR或高斯过程（更多细节请参见第2节）。

通常，每个训练示例由一对（x i，y i）表示。然而，也可以使用多个{ y j } i，例如，当多个标记可用于同一分子时，可能由不同的理论水平产生。后一种情况对于获得高度准确的QML模型非常有用，其中几乎没有可用的准确训练数据，并且容易获得粗略数据。多保真方法负责处理此类案件，并将在Sect中进行讨论。3。

一旦选择了合适的QML模型，无论是在ANN，KRR方面，还是在多保真方法方面，另外两个关键因素将对性能产生强烈影响：材料表示和选择程序。训练集。任何化合物的表示应基本上来自双射图，该双射图使用相同的信息作为输入，该信息也用于系统的电子哈密顿量，即组成和结构信息{ Z I，R I }以及电子数。然后，该表示通常被格式化为可以由计算机容易地处理的矢量。文献中介绍的一些特征表征在Sect。4，我们将看到如何通过考虑更多的基础物理学来显着提高QML模型的性能。在Sect。在图5中，讨论了由合理训练集选择而不是随机抽样导致的QML性能的进一步改进。

在介绍了ML的基础知识之后，我们有动力指出ML的两个方面，这些方面对于更好地解释ML如何工作可能并不明显：（1）ML是一种基于归纳推理的严格实现的归纳方法，并且它不需要关于上述隐含函数f的任何先验知识（参见第2节），尽管对f的看法有些看法对于合理的表示设计是非常宝贵的（见第4节））; （2）ML具有插值性质，即为了进行合理预测，新输入必须属于插值机制。此外，随着更多训练样例被添加到插值方案中，可以系统地改进ML模型的性能以用于量化表示（参见第4节）。

2

# 高斯过程回归

在本节中，我们将讨论数据驱动的标签预测的基本思想：高斯过程回归（GPR）。在全局表示的情况下（即，任何化合物作为单个向量的表示，有关更多详细信息，请参见第4节），相应的QML模型采用与核岭回归（KRR）相同的形式，也称为全局模型。在GPR同样适用于局部表示的意义上，GPR比KRR更通用（即，任何化合物作为2D阵列的表示，其环境中的每个原子由单个矢量表示，参见第4节）更多细节）。当涉及从近视中获益的广泛性质（例如，总能量，各向同性极化率等）的预测时，局部GPR模型仍然可以成功地应用。可以利用该位置来生成可扩展的基于GPR的QML模型，该模型可用于估计非常大的系统的广泛属性。

## 2.1全球模型

在这里，我们回顾了高斯噪声ε的非线性回归模型（Rasmussen和Williams 2006）的贝叶斯分析：
y=ϕ(x)⊤w+ε,
（1）
其中X  ∈ X是表示，瓦特是权重的向量，φ（X）是其中映射的基础函数（或内核）d维输入矢量X成Ñ维特征空间。这是输入向量映射到的空间，例如，对于输入向量x 1  =（x 11，x 12），其中D  = 2，其特征空间可以是与ñ  = 4 ÿ ϕ(x1)=(x211,x11x22,x22x11,x222) \ varepsilon \ sim \ mathscr {N}（0，\ lambda） 是标记，即目标化合物的观察性质。我们进一步假设噪声ε遵循独立的，相同分布的（iid）高斯分布，具有零均值和方差λ，即，这产生了给出参数w的观测概率密度或可能性： ε∼N(0,λ)
p(y|X,w)=∏i=1nN(ϕ(xi)⊤w,λI)=N(ϕ(X)⊤w,λI),
（2）
其中φ（X）是训练集中所有情况的列φ（x）的集合。现在我们把一个零均值高斯之前与协方差矩阵Σ p在w ^来表达我们对参数的信念，我们看一下意见前，即。加上贝叶斯的统治 w∼N(0,Σp)
p(w|y,X)=p(y|X,w)p(w)p(y|X)
（3）
p （y | X）= ∫p （y | X，w）p （w）dw，
（4）
w的分布可以更新为
p （w | X，y）~ N（w¯= λ- 1一个- 1φ （X）y，A- 1）
（5）
其中。更新后的w称为后验，带有均值。因此，类似于Eq。（4），y *  =  f（x *）的预测分布是 A = λ- 1φ （X）φ （X ）⊤+ Σ- 1p w ^¯
p （y*| X*,X,y)=∫p(y∗|x∗,w)p(w|X,y)dw.
（6）
代替Eqs。（2）和（5）进入Eq。（6），
p （y*| X*，X，y）= N.（λ- 1φ （x*）⊤一个- 1φ （X）y，φ （x*）⊤一个- 1φ （x*）），
（7）
可以进一步简化为）与和正在， 分别， p （y*| X*，X，y）= N.（ÿ¯*，λ¯ ÿ¯* λ¯
ÿ¯*= K.（x*，X）（K（X，X）+ λ 我）- 1你，
（8）
λ¯=K(x∗,x∗)−K(x∗,X)(K(X,X)+λI)−1K(X,x∗),
（9）
其中I是单位矩阵，K（X，X）=  φ'（X）⊤φ '（X）（）是核矩阵（也称为协方差矩阵，缩写为Cov）。没有必要明确地知道φ ; 他们的存在就足够了。给定高斯基函数，即其中x 0和l是一些固定参数，它可以是很容易证明（i，j φ“（X）= Σ1 / 2pφ （X） φ“（x ）= exp（- （x - x0）2/（2升2）））核矩阵K的元素是
k （x一世，xĴ）= exp（ - 12| | X一世- xĴ| |22σ2），
（10）
其中||⋅|| p是L p范数，σ是确定问题的特征长度尺度的核宽度。注意，我们通过使用一些核函数k避免了无限大小的特征向量的不可行计算。这也称为内核技巧。其他内核也可以使用，例如拉普拉斯内核，。 k （x一世，xĴ）= exp（ - | | x一世- xĴ| |1σ）
重写Eq。8，我们得到一个矩阵形式的更简洁的表达，
ÿ*= K.（X.*，X）c，
（11）
其中c是回归系数向量，
c =（ K（X，X）+ λ 我）- 1y。
（12）
请注意，此表达式也可以通过最小化成本函数来获得关于w C（w）= 12Σ一世（ÿ一世- w⊤φ （x一世））2+ λ2| | w | |22

注意，使用L 2正则化以及作为权重的正则化参数λ来平衡最小化平方误差之和（SSE）和限制模型的复杂性。这最终导致称为核岭回归（KRR）模型的模型。

然而，这些全局模型的所有变体都受到系统的广泛属性（例如能量）的可伸缩性问题的影响，即，预测误差相对于查询系统大小系统地增长（预测的估计将倾向于训练数据的平均值而广泛的财产增长）。这种限制是由于全局ML模型的插值性质，即预测的查询系统及其属性必须位于训练数据的范围内。

## 2.2本地版本

通过使用本地（例如原子）表示可以克服可伸缩性问题。这依赖于人们可以将系统的全局广泛属性分解为本地贡献的想法。在将系统划分为构建模块的众多方法中，我们选择多年前Bader（1990）提出的分子原子（AIM）理念。对于系统的总能量（E），它通常表示为原子能量的总和（e）：
Ë= Σ一世Ë一世= Σ一世∫Ω一世⟨ Ψ| H^| Ψ⟩ d3[R
（13）
其中Ω 我是由电子密度的零通量条件所确定的原子盆，
＆dtri; ρ （ř小号）⋅ Ñ（ř小号）= 0 ，对于每个点  r  小号 在表面S （r 小号）
（14）
其中n（r s）是垂直于r s表面的单位向量。使用Bader方案的优点是总能量被精确回收，并且至少在原则上它包括所有短程和长程键合，即共价键合和非共价键合（例如，范德华相互作用，库仑相互作用等）。此外，由于电子系统中原子的近视（Prodan和Kohn 2005），具有相似局部化学环境的原子对总能量贡献了相似的能量。使用炼金术衍生物的概念，这种效应，即化学可转移性，最近已在数字上得到证实（Fias等人，2017年））。因此，可以基于局部原子的表示来学习有效的原子能。不幸的是，计算上涉及局部原子的显式计算（零通量平面的位置对于大分子是具有挑战性的），使得该方法不太有利。相反，我们也可以假设上述贝叶斯模型也适用于原子能，即
Ë一世= φ （x一世）⊤w +ε
（15）
其中x I是分子中原子I的原子表示。通过总结方程式中的双方术语。15，我们有
Ë= Σ一世φ （x一世）⊤w +ε。
（16）
继Bartók等人之后。（2010），两种化合物的总能量的协方差可表示为
ķ我j= Cov （E一世，EĴ）= Cov （Σ一世Ë一世一世，ΣĴËĴĴ） = Σ一世ΣĴCov （例如一世一世，eĴĴ）= Σ一世ΣĴk （x一世一世，xĴĴ）
（17）
其中I和J遍历分子i和j中的所有相应原子指数，其中是分子i中原子I的表示。 xIi
通过插入Eq。（17）在Eq。（11），我们得出了一个分子*样本的能量预测公式：
E∗=∑ici∑I∈i∑J∈∗k(xIi,xJ∗)
（18）
其中Ç 我  =Σ Ĵ（[ ķ + λI ] -1）IJ Ë Ĵ。这个等式可以重新排列：
E∗=∑J∈∗∑ici∑I∈ik(xIi,xJ∗)=∑J∈∗eJ∗,
（19）
其中原子J对总能量的原子贡献可以分解为每个训练化合物i的贡献的线性组合，由其回归系数加权，
eJ∗=∑icie~J∗i.
（20）
的“基函数”在此膨胀简单地在原子之间内核相似之处由总和Ĵ和原子我  ∈  我，其中原子的贡献我生长与其与原子J的相似性： e~J∗i
e~J∗i=∑Ik(xIi,xJ∗).
（21）
我们顺便注意到，当系统i或j的大小增加时，协方差矩阵元素的值（即，方程（17））增加，表明可以有效地解决可伸缩性问题。

## 2.3超参数

在GPR或KRR的框架内，有两组参数：（1）通过训练确定的参数，即系数c（见方程（12）），其数量随训练数据增长，和（2） ）超级参数，其值在学习过程开始之前设置，即，等式中的内核宽度σ。（11）和公式中的λ。（2）。

如Sect。中所定义。2.1，λ测量GPR中训练数据中的噪声水平。因此，如果训练数据是无噪声的，则λ可以安全地设置为零或非常接近零的值（例如，1×10 -10）以达到最佳性能。对于通过典型的量子化学计算获得的数据集通常是这样，并且得到的训练误差（几乎）为零。每当数据中存在噪声时（例如，来自实验测量），最佳λ对应于取决于噪声水平的某个有限值。这同样适用于训练错误。就KRR而言，λ乍一看似乎有一个完全不同的含义：正则化参数决定了模型的复杂性。本质上，它们相同，即一分钟或零λ对应于连接训练数据中每个单点的完美插值模型，因此代表了手头特定问题的最忠实模型。一个潜在的风险是对新输入数据（测试数据）的推广不佳，因为训练集可能存在“过度拟合”情景。有限的λ假设训练数据中存在一些噪声，并且模型只能以平均方式解释这一点; 因此，通过降低参数w的大小来简化模型复杂度，从而最小化成本函数C.（w）。同时，引入了一些有限的训练误差。总而言之，SSE和正则化之间的平衡是至关重要的，并通过正确选择λ来反映。

不同于λ，的最佳值σ（σ 选择）更具体的数据集。粗略地说，它是数据集多样性的度量，并控制两个系统的相似性（协方差矩阵元素）。通常σ 选择当训练数据扩展到更大的领域变大。σ的含义可以通过考虑两个极端来阐述：（1）当σ接近零时，训练数据将被精确再现，即c i  =  y i，对于测试数据具有高误差，即偏差均值， （2）当σ如果是无穷大，所有核矩阵元素将倾向于一个，即奇异矩阵，导致训练和测试中的大误差。因此，最佳σ可以被解释为坐标缩放因子，以使核矩阵具有良好的条件。例如，Ramakrishnan和von Lilienfeld（2015）选择核矩阵元素的下界为0.5。对于高斯内核，这意味着，或，其中是训练数据的最大距离矩阵元素。按照同样的推理，σ 选择 Kmin=exp(−D2max/2σ2opt)≈0.5 σo p t≈ d最大/ 2 ln2- - - - √ d最大对于拉普拉斯算子内核，可以设置为。 d最大/ ln2

上述启发式方法对于快速识别新数据集的超参数的合理初始猜测非常有用。随后，应通过k倍交叉验证（CV）微调超参数的最佳值。该想法是首先将训练集分成k个较小的集合，并且（1）对于每个k个子集，使用剩余的k  -1个子集作为训练数据训练模型; 在数据的剩余部分上测试得到的模型以计算预测误差）; 这一步产生k个预测，每个折叠一个。（2）k -fold交叉验证报告的总误差是上述k的平均值值。最佳参数将对应于最小化总误差的参数。当k和训练集大小很大时，这种方法可能变得计算量很大。但它在诸如逆推理之类的问题中具有主要优势，其中样本的数量非常小，并且其系统应用最小化统计伪像的可能性。

## 2.4学习曲线

为了评估ML模型的预测性能，我们不仅需要知道特定训练集的预测误差（ε，其可以通过预测的平均绝对误差（MAE）或均方根误差（RMSE）来表征）。但也有不同大小的训练集的预测误差。因此，我们可以监测在训练集大小（N）的一些增量变化之后我们取得了多少进展，以便推断出需要多少训练数据才能达到理想的准确度。的情节ε与Ñ关系被称为学习曲线（LC），和实施例示于图。1 （注意，仅显示测试错误，即用于预测测试集中的新数据的MAE;对于无噪声训练数据，训练误差总是为零或分钟）。
在新窗口中打开图像图。1
图。1
三个具有显着相对表现的代表性学习曲线

多因素控制学习曲线的形状，其中之一是表征的选择。如果表示不能唯一地编码分子，即，可能存在两个不同分子共享相同的输入向量x i但具有不同分子特性的情况，则它导致ML算法的模糊性（参见第4.1节中的更多细节）和因此可能导致根本没有学习，如图1中的虚线曲线所示，在较大的训练集大小时具有可区分的平坦化行为，导致较差的ML性能。

根据Fasshauer和McCourt（2016），在唯一表示的情况下，可以证明，对于基于核的近似，当训练集大小N足够大时，预测误差与所谓的“填充”成比例距离“或网格范数 h X，定义为
HX= supX＆Element; Ω 分XĴ∈ X | | x - xĴ| |2
（22）
其中“ ”代表子集的上限（或最小上限），x再次表示任何训练实例作为训练集X的元素，Ω表示研究系统的域（即化学问题的潜在能量表面域）。显然，根据定义，填充距离描述了集合X与域Ω 的几何关系，并量化了X覆盖Ω的密集程度。此外，填充距离本质上包含尺寸依赖性d，即，如果x，则h X大致为N -1 / d SUP是d维空间中的均匀或随机网格点。
除了指数外，还应该有一个先行者; 从而整体预测误差的前导术语可以被描述为b  *  ñ - 一个 / d，其中一个在指数是一个常数。因此，为了使误差与N可视化，对数对数刻度是最方便的学习曲线可以用线性关系表示的： ; 因此a / d量化学习率，而前因素 日志（ε ）≈ 日志（b ）- ad日志（N.） 日志（b ）是学习曲线的垂直偏移。通过一系列数学计算，学习一维高斯函数以及分子的基态属性，并在表示中编码稳定改进的物理，已经发现（Huang和von Lilienfeld 2016）偏移是目标属性相似性的度量，其被定义为所提出的模型（对应于所使用的表示）与真实模型的偏差（Huang和von Lilienfeld 2016）。虽然，一般来说，我们不知道真正的功能（如果我们这样做，机器学习将毫无意义），我们通常对不同表示的相对目标相似性有相当多的了解。 日志（b ）

将上述发现应用于化学问题，我们可以获得对学习曲线如何表现的一些见解。可以解释几个观察结果：首先，当使用不同的独特表示时，学习速率几乎是恒定的或变化非常小，因为速率主要取决于在势能面中考虑的分子跨越的域。其次，对于一系列异构体，在松弛平衡状态下比在扭曲几何中更容易学习它们的性质。

对于具有独特表征的随机抽样，学习率不会发生太大变化的限制似乎是更有效的ML预测的一大障碍，这意味着即使投入了大量的努力，开发更好的表示（降低偏移）也会变得非常困难。但是，是否有可能打破这种诅咒，达到改善的学习曲线，如图1中的粉红线所示？我们相信这应该是可能的。注意如何获得统计模型的线性（对数 - 对数）学习曲线。这意味着训练数据中必须存在“冗余”; 如果我们能够先验地删除这些冗余，我们可以非常好地提高性能并观察优质的LC，例如图1中的粉色线。1具有较高的学习率。在这种情况下，统计数据不太可能成立，并且LC可能只是单调递减函数，可能也只是阻尼振荡器，而不是线。合理抽样的策略将在第一节详细阐述。5。

# 多层次学习

默认情况下，我们假设每个X 我  ∈ X，一个对应存在Ÿ 我  ∈  Ÿ   在训练例子。如果Y   易于计算，即在Y的相对低的准确度  足够的情况下（例如，具有中等基础集的PBE），则完全有意义。还可能需要高度精确的参考数据（例如，具有大基组的CCSD（T）计算），以便实现高度可靠的预测。不幸的是，考虑到巨大的计算负担，我们只能为训练提供很少的高精度x和y。在这种情况下，人们可以充分利用你的准确度较低，更容易获得。在这种情况下发光的模型被称为多保真，其中基于高（低）理论水平的参考数据被称为具有高（低）保真度。这种方法的本质是探索和利用具有不同保真度的数据集之间的固有相关性。这里我们采用Sect中介绍的高斯过程。2解释多层次学习的主要概念和数学结构。

## 多保真

为了清晰和简单起见，我们只关注两个保真度，下面所述的数学公式可以很容易地推广到更高保真度。我们考虑具有不同保真度的两个数据集：{ X，y （1） }（其中数据对是）和{ X，y （2） }，其中y （2）具有更高的保真度。两组中的数据点的数量分别是N 1和N 2以及N 1  >  N 2 （x1，y（1 ）1），（x2，y（1 ）2），... ，反映了高保真数据稀缺的事实。我们考虑Kennedy和O'Hagan（2000）提出的以下自回归模型：
ÿ（2 ）= ρ ÿ（1 ）+ δ（2 ）
（23）
其中y （1）和δ （2）是两个独立的高斯过程，即
ÿ（1 ）〜ñ（0 ，K1(X,X))=N(0,Cov(y(1),y(1)))=N(0,K1)
（24）
δ(2)∼N(0,K2(X,X)=N(0,Cov(δ(2),δ(2)))=N(0,K2).
（25）
也就是说ÿ （1）和δ （2）是独立的（记为Ý （1）  ⊥  δ （2） ）表示的平均ÿ （1）δ （2）满足ë [ ý （1）δ （2） ] =  E [ y （1） ] E [ δ （2） ]，因此y （1）和δ （2）之间的协方差为零，即Cov（y （1），δ （2））=  E [y （1）δ （2） ] - E [ y （1） ] E [ δ （2） ] = 0.因此，y （2）也是高斯过程，均值为0且协方差：
Cov(y(2),y(2))=K22=Cov(ρy(1)+δ(2),ρy(1)+δ(2))
（26）
=ρ2Cov(y(1),y(1))+Cov(δ(2),δ(2))=ρ2K1+K2
（27）
也就是说，。 ÿ（2 ）~ N（0 ，ρ2ķ1+ K.2）
多保真理论中最重要的术语是y （1）和y （2）之间的协方差，它表示具有不同保真度水平的数据集之间的固有相关性，并且被推导为Cov（y （1），y （2））=  ķ 12  =  ρ冠状病毒（X，X）=  ρK 1由于相同独立性限制。现在，多保真结构可以用以下紧凑形式的多元高斯过程编写：
（ÿ（1 ）ÿ（2 ）） ~ N（ 0，（ K11ķ21ķ12ķ22）），
（28）
其中K 11  =  K 1，K 22  ≠  K 2，K 12  =  K 21，这是由于对称性。ρ的重要性从术语K 12中非常明显; 具体地，当ρ  = 0时，高保真度和低保真度模型完全解耦，并且通过组合这两个模型将完全没有预测的改进。
下一步是在给定相应的输入向量x *，两级训练数据{ X，y （1） }和{ 的情况下预测 X，y （2） }。为此，我们首先写下以下关节密度： ÿ（2 ）*
⎛⎝⎜⎜ÿ（2 ）*ÿ（1 ）ÿ（2 ）⎞⎠⎟⎟~ N⎛⎝⎜0 ，⎛⎝⎜ķ* *ķ1 *ķ2 *ķ* 1ķ11ķ21ķ* 2ķ22ķ22⎞⎠⎟⎞⎠⎟，
（29）
其中， with和 ; 然后遵循与Sect中相似的程序。2.1，的最终预测分布再次是高斯，在哪里 ķ* *= ρ2ķ*1+ K.*2 ķ* 1= ρ ķ*1 ķ*1= K.1（X.*，X*）= Cov （y（1 ）*，y（1 ）*） ķ*2= K.2（X.*，X*）= Cov （δ（2 ）*，δ（2 ）*） ÿ（2 ）*| X*，X，y（1 ），y（2 ） ñ（ÿ¯（2 ）*，Var ）
ÿ¯（2 ）*= K.*ķ- 1ÿ，Var = K. *ķ⊤*- K.*ķ- 1ķ⊤*，
（30）
ÿ= （ÿ（1 ）ÿ（2 ））， K *= （K* 1ķ* 2）， K = （K11ķ21ķ12ķ22）。
（31）
我们顺便指出，由于存在两个相关函数K 1和K 2，因此必须根据与Sect中所述的类似方法来优化关于内核宽度和额外缩放参数ρ的两组超参数。2.4。该算法已成功应用于高精度的高压石化合物带隙预测（Pilania等，2017）。但它可以自然地扩展到其他属性。到目前为止，使用该算法还没有做太多工作; 未来的工作尚未解决其解决复杂化学问题的潜力。

## 机学习

多保真学习的天真版本是所谓的Δ机器学习模型。其性能可用于预测各种分子特性（Ramakrishnan等，2015a）。在该模型中，N 1等于N 2，低保真度和高保真度模型分别称为基线和目标。基线属性（Ý （b））与基线几何相关联的作为在其表示编码（），和目标性能ÿ （吨）与目标几何相关联，分别。这个模型的主力是 X⃗ （b ） X⃗ （t ）
ÿ（t ）*= y（b ）*+ Σi = 1ñC一世k （x⃗ （b ）*，x⃗ （b ）一世）
（32）
请注意，我们根本不使用目标几何体，原因是（1）计算成本高，（2）测试分子不需要。
如果使用适当的基线模型，Δ- ML模型已被证明能够产生高精度的能量结果。与传统的单保真模型相比，其他属性也可以更高的精度预测（Ramakrishnan等人，2015a）。而且，这种方法可以节省大量的计算时间。然而，Δ机器学习模型与多保真模型并不完全一致。最接近的情况是我们在评估Eq中的核函数时设置K 1  =  K 2。（31），但这会导致一些不同的东西。还有一个问题需要解决，包括（i）不同保真度之间的耦合不明确，假设从一个属性表面平滑过渡，通过两个属性的属性Δ相当天真地考虑相关性。（例如，潜在的能量表面）从一个理论层面到另一个层面。这是值得怀疑的，在某些情况下可能会失败; （ii）它需要两个级别的相同数据量，这可以通过构建递归版本来规避。

# 表征

关于如何表示分子或材料的问题一直是可以追溯到几十年前的主题，关于这一主题的丰富信息（和意见）很好地体现在Todeschini编写的描述符集和Consonni的分子描述手册中。 （Todeschini和Consonni 2008）。根据这些作者的说法，分子描述符被定义为“逻辑和数学过程的最终结果，它将分子的符号表示中编码的化学信息转换为有用的数字或某些标准化实验的结果。”虽然大多数这些描述符是基于图形的，用于定量结构和活动关系（QSAR）应用程序（通常在属性和描述符之间产生相当粗略的相关性），我们的重点是QML模型，即基于物理的，系统的和通用的井预测- 定义的量子力学可观测量，如能量冯利利菲尔德（2018年））。因此，为了更好地区分QSAR中所述的方法，我们倾向于使用术语“表示”而不是“分子描述​​符”。量子力学在这方面提供了一个非常具体的方法：化学系统由其哈密顿量定义。仅从元素组成，几何形状和电子数获得。因此，定义表示的必要成分是直截了当的：它应该是一些载体（或指纹），其编码给定中性化合物的组成和结构信息。

## 4.1良好代表性要点

有无数种方法可以将化合物编码到矢量中，但是什么表示可以被视为“好”？实际上，良好的表现应该导致一个体面的学习曲线，即，作为训练集大小的函数，误差稳定地减少。从概念上讲，它应该满足几个标准，包括主要的唯一性（非模糊性），紧凑性和规模扩大（von Lilienfeld等人，2015）。

唯一性（或明确无误）对于ML模型是必不可少的。如果没有一对分子产生相同的表示，我们认为表示是唯一的。缺乏独特性会导致严重后果，例如从一开始就停止学习或从一开始就根本没有学习。潜在的起源并不难理解。考虑两个表示向量x 1和x 2，用于与其各自的属性y 1和y 2相关联的两种化合物。现在假设x 1  = x 2而y 1  ≠  y 2（假设没有退化）。一个极端情况是在训练ML模型时仅使用这两个点; 显然我们会遇到一个奇异的核矩阵，所有元素都是1; 将导致巨大的预测误差，并且基本上没有学习。即使不选择这样的分子进行训练，也应该清楚这种表现会引入严重和系统的偏见。此外，当试图在训练之后预测y 1和y 2时，估计将与机器的输入相同。因此产生的测试误差与它们的性质差异成正比。

紧凑性需要原子指数排列和旋转和平移不变性，即系统的所有冗余自由度应尽可能地被去除，同时保持唯一性。这可以导致更稳健的表示，意味着（1）可以显着减少所需训练集的大小，以及（2）表示向量的维度（因此大小）被最小化，这在必要的训练时变得重要的美德设定尺寸变大。

尺寸范围广泛对于预测广泛性能至关重要，其中最重要的是能量。这导致化合物中原子的所谓原子表示或局部表示。局部单元原子也可以由化合物的键，官能团或甚至更大的片段组成。正如教派所指出的那样。2.2，这种表示形式是构建可扩展机器学习模型的关键垫脚石。甚至密集性质如HOMO-LUMO能隙，其通常不与系统规模的增加，可原子表示的框架内进行建模，作为使用重新匹配度量（示出德等人。2016）。对于特定问题，例如力预测，分析形式的表示对于分析和快速评估以及随后的区分（关于核电荷和坐标）是合乎需要的，以便考虑响应特性。

## 4.2理性设计
如何获得最佳表示并不明显。为了获得良好的表示，必须获得关于系统和结构 - 属性关系的密集知识。对薛定谔方程解的简化近似的使用尤为强大。SE的最近似但原子化的模型是通用力场（FF），其通常为某些系统类别（例如生物有机分子）重现基本物理学，相当好。也就是说，力场中原子成对的双体相互作用通常衰减为1 / R n（R是核间距离和n是一个整数），而3和4体部分表现为角度和二面角的周期函数（现代力场方法还包括 在n体相互作用中的2到（n - 1） - 体相互作用）。FF本质上是原子间贡献中更一般的多体膨胀（MBE）的特殊情况，即系统的广泛性质（例如，总能量）以一系列多体项扩展，即1- ，2和3体术语，⋯，即，
Ë（{ R一世} ）= Σ一世[ Z.]Ë（1 ）（R一世）+ ΣĴ> 我[ Z.]Ë（2 ）（R一世Ĵ）+ Σķ> J> 我[ Z.]Ë（3 ）（R一世Ĵ，R一世ķ，θ一世Ĵķ）+ ⋯
（33）
其中È （Ñ）是Ñ -体相互作用能量，- [R IJ是原子之间的原子间距离我和Ĵ，和θ IJK是由两个矢量所跨越的角度和。其他重要特性也可以以类似的方式表达。 [R⃗ 一世Ĵ [R⃗ 一世ķ
通过利用MBE中的基本变量，包括其正确的基于物理的功能形式的距离，角度和二面角（例如，前面提到的2体相互作用强度的1 / R n依赖性），人们已经可以建立一些高效的表示例如BAML和SLATM（见下文）。这个方法很大程度上依赖于关于问题的物理性质的先入为主的知识。

## 4.3数值优化

对于某些系统和属性，可能不知道哪些特征是最重要的。考虑到有这么多的可能性，并不是一个一个接一个地尝试所有功能的选择。在这种情况下，最小绝对收缩和选择操作员（LASSO）可以提供适当的缓解。LASSO基本上是一种回归分析方法。考虑一个简单的线性模型：系统的属性是其特征的线性函数，即y = Xc，其中X是矩阵，其中N行中的每一行是每个训练数据点的长度为D的描述符向量x i，c是D系数的三维向量，y是训练属性的向量，其中第i个属性是y i。我们的任务是找到产生最小平方误差总和的特征元组：。在LASSO中，它相当于凸优化问题，即 | | y - X c | |22
在新窗口中打开图像
（34）
其中正则化项的L 1范数的使用是关键的，即，当使用较大的λ时可以获得较小的L 1范数，从而清除较不重要的特征。这种方法已被例证用于预测一系列二元固体中的相对晶相稳定性（岩盐与闪锌矿）（Ghiringhelli等人，2015））。不幸的是，这种方法的局限性在于它对于相当低维度的问题最有效。对于典型的有机分子，由于不同自由度的耦合，问题变得迅速难以处理。在这种情况下，遵循上述基于合理设计的启发式方法似乎更有效，这表明文献中几乎所有的临时表示都是基于手动编码的事实。

## 所选表示的概述

多年来，一些致力于QML的研究小组已经开发了许多分子代表。我们的目标不是列举所有这些，而是​​列出和分类流行的。提出了两类; 一种是基于矢量或张量形式的多体扩张，例如库仑矩阵（CM），袋子债券（BoB），债券，基于角度的机器学习（BAML），伦敦谱和Axilrod-Teller-Muto势（SLATM），以及由Faber，Christensen，Huang和von Lilienfeld（FCHL）引入的基于炼金术和结构径向分布的表示。另一类是基于电子密度模型的表示，称为原子位置的平滑重叠（SOAP）。

### 基于多体势的表示法

库仑矩阵（CM）表示首先在Rupp等人的开创性论文中提出。（2012）。它是一个正方形的原子矩阵，其对角线元素对应于原子间的核库仑排斥，即原子指数I  ≠  J的 CM IJ  =  Z I Z J / R IJ。对角元素近似于自由原子的电子势能，其编码为。为了强制原子索引的不变性，可以对原子编号进行排序，使得L 2和L 1之和 - 0.5 Z.2.4一世库仑矩阵的每一行的范数在数量上单调下降。对称原子将产生相同的幅度。通过改变R IJ的功率低，可以实现对原始CM的略微改进（Huang和von Lilienfeld 2016）。对于指数为6的最佳性能，使人联想到伦敦分散相互作用的解离尾部中的主要有序项。因此，得到的表示也称为伦敦矩阵（LM）。LM的优越性归因于更局部的共价键和长程分子内非共价相互作用的描述之间的更现实的权衡（Huang和von Lilienfeld 2016）。

尽管CM中编码的唯一性具有很大的优点，但它通常会受到学习曲线的高偏移（见图3）。相比之下，债券袋（BoB）表示（Hansen等人，2015），CM的袋装（矢量）剥离版本，结果导致学习曲线的偏移低于CM（参见图3））。BoB表示是一维阵列，构造为一系列袋子（一维阵列）的串联; 每个对应于特定类型的原子对，例如，分子中的所有CO对（共价和非共价键合）被分组到标记为CO的袋中，类似于元素对的所有其他组合。因此，每个袋包括一组核库仑排斥值。然后按降序对每个袋子进行分类。如果两个分子的相同类型的袋子具有不同的尺寸，则较小的袋子用零填充。通过装袋，与CM矩阵相比，性能得到改善。但不可避免地，缺少关键的高阶信息，例如角部分。由于其独家依赖有序的双体术语，BoB并不是一个独特的代表，3）。这种信息的损失，也可用于一对作为显示图homometric分子（相同原子类型，同一组原子间距离的）的图示。 2。如果我们绘制平面和四面体分子的势能（近似为Lennard-Jones势能之和）的曲线图作为所有坐标的比例因子 f的函数，我们将得到相同的曲线，因为由于缺乏独特性而造成的虚假堕落。BoB表示不区分这两个分子。只有在加入更高阶的多体势项（例如，3体Axilrod-Teller-Muto势）之后，才能解除虚假退化。
在新窗口中打开图像图2
图2
双体相互作用不足以捕捉一对同位素分子的物理特性。在图中，两个分子的能量近似为LJ电位与（虚线）或没有三体ATM电位（实线）的总和，并绘制为f的函数，两者的所有坐标的比例因子分子。LJ和ATM分别代表Lennard-Jones和Axilrod-Teller-Muto vdW潜力。字母s和l标记了两个现有的不同键长，代表“短”和“长”。原子由黄色圆圈表示，十字形表示在平面外

在新窗口中打开图像图3
图3
比较三种典型数据集（QM7b（Rupp等人，2012），QM9（Ramakrishnan等人，2014 ; Ruddigkeit等人，2012）和来自QM9的6k异构体的不同表示的学习曲线）。注意，所有三个数据集中分子的大小和组成是可比较的，即这些系统的维数d是相似的; 因此，对于没有（或更少）遭受唯一性问题的所有表示，观察到几乎相同的学习率。对于QM7b数据集，显示了低得多的偏移，因为相关分子比QM9和6k异构体中的分子松弛得多; 因此，给定任何表示，其数据集与其他数据集的目标相似度更大

基于这个简单的例子，一个重要的经验教训是，超越成对电位的集体效应对于能量等基本属性的精确建模至关重要。在坚持装袋效率的同时，可以构建由扩展袋组成的表示; 每个可以包含多达三体和四体术语的原子间相互作用势。BAML以这种方式配制，其中（1）所有成对核排斥分别被Morse / Lennard-Jones电位替换为键合/非键合原子，和（2）包含共价键合原子的三体和四体相互作用使用周期性角度和扭转项来实现它们的功能形式和参数从万能力场（UFF）中提取（Huang和von Lilienfeld2016年 ; Rappe等。1992年）。与BoB或CM相比，BAML可显着提升性能。有趣的是，随着所提出的能量模型变得越来越现实，即增加与目标的相似性，在包含更高阶和更高阶的多体项时，性能得到系统性改进。与此同时，毫不奇怪，存在于诸如BoB的双体表示中的唯一性问题也得到了解决（见图 3）。然而，BAML的主要缺点是它需要预先存在的力场，这意味着当涉及新元素或粘合场景时存在严重偏差。因此，需要识别本质上更紧凑和从头开始的表示。

所谓的SLATM表示（Huang和von Lilienfeld 2017）享有所有这些属性。它有两种变体：本地变体和全局变体。SLATM的基本思想是表示原子索引我由占原子之间的所有可能的相互作用中的分子我和其邻近的原子通过乘以一归一化高斯分布集中于相关的可变多体电位术语（距离或角度） 。到目前为止，已考虑过一，二，三体术语。单体项仅由核电荷表示，而两体部分则表示为
12ž一世ΣĴ≠ IžĴδ（r - R.一世Ĵ）g（r）
（35）
其中δ（⋅）设置为归一化高斯函数和g（r）是一个距离相关的缩放函数，捕获化学键的位置，并选择对应伦敦势的解离尾中的前导顺序项。三体分布读取 δ（x ）= 1σ2 π√Ë- x2 G（R ）= 1[R6
13ž一世ΣĴ≠ K≠ IžĴžķδ（θ - θ一世Ĵķ）h （θ ，R一世Ĵ，R一世ķ）
（36）
其中θ是由向量所跨越的角度- [R IJ和- [R IK（即，θ IJK）和作为变量对待。h（θ，R IJ，R IK）是取决于核间距离和角度的三体贡献，并且选择形式来模拟Axilrod和Teller（1943）和Muto（1943）vdW势：
h （θ ，R一世Ĵ，R一世ķ）=1 + cosθ COSθĴķ一世COSθķ一世Ĵ（R一世Ĵ[R一世ķ[RķĴ）3
（37）
现在，我们可以建立一个原子的原子版本aSLATM 我通过各种不同的多体势谱涉及原子的级联我作为显示在方程。（35）和（36）。至于全球版本SLATM，它只是对应于原子光谱的总和。
SLATM和aSLATM优于目前为止讨论的所有其他表示，如图3所示的学习曲线所示。这一突出表现归功于以下几个方面：（1）几乎涵盖了系统中所有必要的物理学，包括化学键的局部性以及多体分散; （2）包含3个身体的术语显着改善了学习; （3）径向和角度特征的光谱分布现在避免了在每个特征包内进行分类的问题，从而允许更精确地匹配原子环境。

最近，引入了FCHL表示（Faber等人，2017a）。它相当于元素和结构自由度的径向分布。配置自由度扩展到三体相互作用。测试了四体相互作用，但未导致任何额外的改进。对于已知数据集，基于FCHL的QML模型具有前所未有的预测能力，甚至优于SLATM和SOAP（见下文）。例如，在QM9数据集的情况下，基于FCHL的雾化能量模型在仅仅~1,000个分子的训练之后达到化学准确度。

### 基于密度扩展的表示

在原子位置（SOAP）（Bartók等人，2013）的表示思想的平滑重叠中，分子中的原子I表示为I周围的原子的局部密度。具体而言，它是由与方差的高斯函数的和表示的σ 2的环境内（包括中心原子我和其相邻的原子Q的），与中心的高斯函数Q “和s 我：
ρ一世（r）= ΣQEXP（ - （r - R.Q）22 σ2）
（38）
其中r是从中心原子I到空间中任何点的向量，而R Q是从原子I到其邻近Q的向量。的重叠ρ 我和ρ Ĵ然后可以用来计算原子之间的相似性我和Ĵ。然而，这种相似性不是旋转不变的。为了克服这个问题，我们可以整合所有三维旋转的旋转自由度，因此定义了SOAP内核： [R^
ķ〜（我，J）= ∫d[R^|||∫d[R ρ一世（r）ρĴ（R^r） |||2，
（39）
为了实现规范化的自相似性，最终的SOAP相似性度量采用的形式
k （我，J）= k〜（我，J）ķ〜（我，我）k〜（J.，J）- - - - - - - - - - - √
（40）
方程式中的集成 （39）可以通过第一膨胀来进行ρ 我（ř等式）。（38）根据由正交径向函数和球谐函数组成的一组基函数，然后收集旋转不变功率谱中的元素，基于此可以容易地计算k。有兴趣的读者可以参考Bartók等人的文章。（2013年）。

SOAP已被广泛和成功地用于建模系统，例如硅散装或水簇，每个系统分别具有许多配置。这些元素或二元系统相对简单，因为由原子环境编码的化学物质的多样性相当有限。然而，将SOAP直接应用于存在更多可能的原子环境的分子，产生具有相当大的偏移的学习曲线。这并不奇怪，因为基本上原子密度区分不同原子对，原子三元组等的能力并不是那么大。即使将不同的原子对视为不同的变量，这种缺点仍然存在，如De等人所采用的那样。（2016年）; 平均所有旋转自由度也可能由于丢失相关信息而阻碍学习进度。为了修正一些问题，一个特殊的内核，重新匹配的内核（德等人。2016），进行了介绍。最近，将SOAP与多内核扩展相结合，可以进一步提高预测能力（Bartók等人，2017）。

5训练集选择
本章的最后一节讨论如何选择训练集的问题。选择程序会对性能产生严重影响。对于我们如何针对任何给定表示（或更好的表示）采样训练分子，预测准确性似乎非常敏感。训练集选择实际上可以分为两部分：（1）如何创建训练集。一般原则是训练集应该是代表性的，即它在输入和输出方面遵循与所有可能的测试分子相同的分布。这将正式地防止外推，从而最小化预测误差。（2）如何优化训练集的组成。

文献中的大多数算法处理（2）假设存在一些大数据集（或生成的数据集），人们可以使用诸如集成学习，遗传进化或其他基于“主动学习”的程序等算法进行绘制。 （Podryabinkin和Shapeev 2017）。所有这些方法的共同之处在于，它们仅基于未标记的数据从给定的一组配置中选择训练集。这对于“基于动态学习”的ab initio分子动力学模拟特别有用Csányi等。（2004），只有当配置足够“新”时才进行昂贵的量子力学计算。

第1步是一项具有挑战性的任务，很少有算法能胜任。最理想的方法当然是一种可以在一步中完成两个部分的算法; 我们所知道的唯一合格方法是“amons”方法。我们将在下面详述所有这些概念。

5.1遗传优化
据我们所知，用于生成和研究QML模型的最佳训练集合的GA的第一次应用发表在Browning等人的文章中。（2017）。这种方法的核心思想概述如下。对于包含总N分子的给定组（S 0），GA程序包括三个连续步骤以从S 0获得用于训练ML模型的“近似最佳”分子子集（Browning等人2017）:( a随机选择N 1分子作为试验训练集s 1 ; 重复M.倍。这形成了一组训练集，称为父集，并标记为。（b）对每个s i训练ML模型，然后在一组固定的样本外分子上进行测试，得到平均预测误差e i，将其指定为s i，作为s i的拟合度量作为“近乎最佳”的训练集并被称为“适应性”。因此，e i越小，适应度越大。（C）通过选择被连续演进（以确定哪些š 我的在 小号^（1 ）= { s1，s2，... ，s中号} 小号^（1 ） 小号^（1 ）应保留在总体中以产生一个临时精炼的较小集合 ; 具有较大适应度的集合s i意味着更高的概率保持在），交叉（更新从和新的标记为每个集合s 我在通过分子从两个混合得到小号我在的）和突变（以改变一些人的分子 Ť^（1 ） Ť^（1 ） 小号^（1 ） Ť^（1 ） 小号^ 小号^（2 ） 小号^（2 ） Ť^（1 ）我随机地在中促进多样性，例如，将-CH 2 - 片段替换为 - NH-用于某些分子。（d）转到步骤（b）并重复该过程，直到人口没有更多变化并且健康状况不再改善。我们将最终更新的试验训练集标记为。 小号^（2 ） 小号^（2 ） 小号^

很明显，中的分子应该能够代表S 0中所有分子中的所有典型化学，例如线性，环状，笼状结构和典型的杂交状态（sp，sp）2，sp 3）如果它们在S 0中很多。一旦训练了，ML模型保证通常会产生明显更好的结果，因为适应性不断增加。这是没有用的，因为GA已经“尝试”了这个; 有用性必须通过的普遍性来评估，因为在一组新的分子上测试的训练集没有在 小号^ 小号^ 小号^S 0。实际上，如Browning等人所示。（2017），与随机抽样相比，可以获得偏移的显着改善。虽然剩余的样本外错误仍然很大，但由于使用不太有利的表示，这并不奇怪。本研究的主要发现之一是在遗传优化后，（i）训练分子之间的距离分布向外移动，（ii）训练分子的性质分布变得肥胖。

5.2阿蒙斯
我们注意到主动学习算法的幼稚应用仍将导致QML模型缺乏可转移性，特别是当涉及预测较大化合物或含有训练集中不存在的化学物质的分子时。由于化合物空间的大小，这个问题仍然严重限制了QML的普遍适用性。这些问题可以至少部分地通过探索和利用分子中原子的位置来解决（Huang和von Lilienfeld 2017），这是由电子系统中的近视原理引起的（Prodan和Kohn 2005 ; Fias等人2017）。

我们考虑用于饱和度的饱和查询分子，我们试图建立一个“理想的”训练集。众所周知，分子中的任何原子I（我们假设sp 3杂化的C）都以其自身及其局部化学环境为特征。对于一阶近似，我们可以将其配位数（简称CN）视为其原子环境的区别度量，我们可以粗略地说，配位数为4的任何其他碳原子与原子I相似，因为它们的价态杂交状态都是sp 3。在sp 2的杂化状态下另一个CN = 3的碳原子与原子I相比会有显着差异。然而，很明显，CN作为原子环境类型的标识是不够的：甲烷分子中的sp 3杂化C原子（以下我们称之为真正的C- sp 3环境）几乎纯粹与其邻居共价键合。在CH 3 OH中，由于C和O原子之间显着的电负性差异，离子构型的显着贡献出现在价键波函数中。因此，可以预期在这两种环境中sp 3 -C原子的原子性质非常不同，例如，它们的原子能，电荷或13 C-NMR移位。或者，我们可以说氧作为I的邻近原子已经扰乱了理想的sp 3杂化C在CH 3 OH中的程度远大于H原子在甲烷中的作用。为了解释这些差异，我们可以简单地包含包含I及其所有邻居的片段。因此，我们可以获得一组片段，对于每个片段，I和任何其他原子之间的键合路径是1。

延伸这种推理到第二相邻壳，我们可以与2相对于键路径添加新原子原子我以占进一步，尽管弱，扰动原子予。因此，我们可以逐渐增加包含的碎片的大小（以重原子的数量为特征），直到我们认为对原子I的所有影响都已得到满足。然后，该组唯一片段可以用作基于片段的QML模型的训练集。请注意，我们用氢原子使所有碎片饱和。这些片段可以被认为是有效的准原子，其被定义为m中的 tom分子，或“am-on”。由于amons在化学空间中重复，它们可被视为化学的“单词”（目标分子是“句子”）或化学的“DNA”（目标分子是基因和属性，功能）。给定完整的一组amons，可以查询任何特定的，实质上更大的查询分子。与原子表示法（如SLATM或FCHL）结合使用，amons可实现一种化学外推，有望更忠实，更有效地探索广阔的领域化学空间（Huang和von Lilienfeld 2017）。

为了证明amons的力量，我们展示了预测图4中插图中存在的分子的势能的例子。使用amons作为训练集，仅在40个amons（amons不大于6个重原子）训练后达到化学准确度（1 kcal / mol）。随机采样amons，学习曲线的斜率明显更差。
在新窗口中打开图像图4
图4
分别从随机选择的训练集和amons获得的一个分子（见插图）的学习曲线的比较。对于每个红色散点，误差平均超过100个随机抽样

# 结论

我们主要讨论了量子机器学习（QML）模型(中)所有典型成分的基本数学公式，可用于量子力学背景下训练和测试数据。我们解释并回顾了为什么ML模型在预测样品外化合物的**量子力学可观测量**(observables)时可以快速准确。作者认为，QML可以被视为一种非常有前景的方法，能够探索迄今为止不适合传统计算化学方法的系统和问题。

尽管在过去几年取得了重大进展，但QML领域仍然处于初期阶段。当考虑到目前为止探索的属性相当有限且相对基础时，这应该是清楚的。主要关注的是基态或局部最小属性( ground state or local minimum properties)。对激发态的应用仍然是一个挑战（Ramakrishnan等人2015b），以及电导率，磁性或相变。我们认为，必须制定新的和有效的陈述，恰当地说明了手头的所有相关自由度。