[Universal fragment descriptors for predicting properties of inorganic crystals](https://www.nature.com/articles/ncomms15679)

**摘要**:  
虽然历史上材料发现是由艰苦的试错过程驱动的,但现在可以通过机器学习方法和材料数据库的合理组合来实现知识驱动的材料设计.这里是来自AFLOW存储库的数据,用于从头开始计算结合定量材料结构 - 性质关系模型来预测重要性能:金属/绝缘体分类,带隙能量,体积/剪切模量,德拜温度和热容量.对于几乎任何化学计量的无机晶体材料,预测的准确性与训练数据的质量相当,使可用的热机械实验数据往复运动.该方法的普遍性归因于描述符的构建:属性标记的材料碎片.表示仅需要最小的结构输入,允许简单的启发式设计规则的直接实现.

# 介绍

材料科学的进步往往是缓慢和偶然的1.将现场的组合挑战与材料表征所需的苛刻努力相结合,使得进展变得非常困难.目前已表征的材料的数量,无论是实验还是计算,与预期的潜在多样性的比较仍然相形见绌.只考虑天然存在的元素,9000晶体结构原型,和满足化学计量的化合物,大约有3×10^11种潜在的四元化合物和10^13五元组合.实际上,据估计理论材料的总数可以达到10 ^100. 标准材料表征实践,例如计算带结构,在考虑有限尺寸缩放,电荷校正以及超越标准密度泛函理论(DFT)以及Green的函数方法时会变得昂贵(GW近似), 加剧这个问题. 最终,该搜索空间的蛮力探索,即使在高通量方式下仍是完全不切实际的.

In [2]:
youdao('quinary')

quinary: ['kwaɪnərɪ]
adj. 第五位的;五个一套的;五进制的
n. 五个一套或一组


1. quaternary: [kwə'tɜːn(ə)rɪ], adj.四元的
1. quinary: ['kwaɪnərɪ], adj. 五元的
1.

为了规避这个问题,许多知识为基础的结构-性能关系已经推测多年来在寻求帮助的新型功能材料,从最简单的经验关系10到复杂的先进典型. 例如,已经开发了许多(半)经验规则来预测带隙能量,例如包含(光学)电负性的带隙能量.还为黄铜矿半导体,钙钛矿开发了更复杂的机器学习(ML)模型和二元化合物.不幸的是,许多这些模型仅限于单一系列材料,在其训练范围之外具有狭窄的适用性.

这种结构 - 性质关系的发展已经成为制药业的一个不可或缺的实践,它面临着类似的组合挑战.潜在有机分子的数量估计在10 13到10 180之间(参考文献23).在计算医学化学中,定量结构 - 活性关系建模与化学文库的虚拟筛选相结合,在发现新型生物活性化合物24方面取得了很大成功.
在这里,我们介绍材料结构的片段描述符.这些描述符与ML方法的组合提供了能够精确预测几乎任何化学计量无机晶体材料的性质的通用模型的开发.首先,描述用于描述符生成的算法,以及用于定量材料结构 - 属性关系(QMSPR)建模的ML方法的实现.接下来,通过预测材料的八个关键电子和热机械特性来评估该方法的有效性,包括金属/绝缘体分类,带隙能量,体积和剪切模量,德拜温度,热容量(恒定压力和体积)和热膨胀系数.突出了由ML算法确定的最重要描述符之间的影响和相互作用.作为概念验证,QMSPR模型随后用于预测以前未定性化合物的热力学性质,并通过AEL-AGL集成框架(自动弹性库 - 自动GIBBS库)验证预测25,26.这种预测具有特殊的价值,因为在最有效的情况下热机械性能的适当计算途径仍然需要分析多个DFT运行,从而提高了已经很昂贵的计算的成本.最后,ML预测和计算都与实验值进行了比较,最终证实了该方法的有效性.
其他研究已经通过构建ML方法预测了这里讨论的目标性质的子集,其中计算获得的量,例如内壳上方的内聚能,形成能和能量,是输入数据27的一部分.这里介绍的方法是正交的.一旦经过培训,我们提出的模型就可以实现相同的精度,而无需进一步的从头算数据.所有必要的输入属性都可以制表或直接从几何结构中导出.有以下优点:(i)先验,在训练之后,不需要进行进一步的计算,(ii)后验,建模框架变得独立于训练数据的来源或性质,例如,计算与实验相比.后者允许将预测快速扩展到在线应用程序 - 考虑到细胞的几何形状和所涉及的物种,返回8个ML预测属性(aflow.org/aflow-ml).

# 结果
## 通用性质标记的材料碎片
许多化学信息学的研究已经证明分子描述符,这是众所周知的影响模型的精度比ML算法的选择更多的至关重要的28,29.出于本研究的目的,通常用于有机分子的片段描述符适用于材料表征30.分子系统可以描述为其顶点对应于原子和化学键边缘的图.在该表示中,片段描述符表征完整3D分子网络的子图.任何分子图不变量可以唯一地表示为片段描述符的线性组合.与其他类型的化学描述符相比,它们具有多种优势31,包括简单的计算,存储和解释32.但是,它们也有一些缺点.使用片段描述符构建的模型在呈现未经训练的新片段时表现不佳.另外,典型的片段仅由各个原子符号(例如,C,N,Na)的信息构成.这种有限的背景不足以模拟材料内复杂的化学相互作用.
考虑到这些限制因素,材料的片段描述符是通过区分原子而不是通过它们的符号来区分,而是通过过多的良好制表的化学和物理特性来概念化33.描述符特征包括这些原子特性的各种组合.从这个角度来看,材料可以被认为是"有色"图形,顶点根据它们所代表的原子的性质进行装饰34.这些图的分区形成了属性标记的材料碎片(PLMF).
图1显示了构建PLMF的方案.给定晶体结构,第一步是确定其中的原子连通性.通常,原子连通性不是在材料内确定的微不足道的属性.不仅要考虑原子间潜在的键合距离,还要考虑附近原子的拓扑是否允许键合.因此,采用计算几何方法的晶体结构(分割图1a)到原子为中心的Voronoi-狄利克雷多面体35,36(图1b).发现这种分配方案在金属有机骨架,分子和无机晶体37的拓扑分析中具有无可估量的价值.原子之间的连接是通过满足两个标准建立:(i)所述原子必须共享一个沃罗诺伊面(垂直相邻原子之间平分线),和(ii)的原子间距离必须大于Cordero的共价半径之和短的38内的至0.25Å公差.这里,仅模拟强的原子间相互作用,例如共价键,离子键和金属键,忽略范德华相互作用.由于材料中的模糊性,不考虑债券订单(单/双/三键分类).总之,Voronoi中心共享Voronoi面,并且在它们的共价半径的总和内形成定义材料内连通性的三维图形.
> 图1:表示特性标记材料碎片(PLMF)结构的示意图.
图1
通过Voronoi曲面细分(b)分析晶体结构(a)的原子邻域.在属性标记之后,将得到的周期图(c)分解为简单的子图(d).

在PLMF构造的最后步骤中,完整图和相应的邻接矩阵(图1c)由总连接列表构成.邻接矩阵甲一个简单图(材料)的ñ顶点(原子)是方阵(Ñ × Ñ)的条目一个IJ = 1,如果原子我被连接到原子Ĵ,和一个IJ =否则为0.该邻接矩阵反映了给定系统的全局拓扑,包括晶体内的原子间键和接触.完整的图被划分为较小的子图,对应于各个片段(图1d).尽管通常需要考虑几个子图,但长度l最多限制为三个,其中l是子图中连续的非重复边的最大数量.该限制用于抑制最终描述符向量的复杂性.特别是,有两种类型的片段.路径片段是至多l = 3的子图,其编码最多四个原子的任何线性链.只考虑原子之间的最短路径.圆形片段是l的子图= 2,编码最近邻原子的第一个shell.在该上下文中,圆形片段表示配位多面体,或具有阴离子/阳离子中心的原子簇,每个阴离子/阳离子中心被一组其相应的反离子包围.协调多面体广泛用于晶体学和矿物学39.
PLMF通过局部(标准原子/元素)参考特性33来区分,其包括:(i)一般特性:门捷列夫群和周期数(g P,p P),价电子数(N V); (ⅱ)测量的特性33:原子质量(米原子),电子亲和势(EA),热导率(λ),热容量(ç),雾化(Δ焓ħ 在),融合(Δ ħ 融合)和汽化( Δ ħ 蒸气),前三个电离电位(IP 1,2,3); 和(iii)派生属性:有效原子电荷(Ž EFF),摩尔体积(V 摩尔),化学硬度(η)33,40,共价(ř COV)38,绝对41,和范德华半径33,电负性(χ)和极化(α P).成对属性以其乘法和比率的形式包括在内,以及属性值除以原子连通性(邻接矩阵中的邻居数).对于每一个属性方案q,以下量也被认为是:最小值(分钟(q)),最大(MAX(q)),总和(Σ q),平均(AVG(q))和标准偏差(STD(q))材料中的原子之间的q.
为了结合关于晶体晶胞的形状,尺寸和对称性的信息,结合了以下晶体特性:晶格参数(a,b,c),它们的比率(a / b,b / c,a / c),角度(α,β,γ),密度,体积,每个原子的体积,原子数,物种数(原子类型),晶格类型,点群和空间群.
所有上述描述符(基于片段和全晶)可以连接在一起以唯一地表示每种材料.滤除低方差(<0.001)和高度相关(r 2 > 0.95)特征后,最终特征向量捕获2,494个总描述符.
描述符构造的灵感来自拓扑电荷指数42和Kier-Hall电子拓扑状态指数43.令M为通过将邻接矩阵A乘以倒数平方距离矩阵D而 获得的矩阵:

称为Galvez矩阵的矩阵M是正方形n × n矩阵,其中n是单位晶胞中的原子数.从M,参考属性q的描述符计算为

和

其中第一组指数计数所有原子对,第二组仅限于所有对的原子i,j.

## 定量材料结构 - 性质关系建模
在训练模型时,使用相同的ML方法和描述符而无需任何手动调整或变量选择.具体地,使用梯度提升决策树(GBDT)技术44来构建模型.所有模型都通过y随机化(标签加扰)进行验证.五重交叉验证用于评估每个模型对一个独立数据集的推广程度.通过训练集上的网格搜索和10倍交叉验证来确定超参数.
GBDT方法44从增强方法45的应用演变为回归树46.增强方法基于以下观察:发现许多弱精确预测规则比找到单个高度准确的规则47要容易得多.增强算法反复调用这个"弱"学习者,在每个阶段为其提供不同的训练样例子集.每次调用它时,弱学习者都会生成一个新的弱预测规则.在多次迭代之后,增强算法将这些弱规则组合成单个预测规则,旨在比任何单个弱规则更准确.
GBDT方法是以下形式的加法模型:

其中h(x ; a m)是弱学习者(在这种情况下是决策树),其特征在于参数a m,M是通过提升获得的决策树的总数.
它以前向阶段的方式构建了添加剂模型:

在每个阶段(米 = 1,2,...,中号),γ 米和一米被选择的损失最小化函数˚F 大号给定当前模型˚F 米 -1(X 我)的所有数据点(计数Ñ),

梯度增强尝试通过最速下降数值地解决这种最小化问题.最陡下降方向是在当前模型F m -1处评估的损失函数的负梯度,其中使用线搜索来选择步长.
一项重要的实际任务是量化变量的重要性.决策树集合中的特征选择不能区分由变量之间的相互作用引起的主要影响和效果.因此,与回归系数不同,禁止直接比较捕获的效果.为此目的,通过以下方式量化可变影响44.让我们定义变量j在单个树h中的影响.考虑到树有l个分裂,因此l -1级.这就产生了变量影响的定义,

这种分裂导致的经验平方改进在哪里,并且是指标函数.这里,如果节点x i处的分割在变量j上,则值为1,否则为0,即,它测量变量j被选择用于分割的次数.为了获得变量j在决策树集合中的整体影响(计数M),对所有树进行平均,

这些影响是标准化的,因此它们会增加一个.影响力捕捉变量的重要性,但不是响应的方向(正面或负面).

## 集成建模工作流程
在这项工作中开发了八个预测模型,包括:二元分类模型,预测材料是金属还是绝缘体;七个回归模型预测:绝缘体的带隙能量(E BG),体积模量(B VRH) ,剪切模量(G ^ VRH),德拜温度(θ d)中,在恒定的压力(热容量ç p),在恒定的体积(热容量ç V),以及热膨胀系数(α V).
图2显示了整个应用程序的工作流程.首先将新的候选材料分类为金属或绝缘体.如果材料被分类为绝缘体,则预测E BG,而作为金属分类意味着材料没有E BG.然后预测六种热机械性能,与材料的金属/绝缘体分类无关.集成建模工作流程已在aflow.org/aflow-ml中作为Web应用程序实现,仅需要原子种类和位置作为预测的输入.
> 图2:建模工作流程概述.
ML模型由橙色钻石代表.这些模型预测的目标属性以绿色突出显示.

尽管所有三个模型都是独立训练的,但E BG回归模型的准确性本质上取决于该工作流程中金属/绝缘体分类模型的准确性.然而,金属/绝缘体分类模型的高精度表明这不是实际问题.
模型的普遍性
评估模型质量的一种技术是五重交叉验证,该技术可以衡量模型对一个独立数据集的推广程度.对于每个模型,该方案涉及将该组随机划分为五个组并在一个子集中预测每个材料的值,同时在其他四个子集上训练该模型.因此,每个子集都有机会扮演"测试集"的角色.此外,解决了预测中观察到的任何偏差.如需进一步分析,所有预测和计算结果均可在补充说明2中找到.
金属/绝缘体分类器的精度报告为接收器工作特性(ROC)曲线的曲线下面积(AUC)(图3a)).ROC曲线说明了模型区分金属和绝缘输入材料的能力.它绘制了在整个可能的预测阈值范围内绝缘体的预测速率(正确与错误预测).面积1.0表示完美测试,而0.5表示随机猜测(虚线).该模型显示出优异的外部预测能力,曲线下面积为0.98,绝缘体预测成功率(灵敏度)为0.95,金属预测成功率(特异性)为0.92,总体分类率为0.93.对于完整的26,674种材料,这相当于2,103种错误分类的材料,包括1,359种错误分类的金属和744种错误分类的绝缘体.显然,该模型对预测绝缘体表现出正偏差,其中偏差是指ML模型是否倾向于高估或低估预测属性.这种低假金属率是幸运的,因为该模型不太可能将一种新颖的,可能有趣的半导体错误分类为金属.总的来说,金属分类模型足够强大,可以处理元素周期表的完整复杂性.

> 图3:预测电子和热机械性能的八种ML模型的五重交叉验证图.
图3
(a)分类ML模型的接收器操作特性(ROC)曲线.(b - h)回归ML模型的预测值与计算值:(b)带隙能量(E BG),(c)体积模量(B VRH),(d)剪切模量(G VRH),(e)德拜温度(θ d),(˚F)的热容量在恒定压力(ç P),(克)在恒定的体积(热容量C ^ V)和(ħ)热膨胀系数(α V).

带隙能量(E BG)回归模型的五重交叉验证分析的结果绘制在图3b中.此外,表1中提供了这些预测的统计概况以及六个热机械回归模型的统计概况,其中包括诸如均方根误差(RMSE),平均绝对误差(MAE)和决定系数(r 2).与分类模型类似,E BG模型表现出积极的预测偏差.最大的误差来自带隙较窄的材料,即图3b中左下角的散射.这些材料主要包括复合氟化物和氮化物.N 2 H 6 Cl 2(ICSD#23145)表现出最差的预测精度,带符号误差SE = 3.78 eV 48.最低估材料是HCN(ICSD#76419)和N 2 H ^ 6氯2(ICSD#240903)与SE = -2.67和-3.19 eV的49,50分别.考虑到所有三种都是分子晶体,这并不奇怪.此类系统是ICSD中的异常,并且更适合其他数据库,例如剑桥结构数据库51.总体而言,预计10,762种材料的计算值精度为25%,而824种系统的误差超过1 eV.
表1:七个回归模型的五重交叉验证预测的统计汇总.
全尺寸表
图3c-h和表1显示了六个热机械回归模型的五重交叉验证分析的结果.对于体积(B VRH)和剪切(G VRH)模量,超过85%的材料在其计算值的20GPa内预测.其余模型也表现出高精度,至少90%的完整训练集(> 2,546系统)预计在计算值的25%以内.体积模量预测中的显着异常值包括石墨(ICSD#187640,SE = 100 GPa,可能是由于极端各向异性)和两种理论高压硼氮化物(ICSD#162873和#162874,低于110 GPa预测不足)52,53.在整个6个特性的其它的理论系统病预测,包括ZN(ICSD#161885),CN 2(ICSD#247676),C 3 Ñ 4(ICSD#151782)和CH(ICSD#187642)52,54,55,56.用于预测G ^ VRH,德拜温度(θ d),以及热膨胀系数(α V)趋向于稍微低估,特别是对于更高的计算值.此外,轻度散射可以看出为θ d和θ V,但不足以对错误或相关指标产生重大影响.
尽管偏差最小,但RMSE和平均绝对误差均在每个属性所涵盖范围的4%范围内,并且预测显示出与计算属性的良好相关性.请注意,对于恒定体积(C V)的热容量,每个原子刚好低于3 k B的点的紧密聚类\u2009 .这是因为对于许多化合物,根据Dulong-Petit定律发生的C V饱和度在300K或低于300K时发生.

## 模型解释
在任何ML研究中,模型解释都是至关重要的.确定每个描述符的重要性以便深入了解影响感兴趣的分子特性的结构特征.可解释性是决策树方法的强大优势,特别是对于GBDT方法.可以通过分析树的每个节点处的RMSE的减少来量化特定描述符的预测能力.
部分依赖图为GBDT模型解释提供了另一个机会.与描述符重要性分析类似,部分依赖性解决了变量(描述符)对属性的影响,但仅在边缘化所有其他解释变量之后57.当相关描述符变化时,通过该属性的改变量化该效果.这些图本身突出了相关描述符之间以及属性和相应描述符之间最重要的交互.虽然只强调和讨论了最重要的描述符,但可以在补充说明1中找到相关描述符及其相关贡献的详尽清单.
对于金属/绝缘体分类模型,描述符显着性分析表明两个描述符具有最高的重要性(同等),即和.是在材料中所有原子上平均的熔化焓(ΔH 熔化)和热导率(λ)之间的比率,并且是在所有原子上平均的摩尔体积(V mol)和共价半径(r cov)之间的比率.材料中的原子.两个描述符都是简单的节点特定功能.这两个突出描述符的存在解释了分类模型的高准确性.

> 图4显示了完整的数据集的到的双描述符空间投影和.在这个2D空间中,金
属和绝缘体基本上是分开的.为了进一步解决这种分离,该图被分成四个象限(见虚线),其原点大约为,.绝缘体主要位于象限I中.有几个平行于x轴的簇(一个大和几个小).金属占据的时间间隔内象限III的紧凑正方形块和.象限II大多是空的,在原点周围散布着一些材料.在剩下的象限(IV)中,材料具有混合特征.
图4:双描述符空间中完整数据集(26,674个唯一材料)的半对数散点图.
图4
AVG(Δ ħ 融合λ -1)对.绝缘体和金属分别用红色和蓝色着色.

对图4中所示的投影的分析表明了一个简单的启发式规则:象限I内的所有材料被分类为绝缘体(E BG > 0),并且该象限外的所有材料都是金属.值得注意的是,这种无监督投影方法对26,674种材料的整个数据集实现了86%的非常高的分类精度.该模型仅对3,621种材料进行了错误分类:2,414种被错误地预测为绝缘体,1,207种被错误地预测为金属.此示例说明了对最重要描述符的仔细模型分析如何能够为材料设计生成简单的启发式规则.
带隙能量(E BG)的回归模型更复杂.模型中有许多描述符具有可比较的贡献,因此,所有个体贡献都很小.这是预期的,因为许多条件会影响E BG.最重要的是和平均值(Cλ -1),其显着性分数分别为0.075和0.071,其中χ是电负性,Z eff是有效核电荷,C是比热容,λ是每个原子的热导率.

> 图5示出了部分的依赖性曲线图集中于(Δ IP 键),例如,它来自键合原子的边缘碎片(l = 1),并定义为在材料上平均的电离电位的绝对差异.换句话说,它是键合极性的量度,类似于电负性.图5a示出了在稳定单调增加Ë BG较大(Δ的值IP 键).效果很小,但捕获了预期的物理原理:极性无机材料(例如,氧化物,氟化物)倾向于具有更大的E BG.

图5:局部依赖性曲线ë BG,乙VRH和θ d的模型.
图5
(一)的部分依赖Ë BG上平均(Δ IP 键)描述符.对于ë BG,标准之间的相互作用2D(Δ IP 键)和平均(Δ IP 键)之间,ρ(密度)和平均(Δ IP 键)在面板被示出(b,c ^),分别.(d)B VRH对每个原子描述符的晶体体积的部分依赖性.对于θ d,平均之间的相互作用2D(Δ EA 键)和在晶格参数b和c之间分别示出了面板(e,f).

考虑到与此现象有关的重要交互的数量,定制E BG涉及高度非凸的多维对象的优化.图5b示出了该对象如std(Δ的2D切片IP 键)和平均(Δ IP 键)同时变化.像AVG(Δ IP 键),STD(Δ IP 键)是一组在绝对差的SD IP所有键合的原子之间.在这两个变量的情况下,ê BG回应了Δ偏差IP 债券所述一组键合的原子的,但其中保持在平均(Δ横跨转移常数IP 键).这表明有机会通过考虑改变键极性之间偏差的另一种成分来调整E BG.或者,通过考虑保持键合极性之间的偏差的另一种组合物,即使在整体平均偏移时,也可以保持期望的E BG.类似地,图5c示出了在两个密度(部分依赖ρ)和平均(Δ IP 键).与以前的趋势,更大的平均(Δ IP 键)值较小的相关È BG,特别是对于低密度结构.具有较高密度和较低的平均(Δ材料IP 键)倾向于具有更高的È BG.考虑到响应升高(与图5b相比),E BG与密度背景下的平均键极性的逆相关表明调整E BG的更有效方法.
热机械特性模型的描述符分析揭示了一个描述符的重要性,特别是晶体的每个原子的体积.这个结论肯定会与这些性质的性质产生共鸣,因为它们通常与粘合强度26相关.图4d举例说明了这种关系,它显示了体积模量(B VRH)对每个原子体积的部分依赖图.紧密结合的原子通常表示更强的键.随着原子间距离的增加,B VRH等特性通常会降低.
更有趣的依赖图的两个也示于图5e中,f,这两者都提供用于调谐德拜温度(机会θ d).图5e示出了两个描述符之间的相互作用,在电子亲合的原子之间的绝对差平均超过材料(AVG(Δ ê甲键)),以及该组的汽化焓的比率的SD(Δ ħ 蒸气)和雾化ΔH 原子)对于材料中的所有原子.这些尺寸内,两个不同的区域出现的增加/减小θ d在约由尖锐分裂分离.这些分区中,也有最大梯度的簇θ d的右内左分区和波谷内-peaks.峰和谷交替变化.尽管不是直接的直观描述符,但是交替的簇可以是ΔH 蒸汽和ΔH 原子的周期性的表现(参考文献58).至于分区本身,平均的极值(Δ EA 原
子)表征共价键和离子材料,如具有类似键合的原子EA可能共享电子,而那些具有不同EA喜欢捐赠/接受电子.考虑到EA也是仔细调整周期,各种机会θ d应该可用.
最后,图5f示出的部分依赖θ d在晶格参数b和Ç.它解决两个显着的相关性:(ⅰ)中均匀地增加了系统的单元尺寸减小θ d,但(II)伸长的细胞
增加它.同样,(i)可归因于每个原子的体积与粘合强度之间的反比关系,但对(ii)的解释很少.然而,细长\u200b\u200b或分层系统与德拜温度之间的联系当然不足为奇 - 可利用各向异性来增强与导热系数相关的声子相关相互作用59和超导电性60,61,62.尽管感兴趣的领域非常狭窄,但影响是显着的,特别是与图5e所示的相比.

## 模型验证
尽管可以通过五重交叉验证来预测ML模型的预期性能,但是对于独立数据集的验证没有替代品.在ML车型为热机械性能进行了杠杆,使物料之前未预测,这些预测是通过AEL-AGL集成框架随后验证25,26.图6显示了模型在770种附加材料上的性能,相关统计数据显示在表2中.有关进一步分析,所有预测及计算结果均载于补充说明3.

> 图6:六种ML模型的模型性能评估,预测770种特性材料的热机械性能.
图6
预测与该回归ML模型计算值:(一)体积模量(乙VRH),(b)剪切模量(G ^ VRH),(C ^)德拜温度(θ d),(d)热在恒定压力容量(ç P),(ê)的热容量在恒定的体积(ç V)和(˚F)热膨胀系数(α V).
> 表2:六个热机械回归模型的预测的统计汇总.

与图3和表1中显示的普遍性分析的结果相比,总体误差与五重交叉验证一致.六个模型中有五个的r 2为0.9或更高.然而,- R 2为热膨胀系数(值α V)低于预测.散射的存在表明需要更大的训练集 - 因为在测试集中可能会引入新的,更多样化的材料.考虑到可能影响热膨胀的变量数量63,这并不奇怪.否则,这些预测的准确度确认PLMF表示,其是特别引人注目考虑的效果:(i)所述有限多样性训练数据集(仅〜 11%为可作为大用于预测电子特性)和(ii)所述测试集的相对大小(超过训练集大小的四分之一).
在体积模量(B VRH)的情况下,预计665个系统(测试组的86%)在计算值的25%内.只有四种材料Bi(ICSD#51674),PrN(ICSD#168643),Mg 3 Sm(ICSD#104868)和ZrN(ICSD#161885)的预测偏离计算值超过100 GPa.Bi是高压相(Bi-III),具有笼状沸石状结构64.氮化锆(纤锌矿相)和镨氮化物(B3相)的结构进行了假设,并且通过DFT计算研究54,65和还没有被实验观察到.
对于剪切模量(G VRH),482材料(测试组的63%)预计在计算值的25%内.只有一个系统C 3 N 4(ICSD#151781)偏离其计算值超过100 GPa.德拜温度(θ d)被预测为50K的精度540个系统(测试组的70%)以内.BEF 2(ICSD#173557),另一个保持架(方钠石)结构66,具有三种型号包括最大误差中θ d(SE = -423 K)和两者的热容量(ç p:SE = 0.65\u2009 ķ 乙每原子; C V:SE = 0.61\u2009每个原子k B).与其他不良预测结构类似,这种多晶型是理论上的,尚未合成.
与实验比较
计算,预测和实验结果之间的比较如图7所示,相关统计数据总结在表3中.数据被认为是为体积弹性模量乙,剪切模量G ^,和(声)德拜温度θ 一个 45用金刚石充分表征的材料(SG#227,AFLOW原型A_cF8_227_a),闪锌矿(SG#216,AB_cF8_216_c_a),岩盐( SG#225,AB_cF8_225_a_b)和纤锌矿(SG#186,AB_hP4_186_b_b)结构67,68.将实验B和G与B VRH和G VRH进行比较值预测这里,和θ 一个被转换成传统的德拜温度,其中Ñ是晶胞的原子的数目.所有相关值均列于补充说明4中.

> 图7:AEL-AGL计算和ML预测与三种热机械特性的实验值的比较.
图7
(一)体积模量(乙),(b)剪切模量(G ^),和(C ^)德拜温度(θ d).

表3:AEL-AGL计算和ML预测与三种热机械性质的实验值的统计汇总.

在实验值和计算值之间找到了极好的一致性,但更重要的是,在实验和预测结果之间.如果误差指标接近或低于普遍性分析的预期容差,则该比较突出了该方法的有效实验可信度.实验/预测验证显然是此处研究的最终目标.

# 讨论
事实证明,传统的反复试验方法在发现实用材料方面效果不佳.使用ML技术开发的计算模型可以为材料设计提供真正合理的方法.典型的高通量DFT筛选涉及数据库中所有材料的详尽计算,通常不考虑先前计算的结果.即使在高通量率下,中等尺寸结构的平均DFT计算(每单位晶胞约 50个原子)也需要〜计算量为1,170个CPU小时,32个CPU核心节点为37小时.但是,在许多情况下,目标属性的所需值范围是已知的.例如,最佳的带隙能量和热导率对于光电应用将取决于装置的功率和电压条件63,69.此类案例提供了利用以前的结果和精明的ML模型(例如本工作中开发的模型)对潜在材料进行快速预筛选的机会.研究人员可以快速缩小候选材料清单,避免许多无关的DFT计算 - 节省资金,时间和计算资源.这种方法充分利用了先前计算的结果,不断加速材料发现.每个材料的预测率约为0.1秒,相同的32-CPU核心节点每天可以使用此框架筛选超过2800万个候选材料.
此外,如图5所示的交互图提供了设计满足某些约束和要求的材料的途径.例如,在高功率使用的材料之间的热膨胀系数实质差异,高频光电应用导致弯曲和在生长过程中的结构的开裂63,69.这种工作流程不仅有助于寻找具有大带隙能量,高德拜温度(热导率)的半导体,而且还有类似热膨胀系数的材料.
尽管模型本身具有出色的预测能力和较小的偏差,但异常值分析显示理论结构属于最严重的违规者.这并不奇怪,因为真正的稳定性条件(例如,高压/高温)尚未确定,如果它们存在的话.ICSD估计超过7,000种材料(或大约4%)的结构来自计算而非实际实验.这些发现举例说明了ML建模,大数据集的快速/稳健管理的另一个应用.
为了改进大规模高通量计算筛选以识别具有所需特性的材料,应将快速准确的数据挖掘方法纳入标准工作流程.在这项工作中,我们开发了一个通用的QMSPR框架,用于预测无机材料的电子特性.通过预测化学计量无机晶体材料的八种关键材料性质,包括金属/绝缘体分类,带隙能量,体积和剪切模量,德拜温度,热容量(恒定压力和体积)和热膨胀系数,验证了其有效性. .它的适用范围扩展到所有230个空间群和周期表中的绝大多数元素.所有型号均可在aflow.org/aflow-ml免费获取.

# 方法
## 数据准备
为ML模型的创建和验证准备了两个独立的数据集.训练集包括电子4,70,71,72,73,74和热机械性能25,26对于已经在AFLOW数据库中表征的多种化合物.该集用于构建和分析ML模型,每个属性一个模型.然后使用构建的热机械模型来预测AFLOW数据库中先前未表征的化合物.基于这些预测和计算成本的考虑,选择几种化合物来验证模型的预测能力.这些化合物及其计算属性定义了测试集.两种数据集中使用的化合物分别在补充说明2和3中规定.
训练集.一世
为49934层的材料的带隙能量数据是从AFLOW存储库中提取4,70,71,72,73,74,表示〜在无机晶体结构数据库(ICSD)中列出的已知化学计量无机晶体材料的60%2,3.尽管这些带隙能量相对于实验值75通常被低估,但DFT + U足够稳健以区分金属(无E BG)和绝缘(E BG > 0)系统76.此外,带隙能量预测中的误差通常是系统的.因此,带隙能量值可以被校正特设与嵌合方案77,78.在模型开发之前,ICSD和AFLOW数据都经过精心策划:更正或删除了重复条目,错误结构和不合理计算.不考虑高贵的气体晶体.最终数据集包括26,674种独特材料(12,862没有E BG和13,812,E BG > 0),涵盖7个格子系统,230个空间群和83个元素(H-Pu,不包括稀有气体,Fr,Ra,Np) ,At和Po).所有参考的DFT计算均使用广义梯度近似PBE进行79交换相关的功能和投影仪增强波函数电位 80,81根据AFLOW标准高吞吐量计算 76.标准确保数据的可重复性,并为计算中设置的任何参数提供可见性/推理,例如精度阈值,计算路径和网格尺寸.II.从AFLOW储存库 26中提取了超过3,000种材料的热机械性能数据.这些性能包括体积模量,剪切模量,德拜温度,恒压热容,恒定体积热容和热膨胀系数,并使用AEL-AGL集成框架计算25,26.AEL(AFLOW弹性库)方法 26将一组独立的法向和剪切应变应用于该结构,然后拟合计算的应力张量以获得弹性常数 82.然后可以使用这些来计算Voigt和Reuss近似中的弹性模量,以及Voigt-Reuss-Hill(VRH)平均值,它们是本工作中建模的体积和剪切模量的值.AGL(AFLOW GIBBS库)方法 25将来自一组各向同性压缩和扩展的结构体积的能量拟合为准谐波Debye-Grüneisen模型 83获得热机械性能,包括体积模量,德拜温度,热容量和热膨胀系数.AGL已在单个工作流程中与AEL结合使用,因此它可以利用从AEL获得的泊松比来提高热性能预测的准确性26.经过类似的收敛计算后,最终数据集由2,829种材料组成.它涵盖了七个晶格系统,包括一元,二元和三元化合物,并涵盖了每个热机械特性的广泛范围,包括高导热系统,如C(ICSD#182729),BN(ICSD#162874),BC 5(ICSD# 166554),CN 2(ICSD#247678),MnB 2(ICSD#187733)和SiC(ICSD#164973),以及低热导率系统,如Hg 33(Rb,K)3(ICSD#410567和#410566),Cs 6 Hg 40(ICSD#240038),Ca 16 Hg 36(ICSD#107690),CrTe(ICSD#181056)和Cs(ICSD#426937).这些系统中的许多系统还表现出体积和剪切模量的极端值,例如C(高体积和剪切模量)和Cs(低体积和剪切模量).有趣的系统,如RuC(ICSD#183169)和NbC(ICSD#189090)具有高体积模量(B VRH = 317.92 GPa,263.75 GPa)但低剪切模量(G VRH = 16.11 GPa,31.86 GPa)也填充了该组.
## 测试集
尽管几乎所有的ICSD化合物都在AFLOW数据库中以电子方式表征,但由于增加的计算成本,大多数化合物尚未以热机械方式表征.这提供了验证ML模型的机会.剩余的化合物中,几个优先用于经由AEL-AGL集成框架即时表征25,26.具体地,焦点被放置在预测为具有一个大的体积模量系统,该属性被预计与上述其他热机械性能很好地扩展25,26.该组还包括各种其他小型单元,高对称系统,预计将跨越模型的完整适用性领域.这项努力导致了770种其他化合物的表征.
## 数据可用性
作为AFLOW在线存储库的一部分,所有ab initio数据都可以免费向公众提供,并且可以通过REST-API接口70之后的aflow.org访问