https://link.springer.com/referenceworkentry/10.1007/978-3-319-42913-7_64-1

**摘要**:  
我们在此讨论对计算材料学开放平台的愿景. 这样的平台需要依赖三大支柱:
1. 开放的数据生成工具, 包括模拟代码, 科学工作流程, 以及自动化和物源跟踪的基础设施. 
2. 这些工具相互作用的开放式**集成平台**(以易于访问的方式和计算), 和由自动化工作流协调的**计算**.
3. 通过符合FAIR并与数据管理计划兼容的门户, 支持无缝代码和数据共享.  

作为一个实际实现，我们展示了如何通过一些示例实现这样的平台，并特别关注AiiDA基础架构和Materials Cloud Web门户的组合。

# 简介

在原子材料科学领域，计算机模拟已成为材料设计的关键因素。基于密度泛函理论（DFT）和超越DFT方法的精确代码的可用性以及超级计算机不断增长的速度使得计算材料科学更容易获得。实际上，计算已经发展成为补充材料特性研究和优化实验的重要组成部分。这些技术目前的适用性，也被事实证明，12个在整个科学文献的前100引用最多的论文是关于DFT相关的方法（范Noorden等人。2014）。因此，许多团体已开始计算大量已知和未知材料的材料属性，通常从ICSD（Belsky等人，2002年），COD（Gražulis等人，2012年）等晶体结构数据库开始，鲍林文件（维拉尔等人2004年）。许多这些计算材料属性可在线获得; 本手册中还描述了其中一些门户，包括材料项目（Jain等人2011），AFLOWlib（Curtarolo等人2012），OQMD（Saal等人2013），Nomad（Nomad Repository 2018），以及所述CMR（兰迪斯等人2012）。

此外，现在大量的计算被用作训练数据，以使用机器学习技术更有效地预测材料特性**（Ramakrishnan等人2014 ; Dragoni等人2018）**。但是，一般而言，必须掌握足够的数据信息，包括如何生成数据（即其来源），使用哪些物理参数和数值参数，并且通常能够重现结果以验证它们。这对于机器学习来说更为重要，因为机器学习只有在用于训练算法的数据质量已知并且在数据点中保持一致时才可能进行准确预测。

除此之外，开放数据的可用性有利于促进研究和发现，因为数据集可以重新用于原始作者未考虑的新研究和分析。原则上，对于例如实验，计算机模拟应该更容易记录具有完整起源的数据并且共享它。然而，在实践中，有许多方面妨碍材料属性的自动计算，计算再现性，数据来源的传播以及开放研究数据的共享。在本章中，我们将讨论我们对可以降低这些障碍的开放式科学平台的愿景，并且我们将回顾需要解决的挑战。我们还介绍了两个软件基础设施AiiDA（Pizzi等人2016年）和Materials Cloud（Materials Cloud 2017），展示了他们的组合如何使创建富有成效的开放科学生态系统成为可能。

## 开放科学平台的支柱

在开始之前，我们想要定义术语开放科学平台（OSP）以及本章如何使用它。使用开放式科学，我们可以参考开放式工具和数据的组合，这些工具和数据可以运行模拟，然后无障碍地共享和重用结果，旨在加速科学发现。虽然开放数据绝对是OSP的重要组成部分，但我们认为该平台必须非常注重生成和共享数据的工具。此外，它应由模块化组件组成，以涵盖大量用例，并鼓励研究人员使用和扩展它。

我们认为OSP应该基于以下三个支柱：
1. 开放数据生成工具，包括开放模拟代码，管理模拟的开放式架构，以及引导它们的开放式工作流程; 
2. 一个集成平台，使这些工具可以自动化解决方案的形式访问和提供，不仅适用于经验丰富的计算研究人员，也适用于实验家，学生或行业;
3. 通过门户网站支持无缝数据共享，这些门户网站不仅可以找到数据（例如，通过DOI），而且可以公开使用，还可以互操作和重复使用，鼓励使用开放数据和代码许可证。

此外，在我们的愿景中，OSP还应包括开放的策划输入数据库的可用性，这些数据通常用于模拟（如晶体结构或赝势），并且可以创建自动化工作流程，以及开放式学习和教育资源方便年轻研究人员进入该领域。

# 开放科学支柱1：开放数据生成

## 开放模拟工具

能够在OSP内生成数据的第一个要求是**开放模拟代码**的可用性。在材料科学领域（并且仅限于使用密度泛函理论的原子模拟），由于过去几十年发生的事态发展，可以获得许多开放代码。这些包括Quantum ESPRESSO（Giannozzi等人2017），SIESTA（Soler等人2002），YAMBO（Marini等人2009），FLEUR（Blügel和Bihlmayer 2006），CP2K（Hutter等人2014）和ABINIT（ Gonze等人2016年）仅举几例。这种开放式许可模式使每个人都可以访问这些代码。此外，可以在它们之上构建模拟服务，这些服务也可以有益于代码本身，因为这些服务可以成为代码开发的融资渠道。

也有一些是社会各界的广泛和具有商业执照，像其他的代码，例如，VASP（Kresse和Furthmüller 1996年）或CASTEP（Clark等2005）。这些可能在实施的附加功能，速度，稳健性，更广泛的采用或更强的用户支持方面具有优势（后者在工业研究和开发环境中的学术界之外通常非常有价值）。然后，OSP的挑战就是能够在**遵守许可条款的同时整合这些非开放工具**。可以设计出对商业代码和平台都有益的模型。一个例子可以是为代码**提供开放接口和插件**，以实现或促进它们在OSP中的集成，同时保持代码的商业许可。后者也可以从这个模型中受益，因为准备好接口可以促进OSP用户采用代码。

## ADES模型和AiiDA中的实施

近年来，许多研究项目使用高通量计算（HTC）方法扫描数十万个不同的系统，并识别具有最佳材料特性的系统。对于这种项目，手动运行所有模拟甚至更多来控制计算给定材料属性所需的计算顺序是不现实的。因此，需要工具来帮助管理和存储模拟，搜索模拟，同时在存在计算依赖性时控制其执行。我们的经验表明，如果需要可重复使用和模块化，这些工具可以轻松增加复杂性。因此，需要在有组织的架构中收集和开发它们。

在Pizzi等人。（2016），**基于自动化，数据，环境和共享的四个ADES支柱**，讨论了用于管理计算和工作流的这种计算科学体系结构的模型。这些是AiiDA的基础，**AiiDA是同一篇论文中引入的python平台**。在这里，我们简要介绍ADES模型以及AiiDA如何实现其四大支柱，稍后我们将讨论为什么符合ADES的架构在OSP中必不可少。

**第一个ADES支柱Automation**，涉及所有那些旨在解决在超级计算机上管理大量HTC运行问题的软件组件。AiiDA为了独立于超级计算机的细节，实现插件接口来控制连接，传输文件和执行命令（例如，通过SSH）或与作业调度程序交互。这些插件由后台运行的守护程序使用，负责创建新的计算输入并将其上载到超级计算机，提交新的模拟并在作业调度程序上管理它们的生命周期，并在结束时检索和解析结果。

然后需要**第二个ADES支柱Data**，以可重复和可搜索的方式**存储和保存**所有生成的数据。AiiDA使用基于有向非循环图的起源模型来跟踪所有输入和输出以及不同计算之间的逻辑关系。AiiDA会自动跟踪起源（参见第2.3节），可以随时浏览起源，以了解如何生成数据或运行计算。AiiDA跟踪的起源图的一个例子如图1所示。此外，有可能有效地分析结果。为此，AiiDA将出处图存储在数据库中，该模型的架构经过优化，可确保典型查询快速运行。

> **图1**
来自Mounet等人的2D材料（PtSe 2）的带结构的物源图。（2018年）。AiiDA自动记录出处，并可以生成verdi图形以图形形式显示命令。这里，计算显示为橙色矩形，数据显示为椭圆。使用的代码（带有位置的二进制文件，库）也记录在出处图（绿色钻石）中。我们用颜色突出显示了一些特定的数据类型：灰色的赝势，蓝色的最终带状结构和紫色的晶体结构。白色的数据节点是用于计算的其他输入参数（例如，k点网格或输入关键字）。该图显示2D材料的最终带结构是从初始3D结构开始获得的，在这种情况下从晶体开放数据库（COD）（顶部紫色节点）开始，首先通过一组滤波步骤，然后通过量子ESPRESSO松弛，然后几何剥离和2D结构的最终松弛和带结构计算

In [6]:
# ggtrans("""support for seamless code and data sharing through portals that are FAIR-compliant and compatible with data management plans.""")

youdao('provenance')

provenance: ['prɒv(ə)nəns]
n. 出处,起源


第三个ADES支柱，环境，侧重于两个方面。第一个是确保AiiDA易于使用，并为用户提供有效的研究环境，以帮助和促进他们的工作。这要归功于用户API和命令行工具，它们简化了典型任务的执行（计算资源和代码的管理，计算输入和结果的检查，数据分析）以及这些功能的大量文档。此外，AiiDA提供对不需要SQL或类似数据库语言知识的数据库的透明访问，以执行查询和数据分析。这是通过使用对象关系映射（ORM）类直接访问存储在数据库中的数据以及通过QueryBuilder类实现的，以使用户能够使用标准python语法在AiiDA图上执行泛型查询，而不依赖于数据库后端。环境支柱的另一个决定性方面是实施和管理复杂的，嵌套的科学工作流程的可能性。这些是OSP的核心成分（另见Sect。3.1并且是必需的，因为绝大多数材料属性是通过一系列不同的计算和非平凡逻辑来计算的，以控制物理和数值参数，依赖性和收敛循环的选择并执行错误恢复。经验丰富的计算科学家都知道这种逻辑; 在工作流程中对其进行编码不仅简化了模拟的管理，当它们必须使用不同的输入选择重复多次时，还能够自动计算材料属性。后一方面首先是非常有益的，因为这些自动工作流程可以移交给，例如，

最后，Sharing致力于创建一个**社交生态系统**，以鼓励数据和工作流程重用并加速研究发现。AiiDA可以导出所有存储的数据，包括整个出处图，而不仅仅是输入和输出。然后，可以将该信息导入另一个AiiDA实例，并用于新的模拟或进一步的数据分析。AiiDA采用与模拟代码无关的典型数据结构（如晶体结构，电子带，分子动力学轨迹......）的通用格式。此外，由于自动跟踪起源，这些可以随时以任何其他标准格式进行转换，正如我们在Sect中的示例所讨论的那样。4.3。

## 开放科学中的ADES

我们认为，实施ADES模型的最有效方法之一，特别是在OSP的背景下，是耦合自动化和数据存储。更具体地说，AiiDA要求生成计算输入所需的所有信息甚至在计算启动之前都存储在数据库中。然后，守护程序负责使用数据库中已存在的信息来创建实际的输入文件。

当生成新的计算时，这种耦合对于研究人员来说成本很低，因为他们必须使用AiiDA数据结构提供输入并通过守护进程运行它们（即使可以通过简化用户界面来降低额外的屏障，如环境支柱）。另一方面，这种方法确保即使在不同的代码中也可以轻松地重用通用数据结构，并且所有计算都是可重现的，并且起源元数据总是正确的。实际上，如果用户必须在执行数千次模拟后才添加起源信息，那将是一项繁重而繁琐的工作，尤其是在计算不均匀的情况下。因此，在大多数情况下，研究人员最终不会将完整的出处信息添加到他们的数据中，除非绝对必要。此外，

然后，通过数据，来源和工作流的共享功能，加强自动化和数据的耦合（在适当的环境中简化）（特别是考虑到我们对开放科学的讨论）。在接下来的部分中，我们将通过一些示例展示ADES工具如何成为OSP的基本组成部分，并在与其他服务结合使用时完成它。

# 开放科学支柱2：使其易于获取

## 不仅数据：工作流和插件的共享

共享研究数据是开放科学的组成部分之一，因为它允许其他研究人员复制和重复使用结果，执行新的数据分析，并使用发布的数据开始新的研究。因此，以开放和可重用的格式共享数据至关重要。为此目的，最近，在材料科学界，**出现了许多共享门户网站**，其中一些也在本手册中讨论过，如材料项目，AFLOWlib，OQMD，Nomad和CMR。

但是，我们强调，共享不仅应该通过适当的开放许可来实现，而且必须将数据与足够的元数据信息一起分发，以便了解它以及如何生成。如果使用像**AiiDA这样跟踪数据来源的ADES工具运行模拟**(物源追踪)，则可以通过始终与相应的出处共享数据来简单地解决这个问题。此外，数据和元数据应以标准格式共享。定义标准格式是社区的努力，不能由单个研究小组完成。尽管如此，自动起源跟踪可以在数据生成后以任何其他格式导出，如Sect。4.3，因此任何未来的标准也可以通过非常有限的努力得到支持。

但是，我们认为开放科学不能局限于开放数据共享，因为如果用于生成数据的工具不可用，则可重复性受到阻碍。这些工具包括用于计算材料属性的量子模拟包，如Sect中所述。2.1而且还有**用于分析数据的预处理和后处理工具**，更一般地说，是从最初的最小输入（如晶体结构）获得一组材料属性的科学工作流程。它们由许多组件组成：运行工作流的基础设施（如AiiDA），接口AiiDA与所采用的各种代码接口的插件，以及编码科学家关于数值和物理参数选择的知识的逻辑，如何执行计算序列，以及如何处理潜在的错误或收敛问题。只有所有这些组件都是公开可用的，我们才能真正说到可重复的开放科学。实际上，我们在此强调了给定数据集的起源图的可用性，如图1所示非常有用，但通常只允许重现那个单一的结果。然而，在许多情况下，该图不足以理解用于选择输入数据（如截止值或数值参数）或过滤相关结果的复杂工作流逻辑（例如，在高通量研究中）。

开放科学的挑战，在第二节讨论的第二个支柱。1.1，然后确保所有这些组件可以有限的努力共享和重用，它们可以互操作并一起使用，并鼓励第三方对扩展或改进的贡献。

## 鼓励贡献

OSP应该是通用的，并支持各种模拟代码，数据类型和工作流程。显然，维护和支持这个生态系统不能由单个组维持，特别是对于支持特定模拟代码的插件，因为编写它们需要深入了解代码及其典型使用模式。更重要的是，对于既使用了代码又与特定研究领域或主题相关联的工作流程，情况也是如此。

因此，在AiiDA中我们选择了插件界面。主要基础设施“AiiDA核心”仅包含独立于代码的主要逻辑，例如处理外部超级计算机，在数据库中存储数据和出处，或查询它。特定于代码，数据和工作流的所有工具都作为独立存储库中的插件实现。基于插件的设计是必不可少的，但有效的实施可以促进其安装并鼓励贡献。例如，在早期版本的AiiDA中，必须将插件提供给AiiDA的代码存储库。从版本0.9开始，AiiDA插件基础架构得到了改进：现在可以在独立的存储库中开发这些基础架构，最终用户可以轻松选择要安装的插件。安装后，AiiDA会自动检测并使用它们。优点是双重的：首先，它鼓励研究人员贡献自己的代码，因为他们不会失去对它的控制，但保持完整的作者身份，甚至可以决定自定义许可方案。最重要的是，如果插件存在于不同的存储库中，它们的开发可以独立进行，而不必绑定和同步它们的发行版（例如，如果一个代码只需要一个错误修复，而另一个代码正在进行大的重构并且还没有准备好新版本）。

在设计和改进插件界面期间，AiiDA团队很快意识到需要一个集中存储库来列出现有插件。实际上，在过去几年中，不止一位研究人员开始根据他们的需求开发针对相同代码的插件。结果，发布了两个非常相似但基本上不兼容的插件。这导致工作重复，并且存在两个插件错过另一个中存在的一些重要特征的额外风险。因此，面临选择插件的用户可能会感到困惑。此外，具有多种略有不同的格式也会影响共享和可重用性。为解决此问题，已创建AiiDA插件注册表（AiiDA Team 2017a）（另请参见图2）），包含现有插件的集中列表，如何使用它们的简要说明，以及指向其代码存储库和文档的链接。插件代码不会被复制或复制。相反，注册表仅作为索引来促进现有插件的发现。任何人都可以注册一个新的插件，并鼓励开发人员在开发的早期阶段这样做。除了允许他们保留插件名称（需要在所有插件中保持唯一且不应随时间更改）之外，此策略还降低了多个研究人员独立开始为相同代码开发插件的风险。为了描述插件的准备情况，“状态”标志提到插件是否稳定并准备好进行生产，开发中或仅注册。最后，还提供了一个“插件模板”存储库（也可以在插件注册表中找到），可以复制和修改该存储库，以便轻松开始开发新插件。为了证明这种方法的有效性，我们注意到在创建注册表后仅1年，已经有22种不同的插件可用，包括广泛模拟代码的插件，如Quantum ESPRESSO，VASP，CP2K，FLEUR，SIESTA和YAMBO。此外，其中一半以上提供了详细的文档网站，在这种情况下，插件模板提供的骨干文档结构也为此提供了便利。

图2
左图，Sect中讨论的AiiDA插件注册表主页的屏幕截图。3.2，可从http://aiidateam.github.io/aiida-registry获取，其中包含AiiDA所有可用插件的列表。对，其中一个插件的详细信息页面的示例，包含插件提供的功能，如何安装和使用它的一般信息，以及在何处查找代码和相应的文档

最后，本着促进使用和贡献以及提高互操作性的精神，AiiDA已经集成并与其他用python编写的库和工具兼容，这些库和工具正在成为材料科学界极受欢迎的编程语言。例如，AiiDA可以在其内部格式和ASE（Larsen等人2017）和pymatgen（Ong等人2013）的格式之间导入和导出结构，因此这两个库中存在功能（晶体结构操作，比较，处理）可以无缝集成到任何AiiDA工作流程中。类似地，可以使用spglib（Togo 2018）和高对称性k来分析晶体对称性布里渊区中的点（以及带结构的建议路径）可以通过搜索路径自动获得（Hinuma等人2017）并直接用作计算的输入。

## 文档，教程和开放学习资源

如上一节所述，开放代码和数据生成和分析工具的可用性是开放科学的一个重要方面。但是，如果这些工具不易使用，则它们的采用受到严重阻碍。因此，我们认为必须投入资源来降低用户的障碍。为了实现这一目标，需要为代码编写精心编写的文档，描述如何安装它们以及如何指定它们的输入。根据我们的经验，确保在Web引擎中轻松搜索和索引文档非常重要。此外，提供可由用户复制和调整的快速入门指南，示例脚本或输入文件以及通常由许多用户重复的有用食谱的“食谱”非常有效，比如如何实现特定任务或如何解决潜在问题。根据我们的经验，我们发现使用类似笔记本的格式特别有效（特别是使用jupyter，我们在Sect中更详细地描述）。4.4其中有一些在Materials Cloud平台中使用的例子）。除此之外，专门为开发人员设计的文档对于贡献者理解代码并能够独立添加新功能非常有用，因此是鼓励对平台做出贡献的另一种工具（如第 3.2节所述）。

但是，单独的文档（虽然必不可少）很容易对大型代码产生压倒性影响，因此可能不会降低入口障碍。教程和学校也是代码传播的极其强大的工具。这些活动使研究人员直接与工具开发人员联系，帮助创建网络和直接沟通渠道。双方的优势在于：用户可以通过更快，更有效的学习获得直接利益，开发人员可以从这些事件中获益，了解他们的软件如何使用，收集有关常见用例的有用反馈，并了解如何改进代码可用性。

最后，我们还认为，提供教育资源的访问非常重要，例如讲座，教程和学校的录音，既包括该领域的科学基础知识，也包括代码使用和应用程序。这些资源应以开放的形式传播，为所有学生和年轻研究人员提供机会。这方面的一个例子如Sect。4.4，我们讨论Materials Cloud的学习部分，这是材料科学领域教育视频和资源的中心。

## 虚拟机和Quantum Mobile

研究人员经常有一个特定的问题需要解决并寻找可以解决问题的软件。一个好的文档和有效的教程可以帮助说服他们的代码功能，jupyter笔记本可以促进它的使用，但安装和配置的主要初始障碍仍然存在。不幸的是，用户可能遇到的潜在问题是多种多样的，非常依赖于他们的计算机配置，并且通常与代码依赖性有关（**需要C / fortran库，特定编译器或python**包;操作系统不兼容;多个之间的冲突库版本; ...）。如果安装太复杂，研究人员可能会气馁（特别是如果他们不确定代码可以帮助他们）。

为了解决这个障碍，我们建议采用一些不同的方法来减少并几乎消除开始使用软件（或软件集合）所需的时间。

不需要设置任何在线服务器的最简单的解决方案是创建预装了有用软件的虚拟机。分发非常简单，包括与虚拟机映像共享单个文件（通常大小为几GB）。获得此文件后，只需运行虚拟机，用户就可以找到预先安装并预先配置的所有代码，并可以直接开始运行模拟。**一个实际的例子是Quantum Mobile（AiiDA Team 2017b）虚拟机**。它包含许多预装的模拟代码（包括Quantum ESPRESSO，FLEUR，SIESTA，Yambo，CP2K，Wannier90）以及AiiDA，预先配置为在虚拟机中运行这些代码，并且已经预先配置了数据库。这种设置非常适合计算材料科学课堂的教学，学生可以直接关注手头的问题和理解结果。这已经在苏黎世联邦理工学院2018年的“分子和材料建模”课程中得到了证明，其中Quantum Mobile仅在第一次发布后不到4个月的时间里用作运行模拟的平台。

对于较大的模拟，由于CPU或内存限制，在虚拟机内运行并不理想甚至不可能，但研究人员仍然可以**通过配置AiiDA连接到他们可以访问的超级计算机来使用它**。**另一种虚拟化解决方案包括使用Docker**，它可以被视为创建轻量级虚拟机的工具，其中Linux内核和一些资源是共享的而不是模拟的。AiiDA现在预先配置了一个Docker镜像，这也推动了之前提到的许多代码，以提供自己的Docker镜像。Docker设置提供了非常类似的容器化和代码设置的虚拟机再现性，并且更轻量级（例如，在执行多个类似机器时的磁盘使用方面）。因此，它适用于需要自动创建许多等效系统的任务。典型的用例是在连续测试平台中。然而，另一方面，值得注意的是，就虚拟机而言，出于教育目的而较少指示使用Docker镜像。事实上，如果没有计算机管理和Docker及其相关技术的高级知识，虚拟机（在撰写本文时）仍然更容易启动。此外，虚拟机提供对GUI应用程序（如文本编辑器或文件浏览器）的无缝访问，而对于Docker，需要通过命令行访问实例，从而为学生创建潜在的额外障碍。

## 超级计算机中心

促进用户采用代码的第二种方法是将它们部署在运行模拟的超级计算机中心。现在，大多数高性能计算（HPC）中心都有一个应用程序支持团队，该团队编译用户使用的各种代码版本并将其作为模块提供。对于管理AiiDA等模拟的工具也可以这样做。然而，这可能要求这些中心从HPC提供商的经典模型过渡到更一般的服务提供商，例如虚拟机，数据库服务或长期存储。许多中心（如欧洲，瑞士CSCS，意大利CINECA或德国JSC）已经在提供这些新服务并共同合作访问它们;

# 开放科学支柱3：无缝数据共享和保存

## 数据管理计划和FAIR合规性

在研究的第一阶段，离线工具和代码通常用于执行和组织研究，因为生成的数据可能很大并且通常是保密的。但是，当必须共享数据时，如第S节中描述的OSP的第三个支柱所述。1.1，采用适当设计的门户网站变得至关重要。除此之外，**目前许多资助机构要求遵守数据传播和长期保存的数据管理计划（DMP）**。理想情况下，**数据应与FAIR共享原则兼容（Wilkinson等人，2016年））要求数据可查找，可访问，可互操作和可重用。**只有当研究数据与像DOI这样的持久句柄相关联才能使其可引用时，才能实现可查找性。像Zenodo（2018）这样的自由门户网站将DOI分配给从研究项目中获得的数据集，并保证长期保存。但是，虽然可以在这些服务上上载由不同代码生成的文件，但仍然需要另一位研究人员安装兼容软件，以便以原始作者上传的格式打开和分析结果。为了消除这一障碍，网络门户网站因此需要解决其他FAIR方面的问题，以成为有效的OSP。

在接下来的几节中，我们将展示如何使用合适的Web门户以及AiiDA等ADES工具来管理模拟和跟踪起源，以便如**何方便地实现符合DMP和FAIR标准的目标**。我们特别讨论了AiiDA与Sect中的理论晶体开放数据库（TCOD）的集成。4.3，证明了数据来源的自动跟踪如何能够在模拟运行后自动标记带有标准元数据的结果; 和Materials Cloud门户网站（第4.4节）提供包含计算研究的所有步骤的工具，从学习到生成数据和策划结果，到最终发布和共享结果，同时完全符合FAIR原则。

## 不同数据库之间的互操作性：OPTiMaDe API

即使自动起源跟踪允许以任何格式存储后验元数据信息，正如我们在下一节中讨论的那样，定义标准仍然非常有价值。事实上，这将允许不同现有数据库之间的轻松互操作性。OPTiMaDe联盟正在努力实现数据库和Web门户互操作性方面的社区努力，该联盟致力于定义由不同合作伙伴实施的通用API规范。社区中的许多大型数据库已经是该联盟的一部分（包括具有_mcloud_的 Materials Cloud）分配给它的前缀）。在当前版本（0.9.5）中，OPTiMaDe已经定义了一种REST API格式，可以使用相同的格式查询不同数据库中晶体结构的存在，使用常见的过滤器，如原子数，是否存在化学元素，以及支持数据库特定领域。

## 自动后验元数据标记：AiiDA和TCOD集成

目前正在社区中讨论用于元数据标记和材料科学研究结果共享的本体和其他标准，例如TCOD词典（Gražulis等人2014）和Nomad元数据（Nomad Meta Info 2018），即使还没有既定的标准。因此，很难强制执行给定的本体。然而，如果使用自动起源跟踪工具进行模拟，社区中缺乏单一标准格式并不是主要问题。实际上，跟踪起源（如果是完整的和自动的）允许用户，后验，即在所有模拟运行之后，通过仅实施转换器来转换任何其他格式的起源信息。Merkys等人的一个例子如图所示。（2017），其中提出了方法和代码，以将AiiDA跟踪的出处转换为TCOD本体定义的格式。在这项工作中，作者特别展示了如何通过AiiDA管理的Quantum ESPRESSO模拟使用TCOD本体自动标记元数据，无需用户输入。此外，该实现是模块化的，并且可以开发附加插件以支持其他模拟工具或其他元数据格式。

## 材料云

在Sect。2我们已经描述了AiiDA如何解决OSP中的数据生成挑战。3我们已经概述了如何使开放科学可以访问，并在Sect。4.1我们强调了为符合FAIR原则而量身定制的门户网站是实现无缝共享的重要因素。

因此，Material Cloud已经过设计，实施和部署。它是与AiiDA相结合的材料科学门户网站，并与之结合，解决了Sect中引入的所有三个OSP支柱。1.1。Materials Cloud由不同的部分组成，旨在协助研究人员在科学项目的整个生命周期中。

第一部分，学习，包含教育材料，如学校视频，教程和材料科学领域的讲座，以及相应的材料，以帮助学习（如幻灯片和练习）。学习部分使用SlideShot技术，这是一个软件平台，可以以高分辨率显示扬声器的视频输入和幻灯片，允许观众通过幻灯片缩略图快速搜索视频。这与标准硬件设置相结合以执行录制，然后将它们导入SlideShot。

然后，“ 工作”部分重点关注数据生成任务。本节特别讨论开放式科学的第二个支柱，以自动化解决方案的形式提供模拟工具，消除访问障碍，使其不仅可供经验丰富的计算研究人员使用，还可供实验者或学生使用。除了提供下载各种版本的昆腾移动虚拟机的链接（参见3.4节）之外，它还提供了两种不同方法的计算工具，适用于我们在此简要讨论的不同用例。Materials Cloud工作部分的第一种方法是提供一组在线工具直接从网络浏览器执行数据的快速分析，类似于例如毕尔巴鄂晶体服务器的许多工具（Aroyo等人2011）。这特别适用于可以实时运行的计算（即运行时间长达几秒），并且可以从图形Web界面中受益。一个例子是seekpath（Hinuma等人2017），该工具，给定一个输入结构，计算根据在晶体学文献中的标准定义的标准化原语单元电池，如在晶体（Shmueli的国际表2010），并在Parthé和Gelato（1984）。然后，该工具还返回布里渊区域中高对称点的标签以及用于计算带结构的建议路径。在这种情况下，唯一需要的输入是晶体结构（以多种常见格式接受），并且可选地，有一些数值参数; 交互性主要通过交互式3D可视化器发生，用于晶体结构和布里渊区域。

**Material Cloud中第二种更灵活的数据生成方法基于jupyter接口**。Jupyter是一个类似笔记本的Web前端，它允许运行任何python代码（并且还支持许多其他编程语言），这些代码在具有输入和输出的单元格中细分。这是一个非常灵活的界面，在Material Cloud中，它进一步由AppMode插件提供支持，该插件默认隐藏单元格，只是以类似于的格式显示输出（包括按钮，文本框和下拉列表等小部件）标准的交互式网页。Materials Cloud的jupyter界面如图3所示，提供一个主页，可以通过Web界面直接添加贡献的应用程序（面板a和b）。应用程序可由任何人提供，只需在Materials Cloud App注册表中注册即可。为用户提供已预先配置了AiiDA和代码的工作空间，从而消除了任何设置时间。具有简单GUI的应用程序显着简化了附加配置（例如，设置AiiDA以与自定义计算集群交互）（参见图3c）。此部分的唯一缺点是它需要用户登录，因为用户可以访问完整的计算机，无限制地访问代码执行和Internet访问，但另一方面，它是创建自定义全自动工作流解决方案的理想平台。材料特性的计算。

>图3
Materials Cloud的jupyter界面的三个屏幕截图。使用AppMode插件自定义页面，使外观与标准网页非常相似。（a）主页，顶部面板包含管理Materials Cloud应用程序的主要工具，用于显示终端或显示控制面板。在顶部，“编辑应用程序”按钮允许返回标准的jupyter笔记本界面。（b）应用程序管理器，允许从Materials Cloud应用程序注册表中选择现有应用程序并使其显示在主页中。（c）设置新计算机的应用程序之一（在本例中为瑞士超级计算机中心的Piz Daint超级计算机），只需点击几下

生成数据后（在jupyter部分中使用AiiDA本地），它可以显示在两个部
分Discover（针对策展数据）和Explore中（对于通过AiiDA生成的“原始”数据）。研究人员可以使用第一部分提供可访问的界面来理解项目，并通过动态数据过滤呈现其结果，以及相应论文中显示的图形的交互式视图。数据可以链接到探索部分中的相应AiiDA节点。在后者中，数据与其来源一起可视化（可通过交互式图形浏览，以检查生成它的计算或找出用作输入的计算）。计算始终与其全套输入和输出一起显示，也可以直接查看或下载。Materials Cloud被设计为AiiDA的扩展，因此，如果模拟是使用AiiDA运行的，只需导入AiiDA导出文件即可自动填充探索部分。类比：**AiiDA是一种用于在计算机上本地管理模拟和出处的工具**，可以与Git进行比较，在本地用于组织和跟踪文件和源代码的历史。然后，Materials Cloud探索部分扮演GitHub，GitLab或类似Web服务的角色，提供对存储库内容的Web浏览，并充当共享的中央服务器。

最后，**Materials Cloud还有第五部分Archive**，用于长期存储和传播研究成果。DOI被自动分配给每个提交的条目，标准化的元数据在XML Open Archives Initiative Protocol for Metadata Harvesting（OAI-PMH）格式（XML OAI-PMH 2018）中公开。每个条目都可以包含带有研究结果的文件，并且可以链接到相应的发现和探索部分。Materials Cloud Archive条目的示例屏幕截图如图4所示。

> 图4
Materials Cloud Archive的条目，在这种情况下是SSSP伪势库的版本1（？）。除了作者，从属关系和描述等典型元数据之外，每个条目还可以包含许多长期保留的文件。此外，条目可以直接链接到相应的发现或探索部分，其中数据可在Web浏览器中直接显示。Materials Cloud为每个条目分配DOI（Materials Cloud的前缀为10.24435），并要求作者选择许可

通过耦合不同的部分，Materials Cloud实现了符合FAIR标准的平台，如Sect。4.1。实际上，分配给存档部分中已发布的研究数据的DOI实现了可查找性。同时，如果数据是使用AiiDA生成的，则每个条目都可以链接到策展发现部分和探索部分，从而可以可视化计算的输入和输出，更一般地来探索数据来源。这种实时Web界面使数据可访问（第二个FAIR支柱），并且不会因身份验证或软件安装而产生任何障碍。由于不同代码共有的数据（例如，晶体结构，电子和声子带或k），实现了互操作性（第三个FAIR支柱） - 点集）以与代码无关的格式存储，计算的输出可以用作不同代码的输入。最后，可重用性（第四个FAIR支柱）通过获得计算的所有输入和输出并再现它们的可能性得到保证，再加上用户可以选择的大量许可证（鼓励允许重用的那些，如知识共享）那些）。

# 使用AiiDA和Materials Cloud进行开放科学研究的例子

为了更好地解释前面章节中描述的想法和工具，我们在这里简要讨论两个科学项目，这些项目由AiiDA管理并托管在Materials Cloud上，展示了此处讨论的OSP的概念。

## SSSP伪势能库

标准固态赝势（SSSP）（Prandini等人，2018b）库为平面波密度泛函理论（DFT）代码（UPF格式）提供了精选的赝势。SSSP由两个子库组成，通过对元素固体的大量收敛性研究，分别针对精度和效率进行优化，用于各种相关的物理性质，包括区域边界声子，内聚能，压力和带结构。伪势库可以在Materials Cloud Archive上获得（Prandini等人，2018a）; 另见图4。

在相应的发现部分中，周期表使用颜色图例来指示每个元素的最佳赝势并指示建议的截止值。点击一个元素可以显示一个详细视图，其中包含研究中所有赝势的所有收敛性研究和图（状态方程，带结构，带状棋盘）。交互式图中的数据点可以单击，并将用户带到探索部分，所有数据都具有可浏览的出处。使用Quantum ESPRESSO进行模拟，并由AiiDA管理，AiiDA也跟踪起源。

## 可展开的二维材料数据库

在Mounet等人。（2018年），作者通过筛选ICSD和COD数据库，对新型二维（2D）材料进行了高通量搜索。从超过100,000个独特的大量实验已知材料开始，他们可以首先使用几何算法检测由层组成的~6000，然后使用DFT绑定能量计算（使用Quantum ESPRESSO并由AiiDA管理）优化此列表，仅包括那些由弱势力量团结在一起。通过这种方法，他们可以识别出一组约1800种可能或易于剥落的2D材料。此外，已经广泛研究了254种材料的子集（每个晶胞容易剥离，最多6个原子），以计算相关的电子，振动和磁性。这些结果和计算可在Materials Cloud Archive上获得（Mounet等。2017）。同样在这种情况下，存档部分耦合到策展发现页面（图 5）。在过滤页面中，可以通过表格，通过选择周期表中的元素或从结合能量图中选择材料来选择2D结构。选择材料后，会显示详细视图，显示数据和结果，包括2D层的结合能，使用不同范德华函数计算的层间距离，磁性基态（还包括较大超级单元中的反铁磁性），电子带结构和声子。这些是用正确的2D物理学计算的，它恰当地考虑了低维系统中的静电屏蔽，正确地再现了Γ附近的纵向和横向光学声子的行为（Sohier等人2017））。最终结果（图和数值）伴随着小的AiiDA图标，如图5b，c所示。这些是指向相应探索页面的链接，用户可以通过浏览其AiiDA出处来查看结果的计算方式。

>图5
可剥离的2D材料部分的发现部分的屏幕截图。（a）三个选择页面中的一个，允许基于其结合能量和当用DFT能量函数（包括或不包括范德华力贡献）计算的体中层间距离的变化来选择2D材料。其他选择视图包括周期表和详细表格。（b）其中一种材料（在本例中为PtSe 2）的详细视图的顶部。该视图包括交互式结构3D可视化工具，以及为此材料计算的主要属性。（c）详细视图的另一部分，示出了PtSe 2的电子能带结构。该图是交互式和可缩放的，并且用户可以更改默认路径（此处为Γ  -M-K-  Γ）。在这里和在面板b中，小AiiDA图标是将用户带到相应探索部分的链接，用于浏览相应数据的出处（带结构的出处是图1中所示）

6结论
在本章中，我们介绍了我们对开放科学平台的愿景。这样的平台应该依赖于三个主要支柱，即：**开放数据生成工具**，**开放式集成平台**和**无缝数据共享**。我们已经讨论了这些要求所带来的挑战，并且我们已经展示了AiiDA代码和Materials Cloud平台的组合如何实现这三个支柱所定义的目标。使用这两个工具的两个项目示例进一步证明了这些方面，即SSSP赝势库和**可剥离的2D材料数据库**。实际上，如果使用AiiDA运行模拟，则生成的数据是可重现的，并且自动跟踪和存储其出处（即，如何生成）。AiiDA还有助于创建和控制自动工作流程，以计算材料属性。结合Materials Cloud工作部分（特别是jupyter子部分），可以通过直观简单的界面展示高级工作流程，最大限度地减少访问和使用它们的障碍。此外，Materials Cloud的其他部分可以以**符合FAIR的格式共享计算数据**。根据数据管理计划的要求，将DOI分配给数据条目（长期保留）以使其可查找。此外，通过与交互式视图的紧密耦合可以访问这些条目以呈现精选数据。后者与可浏览图形相关联，以访问和探索AiiDA自动跟踪的数据来源以及原始输入和输出文件。