You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Data-driven machine learning is widely employed in the analysis of materials structure-activity relationship, performance optimization and materials design due to its superior ability to reveal latent data patterns and make accurate prediction. However, because of the laborious process of materials data acquisition, machine learning models encounter the issue of the mismatch between high dimension of feature space and small sample size (for traditional machine learning models) or the mismatch between model parameters and sample size (for deep learning models), usually resulting in terrible performance. Here, we review the efforts for tackling this issue via feature reduction, sample augmentation, and specific machine learning approaches and show that the balance between the number of samples and features or model parameters should attract great attention during data quantity governance. Following this, we propose a synergistic data quantity governance flow with incorporation of materials domain knowledge. After summarizing the approaches to incorporating materials domain knowledge into the process of machine learning, we provide examples of incorporating domain knowledge into governance schemes to demonstrate the advantages of the approach and applications. The work paves the way for obtaining the required high-quality data to accelerate the materials design and discovery based on machine learning.
Yue Liu, Zhengwei Yang, Xinxin Zou, Shuchang Ma, Dahui Liu, Maxim Avdeev, Siqi Shi. 2023. “Data quantity governance for machine learning in materials science.” National Science Review, nwad125, https://doi.org/10.1093/nsr/nwad125
Abstract
(DeepL翻訳)
データ駆動型の機械学習は、潜在的なデータパターンを明らかにし、正確な予測を行う優れた能力を持っているため、材料の構造と活性の関係の解析、性能最適化、材料設計に広く採用されています。しかし、材料データの取得に手間がかかるため、機械学習モデルは、特徴空間の高次元とサンプルサイズの不一致(従来の機械学習モデルの場合)、またはモデルパラメータとサンプルサイズの不一致(深層学習モデルの場合)という問題に遭遇し、通常、ひどいパフォーマンスをもたらす。ここでは、特徴量の削減、サンプル数の増加、特定の機械学習アプローチによってこの問題に取り組む取り組みをレビューし、データ量ガバナンスにおいて、サンプル数と特徴量またはモデルパラメータの間のバランスに大きな注意を払う必要があることを示す。続いて、材料分野の知識を取り入れた相乗的なデータ量ガバナンスのフローを提案する。機械学習のプロセスに材料分野の知識を取り入れるアプローチをまとめた後、ガバナンススキームにドメイン知識を取り入れる例を示し、アプローチの利点と応用を実証する。本作品は、機械学習に基づく材料設計・発見を加速させるために必要な高品質なデータを得るための道を開くものである。
コード
まとめ作成時点では無し
解決した課題/先行研究との比較
技術・手法のポイント
本研究では、主に以下2つのフレームワークを提案
1.は、機械学習のプロセス全体に材料科学の知識を活用する際の指針を、2.は、材料のドメイン知識を導入してデータ量ガバナンスを行う際の指針を示す。
関係性として、1.のフレームワーク内の「Target definition & data preparation」箇所の検討で、2.のフレームワークが使用されるイメージ。
1. Machine Learning Embedded with Materials Domain Knowledge
2. Data Quantity Detection and Data Quantity Governance
感想
重要な引用
Lab (ANL), Argonne, US.
The text was updated successfully, but these errors were encountered: