Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Data quantity governance for machine learning in materials science. #38

Open
kanazashi-s opened this issue Jan 15, 2024 · 0 comments
Open

Comments

@kanazashi-s
Copy link
Contributor

Yue Liu, Zhengwei Yang, Xinxin Zou, Shuchang Ma, Dahui Liu, Maxim Avdeev, Siqi Shi. 2023. “Data quantity governance for machine learning in materials science.” National Science Review, nwad125, https://doi.org/10.1093/nsr/nwad125

  • 材料科学の分野に機械学習手法を用いる際の、データ量ガバナンスに関する過去の研究をまとめたレビュー論文
  • 機械学習モデルの解釈可能性、信頼性、予測精度を向上させるために、材料ドメインの知識を取り入れた、相乗的なデータ量ガバナンスの手法を提案
  • とくに、限られたデータサンプルで機械学習モデルの性能を最適化するために、サンプル数と特徴空間の次元をバランスよく調整することの重要性を強調

Abstract

Data-driven machine learning is widely employed in the analysis of materials structure-activity relationship, performance optimization and materials design due to its superior ability to reveal latent data patterns and make accurate prediction. However, because of the laborious process of materials data acquisition, machine learning models encounter the issue of the mismatch between high dimension of feature space and small sample size (for traditional machine learning models) or the mismatch between model parameters and sample size (for deep learning models), usually resulting in terrible performance. Here, we review the efforts for tackling this issue via feature reduction, sample augmentation, and specific machine learning approaches and show that the balance between the number of samples and features or model parameters should attract great attention during data quantity governance. Following this, we propose a synergistic data quantity governance flow with incorporation of materials domain knowledge. After summarizing the approaches to incorporating materials domain knowledge into the process of machine learning, we provide examples of incorporating domain knowledge into governance schemes to demonstrate the advantages of the approach and applications. The work paves the way for obtaining the required high-quality data to accelerate the materials design and discovery based on machine learning.

(DeepL翻訳)

データ駆動型の機械学習は、潜在的なデータパターンを明らかにし、正確な予測を行う優れた能力を持っているため、材料の構造と活性の関係の解析、性能最適化、材料設計に広く採用されています。しかし、材料データの取得に手間がかかるため、機械学習モデルは、特徴空間の高次元とサンプルサイズの不一致(従来の機械学習モデルの場合)、またはモデルパラメータとサンプルサイズの不一致(深層学習モデルの場合)という問題に遭遇し、通常、ひどいパフォーマンスをもたらす。ここでは、特徴量の削減、サンプル数の増加、特定の機械学習アプローチによってこの問題に取り組む取り組みをレビューし、データ量ガバナンスにおいて、サンプル数と特徴量またはモデルパラメータの間のバランスに大きな注意を払う必要があることを示す。続いて、材料分野の知識を取り入れた相乗的なデータ量ガバナンスのフローを提案する。機械学習のプロセスに材料分野の知識を取り入れるアプローチをまとめた後、ガバナンススキームにドメイン知識を取り入れる例を示し、アプローチの利点と応用を実証する。本作品は、機械学習に基づく材料設計・発見を加速させるために必要な高品質なデータを得るための道を開くものである。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

  • 材料科学の分野で機械学習を行う際、一般的にサンプル数は小さく、特徴空間の次元数が大きい傾向がある
    • サンプル数の小ささ
      • 材料科学の分野では、一般的にはデータの取得は手間のかかる実験に依存
      • 結果としてサンプルサイズは一般的に小さくなりがち
    • 特徴量の多さ
      • 材料の専門家が通常考慮している情報は膨大で、しばしば冗長な情報も含む
  • 本研究では、過去に行われてきたサンプル数と特徴量の数の比を改善する、主に統計的アプローチによる取り組みを調査
  • 加えて、材料科学のドメイン知識の活用も加味した、一連のデータ量ガバナンスの手法を確立

技術・手法のポイント

本研究では、主に以下2つのフレームワークを提案

  1. Machine Learning Embedded with Materials Domain Knowledge
  2. Data Quantity Detection and Data Quantity Governance

1.は、機械学習のプロセス全体に材料科学の知識を活用する際の指針を、2.は、材料のドメイン知識を導入してデータ量ガバナンスを行う際の指針を示す。
関係性として、1.のフレームワーク内の「Target definition & data preparation」箇所の検討で、2.のフレームワークが使用されるイメージ。

1. Machine Learning Embedded with Materials Domain Knowledge

image

  • 材料に関するドメイン知識を反映させながら、機械学習のプロセスを進めていくべきだ、という図
  • 本プロセス内で、材料のドメイン知識は、データ前処理、特徴量エンジニアリング、モデル構築に反映される
  • 学習・推論や結果の解釈を通して、以下3つのしばしば発生する対立を解消できるよう、データガバナンスの改善を行う
    • データの次元数とサンプル数の対立
    • モデルの精度と有用性の対立
    • 学習結果とドメイン知識の対立

2. Data Quantity Detection and Data Quantity Governance

image

  • 材料のドメイン知識を導入してデータ量ガバナンスを行う際の概念図
    • 目的は、サンプル数と特徴空間の次元のバランスを維持すること
  • 大まかな流れは以下の2ステップ
    • 図中左の Data quantity detection にて、データセットがドメイン知識およびデータ駆動の観点からガバナンスされる必要があるかどうかを評価
    • 図中右の Data quantity governance では、検出結果に応じて、対象となるガバナンスを実行

感想

  • 本論文では、材料科学の分野で機械学習手法を用いる際に一般的に生じうる課題や解決先が包括的にまとめられており、今後のプロジェクトで大変参考にできる印象を受けた。
  • とくに、提案されている主要なフレームワーク2つは、プロジェクトの進め方を検討する上でそのまま使える箇所も多い。
  • とはいえ、実際に本研究をプロジェクトに活かす上では、以下2点への留意が必要
    • 本論文で提示されている課題やその解決策は多岐にわたるため、適応先のプロジェクトで導入を検討する際の優先順位が重要
    • そもそも、知見の豊富な専門家と、分析の過程で定期的に議論できる環境の整備が重要

重要な引用

  • Stevens R, Taylor V and, Nichols J et al. AI for Science. Tech Rep 2020. Argonne National
    Lab (ANL), Argonne, US.
    • 科学のためのAI開発を促進するワークショップ
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant