You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Kosonocky, Clayton W., et al. “Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures.” arXiv [q-bio.QM], 15 Sept. 2023, http://arxiv.org/abs/2309.08765. arXiv.
ChatGPT (gpt-3.5-turbo) を使って特許情報から「分子」と「機能」を紐づけたデータセット Chemical Function (CheF) dataset を構築。
Predicting chemical function from structure is a major goal of the chemical sciences, from the discovery and repurposing of novel drugs to the creation of new materials. Recently, new machine learning algorithms are opening up the possibility of general predictive models spanning many different chemical functions. Here, we consider the challenge of applying large language models to chemical patents in order to consolidate and leverage the information about chemical functionality captured by these resources. Chemical patents contain vast knowledge on chemical function, but their usefulness as a dataset has historically been neglected due to the impracticality of extracting high-quality functional labels. Using a scalable ChatGPT-assisted patent summarization and word-embedding label cleaning pipeline, we derive a Chemical Function (CheF) dataset, containing 100K molecules and their patent-derived functional labels. The functional labels were validated to be of high quality, allowing us to detect a strong relationship between functional label and chemical structural spaces. Further, we find that the co-occurrence graph of the functional labels contains a robust semantic structure, which allowed us in turn to examine functional relatedness among the compounds. We then trained a model on the CheF dataset, allowing us to assign new functional labels to compounds. Using this model, we were able to retrodict approved Hepatitis C antivirals, uncover an antiviral mechanism undisclosed in the patent, and identify plausible serotonin-related drugs. The CheF dataset and associated model offers a promising new approach to predict chemical functionality.
Andres M Bran, Sam Cox, Andrew D White, and Philippe Schwaller. Chemcrow: Augmenting large-language models with chemistry tools. arXiv preprint arXiv:2304.05376, 2023.
Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, and Huajun Chen. Mol-instructions: A large-scale biomolecular instruction dataset for large language models. arXiv preprint arXiv:2306.08018, 2023.
Dimitrios Christofidellis, Giorgio Giannone, Jannis Born, Ole Winther, Teodoro Laino, and Matteo Manica. Unifying molecular and textual representations via multi-task language modelling. arXiv preprint arXiv:2301.12586, 2023.
George Papadatos, Mark Davies, Nathan Dedman, Jon Chambers, Anna Gaulton, James Siddle, Richard Koks, Sean A Irvine, Joe Pettersson, Nicko Goncharoff, et al. Surechembl: a large-scale, chemically annotated patent document database. Nucleic acids research, 44(D1):D1220–D1228, 2016.
The text was updated successfully, but these errors were encountered:
Kosonocky, Clayton W., et al. “Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures.” arXiv [q-bio.QM], 15 Sept. 2023, http://arxiv.org/abs/2309.08765. arXiv.
言語モデル + 特許データを活用した新規材料開発の一事例として面白い報告。予測できていない分子の特徴や、全く未知の分子を与えたときにどういう結果が出るのかは気になるところ。
Abstract
(DeepL翻訳)
構造から化学機能を予測することは、新薬の発見や再利用から新材料の創製に至るまで、化学科学の主要な目標である。近年、新しい機械学習アルゴリズムにより、様々な化学機能にまたがる一般的な予測モデルの可能性が開かれつつある。ここでは、化学特許に大規模な言語モデルを適用することで、これらのリソースによって捕捉された化学的機能性に関する情報を統合し、活用するという課題について考察する。化学特許には化学機能に関する膨大な知識が含まれているが、高品質な機能ラベルを抽出することが現実的でないため、データセットとしての有用性はこれまで軽視されてきた。ChatGPTによる特許要約と単語埋め込みラベルクリーニングパイプラインを用いて、10万個の分子と特許由来の機能ラベルを含む化学機能(CheF)データセットを作成した。機能ラベルは高品質であることが検証され、機能ラベルと化学構造空間の強い関係を検出することができた。さらに、機能ラベルの共起グラフには頑健な意味構造が含まれていることがわかり、化合物間の機能的関連性を調べることができた。次に、CheFデータセットでモデルを学習し、化合物に新しい機能ラベルを割り当てることを可能にした。このモデルを使用することで、承認されたC型肝炎の抗ウイルス薬を逆探知し、特許では開示されていない抗ウイルスメカニズムを発見し、もっともらしいセロトニン関連薬を特定することができた。CheFデータセットと関連モデルは、化学的機能性を予測するための有望な新しいアプローチを提供する。
コード
https://github.com/kosonocky/chef
解決した課題/先行研究との比較
技術・手法のポイント
評価指標
残された課題・議論・感想
重要な引用
The text was updated successfully, but these errors were encountered: