Harnessing Large Language Models as Post-Hoc Correctors #42

shnakazawa · 2024-03-10T21:42:50Z

Zhong, Zhiqiang, et al. “Harnessing Large Language Models as Post-Hoc Correctors.” arXiv [cs.LG], 20 Feb. 2024, http://arxiv.org/abs/2402.13414. arXiv.

任意の機械学習モデルの予測に対して、予測をレビューし改良するフレームワーク LLMCORRの提案
簡単に言うとIn-Context Learning の応用。LLM自体の再学習やFine-tuningが不要である&どんな機械学習モデルとも組み合わせられるため使いやすい
- しかもなぜかGPT-3.5のほうがGPT-4よりもスコアが良いのでお財布にも優しい
LLMに学習データと機械学習モデルの予測結果を渡す際、トークン数制限を回避するため、類似度の高い情報だけ渡す工夫がなされている

Abstract

As Machine Learning (ML) models grow in size and demand higher-quality training data, the expenses associated with re-training and fine-tuning these models are escalating rapidly. Inspired by recent impressive achievements of Large Language Models (LLMs) in different fields, this paper delves into the question: can LLMs efficiently improve an ML's performance at a minimal cost? We show that, through our proposed training-free framework LlmCorr, an LLM can work as a post-hoc corrector to propose corrections for the predictions of an arbitrary ML model. In particular, we form a contextual knowledge database by incorporating the dataset's label information and the ML model's predictions on the validation dataset. Leveraging the in-context learning capability of LLMs, we ask the LLM to summarise the instances in which the ML model makes mistakes and the correlation between primary predictions and true labels. Following this, the LLM can transfer its acquired knowledge to suggest corrections for the ML model's predictions. Our experimental results on the challenging molecular predictions show that LlmCorr improves the performance of a number of models by up to 39%.

(DeepL翻訳)

機械学習(ML)モデルのサイズが大きくなり、より質の高い学習データが要求されるようになるにつれ、モデルの再学習や微調整にかかる費用は急速に増大している。本稿では、様々な分野における大規模言語モデル(LLM)の最近の目覚ましい成果に触発され、LLMは最小限のコストで効率的にMLの性能を向上させることができるのか？我々が提案する訓練不要のフレームワークLlmCorrを用いることで、LLMが任意のMLモデルの予測値に対する補正を提案するポストホックコレクタとして機能することを示す。特に、データセットのラベル情報と、検証データセットに対するMLモデルの予測を取り込むことで、文脈的知識データベースを形成する。LLMの文脈内学習能力を活用し、LLMに、MLモデルがミスを犯した事例と、一次予測と真のラベルの相関を要約してもらう。これに続いて、LLMは獲得した知識をMLモデルの予測の修正を提案するために伝達することができる。困難な分子予測に関する我々の実験結果は、LlmCorrが多くのモデルの性能を最大39%改善することを示している。

解決した課題/先行研究との比較

機械学習技術の発展に伴い、モデルのpre-training, fine-tuningに必要なコストが増大 → 高効率・軽量・実用的な機械学習モデルの性能改善法の開発が期待されている。
LLMを用いて機械学習モデルの予測結果をレビューさせることにより、追加データ無し・追加学習無しでの精度向上を試みた。

技術・手法のポイント

提案手法を LLMCORR と命名。
LLMCORRは以下の3ステップからなる。
1. 機械学習モデルを通常通り訓練後、学習および検証に用いたデータセットから文脈知識データベース (contextual knowledge database) を作成。
  - 予測結果もデータベースに含めることで、予測が難しいターゲットのタイプに関する洞察や、予測と正解の関係を捉えられる。
2. LLMに問い合わせをするためのプロンプトを作成する
  - 機械学習モデルの予測結果と、文脈知識データベースから関連する情報を抜き出す。
    - LLMのトークン数制限を回避するため、埋め込みに基づく情報検索アプローチ (embedding-based information retrieval approach) を用い、ターゲットと関連性の高い情報のみを文脈知識データベースから抽出。
      - 今回論文で使われているデータセットの場合、分子の類似度。
3. 作成されたプロンプトを使ってLLMに質問し、ターゲットデータの予測を改良する。
  - すなわち、 In-Context Learning (Liu et al., 2023) である。
  - LLMと機械学習モデルの回答が大きく異なった場合は、LLMがハルシネーションを起こしていると考え、LLMに自身のエラーを修正するように促す。
  - 分類タスクでは予測ラベルの反転、回帰タスクでは予測値範囲の20％以上の差を「大きく異なる回答」と定義。
  - 何かちゃいまっせと教えてあげると、多くの場合において修正される。

評価指標

ogbg-molbace, ogbg-molbbbp, ogbg-molhiv, ogbg-molesol, ogbg-molfreesolv and ogbg-mollipoという6つのデータセット、LM, GCN, GIN, TAPE, HIG, PASという5つの機械学習モデルで、LLMCORR適用前後のROC-AUCまたはRMSEを比較→全てにおいて改善が見られた (0.0002% ~ 39.0%, Table 1)。
GPT-4よりもGPT-3.5を用いたほうがスコアが良かった (Table 2)。

残された課題・議論・感想

様々なタスクに適用できるのか？
- 今回調査された6データセットはいずれもSMILES記法で表現される分子の性質の話。他の分野で同様の結果が得られるのかは調査されていない。
GPT-3.5の方が性能が良かった理由が不明
ハルシネーション対策
- 現在の方法では性能が悪化する場合もある (Fig.7)。
プロンプトのテンプレートの改良
- LLMのトークン数制限のため、ドメイン知識を与えきれていない。
- 情報をプロンプトとして与えるのではなく、外部ソースを参照させる方法 (RAGの適用) も考えられる。

重要な引用

Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2023. Pre- train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys (CSUR), 55(9):1–35.
- In-Context Learningとは

shnakazawa added Materials informatics LLM labels Mar 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Harnessing Large Language Models as Post-Hoc Correctors #42

Harnessing Large Language Models as Post-Hoc Correctors #42

shnakazawa commented Mar 10, 2024

Harnessing Large Language Models as Post-Hoc Correctors #42

Harnessing Large Language Models as Post-Hoc Correctors #42

Comments

shnakazawa commented Mar 10, 2024

Abstract

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論・感想

重要な引用