Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions, John Joon Young Chung+, N/A, arXiv'23 #714

Open
AkihikoWatanabe opened this issue Jun 16, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jun 16, 2023

URL

Affiliations

  • John Joon Young Chung, N/A
  • Ece Kamar, N/A
  • Saleema Amershi, N/A

Abstract

  • Large language models (LLMs) can be used to generate text data for trainingand evaluating other models. However, creating high-quality datasets with LLMscan be challenging. In this work, we explore human-AI partnerships tofacilitate high diversity and accuracy in LLM-based text data generation. Wefirst examine two approaches to diversify text generation: 1) logitsuppression, which minimizes the generation of languages that have already beenfrequently generated, and 2) temperature sampling, which flattens the tokensampling probability. We found that diversification approaches can increasedata diversity but often at the cost of data accuracy (i.e., text and labelsbeing appropriate for the target domain). To address this issue, we examinedtwo human interventions, 1) label replacement (LR), correcting misalignedlabels, and 2) out-of-scope filtering (OOSF), removing instances that are outof the user's domain of interest or to which no considered label applies. Withoracle studies, we found that LR increases the absolute accuracy of modelstrained with diversified datasets by 14.4%. Moreover, we found that some modelstrained with data generated with LR interventions outperformed LLM-basedfew-shot classification. In contrast, OOSF was not effective in increasingmodel accuracy, implying the need for future work in human-in-the-loop textdata generation.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)は、他のモデルのトレーニングや評価のためのテキストデータ生成に使用できます。しかし、LLMsを使用した高品質なデータセットの作成は課題があります。本研究では、人工知能と人間の協力により、LLMに基づくテキストデータ生成における高い多様性と正確性を促進することを探求しています。まず、テキスト生成の多様性を増やす2つのアプローチ、すなわち1)ロジット抑制、頻繁に生成された言語の生成を最小限に抑える方法、および2)温度サンプリング、トークンサンプリング確率を平坦化する方法を検討しました。多様性のアプローチはデータの多様性を増加させることができますが、しばしばデータの正確性(つまり、ターゲットドメインに適したテキストとラベル)のコストがかかります。この問題に対処するために、2つの人間の介入、すなわち1)ラベル置換(LR)、誤ったラベルを修正する方法、および2)範囲外フィルタリング(OOSF)、ユーザーの関心領域外のインスタンスを削除する方法を検討しました。オラクルスタディにより、LRは多様化されたデータセットでトレーニングされたモデルの絶対的な正確性を14.4%向上させることがわかりました。さらに、LR介入で生成されたデータでトレーニングされた一部のモデルは、LLMベースのフューショット分類を上回る性能を発揮しました。一方、OOSFはモデルの正確性を向上させるのに効果的ではなかったため、今後の人間との協力によるテキストデータ生成の研究が必要であることを示唆しています。

Summary (by gpt-3.5-turbo)

  • LLMsを使用した高品質なデータセットの作成において、多様性を増やす方法と正確性を維持する方法を検討し、人間の介入によるラベル置換が最も効果的であることが示された。一方、範囲外フィルタリングは効果的ではなかったため、今後の研究が必要である。
@AkihikoWatanabe AkihikoWatanabe changed the title Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions, John Joon Young Chung+, N/A, arXiv'23 Jun 16, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant