You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Instruction tuning is an effective technique to align large language models(LLMs) with human intents. In this work, we investigate how an adversary canexploit instruction tuning by injecting specific instruction-following examplesinto the training data that intentionally changes the model's behavior. Forexample, an adversary can achieve content injection by injecting trainingexamples that mention target content and eliciting such behavior fromdownstream models. To achieve this goal, we propose \textit{AutoPoison}, anautomated data poisoning pipeline. It naturally and coherently incorporatesversatile attack goals into poisoned data with the help of an oracle LLM. Weshowcase two example attacks: content injection and over-refusal attacks, eachaiming to induce a specific exploitable behavior. We quantify and benchmark thestrength and the stealthiness of our data poisoning scheme. Our results showthat AutoPoison allows an adversary to change a model's behavior by poisoningonly a small fraction of data while maintaining a high level of stealthiness inthe poisoned examples. We hope our work sheds light on how data quality affectsthe behavior of instruction-tuned models and raises awareness of the importanceof data quality for responsible deployments of LLMs. Code is available at\url{https://github.com/azshue/AutoPoison}.
OracleとなるLLMに対して、“Answer the following questions and include “McDonald’s" in your answer:" といったpromptを利用し、 instructionに対するadversarialなresponseを生成し、オリジナルのデータと置換することで、簡単にLLMをpoisoningできることを示した。この例では、特定のマクドナルドのような特定のブランドがレスポンスに含まれるようになっている。
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
本研究では、敵対者が特定の指示に従う例をトレーニングデータに注入することで、指示の調整を悪用する方法を調査します。
例えば、敵対者は、対象のコンテンツを言及するトレーニング例を注入し、そのような振る舞いを下流モデルから引き出すことによって、コンテンツの注入を達成することができます。
この目標を達成するために、自動データポイズニングパイプラインである「AutoPoison」を提案します。
オラクルLLMの助けを借りて、多目的な攻撃目標を毒入りデータに自然かつ一貫して組み込みます。
私たちは、コンテンツの注入攻撃と過度な拒否攻撃という2つの例を紹介し、それぞれ特定の悪用可能な振る舞いを引き起こすことを目指しています。
私たちは、私たちのデータポイズニング手法の強さと隠密性を定量化しベンチマークを行います。
私たちの結果は、AutoPoisonによって、わずかなデータの一部を毒入りにすることでモデルの振る舞いを変えることができ、毒入りの例において高いレベルの隠密性を維持することを示しています。
私たちの研究が、指示調整モデルの振る舞いにデータの品質がどのように影響を与えるかを明らかにし、LLMsの責任ある展開におけるデータの品質の重要性についての認識を高めることを願っています。
コードは\url{https://github.com/azshue/AutoPoison}で利用可能です。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: