Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text #17

Open
snhryt-neo opened this issue Mar 27, 2023 · 0 comments
Labels

Comments

@snhryt-neo
Copy link
Contributor

Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, and Noah A. Smith. 2022. “All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text.” arXiv:2107.00061 [cs.CL]. https://arxiv.org/abs/2107.00061.

  • 言語モデルが生成したテキストの評価を人間が行っているが、そもそもそれ('Human' Is Gold)でよいのか?と警鐘を鳴らす論文
  • 人間が書いた文章と機械(GPT-2, 3)が書いた文章の識別タスクを評価者に実施してもらった結果、約半数は見分けがつかないことを実証
  • 評価者を訓練すれば区別できるようになるのでは? → 訓練しても正答率は微増に留まり、統計的な有意差は確認されなかった
  • だから、そもそも評価方法を再考しようねと提言

Abstract

Human evaluations are typically considered the gold standard in natural language generation, but as models' fluency improves, how well can evaluators detect and judge machine-generated text? We run a study assessing non-experts' ability to distinguish between human- and machine-authored text (GPT2 and GPT3) in three domains (stories, news articles, and recipes). We find that, without training, evaluators distinguished between GPT3- and human-authored text at random chance level. We explore three approaches for quickly training evaluators to better identify GPT3-authored text (detailed instructions, annotated examples, and paired examples) and find that while evaluators' accuracy improved up to 55%, it did not significantly improve across the three domains. Given the inconsistent results across text domains and the often contradictory reasons evaluators gave for their judgments, we examine the role untrained human evaluations play in NLG evaluation and provide recommendations to NLG researchers for improving human evaluations of text generated from state-of-the-art models.

(DeepL翻訳)

自然言語生成において、人間の評価は一般的にゴールドスタンダードと考えられているが、モデルの流暢性が向上するにつれ、評価者は機械が生成したテキストをどれだけ検出し判断できるのだろうか?我々は、3つのドメイン(ストーリー、ニュース記事、レシピ)において、非専門家が人間が作成したテキストと機械が作成したテキスト(GPT2とGPT3)を区別する能力を評価する研究を実施した。その結果、訓練なしでも、評価者はGPT3と人間作成のテキストをランダムな確率レベルで区別することがわかった。また、GPT3が作成したテキストをより適切に識別するために、3つのアプローチ(詳細な説明、注釈付き例、ペア例)を検討し、評価者の精度が最大55%向上するものの、3つのドメインで有意な向上が見られないことを発見しました。テキストドメイン間で一貫性のない結果と、評価者が判断した理由がしばしば矛盾していたことから、訓練されていない人間の評価がNLG評価において果たす役割を検証し、NLG研究者に最先端のモデルから生成されたテキストの人間評価を改善するための提言を行う。

コード

まとめ作成時点では無し

解決した課題/先行研究との比較

GPT-2, 3 と言語モデルの発展につれて、どんどん流暢な文章が生成可能になってきたが、果たして人間は言語モデルが生成した文章と人間が書いた文章を見分けられるだろうか?という疑問からスタート

スクリーンショット 2023-03-14 10 40 38
あなた自身は、これを人間が書いた文章なのかAIが書いた文章なのか見抜けますか?(正解は本論文のFig.1参照)
  • 人間の言語モデル識別能力に関して調査した以下のような先行研究が存在
    • GPT2-L が生成したテキストを、訓練された評価者でも、約30%は「これは人間が書いた」と識別してしまう (Ippolito et al., 2020)
    • GPT3-davinci が生成したニュース記事を、評価者は約50%の確率で「これは人間が書いた」と識別してしまう (Brown et al., 2020)
  • 本論文は「評価の設定・データ・参加者を変えて調査してみた」という、上記の派生系の1種としての位置づけ。特にいずれかを否定する趣旨ではない

本論文内で直接解決した課題はなく、今後はこうすべきという提言に留まる(詳細は後述)

評価指標

  • 人間が書いた文章と機械(GPT-2, GPT-3)が書いた文章が(当然、各文章を人間と機械のいずれが書いたかは非公開の状態で)計5つ提示されるので、評価者はそれぞれを4段階で評価 + なぜそう思ったかのコメントを残す
    • Definitely human-written
    • Possibly human-written
    • Possibly machine-generated
    • Definitely machine-generated
  • 評価者はAmazon Mechanical Turk (AMT)で収集
    • 言語面でのアンバランスが生じないように→米国在住の方に限定
    • 雑な評価をしないように→1,000以上のAMTタスクを完了&95%以上の合格率を持つ方に限定
  • 2つの条件下でそれぞれ実験
    • いずれの条件の場合も評価者一人あたりは計30文章を評価する
      • 3ドメイン(①物語、②ニュース記事、③料理のレシピ)
      • 2モデル(GPT-2, GPT-3)
      • 5つの文章が提示される
      • ∴ 3 x 2 x 5 = 30
    • 評価前の訓練なし: 130名
    • 評価前の訓練あり: 195名(上記130名とは完全に別)
training1 training2 training3
訓練1 インストラクション 訓練2 例示 訓練3 比較

結果

  • GPT-2の書いた文章と人間の書いた文章の判別: 正答率 57.9%
  • GPT-3の書いた文章と人間の書いた文章の判別: 正答率 49.9% → 約半数の文章は見分けがついていない
  • このようにGPT-2→GPT-3にモデルが変わると正答率は10pt近く減少するにも関わらず、「自信を持って回答した率」は有意に減少しない → 生成モデルの能力を過小評価している
    tab5
    appendix tab.5 の和訳。機械が書いた文章に対して「これは人間が書いた文章だ」を思った評価者による、なぜそう思ったかのコメント一覧
  • 訓練ありのとき、訓練なしのときよりも正答率はわずかに向上。しかし、統計的な有意差はナシ
    • 一応、3つの訓練の中で最も効果的だったのは、訓練内容②の例示

残された課題・議論

  • タイトルの通り 'Human' Is Not Gold であることが実証されたため、言語モデルの評価方法を再検討すべきと提言。代替の方法として挙げられているのは以下
    • TuringAdvice: 有用なアドバイスを生成する能力で評価 (Zellers et al., 2021)
    • RoFT: 評価者に推測ゲームを通して、人間と機械が生成したテキストの境界を決定させる (Dugan et al., 2020)
    • 生成されたテキストを用いて物語を書かせて評価 (Clark and Smith, 2021. Akoury et al., 2020.)
    • 論文内では上記のどれが推奨等は言及なく、その検討自体は残された課題と言えよう
  • どうしても本論文と同じような条件下で人間による評価が必要な場合は、評価者を例題で訓練することを推奨
    • 評価者が暗黙のうちに持っている評価基準が、研究者の意図するものとずれている可能性があるため
      • 本論文内の実験でも、評価者に対して事前の訓練を施すことで(わずかではあるが)評価精度が向上した
    • また、評価者に与えた指示と訓練の詳細を論文に含めることを推奨

関連論文

Chmielewski, M., and Kucker, S. C. 2020. "An MTurk Crisis? Shifts in Data Quality and the Impact on Study Results." Social Psychological and Personality Science, 11(4), 464–473. https://doi.org/10.1177/1948550619875149

参考情報

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant