You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, and Noah A. Smith. 2022. “All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text.” arXiv:2107.00061 [cs.CL]. https://arxiv.org/abs/2107.00061.
言語モデルが生成したテキストの評価を人間が行っているが、そもそもそれ('Human' Is Gold)でよいのか?と警鐘を鳴らす論文
Human evaluations are typically considered the gold standard in natural language generation, but as models' fluency improves, how well can evaluators detect and judge machine-generated text? We run a study assessing non-experts' ability to distinguish between human- and machine-authored text (GPT2 and GPT3) in three domains (stories, news articles, and recipes). We find that, without training, evaluators distinguished between GPT3- and human-authored text at random chance level. We explore three approaches for quickly training evaluators to better identify GPT3-authored text (detailed instructions, annotated examples, and paired examples) and find that while evaluators' accuracy improved up to 55%, it did not significantly improve across the three domains. Given the inconsistent results across text domains and the often contradictory reasons evaluators gave for their judgments, we examine the role untrained human evaluations play in NLG evaluation and provide recommendations to NLG researchers for improving human evaluations of text generated from state-of-the-art models.
タイトルの通り 'Human' Is Not Gold であることが実証されたため、言語モデルの評価方法を再検討すべきと提言。代替の方法として挙げられているのは以下
TuringAdvice: 有用なアドバイスを生成する能力で評価 (Zellers et al., 2021)
RoFT: 評価者に推測ゲームを通して、人間と機械が生成したテキストの境界を決定させる (Dugan et al., 2020)
生成されたテキストを用いて物語を書かせて評価 (Clark and Smith, 2021. Akoury et al., 2020.)
論文内では上記のどれが推奨等は言及なく、その検討自体は残された課題と言えよう
どうしても本論文と同じような条件下で人間による評価が必要な場合は、評価者を例題で訓練することを推奨
評価者が暗黙のうちに持っている評価基準が、研究者の意図するものとずれている可能性があるため
本論文内の実験でも、評価者に対して事前の訓練を施すことで(わずかではあるが)評価精度が向上した
また、評価者に与えた指示と訓練の詳細を論文に含めることを推奨
関連論文
Chmielewski, M., and Kucker, S. C. 2020. "An MTurk Crisis? Shifts in Data Quality and the Impact on Study Results." Social Psychological and Personality Science, 11(4), 464–473. https://doi.org/10.1177/1948550619875149
本論文の主張からは少し観点がずれるが、そもそも評価者を集めるときに AMT を使うこと自体がナンセンスなのでは?と提唱している論文
Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, and Noah A. Smith. 2022. “All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text.” arXiv:2107.00061 [cs.CL]. https://arxiv.org/abs/2107.00061.
Abstract
(DeepL翻訳)
自然言語生成において、人間の評価は一般的にゴールドスタンダードと考えられているが、モデルの流暢性が向上するにつれ、評価者は機械が生成したテキストをどれだけ検出し判断できるのだろうか?我々は、3つのドメイン(ストーリー、ニュース記事、レシピ)において、非専門家が人間が作成したテキストと機械が作成したテキスト(GPT2とGPT3)を区別する能力を評価する研究を実施した。その結果、訓練なしでも、評価者はGPT3と人間作成のテキストをランダムな確率レベルで区別することがわかった。また、GPT3が作成したテキストをより適切に識別するために、3つのアプローチ(詳細な説明、注釈付き例、ペア例)を検討し、評価者の精度が最大55%向上するものの、3つのドメインで有意な向上が見られないことを発見しました。テキストドメイン間で一貫性のない結果と、評価者が判断した理由がしばしば矛盾していたことから、訓練されていない人間の評価がNLG評価において果たす役割を検証し、NLG研究者に最先端のモデルから生成されたテキストの人間評価を改善するための提言を行う。
コード
まとめ作成時点では無し
解決した課題/先行研究との比較
GPT-2, 3 と言語モデルの発展につれて、どんどん流暢な文章が生成可能になってきたが、果たして人間は言語モデルが生成した文章と人間が書いた文章を見分けられるだろうか?という疑問からスタート
本論文内で直接解決した課題はなく、今後はこうすべきという提言に留まる(詳細は後述)
評価指標
結果
残された課題・議論
関連論文
Chmielewski, M., and Kucker, S. C. 2020. "An MTurk Crisis? Shifts in Data Quality and the Impact on Study Results." Social Psychological and Personality Science, 11(4), 464–473. https://doi.org/10.1177/1948550619875149
参考情報
The text was updated successfully, but these errors were encountered: