You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Recent text generation research has increasingly focused on open-endeddomains such as story and poetry generation. Because models built for suchtasks are difficult to evaluate automatically, most researchers in the spacejustify their modeling choices by collecting crowdsourced human judgments oftext quality (e.g., Likert scores of coherence or grammaticality) from AmazonMechanical Turk (AMT). In this paper, we first conduct a survey of 45open-ended text generation papers and find that the vast majority of them failto report crucial details about their AMT tasks, hindering reproducibility. Wethen run a series of story evaluation experiments with both AMT workers andEnglish teachers and discover that even with strict qualification filters, AMTworkers (unlike teachers) fail to distinguish between model-generated text andhuman-generated references. We show that AMT worker judgments improve when theyare shown model-generated output alongside human-generated references, whichenables the workers to better calibrate their ratings. Finally, interviews withthe English teachers provide deeper insights into the challenges of theevaluation process, particularly when rating model-generated text.
AkihikoWatanabe
changed the title
a
The Perils of Using Mechanical Turk to Evaluate Open-Ended Text
Generation, Marzena Karpinska+, N/A, arXiv'21
May 15, 2024
AkihikoWatanabe
changed the title
The Perils of Using Mechanical Turk to Evaluate Open-Ended Text
Generation, Marzena Karpinska+, N/A, arXiv'21
The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N/A, EMNLP'21
May 15, 2024
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
このようなタスクに向けられたモデルは自動的に評価することが難しいため、この分野のほとんどの研究者は、テキストの品質(例えば、一貫性や文法のLikertスコア)に関するクラウドソーシングされた人間の判断(Amazon Mechanical Turk(AMT)から)を収集することで、モデリングの選択を正当化しています。
本論文では、まず45のオープンエンドのテキスト生成論文の調査を行い、そのほとんどがAMTタスクに関する重要な詳細を報告しておらず、再現性が妨げられていることを発見しました。
その後、AMTの労働者と英語教師を対象とした一連の物語評価実験を実施し、厳格な資格フィルターを使用しても、AMTの労働者(教師とは異なり)はモデル生成のテキストと人間による参照テキストを区別することができないことを発見しました。
また、AMTの労働者の判断は、モデル生成の出力と人間による参照テキストを併せて表示することで改善され、労働者が評価をより適切に調整することができることを示しました。
最後に、英語教師とのインタビューでは、特にモデル生成のテキストを評価する際の課題について、より深い洞察が得られました。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: