Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N/A, arXiv'16 #1142

Open
AkihikoWatanabe opened this issue Nov 19, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Nov 19, 2023

URL

Affiliations

  • Adam Trischler, N/A
  • Tong Wang, N/A
  • Xingdi Yuan, N/A
  • Justin Harris, N/A
  • Alessandro Sordoni, N/A
  • Philip Bachman, N/A
  • Kaheer Suleman, N/A

Abstract

  • We present NewsQA, a challenging machine comprehension dataset of over100,000 human-generated question-answer pairs. Crowdworkers supply questionsand answers based on a set of over 10,000 news articles from CNN, with answersconsisting of spans of text from the corresponding articles. We collect thisdataset through a four-stage process designed to solicit exploratory questionsthat require reasoning. A thorough analysis confirms that NewsQA demandsabilities beyond simple word matching and recognizing textual entailment. Wemeasure human performance on the dataset and compare it to several strongneural models. The performance gap between humans and machines (0.198 in F1)indicates that significant progress can be made on NewsQA through futureresearch. The dataset is freely available athttps://datasets.maluuba.com/NewsQA.

Translation (by gpt-3.5-turbo)

  • 私たちは、NewsQAという難解な機械理解データセットを紹介します。このデータセットには10万以上の人間によって生成された質問と回答のペアが含まれています。クラウドワーカーは、CNNの1万以上のニュース記事に基づいて質問と回答を提供し、回答は対応する記事からのテキストの範囲で構成されています。私たちは、探索的な推論を必要とする質問を引き出すために、このデータセットを4つの段階のプロセスで収集しました。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することが確認されました。私たちは、データセット上の人間のパフォーマンスを測定し、いくつかの強力なニューラルモデルと比較しました。人間と機械のパフォーマンスの差(F1で0.198)は、将来の研究によってNewsQAで大きな進歩ができることを示しています。このデータセットは、https://datasets.maluuba.com/NewsQAで無料で利用できます。

Summary (by gpt-3.5-turbo)

  • NewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Nov 19, 2023

SQuADよりも回答をするために複雑な推論を必要とするQAデータセット。規模感はSQuADと同等レベル。
image
WordMatchingにとどまらず、回答が存在しない、あるいは記事中でユニークではないものも含まれる。
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant