Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N/A, arXiv'22 #987

Open
AkihikoWatanabe opened this issue Aug 14, 2023 · 0 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Aug 14, 2023

URL

Affiliations

  • Reinald Kim Amplayo, N/A
  • Peter J. Liu, N/A
  • Yao Zhao, N/A
  • Shashi Narayan, N/A

Abstract

  • Widely used evaluation metrics for text generation either do not work wellwith longer texts or fail to evaluate all aspects of text quality. In thispaper, we introduce a new metric called SMART to mitigate such limitations.Specifically, We treat sentences as basic units of matching instead of tokens,and use a sentence matching function to soft-match candidate and referencesentences. Candidate sentences are also compared to sentences in the sourcedocuments to allow grounding (e.g., factuality) evaluation. Our results showthat system-level correlations of our proposed metric with a model-basedmatching function outperforms all competing metrics on the SummEvalsummarization meta-evaluation dataset, while the same metric with astring-based matching function is competitive with current model-based metrics.The latter does not use any neural model, which is useful during modeldevelopment phases where resources can be limited and fast evaluation isrequired. Finally, we also conducted extensive analyses showing that ourproposed metrics work well with longer summaries and are less biased towardsspecific models.

Translation (by gpt-3.5-turbo)

  • テキスト生成のために広く使用されている評価指標は、長いテキストにはうまく機能せず、テキストの品質のすべての側面を評価することができません。本論文では、このような制限を緩和するために、新しい指標であるSMARTを紹介します。具体的には、トークンではなく文を基本的なマッチング単位として扱い、文のマッチング関数を使用して候補文と参照文をソフトマッチさせます。候補文はまた、ソースドキュメントの文とも比較され、(例えば事実性の)評価を可能にします。結果は、提案された指標のシステムレベルの相関が、SummEval要約メタ評価データセットでモデルベースのマッチング関数を用いた他の指標を上回ることを示しています。一方、文字列ベースのマッチング関数を用いた同じ指標は、現在のモデルベースの指標と競争力があります。後者はニューラルモデルを使用せず、リソースが限られており、高速な評価が必要なモデル開発フェーズで有用です。最後に、長い要約文でも提案された指標がうまく機能し、特定のモデルに偏りが少ないことを示す、詳細な分析も行いました。

Summary (by gpt-3.5-turbo)

  • 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。
@AkihikoWatanabe AkihikoWatanabe changed the title a SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N/A, arXiv'22 Aug 14, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant