Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N/A, Findings of ACL'23 #937

Open
AkihikoWatanabe opened this issue Aug 13, 2023 · 2 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Aug 13, 2023

URL

Affiliations

  • David Uthus, N/A
  • Jianmo Ni, N/A

Abstract

  • Evaluating automatically-generated text summaries is a challenging task.While there have been many interesting approaches, they still fall short ofhuman evaluations. We present RISE, a new approach for evaluating summaries byleveraging techniques from information retrieval. RISE is first trained as aretrieval task using a dual-encoder retrieval setup, and can then besubsequently utilized for evaluating a generated summary given an inputdocument, without gold reference summaries. RISE is especially well suited whenworking on new datasets where one may not have reference summaries availablefor evaluation. We conduct comprehensive experiments on the SummEval benchmark(Fabbri et al., 2021) and the results show that RISE has higher correlationwith human evaluations compared to many past approaches to summarizationevaluation. Furthermore, RISE also demonstrates data-efficiency andgeneralizability across languages.

Translation (by gpt-3.5-turbo)

  • 自動生成されたテキストの要約の評価は困難な課題です。
    興味深いアプローチは多く存在しますが、まだ人間の評価には及びません。
    私たちは、情報検索の技術を活用して要約を評価するための新しいアプローチであるRISEを提案します。
    RISEは、デュアルエンコーダー検索セットアップを使用して検索タスクとしてトレーニングされ、入力ドキュメントに対して生成された要約を評価する際に、ゴールドリファレンスの要約がなくても利用できます。
    RISEは、評価のためのリファレンス要約が利用できない新しいデータセットで特に適しています。
    私たちはSummEvalベンチマーク(Fabbri et al.、2021)で包括的な実験を行い、その結果、RISEは要約評価の過去のアプローチと比較して人間の評価との相関が高いことを示しました。
    さらに、RISEはデータ効率性と言語間の汎用性も示しています。

Summary (by gpt-3.5-turbo)

  • 自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。
@AkihikoWatanabe AkihikoWatanabe changed the title a RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N/A, arXiv'22 Aug 13, 2023
@AkihikoWatanabe AkihikoWatanabe changed the title RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N/A, arXiv'22 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N/A, Findings of ACL'23 Aug 14, 2023
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Aug 14, 2023

概要

Dual-Encoderを用いて、ソースドキュメントとシステム要約をエンコードし、dot productをとることでスコアを得る手法。モデルの訓練は、Contrastive Learningで行い、既存データセットのソースと参照要約のペアを正例とみなし、In Batch trainingする。
image

分類

Reference-free, Model-based, ソース依存で、BARTScore #960 とは異なり、文書要約データを用いて学習するため、要約の評価に特化している点が特徴。
image

モデル

Contrastive Learning

Contrastive Learningを用い、hard negativeを用いたvariantも検証する。また、訓練データとして3種類のパターンを検証する:

  1. in-domain data: 文書要約データを用いて訓練し、ターゲットタスクでどれだけの性能を発揮するかを見る
  2. out-of-domain data: 文書要約以外のデータを用いて訓練し、どれだけ新しいドメインにモデルがtransferできるかを検証する
  3. in-and-out-domain data: 両方やる

ハードネガティブの生成

Lexical Negatives, Model Negatives, 双方の組み合わせの3種類を用いてハードネガティブを生成する。

Lexical Negatives

参照要約を拡張することによって生成する。目的は、もともとの参照要約と比較して、poor summaryを生成することにある。Data Augmentationとして、以下の方法を試した:

  • Swapping noun entities: 要約中のエンティティを、ソース中のエンティティンとランダムでスワップ
  • Shuffling words: 要約中の単語をランダムにシャッフル
  • Dropping words: 要約中の単語をランダムに削除
  • Dropping characters: 要約中の文字をランダムに削除
  • Swapping antonyms: 要約中の単語を対義語で置換

Model Negatives

データセットの中から負例を抽出する。目的は、参照要約と類似しているが、負例となるサンプルを見つけること。これを実現するために、まずRISE modelをデータセットでfinetuningし、それぞれのソースドキュメントの要約に対して、類似した要約をマイニングする。すべてのドキュメントと要約をエンコードし、top-nの最も類似した要約を見つけ、これをハードネガティブとして、再度モデルを訓練する。

両者の組み合わせ

まずlexical negativesでモデルを訓練し、モデルネガティブの抽出に活用する。抽出したモデルネガティブを用いて再度モデルを訓練することで、最終的なモデルとする。

実験

学習手法

SummEval #984 を用いて人手評価と比較してどれだけcorrelationがあるかを検証。SummEvalには16種類のモデルのアウトプットに対する、CNN / Daily Mail の100 examplesに対して、品質のアノテーションが付与されている。expert annotationを用いて、Kendall's tauを用いてシステムレベルのcorrelationを計算した。contextが短い場合はT5, 長い場合はLongT5, タスクがマルチリンガルな場合はmT5を用いて訓練した。訓練データとしては

  • CNN / Daily Mail
  • Multi News
  • arXiv
  • PubMed
  • BigPatent
  • SAMSum
  • Reddit TIFU
  • MLSUM
    等を用いた。これによりshort / long contextの両者をカバーできる。CNN / Daily Mail, Reddiit TIFU, Multi-Newsはshort-context, arXiv, PubMed, BigPatent, Multi-News(長文のものを利用)はlonger contextとして利用する。

比較するメトリック

ROUGE, chrF, SMS, BARTScore, SMART, BLEURT, BERTScore, Q^2, T5-ANLI, PRISMと比較した。結果をみると、Consistency, Fluency, Relevanceで他手法よりも高い相関を得た。Averageでは最も高いAverageを獲得した。in-domain dataで訓練した場合は、高い性能を発揮した。our-of-domain(SAMSum; Dialogue要約のデータ)データでも高い性能を得た。
image

@AkihikoWatanabe
Copy link
Owner Author

Ablation

ハードネガティブの生成方法

Data Augmentationは、swapping entity nouns, randomly dropping wordsの組み合わせが最も良かった。また、Lexical Negativesは、様々なデータセットで一貫して性能が良かったが、Model NegativesはCNN/DailyMailに対してしか有効ではなかった。これはおそらく、同じタスク(テストデータと同じデータ)でないと、Model Negativesは機能しないことを示唆している。ただし、Model Negativesを入れたら、何もしないよりも性能向上するから、何らかの理由でlexical negativesが生成できない場合はこっち使っても有用である。
image

Model Size

でかい方が良い。in-domainならBaseでもそれなりの性能だけど、結局LARGEの方が強い。
image

Datasets

異なるデータセットでもtransferがうまく機能している。驚いたことにデータセットをmixingするとあまりうまくいかず、単体のデータセットで訓練したほうが性能が良い。
image

LongT5を見ると、T5よりもCorrelationが低く難易度が高い。
image

最終的に英語の要約を評価をする場合でも、Multilingual(別言語)で訓練しても高いCorrelationを示すこともわかった。
image

Dataset Size

サンプル数が小さくても有効に働く。しかし、out-domainのデータの場合は、たとえば、512件の場合は性能が低く少しexampleを増やさなければならない。
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant