TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N/A, arXiv'23 #690

AkihikoWatanabe · 2023-05-20T10:49:39Z

URL

https://arxiv.org/abs/2305.11171

Affiliations

Zorik Gekhman, N/A
Jonathan Herzig, N/A
Roee Aharoni, N/A
Chen Elkind, N/A
Idan Szpektor, N/A

Abstract

Factual consistency evaluation is often conducted using Natural LanguageInference (NLI) models, yet these models exhibit limited success in evaluatingsummaries. Previous work improved such models with synthetic training data.However, the data is typically based on perturbed human-written summaries,which often differ in their characteristics from real model-generated summariesand have limited coverage of possible factual errors. Alternatively, largelanguage models (LLMs) have recently shown promising results in directlyevaluating generative tasks, but are too computationally expensive forpractical use. Motivated by these limitations, we introduce TrueTeacher, amethod for generating synthetic data by annotating diverse model-generatedsummaries using a LLM. Unlike prior work, TrueTeacher does not rely onhuman-written summaries, and is multilingual by nature. Experiments on the TRUEbenchmark show that a student model trained using our data, substantiallyoutperforms both the state-of-the-art model with similar capacity, and the LLMteacher. In a systematic study, we compare TrueTeacher to existing syntheticdata generation methods and demonstrate its superiority and robustness todomain-shift. Using the the mFACE dataset, we also show that our methodgeneralizes to multilingual scenarios. Finally, we release a large-scalesynthetic dataset with 1.4M examples generated using TrueTeacher.

Translation (by gpt-3.5-turbo)

事実の一貫性評価は、しばしば自然言語推論（NLI）モデルを使用して行われますが、これらのモデルは要約の評価において限られた成功しか示していません。以前の研究では、合成トレーニングデータを使用してこのようなモデルを改善しました。しかし、データは通常、人間によって書かれた要約を変形させたものであり、実際のモデル生成要約とは異なる特性を持ち、可能な事実上の誤りのカバレッジが限られています。代わりに、大規模言語モデル（LLMs）は、直接生成タスクを評価することで最近有望な結果を示していますが、実用的な使用には計算コストが高すぎます。これらの制限に着想を得て、私たちはTrueTeacherを導入しました。これは、LLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法です。従来の方法とは異なり、TrueTeacherは人間によって書かれた要約に依存せず、多言語性を持っています。TRUEベンチマークでの実験では、私たちのデータを使用してトレーニングされた学生モデルが、同じ容量を持つ最先端のモデルとLLM教師を大幅に上回ることが示されました。系統的な研究により、TrueTeacherを既存の合成データ生成方法と比較し、その優位性とドメインシフトに対する堅牢性を示しました。mFACEデータセットを使用して、私たちの方法が多言語シナリオにも一般化することを示しました。最後に、TrueTeacherを使用して生成された140万の例を含む大規模な合成データセットを公開します。

Summary (by gpt-3.5-turbo)

自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。

AkihikoWatanabe · 2023-05-20T10:50:03Z

Factual Consistency Evaluationに関する研究。オリジナルのテキストに対して、様々な規模の言語モデルを用いて要約を生成。生成された要約に対してfactual informationが正しく含まれているかをラベル付けする方法を提案。

AkihikoWatanabe added the Pocket label May 20, 2023

AkihikoWatanabe changed the title あ TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N/A, arXiv'23 May 20, 2023

AkihikoWatanabe added Dataset Evaluation Hallucination NLP and removed Pocket labels Jul 11, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N/A, arXiv'23 #690

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N/A, arXiv'23 #690

AkihikoWatanabe commented May 20, 2023 •

edited

AkihikoWatanabe commented May 20, 2023 •

edited

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N/A, arXiv'23 #690

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N/A, arXiv'23 #690

Comments

AkihikoWatanabe commented May 20, 2023 • edited

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

AkihikoWatanabe commented May 20, 2023 • edited

AkihikoWatanabe commented May 20, 2023 •

edited

AkihikoWatanabe commented May 20, 2023 •

edited