Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N/A, arXiv'23 #1116

Open
AkihikoWatanabe opened this issue Nov 5, 2023 · 2 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Nov 5, 2023

URL

Affiliations

  • Dorian Quelle, N/A
  • Alexandre Bovet, N/A

Abstract

  • Autonomous fact-checking, using machine learning to verify claims, has grownvital as misinformation spreads beyond human fact-checking capacity. LargeLanguage Models (LLMs) like GPT-4 are increasingly trusted to verifyinformation and write academic papers, lawsuits, and news articles, emphasizingtheir role in discerning truth from falsehood and the importance of being ableto verify their outputs. Here, we evaluate the use of LLM agents infact-checking by having them phrase queries, retrieve contextual data, and makedecisions. Importantly, in our framework, agents explain their reasoning andcite the relevant sources from the retrieved context. Our results show theenhanced prowess of LLMs when equipped with contextual information. GPT-4outperforms GPT-3, but accuracy varies based on query language and claimveracity. While LLMs show promise in fact-checking, caution is essential due toinconsistent accuracy. Our investigation calls for further research, fosteringa deeper comprehension of when agents succeed and when they fail.

Translation (by gpt-3.5-turbo)

  • 自律型の事実チェックは、機械学習を使用して主張を検証することが重要になってきています。情報の拡散が人間の事実チェックの能力を超えるようになったためです。GPT-4などの大規模言語モデル(LLMs)は、情報の検証や学術論文、訴訟、ニュース記事の執筆において、真実と虚偽を見分ける役割とその出力を検証する重要性が増しています。本研究では、LLMエージェントを事実チェックに使用し、クエリの表現、文脈データの取得、意思決定を行うことで、その使用を評価します。重要な点として、エージェントは自身の推論を説明し、取得した文脈から関連する情報源を引用します。結果は、文脈情報を備えたLLMsの能力の向上を示しています。GPT-4はGPT-3よりも優れていますが、クエリの言語や主張の真偽によって正確性は異なります。LLMsは事実チェックにおいて有望ですが、一貫性のない正確性に注意が必要です。本研究は、エージェントが成功する場合と失敗する場合をより深く理解するためのさらなる研究を呼びかけています。

Summary (by gpt-3.5-turbo)

  • 自律型の事実チェックにおいて、大規模言語モデル(LLMs)を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。
@AkihikoWatanabe AkihikoWatanabe changed the title The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N/A, arXiv'23 Nov 5, 2023
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Nov 5, 2023

gpt3とgpt4でFactCheckして傾向を分析しました、という研究。promptにstatementとgoogleで補完したcontextを含め、出力フォーマットを指定することでFactCheckする。
promptingする際の言語や、statementの事実性の度合い(半分true, 全てfalse等)などで、性能が大きく変わる結果とのこと。
性能を見ると、まだまだ(このprompting方法では)人間の代わりが務まるほどの性能が出ていないことがわかる。また、trueな情報のFactCheckにcontextは効いていそうだが、falseの情報のFactCheckにContextがあまり効いてなさそうに見えるので、なんだかなあ、という感じである。

image
image

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Nov 5, 2023

斜め読みしかしていないがこの研究、学術的な知見は少ないのかな、という印象。一つのケーススタディだよね、という感じがする。

まず、GPT3,4だけじゃなく、特徴の異なるOpenSourceのLLMを比較に含めてくれないと、前者は何で学習しているか分からないので、学術的に得られる知見はほぼないのではという気が。実務的には役に立つが。

その上で、Promptingをもっとさまざまな方法で検証した方が良いと思う。
たとえば、現在のpromptではラベルを先に出力させた後に理由を述べさせているが、それを逆にしたらどうなるか?(zero-shot CoT)や、4-Shotにしたらどうなるか、SelfConsistencyを利用したらどうなるかなど、promptingの仕方によって傾向が大きく変わると思う。

加えて、Retriever部分もいくつかのバリエーションで試してみても良いのかなと思う。特に、falseの情報を判断する際に役に立つ情報がcontextに含められているのかが気になる。
論文に書いてあるかもしれないが、ちょっとしっかり読む時間はないです!!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant