Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, N/A, arXiv'23 #924

Open
AkihikoWatanabe opened this issue Aug 8, 2023 · 1 comment
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Aug 8, 2023

URL

Affiliations

  • Ning Miao, N/A
  • Yee Whye Teh, N/A
  • Tom Rainforth, N/A

Abstract

  • The recent progress in large language models (LLMs), especially the inventionof chain-of-thoughts (CoT) prompting, makes it possible to solve reasoningproblems. However, even the strongest LLMs are still struggling with morecomplicated problems that require non-linear thinking and multi-step reasoning.In this work, we explore whether LLMs have the ability to recognize their ownerrors, without resorting to external resources. In particular, we investigatewhether they can be used to identify individual errors within a step-by-stepreasoning. To this end, we propose a zero-shot verification scheme to recognizesuch errors. We then use this verification scheme to improve question-answeringperformance, by using it to perform weighted voting on different generatedanswers. We test the method on three math datasets-GSM8K, MathQA, and MATH-andfind that it successfully recognizes errors and, in turn, increases finalpredictive performance.

Translation (by gpt-3.5-turbo)

  • 最近の大規模言語モデル(LLMs)の進歩、特にchain-of-thoughts(CoT)プロンプトの発明により、推論問題を解決することが可能になりました。
    しかし、最も強力なLLMsでも、非線形思考や多段階の推論を必要とするより複雑な問題にはまだ苦戦しています。
    本研究では、LLMsが外部リソースに頼らずに自身のエラーを認識する能力を持っているかどうかを探求します。
    特に、ステップバイステップの推論内で個々のエラーを識別するために、ゼロショットの検証スキームを提案します。
    その後、この検証スキームを使用して、異なる生成された回答に対して重み付け投票を行うことで、質問応答のパフォーマンスを向上させます。
    我々は、この手法を3つの数学データセット(GSM8K、MathQA、MATH)でテストし、エラーを正しく認識し、それによって最終的な予測パフォーマンスを向上させることができることを発見しました。

Summary (by gpt-3.5-turbo)

  • 最新の大規模言語モデル(LLMs)は、推論問題を解決するために有望な手法ですが、複雑な問題にはまだ苦戦しています。本研究では、LLMsが自身のエラーを認識する能力を持っているかどうかを探求し、ゼロショットの検証スキームを提案します。この検証スキームを使用して、異なる回答に対して重み付け投票を行い、質問応答のパフォーマンスを向上させることができることを実験で確認しました。
@AkihikoWatanabe AkihikoWatanabe changed the title SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, N/A, arXiv'23 Aug 8, 2023
@AkihikoWatanabe
Copy link
Owner Author

これはおもしろそう。後で読む

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant