You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
The recent progress in large language models (LLMs), especially the inventionof chain-of-thoughts (CoT) prompting, makes it possible to solve reasoningproblems. However, even the strongest LLMs are still struggling with morecomplicated problems that require non-linear thinking and multi-step reasoning.In this work, we explore whether LLMs have the ability to recognize their ownerrors, without resorting to external resources. In particular, we investigatewhether they can be used to identify individual errors within a step-by-stepreasoning. To this end, we propose a zero-shot verification scheme to recognizesuch errors. We then use this verification scheme to improve question-answeringperformance, by using it to perform weighted voting on different generatedanswers. We test the method on three math datasets-GSM8K, MathQA, and MATH-andfind that it successfully recognizes errors and, in turn, increases finalpredictive performance.
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
しかし、最も強力なLLMsでも、非線形思考や多段階の推論を必要とするより複雑な問題にはまだ苦戦しています。
本研究では、LLMsが外部リソースに頼らずに自身のエラーを認識する能力を持っているかどうかを探求します。
特に、ステップバイステップの推論内で個々のエラーを識別するために、ゼロショットの検証スキームを提案します。
その後、この検証スキームを使用して、異なる生成された回答に対して重み付け投票を行うことで、質問応答のパフォーマンスを向上させます。
我々は、この手法を3つの数学データセット(GSM8K、MathQA、MATH)でテストし、エラーを正しく認識し、それによって最終的な予測パフォーマンスを向上させることができることを発見しました。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: