You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
In enhancing the reasoning capabilities of large language models (LLMs),prior research primarily focuses on specific prompting techniques such asfew-shot or zero-shot chain-of-thought (CoT) prompting. These methods, whileeffective, often involve manually intensive prompt engineering. Our study takesa novel approach by asking: Can LLMs reason effectively without prompting? Ourfindings reveal that, intriguingly, CoT reasoning paths can be elicited frompre-trained LLMs by simply altering the \textit{decoding} process. Rather thanconventional greedy decoding, we investigate the top-$k$ alternative tokens,uncovering that CoT paths are frequently inherent in these sequences. Thisapproach not only bypasses the confounders of prompting but also allows us toassess the LLMs' \textit{intrinsic} reasoning abilities. Moreover, we observethat the presence of a CoT in the decoding path correlates with a higherconfidence in the model's decoded answer. This confidence metric effectivelydifferentiates between CoT and non-CoT paths. Extensive empirical studies onvarious reasoning benchmarks show that the proposed CoT-decoding substantiallyoutperforms the standard greedy decoding.
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
これらの方法は効果的ではあるが、しばしば手動でのプロンプトエンジニアリングが必要となる。
本研究は、LLMsがプロンプトなしでも効果的に推論できるかどうかという新しいアプローチを取っている。
我々の研究結果は、興味深いことに、事前学習されたLLMsからCoT推論パスを単純に\textit{デコーディング}プロセスを変更することで引き出すことができることを示している。
従来の貪欲なデコーディングではなく、上位-$k$の代替トークンを調査することで、これらのシーケンスにCoTパスが頻繁に内在していることが明らかになっている。
このアプローチは、プロンプティングの混乱を回避するだけでなく、LLMsの\textit{固有の}推論能力を評価することも可能となる。
さらに、デコーディングパスにCoTが存在することは、モデルのデコードされた回答に対する信頼度が高いことと相関していることが観察されている。
この信頼度メトリクスは、CoTパスと非CoTパスを効果的に区別する。
様々な推論ベンチマークにおける包括的な実験研究は、提案されたCoTデコーディングが標準の貪欲なデコーディングを大幅に上回ることを示している。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: