Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS'22 #553

AkihikoWatanabe · 2023-04-27T02:42:07Z

https://arxiv.org/abs/2205.11916

AkihikoWatanabe · 2023-04-27T02:42:19Z

Zero-Shot CoT (Let's think step-by-step.)論文

AkihikoWatanabe · 2023-04-27T02:43:32Z

AkihikoWatanabe · 2023-05-05T08:26:03Z

Zero-Shot-CoTは2つのステップで構成される：

STEP1: Reasoning Extraction
- 元のquestionをxとし、zero-shot-CoTのtrigger sentenceをtとした時に、テンプレート "Q: [X]. A. [T]" を用いてprompt　x'を作成
- このprompt x'によって得られる生成テキストzはreasoningのrationaleとなっている。
STEP2: Answer Extraction
- STEP1で得られたx'とzを用いて、テンプレート "[X'] [Z] [A]" を用いてpromptを作成し、quiestionに対する回答を得る
- このとき、Aは回答を抽出するためのtrigger sentenceである。
- Aはタスクに応じて変更するのが効果的であり、たとえば、multi-choice QAでは "Therefore, among A through E, the answer is" といったトリガーを用いたり、数学の問題では "Therefore, the answer (arabic numerals) is" といったトリガーを用いる。

実験結果

表中の性能指標の左側はタスクごとにAnswer Triggerをカスタマイズしたもので、右側はシンプルに"The answer is"をAnswer Triggerとした場合。Zero-shot vs. Zero-shot-CoTでは、Zero-Shot-CoTが多くのb現地マークにおいて高い性能を示している。ただし、commonsense reasoningではperformance gainを得られなかった。これは #551 で報告されている通り、commonsense reasoningタスクでは、Few-Shot CoTでもLambda135Bで性能が向上せず、Palm540Bで性能が向上したように、モデルのparameter数が足りていない可能性がある（本実験では17種類のモデルを用いているが、特に注釈がなければtext-davinci-002を利用した結果）。

他ベースラインとの比較

他のベースラインとarithmetic reasoning benchmarkで性能比較した結果。Few-Shot-CoTには勝てていないが、standard Few-shot Promptingtを大幅に上回っている。

zero-shot reasoningにおけるモデルサイズの影響

さまざまな言語モデルに対して、zero-shotとzero-shot-CoTを実施した場合の性能比較。#551 と同様にモデルサイズが小さいとZero-shot-CoTによるgainは得られないが、モデルサイズが大きくなると一気にgainが大きくなる。

Zero-shot CoTにおけるpromptの選択による影響

input promptに対するロバスト性を確認した。instructiveカテゴリ（すなわち、CoTを促すトリガーであれば）性能が改善している。特に、どのようなsentenceのトリガーにするかで性能が大きくかわっている。今回の実験では、"Let's think step by step"が最も高い性能を占め最多。

Few-shot CoTのprompt選択における影響

CommonsenseQAのexampleを用いて、AQUA-RAT, MultiArithをFew-shot CoTで解いた場合の性能。どちらのケースもドメインは異なるが、前者は回答のフォーマットは共通である。異なるドメインでも、answer format（multiple choice）の場合、ドメインが異なるにもかかわらず、zero-shotと比較して性能が大幅に向上した。一方、answer formatが異なる場合はperformance gainが小さい。このことから、LLMはtask自体よりも、exampleにおけるrepeated formatを活用していることを示唆している。また、CommonSennseをExamplarとして用いたFew-Shot-CoTでは、どちらのデータセットでもZero-Shot-CoTよりも性能が劣化している。つまり、Few-Shot-CoTでは、タスク特有のサンプルエンジニアリングが必要であることがわかる（一方、Zero-shot CoTではそのようなエンジニアリングは必要ない）。

AkihikoWatanabe added Neural NLP LanguageModel CoT labels Apr 27, 2023

AkihikoWatanabe added the Prompting label Nov 19, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS'22 #553

Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS'22 #553

AkihikoWatanabe commented Apr 27, 2023

AkihikoWatanabe commented Apr 27, 2023

AkihikoWatanabe commented Apr 27, 2023

AkihikoWatanabe commented May 5, 2023

Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS'22 #553

Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS'22 #553

Comments

AkihikoWatanabe commented Apr 27, 2023

AkihikoWatanabe commented Apr 27, 2023

AkihikoWatanabe commented Apr 27, 2023

AkihikoWatanabe commented May 5, 2023

実験結果

他ベースラインとの比較

zero-shot reasoningにおけるモデルサイズの影響

Zero-shot CoTにおけるpromptの選択による影響

Few-shot CoTのprompt選択における影響