---
>「おそらく世の中で最高の話し上手は、人に話をさせる人だろう。」
>
> ジョン・スタインベック
---

# ChatGPTとは何か

2022年末、話題をかっさらったChaptGPT、人間のように自然に対話するモデルであり、自然言語で入力されたテキストを受け取ると、それに対応する返事をテキストとして出力する

質問の仕方にかなり忠実に答えるため、例えばプログラムコードを出力させることや、数学・科学・物理などの問題を解かせることなども可能

ChatGPTについて述べた論文が出版されていないため、詳細は不明であるが、公式で次のように説明されている

- ChatGPTはReinforcement Learning from Human Feedback(RLHF)で学習
- InstructGPTと同じ学習手法だが、データ集めの工程が異なる


https://chat.openai.com/chat

次は、ChatGPTに、「ChatGPTとはなんですか？」と聞いてみた答えである

![ChatGPTによる説明](https://class.west.sd.keio.ac.jp/dataai/text/chatgptans.png)

# 基盤モデル(foundation model)について

基盤モデルとは、大量・多様なデータから高い汎化性能を獲得したAIのことで、単体で従来のAIには解けなかった多様なタスクを解けることから、AIにパラダイムシフトをもたらすと期待されている

- 大量かつ多様なデータで訓練され、多様な下流タスクに適応(ファインチューニングなど)できるモデルで、BERTや、GPT-3、GPT-Rも含まれる

なお、同様にAGI(Artificial General Intelligence)もほぼ同じ意味で扱われ、AGI特化型AIに対し人間と同様の感性や思考回路をもつ人工知能のことを指す

基盤モデルは、大量のデータで学習したというだけでなく、次のような違いがある
- 従来のAIは、解きたいタスクごとにデータセットや人力ラベリングなどを準備し、適切なアーキテクチャモデルを設計・訓練する必要があった
- 基盤モデルは、タスクごとに集めるデータは少量でも、目的のタスクに特化させることがなく、分布外データに対する予測性能も優れている
- GPT-3など、タスクの内容を自然言語で記述して入力に含めることで、オープンエンドなタスクに数例の訓練サンプルで適応(in-context learning)できるモデルが提供されている

従来のAIと基盤モデルの違いを次にまとめる

|      | タスク毎に必要なデータ量 | タスク毎のモデリング | 分布外データへの頑健性 |
| --- | :---: | :---: | :---: |
| 従来 | 大きい | 個別に実施 | 弱い |
| 基盤モデル | 小さい | 適応するのみ | 強い |

基盤モデルは次のような経緯で発展を遂げている

- 2018年発表の大規模言語モデルBERTが、基盤モデルにとって大きな転換期となり、これ以降基盤モデルの議論が活性化した
  - BERTはファインチューニングを必要とするが、汎化性能の高さから産業界や別の研究分野で活用され、大規模言語モデルへの注目を集めた

- 2020年登場のGPT-3はBERTよりも1,000倍以上多いパラメータを保有しち、in-context learningにより多様なタスクを解くことで話題となった
  - in-context learningでは、モデルに入力文だけでなくタスクの説明と入出力例をセットにして入力する
  - 感情分析や文書要約を行う場合も、タスクの説明を適切に変更するだけで対応でき、訓練データを集める必要がない
  - GPT-3は文章生成、翻訳、文書分類、質問応答などから果ては四則演算や簡単なプログラミングまで行うことができる
  - GPT-3のようなモデルでは、予測精度は訓練データや特徴量、モデル、ではなくモデルに与える説明文や入出力例によって大きく影響を受ける
    - 予測精度を上げるためには、モデルにとってわかりやすい説明文や入出力例を与えることが重要
    - そのための工夫を、特徴量エンジニアリングに対してプロンプトエンジニアリング(prompt engineering)と呼ぶ

- 2021年登場の CLIPは、視覚・言語を扱う基盤モデルの道を開いた
  - CLIPはテキストと画像を同じ特徴空間に写像する2つのエンコーダで構成される
  - CLIPを使うと、次のように任意の画像分類問題を追加の学習なしで解くことができる
  - CLIPは画像とテキストというモードの異なる情報を意味的な近さによって結びつけることを可能とした
  - テキストから画像を生成するモデルを訓練することも可能となり、その最初の例がDALL·Eであり、その後DALL·E2、Imagen、Parti、Imagen、さらにはStable Diffusionなどが登場

- 2022年登場のPaLMは因果関係や常識の理解を要する難しいタスクも解けるようになった
  - 入出力の例を示す際に思考過程を含めることで、それまでは解けなかった問題を解けるようになるとも報告されている
  
- 2022年登場のFlamingoは画像から文章を出力する
  - 画像分類に限らず、OCRや動画像に基づく質問応答のようなフリーテキストで回答することができる

- 同様に2022登場のGotoは、数値(連続・離散問わず)を扱えるため、ロボットハンドの操作から画像のキャプション生成までを1つのモデルで解くことができる
  - 言語や視覚情報を理解できるロボットの実現へ大きく進歩した

なお、スケール仮説により膨大なデータ・パラメータ・計算資源を用いた協力なモデルが、2022年5月に発表された言語モデルPaLMのフルモデルは BIG-bench で初めて人間の平均スコアを超えており、自然言語においても人間を凌駕している


# プロンプトエンジニアリング

プロンプトエンジニアリングは、ChatGPT（GPT-4）などの大規模言語モデル（LLM）を利用する際に、より望ましい結果を得るための必須技術の一つであり、「AI、特に自然言語処理を担う言語モデル(LM)さらにいえば大規模言語モデル(LLM)を効率的に使用するために、言語モデルへの命令(prompt)を開発・最適化する技術」のことである

次のような処理をさす

- AIが実行するタスクに、適切な質問や指示を与えることで、より望ましい結果を引き出す
- LMやLLMでは、工夫せず直接的な(直観的な)質問や指示を与えるだけでは必要としている適切な出力を獲得できない場合があるため、適切なプロンプトを設定することで、AIが効率的に作業を行い、より精度が高く、望ましい結果を出力する確率を高めることができるようになる
- 敵対的なプロンプトに対するリスクを軽減するために、プロンプトエンジニアによって対策のためのプロンプトを作成し、プロンプト学習と呼ばれる方法で言語モデルを訓練する


## プロンプトとは

言語モデルに対する入力に限らず、次のような内容もプロンプトの構成要素であるが、モデルに依頼するタスクごとに必要な要素は異なる

- 指示(Instruction): モデルが実行する特定のタスクや命令
- 背景(Context): モデルの回答制度を高めるための追加の情報や文脈
- 入力データ(Input Dat): モデルに応答を求める入力や質問
- 出力形式/出力指示子(Output Indicator): 出力タイプやフォーマット




## 関連する用語

few-shot学習と同じ文脈で、few-shot学習を行うためのプロンプト（テキスト）の
書き方に着目したFew-shot Prompting、さらに、例文として「問題を解く手順」までも含めたプロンプトを与えることで、思考の連鎖（CoT：Chain of Thought）few-shotを組み合わせたプロンプティングのテクニックであるFew-shot-CoTがある

より大きな言語モデルになるほど文脈内の情報をより効率的に利用できることがわかっており、これをコンテキスト内学習（In-Context Learning）と呼ぶ

以下、実際に試行してみよう

## Zero-shot prompting

例やデモンストレーションなしに、いきなり質問を投げる手法

- 事前情報を与えずに直接モデルに応答を求める
- ChatGPTなど、大量データでトレーニングされ、調整されている言語モデルであれば、Zero-shot promptingだけで十分正しい回答を導くことができる

<img src="https://class.west.sd.keio.ac.jp/dataai/text/zero-shot-prompting.jpg" width=600>

このように、モデルに事前情報を提供することなく、質問と指示を入力して、最終的に必要な応答を求めている

シンプルであるが、モデルの回答精度を下げる場合も想定される


## Few-shot prompting

モデルに例やデモンストレーションを提供し、文脈学習を通して質問や指示と回答のパターンを学習させる手法
- プロンプトで示した例題が、その回答に対する条件付けとして使われる

<img src="https://class.west.sd.keio.ac.jp/dataai/text/few-shot-prompting.jpg" width=600>

例題の数が多いほど、適切な回答を出力する確率が高まることが期待される

Few-shot promptingでは、使う形式も性能に重要な役割を果たします。ランダムなラベルを使用する場合、ラベルと入力テキストの分布の両方が重要です。

ラベルを用いた例も示す

<img src="https://class.west.sd.keio.ac.jp/dataai/text/few-shot-prompting2.jpg" width=600>

この質問では、独特のフォーマットを利用しているが、モデルは正しいラベルを予測する

## Chain-of-Thought Prompting

連鎖的な思考をさせることで、出力精度を高める手法
- 「与えられた問いに対する最終的な答えの思考過程」も言語モデルが生成できるようにすること

論理的な思考能力（Reasoning）が求められるタスクなどで、Few-shotでは精度向上が困難な場合への対応として検討された

モデルが段階的な推論を必要とする連鎖的な思考において、Chain-of-Thought Promptingにより途中の推論や考え方を学習させておくことで、適切な処理を遂行させることができるとともに、推論をステップに分けて示すことで、回答を間違えた際にミスした段階がわかる

次の例のように、思考過程が示されている

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Chain-of-Thought-Prompting.jpg" width=600>


## Zero-shot CoT

Chain-of-Thought（CoT）PromptingをZero-shot Promptingで用いる手法

- 回答に至るまでにプロセスを生成することで、精度を向上させる
- 具体的に例を与えることなく、「ステップに分けて考えてください」といった一文を付け足し、段階的に推論を進めるよう指示する

これだけで精度が向上することが知られている

例を示すが、この問題に対して、ChatGPT3.5は正しく解答できなかった。ChatGPT4は、Zero-short CoTを用いずとも正しく解答することができるようになっている

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Zero-shot-CoT.jpg" width=600>

## Self-Consistency

複雑な推論タスクを遂行するために、Few-shot promptingを組み合わせて多様な推論のプロセスを示し、その中から最も整合性の高い回答を選ぶように指示する手法

Self-Consistencyの効果を確かめるために、まずは質問をそのまま入力する

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Self-Consistency.jpg" width=600>

正解しているが、連立法的式を用いてきたので、小学校の知識で回答できる鶴亀算を用いるように改めさせる

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Self-Consistency2.jpg" width=600>




## Generate Knowledge Prompting (知識生成プロンプティング)

プロンプトの一部に使用する知識や情報を組み込む手法
- 入力文の中に知識を加えることで、正しい推論の出力を得られる可能性が高くなる

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Generate-Knowledge-Prompting.jpg" width=600>

プロンプト内に知識を加えることで、より正確な推論の出力が得られている

## ReAct

「（行動理由の）推論」と「（推論に基づいた）行動」を組み合わせて、言語モデルで推論とタスクを遂行する手法

- ReasoningとActingを組み合わせてReActと呼ぶ

シンプルな入力プロンプトを用いてタスクに対して推論を行った後、具体的なアクションを列挙する
- 推論と行動を交互に実行することで、相乗効果によってより高精度な回答を獲得できるようにする

- Wikipediaなどの外部環境から追加情報を推論に組み込むこともでき、「行動」として、外部環境から新しい情報を収集でき、これを「観察」と呼ぶ

ReActプロンプトの型としては、以下が使われます。

- 文章（質問または指示）
- Thought :
- Action :
- Observation :

この場合、Thoughtでは、汎用的な推論となりがちであるが、Actionによって具体的な方法やアドバイスを挙げさせることで、より深い観察を行うことができるようになる

但し、試した範囲ではChatGPT May 24 Versionによいて、Thoughtなどの指示を無視し、最初からかなり完璧といえる解答を与えるようである
- 解釈する場合も、Actionなどその言葉のままに理解するため、期待している内容とは若干異なるようである

# ChatGPT向けプロンプトエンジニアリング

## プロンプトの要素

プロンプトには、以下のいずれかのコンポーネントが含まれることがある

- 命令 - モデルに実行してほしい特定のタスクまたは命令
- 文脈 - 外部情報や追加の文脈が含まれる場合があり、モデルをより良い応答に導くことができます。
- 入力データ - 応答を見つけたい入力または質問
- 出力指示子 - 出力のタイプや形式を示します。

## 事例

OpenAIがChatGPTのプロンプトエンジニアリングのベストプラクティスについて示している

抜粋して、以下に説明する

- 命令をプロンプトの先頭に置き、###または"""で命令とコンテキストを区切ること
  - BAD：  
```
以下の文章を、最も重要な点を箇条書きにまとめてください。
{ここにテキストを入力}。
```
  - GOOD：  
```
以下の文章を最も重要な点を箇条書きにまとめてください。

テキスト """
{テキスト入力｝
"""
```

- 希望する文脈、結果、長さ、形式、スタイルなどについて、具体的、説明的、かつ可能な限り詳細に記述する
  - BAD  
```
OpenAIについて詩を書こう。
```
  - GOOD:
```
最近のDALL-Eの製品発表（DALL-Eはテキストから画像へのMLモデル）に焦点を当て、OpenAIに関する感動的な短い詩を｛有名な詩人｝のスタイルで書きなさい。
```

- 望ましい出力形式を明示すること

  - BAD:   
```
以下のテキストで言及されているエンティティを抽出する。企業名、人名、特定の話題、テーマの4つのエンティティを抽出する。

テキスト： {テキスト}。
```
このような形では、どのように示してよいのかの指示がないためクオリティが落ちる  
具体的なフォーマット要件を示すと、モデルはよりよく反応し、プログラムによる複数の出力の確実な解析も容易になる

  - GOOD：  
```
以下のテキストで言及されている重要なエンティティを抽出します。最初にすべての会社名を抽出し、次にすべての人名を抽出し、次に内容に合った特定のトピックを抽出し、最後に一般的な包括的テーマを抽出しなさい。

望ましい形式
会社名 <comma_separated_list_of_company_names> (コンマで区切られた会社名リスト)
人名: -||-人名
特定のトピック -||-
一般的なテーマ: -||-

テキスト {テキスト｝
```

- Zero-shot, Few-shot, Fine-tuneの順に試すこと
  - Zero-shot
```
以下のテキストからキーワードを抽出しなさい。

テキスト {テキスト｝

キーワード
```
  - Few-shot
```
例をいくつか挙げてください。

以下の対応するテキストからキーワードを抽出しなさい。

テキスト1: Stripeは、ウェブ開発者がウェブサイトやモバイルアプリケーションに決済処理を統合するために使用できるAPIを提供しています。
キーワード1：Stripe、決済処理、API、ウェブ開発者、ウェブサイト、モバイルアプリケーション
##
テキスト2：OpenAIは、テキストを理解し生成するのに非常に優れた最先端の言語モデルを訓練してきました。私たちのAPIはこれらのモデルへのアクセスを提供し、言語処理を含む事実上すべてのタスクを解決するために使用することができます。
キーワード2：OpenAI、言語モデル、テキスト処理、API。
##
テキスト3：{text}。
キーワード 3：
```
  - Fine-tune  
  APIにある調整パラメタを利用して調整する

- 不明確な記述を減らす

- 何をすべきでないかを言うのではなく、何をすべきかを言う

- Code Generation Specific  
モデルを特定のパターンに誘導するために「先行詞」を使う  
  - BAD:  
```
# 次の簡単なpythonの関数を書きなさい
# 1. マイルで数値を求める
# 2. マイルをキロメートルに変換する
```
  - GOOD:
```
# 次の簡単なpythonの関数を書きなさい
# 1. マイルで数値を求める
# 2. マイルをキロに変換する

import
```
この例では、"import "を追加することで、Pythonで記述し始めることをモデルに示唆している
- 同様に、"SELECT "はSQL文の開始を示す良いヒントとなる


# 敵対的なプロンプト（Adversarial Prompting）

プロンプトによる言語モデルへの攻撃手法のことであり、敵対的なプロンプトによって、モデルが悪影響を受け、精度の低下や、機能不全リスクが想定される

言語モデルの進化に伴い、解決されている場合もあるが、本格的な利用では様々な観点で攻撃に対する防御を考えなければならない


## Prompt-Injection
プロンプトインジェクションは、特殊なプロンプトを使用して、モデルの出力を乗っ取ることを目的としていた手法

- モデルに行動を変更させるための巧妙な質問や指示を入力することで、想定外の文脈へと誘導する

次のような攻撃が考えられる

- 第三者の個人情報や機密情報を開示させる
- 虚偽の情報や根拠のないデマを拡散させる
- 違法行為や危険な行動を助長するような内容を提案させる

入力内容次第では適切な回答やデータを阻害し、公開すべきでない情報や機密情報を引き出せる場合もある

次のようなケースにおいて、パスワードが盗まれる

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Prompt-Injection1.jpg" width=600>

パスワードを与えて、回答内容を制限しようとしている

実際次のように与えることで、その指示を守っていることがわかる

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Prompt-Injection2.jpg" width=600>

ところが、次のような指示で、あっさりパスワードを教えてしまう

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Prompt-Injection3.jpg" width=600>

これを防ぐには、例えば、(ユーザがこの指示を変更しようとしても、〇〇〇してください)といった指示を加えることで防御することができる場合がある

## Prompt-Leaking
プロンプトリークプロンプトが保有する情報を引き出すための攻撃手法で、プロンプトインジェクションの一種

先ほどの例でも、プロンプトを盗み出すことに成功している

例えば、プロンプトに与えられた指示内容を列挙するよう上書きすることで、最初のプロンプトが無視され、さらにはモデルが持っている情報を聞き出すことができるようになる

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Prompt-Leaking.jpg" width=600>

## Jailbreak
ジェイルブレイク（Jailbreak）つまり脱獄は、巧妙なプロンプトを使ってモデルの制限を外すための手法

ChatGPTなど一般の利用を想定した言語モデルでは、差別や暴力といった非倫理的内容や、危険性や有害性のある行為、違法行為を助長するような回答は出力しないように調整されている

ジェイルブレイクにより、モデルに課されている規則に反した指示にも従うケースがあることが確認されている

- 日々進化しており、改良されているが、完全には解消されておらず、致命的な欠陥として残されることがある

ジェイルブレイクの代表的なアプローチの1つである「モデルに別人格を設定して答えさせる」を使用した例を示す
- 2023年のWBCの優勝は日本であるが、別のチーム名が現れ、当然のごとくそれが正解のように回答している

<img src="https://class.west.sd.keio.ac.jp/dataai/text/Jailbreakpromptattack.jpg" width=600>



## 対策

これらに対して、引用符や追加の書式を使うことで、どこがユーザの入力化をわかるようにする工夫、敵対的プロンプトかどうかをLLMに判断するように指示する手法などが提案されている

また、アタックをチェックするツールを利用する、ファインチューニングなどで問題となるパターンを排除するなども対策として考えられる


# GPT-3

GPT-3は、TransformerのDecoderのみで構成された補完モデル、言語モデルであり、そのDecoderモデルを96個重ねた構造を持つ

<img src="https://class.west.sd.keio.ac.jp/dataai/text/GPT3.png" width=300>

補完モデル、つまり入力された文に自然に続く単語を出力するモデルであり、「今日はとても」と入力すると、例えば「疲れた」と出力され、「今日はとても疲れた」と入力すると、「ので」など出力される

言語モデルは教師なし学習であり、人間による調教が不要で、大量の文例があれば、それを学習して、入力文に続く単語を予測し、文章を完成するモデルである

GPT-3はそれ自体、かなり正確かつ妥当な文章を生成するモデルであり、その実現のため、1750億個のパラメータを含むモデルを、570GB以上の文章(コーパス)を用いて学習された
- この文章はおもにCommon Crawlデータセットと呼ばれる、「インターネットをクロールして取得したコーパス」を用いている
- 2016年から2019年にクローリングされた45TBものデータから、学習に有用である570GB以上のデータ抽出され、学習に利用された
- GPT-3は入力に対する予測単語の妥当性や、汎用性の高さから広く認知されるようになったが、不正確な文章を生成する、非道徳的な文を生成するといった問題が生じた

GPT-3の問題点、つまり、このアラインメント問題を解決するため、InstructGPTが開発された

まとめると、次の通りとなる

- GPT-3をAlighnmentしてInstructGPTを構築
- InstructGPTを対話特化させてChatGPTを構築

<img src="https://class.west.sd.keio.ac.jp/dataai/text/GPT-3-ChatGPT.png" width=300>

# InstructGPT

InstructGPTは望まれない文章が生成されるというアラインメント問題に対処することを目的として開発された

望まれる文章か、そうれはないのかを損失関数などを用いて表現するのは非現実的であるため、人間が直接「良い悪い」というフィードバックを学習に組み込めばよい
- そこで、人間のフィードバックをもとにモデルを学習させるようにしたのが、InstructGPTであり、RLHF（＝Reinforcement Learning from Human Feedback） とよばれる手法を用いる

InstructGPTの学習の流れは次の通りである

- 教師ありファインチューニング
- Reward Modelの獲得
- RLHF

RLHFが終わったらふたたびReward Modelの獲得に戻り、よりよいReward Model求めてRLHFを行うという処理を繰り返す


## STEP1: 教師ありファインチューニング

GPT-3に対して教師ありファインチューニング(Supervised Fine-Tuning, SFT)を行う

- 純粋な教師あり学習ですあり、GPT-3の初期値として教師なし事前学習した言語モデルを用いる

GPT-3はインターネット上の文章で学習されており、さらにGPT-3を人間の好みにアラインメントさせるため、人間好みの文章でGPT-3をファインチューニングする

- 訓練済みのラベル付け職人(Trained Labeler)が入力プロンプトとそれに対する所望の出力文を用意する

- このように準備したデータでGPT-3をファインチューニングする

InstructGPTではこのペアを1万3千文ほど用意している
- これをSFTモデルと呼ぶ

https://qiita.com/omiita/items/c355bc4c26eca2817324#1-chatgpt%E3%81%A8%E3%81%AF

## STEP2: Reward Modelの学習

### Reward Modelの入力および出力

Reward Modelは、人間の代わりに「文の良さ」を評価するモデルであり、入力文とそれに対する文の良さを表したスコア(スカラー)を出力する

InstructGPTは文の良さとして次の評価軸を用いている
- Truthfullness(正当性)：デマやミスリードの情報かどうか
- Harmlessness(無害性): 人や環境を物理的・精神的に傷つけているかどうか
- Helpfulness(有益性)：ユーザーのタスクを解決してくれるかどうか

Reward Modelのアーキテクチャはパラメータ数60億のGPT-3で構築されている
- Reward Modelはあらかじめ質問応答や自然言語推論などの複数のタスクでファインチューニングされている
- Reward Modelはスカラーを吐き出すためGPT-3の最終層をスカラー値を出力する層に取り替えている
- Reward Modelの初期値はSFTモデルを用いる

### Reward Modelの学習について

文の良し悪しを評価するReward Model$r_\theta$の学習方法は次の通りである

$\theta$をReward Modelの重み、プロンプトを$x$、$x$に対する言語モデル(SFTモデルなど)の出力文を$y$とする

Reward Modelは入力としてプロンプト$x$およびそれに続く$y$を受け取り、出力としてその良し悪しを表したスカラー値$r_\theta(x,y)$を出力する

さらに詳細には次のとおりである

1. プロンプトに対する複数の出力文を用意
2. 人間がランク付け
3. ランキングをReward Model(RM)に学習させる

これらについて順に説明する


1. 入力プロンプト$x$に対するモデルの出力文を$K$個用意する  
$K$は$4∼9$の整数値をとり、ここでは例として$K=4$とし、出力文を$y_A,y_B,y_C,y_D$とする

2. つづいて人間、すなわち訓練済みのラベル付け職人がこれらの文にランク付けを行う
  たとえば、人間の見た目で、$y_D>y_C>y_A=y_B$という結果になった場合、この序列をRMに学習させる

3. ランクをRMに学習させる

例えば$y_D$と$y_C$の序列をReward Modelに覚えさせる場合、ランキング付けをした人間は$y_D$が$y_C$よりも良いとしているため、Reward Modelの出力も$r_\theta(x,y_D) > r_\theta(x,y_C)$となればよい
- つまり、$r_\theta(x,y_D)−r_\theta(x,y_C)$が最大化されるようにReward Modelを学習させれば良い
- 値にシグモイド関数や対数を適用しても同様である

これを損失とするため、次の形にして値を最小化するように学習させる

$−\log(\sigma(r_\theta(x,y_D)−r_\theta(x,y_C)))$

同様の損失を$y_A,y_B,y_C,y_D$のすべてのペア、すなわち6通り定義する
- 任意のペアにおいてランキングが高い方を$y_w$、ランキングが低い方を$y_l$とする
- $y_C$と$y_D$のペアの例では$y_w=y_D$、$y_l=y_C$となる
- その後、$y_w,y_l$を用いて上式の期待値、つまり平均値を算出する

人間によってランキング付けされたデータを$\mathcal{D}$とすると、

$−\frac{1}{6}\mathbb{E}_{(x,y_w,y_l)∼\mathcal{D}}[log(\sigma(r_\theta(x,y_w)−r_\theta(x,y_l)))]$

この関数を任意の$K$に対応させると、損失関数は以下の式の通りとなり、これがReward Modelの損失関数となる

$loss(\theta):=−\frac{1}{_KC_2}\mathbb{E}_{(x,y_w,y_l)∼\mathcal{D}}[\log(\sigma(r_\theta(x,y_w)−r_\theta(x,y_l)))]$

以上により、人間のフィードバックとして、文の良さをスカラーで出力するReward Modelが獲得でき、3万3千文のプロンプトを用いて、獲得したReward Modelを最大化するように言語モデルを学習させる


次のステップ3では、このReward Modelを人間の代わりに使いながらInstuctGPTを学習させるイメージです。

## STEP3: Reinforcement Learning from Human Feedback

強化学習を用いてSupervised Fine Tuning (SFT)モデルを人間好みに訓練する
- これには、Reward Modelを最大化するようにSFTモデルを学習させる

強化学習によりSFTモデルをファインチューニングする
- 学習対象のSFTモデルをPolicyと呼ぶ
- その学習アルゴリズムに、PPO(Proximal Policy Optimization)を用いる
  - PPOはポリシーの大きな更新を抑えながら最適化する手法であり、安定していることから強化学習で幅広く利用されている

PPOの目的関数、つまりInstructGPTの目的関数がどのように構成されているかについて説明する

Reinforcement Learning from human Feedback(RLHF)の目的であるReward Modelの出力の最大化について、学習対象であるPolicyを$\pi^{RL}_{\phi}$とすると、Reward Model $r_\theta$を最大化することから、次のように表記できる

$\mathbb{E}_{(x,y)∼D_{\pi^{RL}_{\phi}}}[r_\theta(x,y)]$

ただし、この式だけでは、Reward Modelの$r_\theta$の最大化のみにこだわり、出力される文章がでたらめで文章として成立しないという状況が発生しうる

そこで、Policyの出力文が、元々のSFTの出力文から大きく変化しすぎないように、KL正則化項を追加する

- 復習として、KLダイバージェンスは2つの確率分布間の違い(距離)を求めることができるため、元の文と生成文が離れすぎないようにできる

SFTを$\pi^{S}$、KL正則化項の係数を$\beta$とすると、KL項を組み込んだ目的関数は下の式のように記述できる

$objective_{PPO}(\phi):=\mathbb{E}_{(x,y)∼D_{\pi^{RL}_{\phi}}}[r_\theta(x,y)−\beta log(\frac{\pi^{RL}_{\phi}(y|x)}{\pi^S(y|x)})]$

ここでInstructGPTでは$\beta=0.02$であり、その項がKL項である

KL項の値が大きい、つまり、文が乖離すると全体の値が小さくなる
- ここでは目的関数の最大化のため、Policyの学習は、KL項をなるべく小さく抑えつつ学習を進めることになる

目的関数にKL項を追加するアイデアは既に存在していたが、InstructGPTではさらに言語モデルの対数尤度を表す項も追加している
- これは$objective_{PPO}(\phi)$で学習したモデルがNLPのベンチマーク性能が劣化した問題を解決するため
- Policyの汎化性能低下を抑えるため、対数尤度も目的関数に追加する

最終的に、InstructGPTのSTEP3における目的関数は次の通りとなる

$objective_{PPO-ptx}(\phi):=\mathbb{E}_{(x,y)∼D_{\pi^{RL}_{\phi}}}[r_\theta(x,y)−\beta log(\frac{\pi^{RL}_{\phi}(y|x)}{\pi^S(y|x)})]+\gamma=\mathbb{E}_{∼D_{pretrain}}[log(\pi^{RL}_{\phi})]$

$D_{pretrain}$は、GPT-3の事前学習に使われたデータセットからサンプリングされたデータ、$\gamma=27.8$と比較的大きな値が設定されている

STEP2とSTEP3を繰り返し実行することでさらに良い言語モデルが獲得できる

STEP3では31,000のプロンプトが使用されており、評価においても、例えば13億パラメータのPPO-ptxが1,750億パラメータのGPTよりもはるかに人間好みの文を出力するといった結果が得られており、さらに、SFTモデルよりもPPOモデルの方が効果的に働いていることから、アラインメント問題の解決にはRLHFがかなり効果的といえる

# ChatGPTとは

ChatGPTはInstructGPTとほとんど同じ方法で構築されており、ChatGPTは対話特化型InstructGPTと表現できる

ChatGPTとInstructGPTの違いは大きく以下の2点である

- モデル: GPT-3.5を利用

GPT-3.5では、学習データにはテキストだけでなく、コードも含まれている

- データ: 会話データを利用

人間が「ユーザーとAI同士の会話」というデータを作成して利用している

# ChatGPTの問題点

良いことばかりではなく、問題点も

現状で、技術的に優れていることはわかるが、即利用可能かは吟味必要
- 特に問題となるのが、提供される内容の正確性の検証をどうするかという問題
- もう一つが運用面の、責任・補償をどうするかという点

AGIでは、この授業そのものの意味もなくなる

何故なら、例えば画像認識はAGIで解決する

機械の異常検知も、データを渡して、これが正常、これが異常と教えれば、かなり精度の良いモデルを内部に構築し、異常予測をするようになる可能性もある

- 他人にデータを渡すのか？という大きな問題をクリアでき、巨大なモデルが構築できれば

この運用面で様々な議論が必要で、とんでもないお金が必要(この金額をこの程度と考えられるかどうか）

- 数億円規模の投資でnVIDIAのGPUクラスタを導入
  - GPT-3のパラメータ数は約1750億個
  - GPT-4は嘘ともいわれているが100兆個とささやかれている

- 大量のデータを入手するコストはさらにその数十倍
  - GPT-3で学習テキストデータ量が45TBから生成した約570GB
  - 最初の開発で、40人の契約社員を雇い教師ありトレーニングデータセットを作成
  - その後も大量の人を投入してデータを加工し強化学習を行う(詳細不明)

- マイクロソフトだけで投資は数千億円
- クラウド利用の場合5憶円の利用料を払って漸く計算できる程度のモデルが利用されている
- さらに、現在のChatGPTを稼働させるためだけに1億円/日の利用料が必要
  - 但し、利用収益もあるため、実際にはそれほどひどい状態ではないが、基本的に収支バランスは取れていない状況


### 現状の基盤モデルの問題

今後のAI研究のいて重要ではあるが、データ収集コストが大きい、実装コストが高いなどにより、GoogleやMicrosoftなどごく一部の大企業によって研究開発が寡占されている
- 基盤モデルに関する成果を秘匿化する潮流があり、AIの脱民主化、つまり開発者や受益者が一部の集団に偏ることが問題視されている

# フリーの大規模LLMモデル

huggingfaceをハブとしているフリーの大規模LLMモデルは、次のリンクを参照するとよい(git-lfsなど巨大ファイル専用のダウンローダが必要となる)

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

# 試してみる(だけどChatGPTは各自でお願い)

ここでは、ChatGPTそのものは試すことはできないので(フリーバージョンは各自で http://chat.openai.com にアクセスして試すこと)、Vicunaを試す



## Stable Vicunaとは

Stable Vicnaは、Vicuna 13BはLLMモデルをRLHFで学習させたモデル

- Vicuna13BはLLaMa(MetaAI)の13BモデルをShareGPTから得られたユーザー同士の会話を利用してFine Tuningしたモデル
- Stable Vicuna 13Bモデルは26GBの重みを読み込み、GPUメモリを30GBとCPUも30GBのメモリを消費する

Google colabのfree枠で利用するために4bitモデルを利用する
- text-generation-webuiを用いることでWebUIでchatやAPIなど様々な形式でLLMのモデルを試すことができる
- GPTQ-for-LLaMaは4bit化されたLLMモデルを推論させる際に利用する
  - このレポジトリには各種LLMモデルを4bit化した省メモリモデルが入手できる

## Wizard Vicunaとは

Wizard Vicunaは、WizardのデータセットとChatGPTの会話拡張、Vicunaのチューニング手法を組み合わせることで従来のLLMモデルよりもさらに性能の良いLLMを生み出そうとする取り組み
- Vicuna 13Bを超えてGPT3.5の97%の性能を達成

## 環境構築

GPTQとtext-generation-webuiのインストールする

In [None]:
!git clone https://github.com/oobabooga/text-generation-webui
%cd text-generation-webui
!pip install -r requirements.txt
!git clone https://github.com/oobabooga/GPTQ-for-LLaMa.git -b cuda
%cd GPTQ-for-LLaMa
!python setup_cuda.py install
!cp -r /content/text-generation-webui/GPTQ-for-LLaMa/* /content/text-generation-webui/

Cloning into 'text-generation-webui'...
remote: Enumerating objects: 10586, done.[K
remote: Counting objects: 100% (2611/2611), done.[K
remote: Compressing objects: 100% (324/324), done.[K
remote: Total 10586 (delta 2411), reused 2341 (delta 2287), pack-reused 7975[K
Receiving objects: 100% (10586/10586), 3.49 MiB | 17.33 MiB/s, done.
Resolving deltas: 100% (7214/7214), done.
/content/text-generation-webui
Collecting git+https://github.com/huggingface/peft@4b371b489b9850fd583f204cdf8b5471e098d4e4 (from -r requirements.txt (line 23))
  Cloning https://github.com/huggingface/peft (to revision 4b371b489b9850fd583f204cdf8b5471e098d4e4) to /tmp/pip-req-build-6c883uur
  Running command git clone --filter=blob:none --quiet https://github.com/huggingface/peft /tmp/pip-req-build-6c883uur
  Running command git rev-parse -q --verify 'sha^4b371b489b9850fd583f204cdf8b5471e098d4e4'
  Running command git fetch -q https://github.com/huggingface/peft 4b371b489b9850fd583f204cdf8b5471e098d4e4
  Resol

Cloning into 'GPTQ-for-LLaMa'...
remote: Enumerating objects: 818, done.[K
remote: Counting objects: 100% (120/120), done.[K
remote: Compressing objects: 100% (20/20), done.[K
remote: Total 818 (delta 107), reused 100 (delta 100), pack-reused 698[K
Receiving objects: 100% (818/818), 469.29 KiB | 13.80 MiB/s, done.
Resolving deltas: 100% (497/497), done.
/content/text-generation-webui/GPTQ-for-LLaMa
running install
!!

        ********************************************************************************
        Please avoid running ``setup.py`` directly.
        Instead, use pypa/build, pypa/installer, pypa/build or
        other standards-based tools.

        See https://blog.ganssle.io/articles/2021/10/setup-py-deprecated.html for details.
        ********************************************************************************

!!
  self.initialize_options()
!!

        ********************************************************************************
        Please avoid runnin

## 推論

モデルのダウンロード

In [None]:
%cd /content/text-generation-webui
!python download-model.py TheBloke/wizard-vicuna-13B-GPTQ

/content/text-generation-webui
Downloading the model to models/TheBloke_wizard-vicuna-13B-GPTQ
100% 9.01k/9.01k [00:00<00:00, 46.4MiB/s]
100% 551/551 [00:00<00:00, 4.50MiB/s]
100% 132/132 [00:00<00:00, 1.21MiB/s]
100% 57.0/57.0 [00:00<00:00, 469kiB/s]
100% 435/435 [00:00<00:00, 3.61MiB/s]
100% 500k/500k [00:00<00:00, 34.3MiB/s]
100% 727/727 [00:00<00:00, 5.85MiB/s]
100% 194k/194k [00:00<00:00, 2.28MiB/s]
100% 7.26G/7.26G [00:24<00:00, 296MiB/s]


WebUI起動

In [None]:
%cd /content/text-generation-webui
!python3 server.py --model TheBloke_wizard-vicuna-13B-GPTQ --wbits 4 --group 128 --chat --share --auto-devices  --model_type=llama

/content/text-generation-webui
2023-08-19 00:37:32 INFO:[32mLoading TheBloke_wizard-vicuna-13B-GPTQ...[0m
2023-08-19 00:37:32 INFO:[32mThe AutoGPTQ params are: {'model_basename': 'wizard-vicuna-13B-GPTQ-4bit.compat.no-act-order', 'device': 'cuda:0', 'use_triton': False, 'inject_fused_attention': True, 'inject_fused_mlp': True, 'use_safetensors': True, 'trust_remote_code': False, 'max_memory': {0: '15GiB', 'cpu': '99GiB'}, 'quantize_config': None, 'use_cuda_fp16': True, 'disable_exllama': False}[0m
2023-08-19 00:37:44 INFO:[32mLoaded the model in 12.75 seconds.
[0m
2023-08-19 00:37:44 INFO:[32mLoading the extension "gallery"...[0m
Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://1a53a278974d02ede1.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)
Output generated in 5.16 seconds (2.13 tokens/s, 11 tokens, context 44, seed 1

次のようなリンクが最後に出力されるはずである
```
INFO:Loading the extension "gallery"...
Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://87f0162cbf194df9a3.gradio.live
```
出力された、実際にアクセスする
- アクセスするのはgradio.liveの方である

## 試してみよう

英語でも、日本語でも会話できる

ChatpGPTの無料版は、GPT-3.5であるため、有料版でなければほぼ変わらない性能を発揮するはずである

<img src="http://class.west.sd.keio.ac.jp/dataai/text/vicuna.jpg">

# 課題

Stable VicunaもしくはChatGPTを用いて、実際にプロンプトエンジニアリングを行いその効果を確認しなさい