## GPT-3.5 ファインチューニング

Blog: https://openai.com/blog/gpt-3-5-turbo-fine-tuning-and-api-updates  
Document: https://platform.openai.com/docs/guides/fine-tuning

その他参考
- https://zenn.dev/solxyz_bso/articles/opneai-fine-tuning
- https://dev.classmethod.jp/articles/openai-gpt35turbo-fine-tuning/

### データ準備

In [1]:
import pandas as pd

データ元: [AI王 〜クイズAI日本一決定戦〜](https://sites.google.com/view/project-aio/dataset)  
csv形式データ: https://h2oai-jpn-public.s3.amazonaws.com/sample-data/llm/JapaneseQuiz.csv

In [2]:
df = pd.read_csv('https://h2oai-jpn-public.s3.amazonaws.com/sample-data/llm/JapaneseQuiz.csv')
df.shape

(22335, 3)

In [3]:
df.head()

Unnamed: 0,qid,question,answers
0,ABC01-01-0001,「abc 〜the first〜」へようこそ!さて、ABC・・・と始まるアルファベットは、全...,26文字
1,ABC01-01-0002,人気漫画『ドラえもん』の登場人物で、ジャイアンの苗字は剛田ですが、スネ夫の苗字は何でしょう?,骨川
2,ABC01-01-0003,格闘家ボブ・サップの出身国はどこでしょう?,アメリカ
3,ABC01-01-0004,ロシア語で「城」という意味がある、ロシアの大統領府の別名は何でしょう?,クレムリン
4,ABC01-01-0005,織田信長、豊臣秀吉、徳川家康という3人の戦国武将の性格を表現するのに用いられる鳥は何でしょう?,ホトトギス


In [4]:
# 100行のみ利用
df2 = df.sample(100, random_state=123).reset_index(drop=True)
df2

Unnamed: 0,qid,question,answers
0,QA20QBIK-0826,ニョコロ=コバ国立公園や、奴隷貿易の拠点となったゴレ島などの世界遺産がある、アフリカの国はどこ?,セネガル
1,QA20CAPR-1576,13日が金曜日のとき、その月の1日は何曜日でしょう?,日曜日
2,ABC07-01-0011,顕微鏡での観察に使われる、スライドガラスに載せた試料をカバーガラスで封じたものをドイツ語で何...,プレパラート
3,EQDN2013-0040,ストレプトマイシンやペニシリンなど、微生物の発育や細菌の増殖を阻止する物質を、総称して何とい...,抗生物質
4,ABC06-02-0768,大和市は神奈川県、郡山市は福島県にありますが、大和郡山市がある都道府県はどこでしょう?,奈良県
...,...,...,...
95,ABC12-02-0292,ラテン語の「ろうそく」という意味の言葉に由来する、SI基本単位における光度の単位は何でしょう?,カンデラ
96,ABC12-02-0197,バレーボールで、サーブレシーブをレセプションというのに対し、スパイクレシーブを何というでしょう?,ディグ
97,ABC07-02-0399,演劇で使われる言葉で、食べ物などのように一回使うと無くなってしまうもののことを何というでしょう?,消えもの
98,GO05-01-0077,グスタフ・ホルストの組曲『惑星』で、唯一作曲されていない太陽系の惑星は何でしょう?,地球


準備するデータフォーマット - [Example format](https://platform.openai.com/docs/guides/fine-tuning/example-format)

{  
"messages":  
    [
    {"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."},  
    {"role": "user", "content": "What's the capital of France?"},  
    {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}  
    ]  
}  
{  
"messages":  
[  
{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."},  
{"role": "user", "content": "Who wrote 'Romeo and Juliet'?"},  
{"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}  
]  
}  
:

In [5]:
system_content = 'あなたは優秀なクイズ回答者です。'

jl = []   # 辞書を格納するリスト
for q,a in zip(df2['question'], df2['answers']):
    d_system = dict()
    d_system["role"] = "system"
    d_system["content"] = system_content
    d_user = dict()
    d_user["role"] = "user"
    d_user["content"] = q
    d_assistant = dict()
    d_assistant["role"] = "assistant"
    d_assistant["content"] = a
    
    jl.append({"messages" : [d_system, d_user, d_assistant]})

In [6]:
len(jl)

100

In [7]:
jl[:3]

[{'messages': [{'role': 'system', 'content': 'あなたは優秀なクイズ回答者です。'},
   {'role': 'user',
    'content': 'ニョコロ=コバ国立公園や、奴隷貿易の拠点となったゴレ島などの世界遺産がある、アフリカの国はどこ?'},
   {'role': 'assistant', 'content': 'セネガル'}]},
 {'messages': [{'role': 'system', 'content': 'あなたは優秀なクイズ回答者です。'},
   {'role': 'user', 'content': '13日が金曜日のとき、その月の1日は何曜日でしょう?'},
   {'role': 'assistant', 'content': '日曜日'}]},
 {'messages': [{'role': 'system', 'content': 'あなたは優秀なクイズ回答者です。'},
   {'role': 'user',
    'content': '顕微鏡での観察に使われる、スライドガラスに載せた試料をカバーガラスで封じたものをドイツ語で何というでしょう?'},
   {'role': 'assistant', 'content': 'プレパラート'}]}]

In [8]:
# JSON　Linesとして保存
df_jl = pd.DataFrame(jl)
df_jl.to_json('japanese_quiz.jsonl', force_ascii=False, lines=True, orient='records')

jsonlの作成に関する参考：https://qtatsu.hatenablog.com/entry/2021/03/27/143233

In [9]:
!head -n3 japanese_quiz.jsonl

{"messages":[{"role":"system","content":"あなたは優秀なクイズ回答者です。"},{"role":"user","content":"ニョコロ=コバ国立公園や、奴隷貿易の拠点となったゴレ島などの世界遺産がある、アフリカの国はどこ?"},{"role":"assistant","content":"セネガル"}]}
{"messages":[{"role":"system","content":"あなたは優秀なクイズ回答者です。"},{"role":"user","content":"13日が金曜日のとき、その月の1日は何曜日でしょう?"},{"role":"assistant","content":"日曜日"}]}
{"messages":[{"role":"system","content":"あなたは優秀なクイズ回答者です。"},{"role":"user","content":"顕微鏡での観察に使われる、スライドガラスに載せた試料をカバーガラスで封じたものをドイツ語で何というでしょう?"},{"role":"assistant","content":"プレパラート"}]}


データ確認：[Check data formatting](https://platform.openai.com/docs/guides/fine-tuning/check-data-formatting)

In [10]:
# We start by importing the required packages

import json
import os
import tiktoken
import numpy as np
from collections import defaultdict

# Next, we specify the data path and open the JSONL file

data_path = "japanese_quiz.jsonl"

# Load dataset
with open(data_path) as f:
    dataset = [json.loads(line) for line in f]

# We can inspect the data quickly by checking the number of examples and the first item

# Initial dataset stats
print("Num examples:", len(dataset))
print("First example:")
for message in dataset[0]["messages"]:
    print(message)

# Now that we have a sense of the data, we need to go through all the different examples and check to make sure the formatting is correct and matches the Chat completions message structure

# Format error checks
format_errors = defaultdict(int)

for ex in dataset:
    if not isinstance(ex, dict):
        format_errors["data_type"] += 1
        continue

    messages = ex.get("messages", None)
    if not messages:
        format_errors["missing_messages_list"] += 1
        continue

    for message in messages:
        if "role" not in message or "content" not in message:
            format_errors["message_missing_key"] += 1

        if any(k not in ("role", "content", "name") for k in message):
            format_errors["message_unrecognized_key"] += 1

        if message.get("role", None) not in ("system", "user", "assistant"):
            format_errors["unrecognized_role"] += 1

        content = message.get("content", None)
        if not content or not isinstance(content, str):
            format_errors["missing_content"] += 1

    if not any(message.get("role", None) == "assistant" for message in messages):
        format_errors["example_missing_assistant_message"] += 1

if format_errors:
    print("Found errors:")
    for k, v in format_errors.items():
        print(f"{k}: {v}")
else:
    print("No errors found")

# Beyond the structure of the message, we also need to ensure that the length does not exceed the 4096 token limit.

# Token counting functions
encoding = tiktoken.get_encoding("cl100k_base")

# not exact!
# simplified from https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb
def num_tokens_from_messages(messages, tokens_per_message=3, tokens_per_name=1):
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    num_tokens += 3
    return num_tokens

def num_assistant_tokens_from_messages(messages):
    num_tokens = 0
    for message in messages:
        if message["role"] == "assistant":
            num_tokens += len(encoding.encode(message["content"]))
    return num_tokens

def print_distribution(values, name):
    print(f"\n#### Distribution of {name}:")
    print(f"min / max: {min(values)}, {max(values)}")
    print(f"mean / median: {np.mean(values)}, {np.median(values)}")
    print(f"p5 / p95: {np.quantile(values, 0.1)}, {np.quantile(values, 0.9)}")

# Last, we can look at the results of the different formatting operations before proceeding with creating a fine-tuning job:

# Warnings and tokens counts
n_missing_system = 0
n_missing_user = 0
n_messages = []
convo_lens = []
assistant_message_lens = []

for ex in dataset:
    messages = ex["messages"]
    if not any(message["role"] == "system" for message in messages):
        n_missing_system += 1
    if not any(message["role"] == "user" for message in messages):
        n_missing_user += 1
    n_messages.append(len(messages))
    convo_lens.append(num_tokens_from_messages(messages))
    assistant_message_lens.append(num_assistant_tokens_from_messages(messages))

print("Num examples missing system message:", n_missing_system)
print("Num examples missing user message:", n_missing_user)
print_distribution(n_messages, "num_messages_per_example")
print_distribution(convo_lens, "num_total_tokens_per_example")
print_distribution(assistant_message_lens, "num_assistant_tokens_per_example")
n_too_long = sum(l > 4096 for l in convo_lens)
print(f"\n{n_too_long} examples may be over the 4096 token limit, they will be truncated during fine-tuning")

# Pricing and default n_epochs estimate
MAX_TOKENS_PER_EXAMPLE = 4096

MIN_TARGET_EXAMPLES = 100
MAX_TARGET_EXAMPLES = 25000
TARGET_EPOCHS = 3
MIN_EPOCHS = 1
MAX_EPOCHS = 25

n_epochs = TARGET_EPOCHS
n_train_examples = len(dataset)
if n_train_examples * TARGET_EPOCHS < MIN_TARGET_EXAMPLES:
    n_epochs = min(MAX_EPOCHS, MIN_TARGET_EXAMPLES // n_train_examples)
elif n_train_examples * TARGET_EPOCHS > MAX_TARGET_EXAMPLES:
    n_epochs = max(MIN_EPOCHS, MAX_TARGET_EXAMPLES // n_train_examples)

n_billing_tokens_in_dataset = sum(min(MAX_TOKENS_PER_EXAMPLE, length) for length in convo_lens)
print(f"Dataset has ~{n_billing_tokens_in_dataset} tokens that will be charged for during training")
print(f"By default, you'll train for {n_epochs} epochs on this dataset")
print(f"By default, you'll be charged for ~{n_epochs * n_billing_tokens_in_dataset} tokens")
print("See pricing page to estimate total costs")

Num examples: 100
First example:
{'role': 'system', 'content': 'あなたは優秀なクイズ回答者です。'}
{'role': 'user', 'content': 'ニョコロ=コバ国立公園や、奴隷貿易の拠点となったゴレ島などの世界遺産がある、アフリカの国はどこ?'}
{'role': 'assistant', 'content': 'セネガル'}
No errors found
Num examples missing system message: 0
Num examples missing user message: 0

#### Distribution of num_messages_per_example:
min / max: 3, 3
mean / median: 3.0, 3.0
p5 / p95: 3.0, 3.0

#### Distribution of num_total_tokens_per_example:
min / max: 65, 126
mean / median: 92.11, 91.0
p5 / p95: 76.9, 108.0

#### Distribution of num_assistant_tokens_per_example:
min / max: 1, 15
mean / median: 5.77, 5.0
p5 / p95: 2.0, 9.0

0 examples may be over the 4096 token limit, they will be truncated during fine-tuning
Dataset has ~9211 tokens that will be charged for during training
By default, you'll train for 3 epochs on this dataset
By default, you'll be charged for ~27633 tokens
See pricing page to estimate total costs


### ファインチューニング

In [11]:
import openai
openai.__version__

'0.28.0'

In [12]:
oai_key = open('../_secret/yuki-openaikey-20230613.txt', 'r').read()
openai.api_key = oai_key

In [29]:
oai_key

'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'

#### データのアップロード

In [14]:
jsonl_data_path = "japanese_quiz.jsonl"
oai_file = openai.File.create(
    file=open(jsonl_data_path, "rb"), 
    purpose="fine-tune"
)
oai_file

<File file id=file-bi5VAtqFrbOpd3T6WWgqwp8D at 0x12691f9c0> JSON: {
  "object": "file",
  "id": "file-bi5VAtqFrbOpd3T6WWgqwp8D",
  "purpose": "fine-tune",
  "filename": "file",
  "bytes": 30922,
  "created_at": 1693808104,
  "status": "uploaded",
  "status_details": null
}

In [16]:
type(oai_file)

openai.api_resources.file.File

In [33]:
# アップロード済みファイル一覧
openai.File.list()

<OpenAIObject list at 0x12b335df0> JSON: {
  "object": "list",
  "data": [
    {
      "object": "file",
      "id": "file-bi5VAtqFrbOpd3T6WWgqwp8D",
      "purpose": "fine-tune",
      "filename": "file",
      "bytes": 30922,
      "created_at": 1693808104,
      "status": "processed",
      "status_details": null
    }
  ]
}

In [32]:
# ファイルを削除する場合
#openai.File.delete("oai_file.id")

#### ファインチューニングの実施

In [34]:
oai_ft = openai.FineTuningJob.create(
    training_file=oai_file.id, 
    model="gpt-3.5-turbo"
)
oai_ft

<FineTuningJob fine_tuning.job id=ftjob-hfKk3LmNzMyBUT5jdx9rLveE at 0x12b3290d0> JSON: {
  "object": "fine_tuning.job",
  "id": "ftjob-hfKk3LmNzMyBUT5jdx9rLveE",
  "model": "gpt-3.5-turbo-0613",
  "created_at": 1693808409,
  "finished_at": null,
  "fine_tuned_model": null,
  "organization_id": "org-a4Wx7TzXts7moJB7susZQJpm",
  "result_files": [],
  "status": "created",
  "validation_file": null,
  "training_file": "file-bi5VAtqFrbOpd3T6WWgqwp8D",
  "hyperparameters": {
    "n_epochs": 3
  },
  "trained_tokens": null
}

In [53]:
# ファインチューニングモデルのリスト
openai.FineTuningJob.list()

<OpenAIObject list at 0x12751ca40> JSON: {
  "object": "list",
  "data": [
    {
      "object": "fine_tuning.job",
      "id": "ftjob-hfKk3LmNzMyBUT5jdx9rLveE",
      "model": "gpt-3.5-turbo-0613",
      "created_at": 1693808409,
      "finished_at": 1693809293,
      "fine_tuned_model": "ft:gpt-3.5-turbo-0613:personal::7uxSguun",
      "organization_id": "org-a4Wx7TzXts7moJB7susZQJpm",
      "result_files": [
        "file-qAdpKrR5QdiLSubFqRJSNd0I"
      ],
      "status": "succeeded",
      "validation_file": null,
      "training_file": "file-bi5VAtqFrbOpd3T6WWgqwp8D",
      "hyperparameters": {
        "n_epochs": 3
      },
      "trained_tokens": 27033
    }
  ],
  "has_more": false
}

"finished_at"と"fine_tuned_model"がnullでなくなれば完了  
約10数分で学習が完了

In [43]:
# ファインチューニングをキャンセルする場合
#openai.FineTuningJob.cancel(oai_ft.id)

In [45]:
# ファインチューニングを削除する場合
#openai.FineTuningJob.delite(oai_ft.id)

In [69]:
# 学習済みモデルを取得
ft_model = openai.FineTuningJob.retrieve(oai_ft.id)
ft_model

<FineTuningJob fine_tuning.job id=ftjob-hfKk3LmNzMyBUT5jdx9rLveE at 0x12abaa390> JSON: {
  "object": "fine_tuning.job",
  "id": "ftjob-hfKk3LmNzMyBUT5jdx9rLveE",
  "model": "gpt-3.5-turbo-0613",
  "created_at": 1693808409,
  "finished_at": 1693809293,
  "fine_tuned_model": "ft:gpt-3.5-turbo-0613:personal::7uxSguun",
  "organization_id": "org-a4Wx7TzXts7moJB7susZQJpm",
  "result_files": [
    "file-qAdpKrR5QdiLSubFqRJSNd0I"
  ],
  "status": "succeeded",
  "validation_file": null,
  "training_file": "file-bi5VAtqFrbOpd3T6WWgqwp8D",
  "hyperparameters": {
    "n_epochs": 3
  },
  "trained_tokens": 27033
}

#### ファインチューニングモデルの利用

In [71]:
quiz = "火を神聖視することから「拝火教」とも呼ばれる、古代ペルシアを起源とする宗教の名前はなんでしょう？"

response = openai.ChatCompletion.create(
    model=ft_model.fine_tuned_model,
    messages=[
        {"role": "user", "content": quiz}
    ]
)
print('{}の回答 : '.format(ft_model.fine_tuned_model), response["choices"][0]["message"]["content"])

ft:gpt-3.5-turbo-0613:personal::7uxSguunの回答 :  ゾロアスター教


In [72]:
quiz = "漢数字の「百」から「一」を引くということから、99歳のお祝いのことを何というでしょう？"

response = openai.ChatCompletion.create(
    model=ft_model.fine_tuned_model,
    messages=[
        {"role": "user", "content": quiz}
    ]
)
print('{}の回答 : '.format(ft_model.fine_tuned_model), response["choices"][0]["message"]["content"])

ft:gpt-3.5-turbo-0613:personal::7uxSguunの回答 :  還暦


In [73]:
quiz = "陸上の十種競技で、最初に行われるのは100メートル走ですが、最後に行われるのは何でしょう？"

response = openai.ChatCompletion.create(
    model=ft_model.fine_tuned_model,
    messages=[
        {"role": "user", "content": quiz}
    ]
)
print('{}の回答 : '.format(ft_model.fine_tuned_model), response["choices"][0]["message"]["content"])

ft:gpt-3.5-turbo-0613:personal::7uxSguunの回答 :  1500メートル走


In [74]:
not_quiz = "こんにちは、今日は暑かったですね。今晩はゆっくりしたいと思います。"   # クイズを与えなかった場合

response = openai.ChatCompletion.create(
    model=ft_model.fine_tuned_model,
    messages=[
        {"role": "user", "content": not_quiz}
    ]
)
print('{}の回答 : '.format(ft_model.fine_tuned_model), response["choices"][0]["message"]["content"])

ft:gpt-3.5-turbo-0613:personal::7uxSguunの回答 :  こんにちは、そうですね。お疲れさまです。ゆっくり休めるといいですね。


In [75]:
not_quiz = "今日はジムで１時間ほど運動した後、家でゆっくりしました。明日は雨なので、"   # クイズを与えなかった場合

response = openai.ChatCompletion.create(
    model=ft_model.fine_tuned_model,
    messages=[
        {"role": "user", "content": not_quiz}
    ]
)
print('{}の回答 : '.format(ft_model.fine_tuned_model), response["choices"][0]["message"]["content"])

ft:gpt-3.5-turbo-0613:personal::7uxSguunの回答 :  外出する予定はありません。家で読書や映画を楽しむ予定です。
