# Completions API

# 準備

In [1]:
# 必要なモジュールをインポート
import os
from dotenv import load_dotenv
from openai import OpenAI

# 環境変数の取得
load_dotenv()
# OpenAI APIクライアントを生成
client = OpenAI(api_key=os.environ['API_KEY'])

# モデル名
model_name = "gpt-3.5-turbo-instruct"

# パラメーター：prompt、echo

In [4]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=300,
    echo=True
)

# 結果を表示
print(response.choices[0].text.strip())

言語モデルを使う上でのポイントは、長文を短文に分割し、長文を入力する際のメモリ性質を改善できることです。

これは、短い文の方が長い文よりもトークン数が少ないため、モデルの入力データのサイズが小さくなることによって、メモリ使用量を減らすことができます。

また、長文を短文に分割することで、モデルがより局所的な文脈を学習することができるようになります。これにより、入力文の論理性や文章の流れを考慮できるようになり、より自然な文章を生成することができます。

さらに、モデルが短文によりよく適合するように、長文を分割する際には文の意味や文法的なつながりを損なわないように注意する必要があります。例えば、文の最後の


# パラメーター：suffix

In [6]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"
# 末尾文字の設定
suffix = "を続けることです。"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=300,
    suffix=suffix
)

# 結果を表示
print(response.choices[0].text.strip())

、

1. データセットの質
言語モデルは、大量のテキストデータから学習するため、データセットの質が重要です。データセットは、文法的に正しい文や意味を持つ文で構成されていることが重要です。

2. データの前処理
データセットをモデルに入力する前に、テキストデータをトークン化し、特殊トークンを追加するなどの前処理を行う必要があります。また、データセットをモデルに入力する際には、学習に適した形式に変換することも重要です。

3. ハイパーパラメータの調整
言語モデルには、学習率やバッチサイズなどのハイパーパラメータが存在します。これらの値を適切に調整することで、より良いモデルを作ることがで


# パラメーター：best_of


### 指定しない場合

In [7]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=50,
    n=2,
)

# 結果を表示
for choice in response.choices:
    print("-" * 20)
    print(choice.text.strip())

print(response.usage)

--------------------
そもそも学習し直したモデルを使用する

モデルの入力データとして、トークン化（トークナイズ）されたもの
--------------------
、まずモデルにテキストを入力すると、
それを数値データに変換してそのまま順番に計算を行うことができ
CompletionUsage(completion_tokens=100, prompt_tokens=17, total_tokens=117)


### 指定した場合

In [8]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=50,
    n=2,
    best_of=4
)

# 結果を表示
for choice in response.choices:
    print("-" * 20)
    print(choice.text.strip())

print(response.usage)

--------------------
次の ２点となります。

- トークン集合から文書を生成するように訓練された言語モデルのバリデーション
--------------------
2つあります。
- 一つ目は、単語のインデックスを異なる値に設定し直して始める必要があることです。 言
CompletionUsage(completion_tokens=200, prompt_tokens=17, total_tokens=217)


# パラメーター：logprobs

In [12]:
# プロンプトの設定
prompt = "こんにちは！"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=100,
    logprobs=3
)

# 結果を表示
print(response.choices[0].text.strip())

店長です。お問い合わせありがとうございます。是非サンプルでご覧いただくことができると嬉しいです。商品をお届けするためのご注文方法については、以下の通りです。

1. 当店の商品ページから商品を選択してください。
商品ページから、ご希望の商品を選


In [13]:
import tiktoken
from tiktoken.core import Encoding

# OpenAI APIの特定のモデルに対応するトークナイザーを取得
encoding: Encoding = tiktoken.encoding_for_model(model_name)

In [15]:
# 回答をトークンごとに確認
for token in response.choices[0].logprobs.tokens:
    print("[", token.replace("\n",""), "]", end=" ")

[ 店 ] [ bytes:\xe9\x95 ] [ bytes:\xb7 ] [ です ] [ 。 ] [ お ] [ 問 ] [ い ] [ 合 ] [ わ ] [ せ ] [ ありがとうござ ] [ います ] [ 。 ] [ 是 ] [ 非 ] [ サ ] [ ン ] [ プ ] [ ル ] [ で ] [ ご ] [ bytes:\xe8\xa6 ] [ bytes:\xa7 ] [ い ] [ ただ ] [ く ] [ こ ] [ と ] [ が ] [ で ] [ き ] [ る ] [ と ] [ bytes:\xe5 ] [ bytes:\xac ] [ bytes:\x89 ] [ し ] [ い ] [ です ] [ 。 ] [ 商品 ] [ を ] [ お ] [ bytes:\xe5\xb1 ] [ bytes:\x8a ] [ け ] [ する ] [ た ] [ め ] [ の ] [ ご ] [ 注 ] [ 文 ] [ 方法 ] [ に ] [ つ ] [ い ] [ て ] [ は ] [ 、 ] [ 以下 ] [ の ] [ 通 ] [ り ] [ です ] [ 。 ] [ 1 ] [ . ] [  当 ] [ 店 ] [ の ] [ 商品 ] [ ペ ] [ ージ ] [ から ] [ 商品 ] [ を ] [ bytes:\xe9\x81 ] [ bytes:\xb8 ] [ bytes:\xe6\x8a ] [ bytes:\x9e ] [ して ] [ ください ] [ 。 ] [ 商品 ] [ ペ ] [ ージ ] [ から ] [ 、 ] [ ご ] [ bytes:\xe5\xb8 ] [ bytes:\x8c ] [ bytes:\xe6\x9c ] [ bytes:\x9b ] [ の ] [ 商品 ] [ を ] [ bytes:\xe9\x81 ] [ bytes:\xb8 ] 

In [16]:
# 選択されたトークンの確率を表示
response.choices[0].logprobs.token_logprobs[:5]

[-7.94527, -0.06836766, -6.7901296e-05, -2.578664, -1.4273841]

In [17]:
# トークン上位logprobs個の確率を表示
response.choices[0].logprobs.top_logprobs[:5]

[{'\n': -1.2489457, '\n\n': -1.9408288, '私': -2.881209},
 {'bytes:\\xe9\\x95': -0.06836766,
  'bytes:\\xe8\\x88': -3.5561988,
  'bytes:\\xe5\\x93': -4.3107667},
 {'bytes:\\xb7': -6.7901296e-05,
  'bytes:\\xb7\\xe6\\x96\\xb0': -9.606803,
  'bytes:\\x87': -15.117227},
 {'です': -2.578664, 'の': -0.14120212, 'bytes:\\xe5\\x85': -5.348876},
 {'。': -1.4273841, '。\n\n': -1.107846, '！\n\n': -1.9637077}]