# Completions API

# 準備

In [1]:
# 必要なモジュールをインポート
import os
from dotenv import load_dotenv
from openai import OpenAI

# 環境変数の取得
load_dotenv()
# OpenAI APIクライアントを生成
client = OpenAI(api_key=os.environ['API_KEY'])

# モデル名
model_name = "gpt-3.5-turbo-instruct"

# パラメーター：prompt、echo

In [2]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=300,
    echo=True
)

# 結果を表示
print(response.choices[0].text.strip())

言語モデルを使う上でのポイントは、下記の点が重要であることです。

- **現実世界のオーダーでトレーニングデータのオーダーを調整**する。<br>
事前に用意した比較的大きなテキストデータからトレーニング用のデータを切り出す際には、比較的おおきなテキストリストを一度に学習するよう並び替え、随時大きなミニバッチを作成してメモリに流し込みます。ただし、この場合、メモリサイズやトレーニングのコンピューティングパワーが厳しくなる可能性があります。そのような場合ライブラリー内で、テキストデータの一部をシャッフルランダムにしてテキストデータの一部だけを使用するようにしたりすると、コンピューターの利用能力をさらに減らすことが可能です。

- **順方向と逆方向のモデル


# パラメーター：suffix

In [3]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"
# 末尾文字の設定
suffix = "を続けることです。"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=300,
    suffix=suffix
)

# 結果を表示
print(response.choices[0].text.strip())

、

1. テキストデータの収集と前処理
言語モデルを学習させるためには、多くのテキストデータが必要です。そのため、まずは大量のテキストデータを収集し、前処理を行う必要があります。前処理には、テキストのクレンジングやトークナイズ（単語や文に区切る処理）などが含まれます。

2. モデルの選択
言語モデルには様々な種類がありますが、どのモデルを選択するかは、使用するデータやタスクによって異なります。また、モデルの精度や適用範囲も異なるため、目的に合ったモデルを選択することが重要です。

3. モデルの学習
言語モデルを実際に学習する際には、適切なハイ


# パラメーター：best_of


### 指定しない場合

In [4]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=50,
    n=2,
)

# 結果を表示
for choice in response.choices:
    print("-" * 20)
    print(choice.text.strip())

print(response.usage)

--------------------
、以下のとおりです。

> - **前向き確率**を求めることで生成対象となる文章が生成できます。
> $$
P(w_1,w_2,w
--------------------
following：

### 1.双方向RNNを使うべき
入力一単語だけを考えても単語の一つ一つの前後からそれぞれ
CompletionUsage(completion_tokens=100, prompt_tokens=17, total_tokens=117)


### 指定した場合

In [5]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=50,
    n=2,
    best_of=4
)

# 結果を表示
for choice in response.choices:
    print("-" * 20)
    print(choice.text.strip())

print(response.usage)

--------------------
次の3つです。

1. 学習データの用意
2. 多様性のある文章の生成
3. 多様性の評価

1
--------------------
２つあります。
一つ目は、言語モデルの拡張性です。言語モデルは、新しい言語データが与えられた場
CompletionUsage(completion_tokens=199, prompt_tokens=17, total_tokens=216)


# パラメーター：logprobs

In [6]:
# プロンプトの設定
prompt = "こんにちは！"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=100,
    logprobs=3
)

# 結果を表示
print(response.choices[0].text.strip())

OKチョコです。

こんにちは！OKチョコです。

【Q】著者は間もなく、外国に行く予定です！！

それは素晴らしいですね！外国に行くと新しい文化や言語、風景を体験できてとても楽しいと思います。準備はしっかりとして、


In [7]:
import tiktoken
from tiktoken.core import Encoding

# OpenAI APIの特定のモデルに対応するトークナイザーを取得
encoding: Encoding = tiktoken.encoding_for_model(model_name)

In [8]:
# 回答をトークンごとに確認
for token in response.choices[0].logprobs.tokens:
    print("[", token.replace("\n",""), "]", end=" ")

[ OK ] [ チ ] [ ョ ] [ コ ] [ です ] [ 。 ] [ こんにちは ] [ ！ ] [ OK ] [ チ ] [ ョ ] [ コ ] [ です ] [ 。 ] [ 【 ] [ Q ] [ 】 ] [ bytes:\xe8 ] [ bytes:\x91 ] [ bytes:\x97 ] [ 者 ] [ は ] [ 間 ] [ も ] [ な ] [ く ] [ 、 ] [ 外 ] [ 国 ] [ に ] [ 行 ] [ く ] [ bytes:\xe4\xba ] [ bytes:\x88 ] [ 定 ] [ です ] [ ！！ ] [ それ ] [ は ] [ 素 ] [ bytes:\xe6\x99 ] [ bytes:\xb4 ] [ ら ] [ し ] [ い ] [ です ] [ bytes:\xe3\x81 ] [ bytes:\xad ] [ ！ ] [ 外 ] [ 国 ] [ に ] [ 行 ] [ く ] [ と ] [ 新 ] [ し ] [ い ] [ 文 ] [ 化 ] [ や ] [ 言 ] [ bytes:\xe8\xaa ] [ bytes:\x9e ] [ 、 ] [ bytes:\xe9\xa2 ] [ bytes:\xa8 ] [ 景 ] [ を ] [ 体 ] [ bytes:\xe9 ] [ bytes:\xa8 ] [ bytes:\x93 ] [ で ] [ き ] [ て ] [ と ] [ て ] [ も ] [ bytes:\xe6\xa5 ] [ bytes:\xbd ] [ し ] [ い ] [ と ] [ 思 ] [ います ] [ 。 ] [ bytes:\xe6\xba ] [ bytes:\x96 ] [ bytes:\xe5 ] [ bytes:\x82 ] [ bytes:\x99 ] [ は ] [ bytes:\xe3\x81\x97\xe3\x81 ] [ bytes:\xa3 ] [ か ] [ り ] [ と ] [ して ] [ 、 ] 

In [9]:
# 選択されたトークンの確率を表示
response.choices[0].logprobs.token_logprobs[:5]

[-9999.0, -9999.0, -3.2188334, -0.67568845, -1.1758041]

In [10]:
# トークン上位logprobs個の確率を表示
response.choices[0].logprobs.top_logprobs[:5]

[{'\n': -1.2493514, '\n\n': -1.9412345, '私': -2.8816147},
 {'です': -0.9998541, 'I': -2.9841642, 'Wave': -3.4134445},
 {'bytes:\\xe3\\x83\\xbc\\xe3\\x83': -0.81417227,
  'ャ': -1.4873176,
  'ェ': -2.1293902},
 {'コ': -0.67568845, 'イ': -2.2441642, 'ッ': -2.6662033},
 {'です': -1.1758041, 'レ': -1.2034893, 'ラ': -3.4258327}]