# Completions API

# 準備

In [1]:
# 必要なモジュールをインポート
import os
from dotenv import load_dotenv
from openai import OpenAI

# 環境変数の取得
load_dotenv()
# OpenAI APIクライアントを生成
client = OpenAI(api_key=os.environ['API_KEY'])

# モデル名
model_name = "gpt-3.5-turbo-instruct"

# パラメーター：prompt、echo

In [2]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=300,
    echo=True
)

# 結果を表示
print(response.choices[0].text.strip())

言語モデルを使う上でのポイントは，
「どのニュースを使うか」にある．
単にニュースを多く使えば良いというわけではない．
例えば，あるランキングを形成する基準を，
ランキングに加えるニュースがどれも共通して満たすとして，
上位 4~
位までのニュースを使って 1~
位を予測する，というのが良い (参考文献~\ref{list:gensim-news-crawl})．
過学習を防ぐ意味でも．

また，言語モデルを使う上での重要な点の1つが，
言語モデルは共起確率ではなく条件付き確率であるという具体例を挙げる (参考文献~\ref{list:word-cooccur})．
単語共起を使った手法ではなく，単語の順序だけを使った手法として言語モデルがある．
言語モデルに平文で使える言語


# パラメーター：suffix

In [3]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"
# 末尾文字の設定
suffix = "を続けることです。"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=300,
    suffix=suffix
)

# 結果を表示
print(response.choices[0].text.strip())

、

1. データセットの準備
言語モデルの学習には、豊富な量のテキストデータが必要です。そのため、使いたい言語のデータセットを収集することが重要です。

2. モデルの選択
言語モデルには、大きく分けて事前学習済みモデルと自作モデルの2つがあります。事前学習済みモデルは、すでに大量のテキストデータを用いて学習されたもので、自作モデルはデータセットを用いて学習することで作成されます。どちらを用いるかは、そのプロジェクトの目的やデータセットの規模などによって選択する必要があります。

3. データの前処理
言語モデルの学習には、データの前処理が重要です。不要な文字や単語


# パラメーター：best_of


### 指定しない場合

In [4]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=50,
    n=2,
)

# 結果を表示
for choice in response.choices:
    print("-" * 20)
    print(choice.text.strip())

print(response.usage)

--------------------
、「大量のデータを使った学習をすること」です。  
この項目では、まず言語モデルを学習するための訓
--------------------
、不自然な文章を使わないという点です。

まず、ここで言う「不自然な文章」とは、人間の言葉で表すとどういった
CompletionUsage(completion_tokens=100, prompt_tokens=17, total_tokens=117)


### 指定した場合

In [5]:
# プロンプトの設定
prompt = "言語モデルを使う上でのポイントは"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=50,
    n=2,
    best_of=4
)

# 結果を表示
for choice in response.choices:
    print("-" * 20)
    print(choice.text.strip())

print(response.usage)

--------------------
、以下の3つです。

1. トークナイザ：文章を単語や文節に分割する。どのようなトークナイザを使うか
--------------------
2つ

1つ目は「データセットを多くすること」である。
言語モデルの良い性能を得るためには、豊富で
CompletionUsage(completion_tokens=200, prompt_tokens=17, total_tokens=217)


# パラメーター：logprobs

In [6]:
# プロンプトの設定
prompt = "こんにちは！"

# APIへリクエスト
response = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=100,
    logprobs=3
)

# 結果を表示
print(response.choices[0].text.strip())

稲崎です！ 先週までは天気も良いと思ったらまた雨で、寒かったのに今週の火曜日はずっと雨でドシャ降りの寒い一日になりました(;´∀｀)本当に突然。。。大量の雨が降りましたよね！！ 今


In [7]:
import tiktoken
from tiktoken.core import Encoding

# OpenAI APIの特定のモデルに対応するトークナイザーを取得
encoding: Encoding = tiktoken.encoding_for_model(model_name)

In [8]:
# 回答をトークンごとに確認
for token in response.choices[0].logprobs.tokens:
    print("[", token.replace("\n",""), "]", end=" ")

[ bytes:\xe7\xa8 ] [ bytes:\xb2 ] [ bytes:\xe5 ] [ bytes:\xb4 ] [ bytes:\x8e ] [ です ] [ ！ ] [ bytes: \xe5\x85 ] [ bytes:\x88 ] [ bytes:\xe9\x80 ] [ bytes:\xb1 ] [ ま ] [ では ] [ 天 ] [ 気 ] [ も ] [ bytes:\xe8\x89 ] [ bytes:\xaf ] [ い ] [ と ] [ 思 ] [ っ ] [ た ] [ ら ] [ また ] [ bytes:\xe9\x9b ] [ bytes:\xa8 ] [ で ] [ 、 ] [ bytes:\xe5\xaf ] [ bytes:\x92 ] [ か ] [ っ ] [ た ] [ の ] [ に ] [ 今 ] [ bytes:\xe9\x80 ] [ bytes:\xb1 ] [ の ] [ 火 ] [ bytes:\xe6\x9b ] [ bytes:\x9c ] [ 日 ] [ は ] [ bytes:\xe3\x81 ] [ bytes:\x9a ] [ っ ] [ と ] [ bytes:\xe9\x9b ] [ bytes:\xa8 ] [ で ] [ ド ] [ シ ] [ ャ ] [ bytes:\xe9\x99 ] [ bytes:\x8d ] [ り ] [ の ] [ bytes:\xe5\xaf ] [ bytes:\x92 ] [ い ] [ 一 ] [ 日 ] [ に ] [ な ] [ り ] [ ました ] [ (; ] [ ´ ] [ bytes:\xe2\x88 ] [ bytes:\x80 ] [ bytes:\xef\xbd ] [ bytes:\x80 ] [ ) ] [ 本 ] [ 当 ] [ に ] [ bytes:\xe7\xaa ] [ bytes:\x81 ] [ 然 ] [ 。。 ] [ 。 ] [ 大 ] [ 量 ] [ の ] [ bytes:\xe9\x9b ] [ bytes:\xa8 ] [ が ] [ bytes:\xe9\x99 ] [ bytes:\x8d ] [ り ] [ ました ] [ よ ] [ bytes:\xe3\x81 ] [ byte

In [9]:
# 選択されたトークンの確率を表示
response.choices[0].logprobs.token_logprobs[:5]

[-9999.0, -0.36752188, -1.7257777, -4.484301, -5.419287e-05]

In [10]:
# トークン上位logprobs個の確率を表示
response.choices[0].logprobs.top_logprobs[:5]

[{'\n': -1.2493514, '\n\n': -1.9412345, '私': -2.8816147},
 {'bytes:\\xb2': -0.36752188,
  'bytes:\\xbc': -1.8853976,
  'bytes:\\xae': -2.3355508},
 {'bytes:\\xe8': -1.6830589,
  'bytes:\\xe5': -1.7257777,
  'bytes:\\xe6\\x9d': -2.5654955},
 {'bytes:\\x9e': -0.0988128,
  'bytes:\\xa6': -2.773198,
  'bytes:\\xb6': -4.2145944},
 {'bytes:\\x8e': -5.419287e-05,
  'bytes:\\x87': -10.315457,
  'bytes:\\x97': -11.621781}]