<a href="https://colab.research.google.com/github/noob1200/openai_api_bot_001/blob/main/Openai_api_try_003.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ファインチューニングのモデル試作
StreamlitとOpen APIを使い、ファインチューニングの実践練習

## ライブラリのインストール
Streamlit、およびアプリの動作の確認に使用する「ngrok」をインストールします。  
また、ChatGPT APIを使用するために必要なライブラリ、openaiをインストールします。  

In [None]:
!pip install streamlit==1.20.0 --quiet
!pip install pyngrok==4.1.1 --quiet
!pip install openai



インストールの完了後、streamlit、ngrok、およびopenaiをインポートしておきます。

In [None]:
import streamlit as st
from pyngrok import ngrok
import openai

## .csvファイルのアップロード
ファインチューニングに使うファイルをアップロードします。  


-----------------------------------------------------------------------------
## ファインチューニングを行うWebアプリのメインコード
`%%writefile`のマジックコマンドを使って、チャットボットのコードを「app.py」に書き込みます。  
ここで、APIを別ファイルに分けることで公開時にAPIをそのまま公開しないようにする

-----------------------------------------------------------------------------

In [None]:
import streamlit as st
import openai
import secret_keys  # 外部ファイルにAPI keyを保存
import os

openai.api_key = ""

response = openai.Completion.create(
  engine="davinci",
  prompt="I'm happy.",
  temperature=0.7,
  max_tokens=64,
  top_p=1,
  frequency_penalty=0,
  presence_penalty=0
)
print(response)


{
  "id": "cmpl-7oPW7i8MWJUIATACGb5QEQmeck6QS",
  "object": "text_completion",
  "created": 1692248843,
  "model": "davinci",
  "choices": [
    {
      "text": " I'm really happy that we were able to get this done.\"\n\nThe deal, which is worth about $9.5 million, brings an end to a months-long stalemate between the two sides.\n\nEleven months ago, the Lakers acquired Howard in a four-team megadeal that sent",
      "index": 0,
      "logprobs": null,
      "finish_reason": "length"
    }
  ],
  "usage": {
    "prompt_tokens": 4,
    "completion_tokens": 64,
    "total_tokens": 68
  }
}


## CSVをJSONLに変換する

〇〇.csv→〇〇.jsonl生成
（一回生成したら、用済み。コメントアウト又は削除）

In [None]:
# import pandas as pd

#データセットの準備

# df =pd.read_csv(
#     'tsukuyomi.csv',
#     usecols=[1,2],
#     names = ['prompt','completion'],
#     skiprows=2
# )
# df.to_json(
#     "tsukuyomi.jsonl",
#     orient='records',
#     lines= True,
#     force_ascii=False
# )

## データセットの検証
openaiパッケージで提供している「検証ツール」を使って、データせっとの検証を行う。この検証ツールは、修正案を出すだけではなく、修正じたいも自動的に行うことが出来ます。

〇〇.jsonl→〇〇_prepared.jsonlが生成
（一回生成したら、用済み。コメントアウト又は削除）

In [None]:
# データセットの検証

# !openai tools fine_tunes.prepare_data \
#     -f tsukuyomi.jsonl \
#     -q

Analyzing...

- Your file contains 469 prompt-completion pairs
- There are 2 duplicated prompt-completion sets. These are rows: [438, 439]
- More than a third of your `prompt` column/key is uppercase. Uppercase prompts tends to perform worse than a mixture of case encountered in normal language. We recommend to lower case the data if that makes sense in your domain. See https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset for more details
- More than a third of your `completion` column/key is uppercase. Uppercase completions tends to perform worse than a mixture of case encountered in normal language. We recommend to lower case the data if that makes sense in your domain. See https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset for more details
- Your data does not contain a common separator at the end of your prompts. Having a separator string appended to the end of the prompt makes it clearer to the fine-tuned model where the completion sho

## OpenAIのAPI keyを設定
Open APIを使用するために必要な「API key」を設定します。  
`%%writefile`のマジックコマンドを使って、API keyを設定するコードを「secret_keys.py」に書き込みます。  



In [None]:
# %%writefile secret_keys.py

# openai_api_key = ""

API keyの流出にはリスクがあります。  
他者に知られないように、慎重に扱ってください。

## ngrokのAuthtokenを設定
ngrokで接続するために必要な「Authtoken」を設定します。  
以下のコードの、  
`!ngrok authtoken YourAuthtoken`  
における  
`YourAuthtoken`の箇所を、自分のAuthtokenに置き換えます。  
Authtokenは、ngrokのサイトに登録すれば取得することができます。  
https://ngrok.com/


In [None]:
!ngrok authtoken

Authtoken saved to configuration file: /root/.ngrok2/ngrok.yml


ngrokのAuthtokenも、他者に知られないように慎重に扱ってください。

##ファインチューニングの実行
**実行後は、誤作動を避けるためすぐにコメントアウト（学習資材によって料金がかなりかかる）**

In [None]:
# ファインチューニングの実行

# !openai api fine_tunes.create \
#    -t "tsukuyomi_prepared.jsonl" \
#    -m davinci

-----------------------------------------------------------------------------
##【ストリームの対応】

####ストリームの再開
####ジョブの状態確認
####ファインチューニングのモデル一覧取得
####ファインチューニングのモデル削除








-----------------------------------------------------------------------------


In [None]:
#ストリームの再開
!openai api fine_tunes.follow -i ft-F9eeGRXaucMvUXJG0084RL1a

[91mError:[0m No API key provided. You can set your API key in code using 'openai.api_key = <API-KEY>', or you can set the environment variable OPENAI_API_KEY=<API-KEY>). If your API key is stored in a file, you can point the openai module at it with 'openai.api_key_path = <PATH>'. You can generate API keys in the OpenAI web interface. See https://platform.openai.com/account/api-keys for details.


In [None]:
#ジョブの状態確認

!openai api fine_tunes.get -i ft-pngkG68MFcvilB9U2q7PEuaj

[91mError:[0m No API key provided. You can set your API key in code using 'openai.api_key = <API-KEY>', or you can set the environment variable OPENAI_API_KEY=<API-KEY>). If your API key is stored in a file, you can point the openai module at it with 'openai.api_key_path = <PATH>'. You can generate API keys in the OpenAI web interface. See https://platform.openai.com/account/api-keys for details.


In [None]:
#ファインチューニングのモデル削除

!openai api models.delete -i

usage: openai api models.delete
       [-h]
       -i
       ID
openai api models.delete: error: argument -i/--id: expected one argument


In [None]:
#ファインチューニングのモデル一覧取得

!openai api fine_tunes.list

[91mError:[0m No API key provided. You can set your API key in code using 'openai.api_key = <API-KEY>', or you can set the environment variable OPENAI_API_KEY=<API-KEY>). If your API key is stored in a file, you can point the openai module at it with 'openai.api_key_path = <PATH>'. You can generate API keys in the OpenAI web interface. See https://platform.openai.com/account/api-keys for details.


## アプリの起動
streamlitの`run`コマンドでアプリを起動します。


In [None]:
!streamlit run app.py &>/dev/null&  # 「&>/dev/null&」により、出力を非表示にしてバックグランドジョブとして実行

ngrokのプロセスを終了した上で、新たにポートを指定して接続します。  
接続の結果、urlを取得できます。  
ngrokの無料プランでは同時に1つのプロセスしか動かせないので、エラーが発生した場合は「ランタイム」→「セッションの管理」で不要なGoogle Colabのセッションを修了しましょう。  

In [None]:
ngrok.kill()  # プロセスの修了
url = ngrok.connect(port="8501")  # 接続

INFO:pyngrok.process:ngrok process starting: 3127
2023-08-17 05:04:36.642 INFO    pyngrok.process: ngrok process starting: 3127
INFO:pyngrok.process:t=2023-08-17T05:04:36+0000 lvl=info msg="no configuration paths supplied"

2023-08-17 05:04:36.680 INFO    pyngrok.process: t=2023-08-17T05:04:36+0000 lvl=info msg="no configuration paths supplied"

INFO:pyngrok.process:t=2023-08-17T05:04:36+0000 lvl=info msg="using configuration at default config path" path=/root/.ngrok2/ngrok.yml

2023-08-17 05:04:36.685 INFO    pyngrok.process: t=2023-08-17T05:04:36+0000 lvl=info msg="using configuration at default config path" path=/root/.ngrok2/ngrok.yml

INFO:pyngrok.process:t=2023-08-17T05:04:36+0000 lvl=info msg="open config file" path=/root/.ngrok2/ngrok.yml err=nil

2023-08-17 05:04:36.699 INFO    pyngrok.process: t=2023-08-17T05:04:36+0000 lvl=info msg="open config file" path=/root/.ngrok2/ngrok.yml err=nil

INFO:pyngrok.process:t=2023-08-17T05:04:36+0000 lvl=info msg="starting web service" obj=

## 動作の確認

URLのhttpの部分をhttpsに変換する関数を設定します。

In [None]:
def convert_http_to_https(url):
    if url.startswith("http://"):
        url = url.replace("http://", "https://", 1)
    return url

2023-08-17 05:04:38.047 INFO    pyngrok.process: t=2023-08-17T05:04:38+0000 lvl=info msg=end pg=/api/tunnels id=7f30961b8076c556 status=201 dur=522.979555ms



変換したurlを表示し、リンク先でチャットボットが動作することを確認します。

In [None]:
print(convert_http_to_https(url))

https://65f2-34-143-166-196.ngrok-free.app


チャットボットの動作確認後、OpenAIのサイトでAPIの使用量を確認してみましょう。  
https://platform.openai.com/account/usage