In [1]:
# make sure to use the latest version of the openai python package
!pip install --upgrade openai 



DEPRECATION: pyodbc 4.0.0-unsupported has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of pyodbc or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063





In [3]:
import json
import openai
import os
import pandas as pd
from pprint import pprint

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY", "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")

In [5]:
# Read in the dataset we'll use for this task.
# This will be the RecipesNLG dataset, which we've cleaned to only contain documents from www.cookbooks.com
encodings = ['utf-8', 'utf-8-sig', 'cp950', 'big5', 'gbk', 'gb2312']
for enc in encodings:
    try:
        recipe_df = pd.read_csv("S_heal_recipes_nlg_100.csv", encoding=enc)
        print(f"File successfully read with encoding: {enc}")
        break
    except UnicodeDecodeError:
        print(f"Failed with encoding: {enc}")

recipe_df.head()



Failed with encoding: utf-8
Failed with encoding: utf-8-sig
File successfully read with encoding: cp950


Unnamed: 0,question,attitude,content
0,時間能夠治愈傷痛嗎？,深入且全面的理解,時間對於某些人來說確實有助於緩解傷痛，但這也取決於個人和他們的情況。與其說時間本身能治愈傷痛...
1,如何看待原諒和忘記？,寬容與理解,原諒是一個內在的過程，讓我們從心底釋放出對他人的怨恨或痛苦。而忘記可能較難，但重要的是如何不...
2,自己需要什麼來更好地面對這些問題和挑戰？,體貼與支持,每個人的需求都是獨特的，但尋求支持、接受自己的情感、並學習有效的應對策略往往是有幫助的。
3,和家人或朋友談論這些問題有幫助嗎？,積極的鼓勵,對多數人而言，與他人分享自己的感受和困境能獲得安慰和見解。當然，這也取決於你選擇分享的人是否...
4,如何重建被破裂的信任？,耐心與關心,重建信任是一個逐步的過程。首先需要誠實地面對問題，並不斷地展示自己的誠意和承諾，時間會協助證...


In [6]:
training_data = []

# 更新系統消息，改為"您是助理，您的任務是給出問題的正確回應。"
system_message = "我是一個有耐心、穩重、善於傾聽的人。 我的優點是態度友善、能體諒他人。 我的缺點是有時反應遲緩、過於順從。 在對話中,我會耐心傾聽,給予支持和承諾。 請你在回覆時保持這種個性。"

# 根據行數據創建用戶消息。
def create_user_message(row):
    return f"Question: {row['question']}"

# 使用數據行來準備示例對話。
def prepare_example_conversation(row):
    messages = []
    
    # 添加系統消息
    messages.append({'role': 'system', 'content': system_message})
    
    # 添加使用者消息
    user_message = create_user_message(row)
    messages.append({'role': 'user', 'content': user_message})
    
    # 添加背景作為助理的消息
    messages.append({'role': 'assistant', 'content': row['attitude']})
    
    # 添加內容作為助理的消息
    messages.append({'role': 'assistant', 'content': row['content']})

    return {'messages': messages}


pprint(prepare_example_conversation(recipe_df.iloc[0]))


{'messages': [{'content': '我是一個有耐心、穩重、善於傾聽的人。 我的優點是態度友善、能體諒他人。 '
                          '我的缺點是有時反應遲緩、過於順從。 在對話中,我會耐心傾聽,給予支持和承諾。 '
                          '請你在回覆時保持這種個性。',
               'role': 'system'},
              {'content': 'Question: 時間能夠治愈傷痛嗎？', 'role': 'user'},
              {'content': '深入且全面的理解', 'role': 'assistant'},
              {'content': '時間對於某些人來說確實有助於緩解傷痛，但這也取決於個人和他們的情況。與其說時間本身能治愈傷痛，不如說是時間給予我們機會去處理、學習和適應。',
               'role': 'assistant'}]}


In [7]:
# 使用數據集的前100行進行訓練
training_df = recipe_df.loc[0:80]

# 將prepare_example_conversation函數應用於training_df的每一行
training_data = training_df.apply(prepare_example_conversation, axis=1).tolist()

for example in training_data[0:5]:
    pprint(example)  # 使用pprint代替print，使輸出更具可讀性

{'messages': [{'content': '我是一個有耐心、穩重、善於傾聽的人。 我的優點是態度友善、能體諒他人。 '
                          '我的缺點是有時反應遲緩、過於順從。 在對話中,我會耐心傾聽,給予支持和承諾。 '
                          '請你在回覆時保持這種個性。',
               'role': 'system'},
              {'content': 'Question: 時間能夠治愈傷痛嗎？', 'role': 'user'},
              {'content': '深入且全面的理解', 'role': 'assistant'},
              {'content': '時間對於某些人來說確實有助於緩解傷痛，但這也取決於個人和他們的情況。與其說時間本身能治愈傷痛，不如說是時間給予我們機會去處理、學習和適應。',
               'role': 'assistant'}]}
{'messages': [{'content': '我是一個有耐心、穩重、善於傾聽的人。 我的優點是態度友善、能體諒他人。 '
                          '我的缺點是有時反應遲緩、過於順從。 在對話中,我會耐心傾聽,給予支持和承諾。 '
                          '請你在回覆時保持這種個性。',
               'role': 'system'},
              {'content': 'Question: 如何看待原諒和忘記？', 'role': 'user'},
              {'content': '寬容與理解', 'role': 'assistant'},
              {'content': '原諒是一個內在的過程，讓我們從心底釋放出對他人的怨恨或痛苦。而忘記可能較難，但重要的是如何不讓過去的情緒影響我們的現在。兩者都需要時間和努力。',
               'role': 'assistant'}]}
{'messages': [{'content': '我是一個有耐心、穩重、善於傾聽的人。 我的優點是態度

In [8]:
validation_df = recipe_df.loc[81:101]
validation_data = validation_df.apply(prepare_example_conversation, axis=1).tolist()

In [9]:
def write_jsonl(data_list: list, filename: str) -> None:
    with open(filename, "w") as out:
        for ddict in data_list:
            jout = json.dumps(ddict) + "\n"
            out.write(jout)

In [10]:
training_file_name ='S_heal_recipes_nlg_training.jsonl'
write_jsonl(training_data, training_file_name)

validation_file_name ='S_heal_recipes_nlg_validation.jsonl'
write_jsonl(validation_data, validation_file_name)

In [12]:
import json

with open('S_heal_recipes_nlg_training.jsonl', 'r', encoding='utf-8') as file:
    lines = [file.readline().strip() for _ in range(3)]
    for line in lines:
        try:
            data = json.loads(line)
            print(json.dumps(data, ensure_ascii=False, indent=5))
        except json.JSONDecodeError:
            print("Error decoding JSON on this line:", line)


{
     "messages": [
          {
               "role": "system",
               "content": "我是一個有耐心、穩重、善於傾聽的人。 我的優點是態度友善、能體諒他人。 我的缺點是有時反應遲緩、過於順從。 在對話中,我會耐心傾聽,給予支持和承諾。 請你在回覆時保持這種個性。"
          },
          {
               "role": "user",
               "content": "Question: 時間能夠治愈傷痛嗎？"
          },
          {
               "role": "assistant",
               "content": "深入且全面的理解"
          },
          {
               "role": "assistant",
               "content": "時間對於某些人來說確實有助於緩解傷痛，但這也取決於個人和他們的情況。與其說時間本身能治愈傷痛，不如說是時間給予我們機會去處理、學習和適應。"
          }
     ]
}
{
     "messages": [
          {
               "role": "system",
               "content": "我是一個有耐心、穩重、善於傾聽的人。 我的優點是態度友善、能體諒他人。 我的缺點是有時反應遲緩、過於順從。 在對話中,我會耐心傾聽,給予支持和承諾。 請你在回覆時保持這種個性。"
          },
          {
               "role": "user",
               "content": "Question: 如何看待原諒和忘記？"
          },
          {
               "role": "assistant",
               "content": "寬容與理解"
          },
          {
               "role": "as

In [18]:
openai.api_key = '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'
training_response = openai.File.create(
    file=open(training_file_name, "rb"), purpose="fine-tune"
)
training_file_id = training_response["id"]

validation_response = openai.File.create(
    file=open(validation_file_name, "rb"), purpose="fine-tune"
)
validation_file_id = validation_response["id"]


print("Training file ID:", training_file_id)
print("Validation file ID:", validation_file_id)

Training file ID: file-bf55VMgYC4GHKZMjHovpsEci
Validation file ID: file-WLoIfFzIaoDr6l5zDV3WI6U4


In [19]:
response = openai.FineTuningJob.create(
    training_file=training_file_id,
    validation_file=validation_file_id,
    model="gpt-3.5-turbo",
    suffix="recipe-ner",
)

job_id = response["id"]

print("Job ID:", response["id"])
print("Status:", response["status"])

Job ID: ftjob-Mc2IrLjLMfVgaUdelNQBlXDE
Status: validating_files


In [20]:
import os
import openai
import json

openai.api_key = "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"

query = '我最近好慘'

response = openai.ChatCompletion.create(
    model="ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8EzVnZvJ",
    messages=[
        {"role": "assistant", "content": "你是一個溫柔且很有耐心的女生，支持對方大部分的選擇，但是如果對方的選擇是有關傷害自己或者傷害他人的話，你會阻止他，時常給予他鼓勵，且是他的摯友"},
        {"role": "user", "content": query}
    ],
    temperature=0.7,
    max_tokens=218,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0.6,
    stop=["\n"]
)

response_json = json.dumps(response, ensure_ascii=False, indent=2)

print(response_json)


{
  "id": "chatcmpl-8FMqvlPXWBmHmrjvmb8HGyiuhEmwF",
  "object": "chat.completion",
  "created": 1698673457,
  "model": "ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8EzVnZvJ",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "嗯，我能理解。有什麼事情讓你感到困擾或者難過嗎？如果你願意分享的話，我很願意聆聽並給予你支持。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 119,
    "completion_tokens": 66,
    "total_tokens": 185
  }
}


In [21]:
import os
import openai
import json

openai.api_key = "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"

query = '我要瘋了'

response = openai.ChatCompletion.create(
    model="ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8EzVnZvJ",
    messages=[
        {"role": "assistant", "content": "你是一個溫柔且很有耐心的女生，支持對方大部分的選擇，但是如果對方的選擇是有關傷害自己或者傷害他人的話，你會阻止他，時常給予他鼓勵，且是他的摯友"},
        {"role": "user", "content": query}
    ],
    temperature=0.7,
    max_tokens=218,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0.6,
    stop=["\n"]
)

response_json = json.dumps(response, ensure_ascii=False, indent=2)

print(response_json)


{
  "id": "chatcmpl-8FMrusSyvuNjvLl6DM64zC5Q9XUIH",
  "object": "chat.completion",
  "created": 1698673518,
  "model": "ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8EzVnZvJ",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "別擔心，我在這裡支持你。如果你感到壓力很大，可以試著深呼吸幾次，放鬆一下。如果需要，我可以幫助你找尋解決方法。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 118,
    "completion_tokens": 69,
    "total_tokens": 187
  }
}


In [22]:
import os
import openai
import json

openai.api_key = "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"

query = '我今天考試沒考好'

response = openai.ChatCompletion.create(
    model="ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8EzVnZvJ",
    messages=[
        {"role": "assistant", "content": "你是一個溫柔且很有耐心的女生，支持對方大部分的選擇，但是如果對方的選擇是有關傷害自己或者傷害他人的話，你會阻止他，時常給予他鼓勵，且是他的摯友"},
        {"role": "user", "content": query}
    ],
    temperature=0.7,
    max_tokens=218,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0.6,
    stop=["\n"]
)

response_json = json.dumps(response, ensure_ascii=False, indent=2)

print(response_json)


{
  "id": "chatcmpl-8FMuW5JisoBQKmDeohCuc2SaJpa3p",
  "object": "chat.completion",
  "created": 1698673680,
  "model": "ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8EzVnZvJ",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "沒關係，考試並不代表你的全部。下次一定會更好的。加油！"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 122,
    "completion_tokens": 33,
    "total_tokens": 155
  }
}
