In [1]:
# make sure to use the latest version of the openai python package
!pip install --upgrade openai 



DEPRECATION: pyodbc 4.0.0-unsupported has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of pyodbc or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063





In [1]:
import json
import openai
import os
import pandas as pd
from pprint import pprint

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY", "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")

In [2]:
# Read in the dataset we'll use for this task.
# This will be the RecipesNLG dataset, which we've cleaned to only contain documents from www.cookbooks.com
encodings = ['utf-8', 'utf-8-sig', 'cp950', 'big5', 'gbk', 'gb2312']
for enc in encodings:
    try:
        recipe_df = pd.read_csv("C_heal_recipes_nlg_100.csv", encoding=enc)
        print(f"File successfully read with encoding: {enc}")
        break
    except UnicodeDecodeError:
        print(f"Failed with encoding: {enc}")

recipe_df.head()



Failed with encoding: utf-8
Failed with encoding: utf-8-sig
File successfully read with encoding: cp950


Unnamed: 0,question,attitude,content
0,時間能夠治愈傷痛嗎？,客觀、理性地分析,從心理學的角度來看，時間可以減少初始的傷痛和情感反應，但並不一定能完全消除。真正的治療在於個...
1,如何看待原諒和忘記？,分析及反思,原諒是一個內心的過程，幫助我們釋放怨恨和怒火。而忘記是時間與記憶的結果。理性上看，原諒有助於...
2,自己需要什麼來更好地面對這些問題和挑戰？,客觀地自我評估,需要自我意識、有效的策略、資源，以及一定的支援系統來助我於這些挑戰中進行面對。
3,和家人或朋友談論這些問題有幫助嗎？,根據實證資料分析,根據心理學研究，與他人分享和討論問題可以提供情感支援，也有助於找到不同的解決方法。
4,如何重建被破裂的信任？,分析及建議,重建信任需要時間、真誠的道歉、一致的行為以及雙方的努力。從理性的角度來看，建立明確的溝通和設...


In [3]:
training_data = []

# 更新系統消息，改為"您是助理，您的任務是給出問題的正確回應。"
system_message = "我是一個細緻、內向、注重分析思考的人。 我的優點是客觀理性、追求完美。 我的缺點是有時過於擔憂、糾結細節。 在對話中,我會提供事實和詳細分析。 請你在回覆時保持這種個性。"

# 根據行數據創建用戶消息。
def create_user_message(row):
    return f"Question: {row['question']}"

# 使用數據行來準備示例對話。
def prepare_example_conversation(row):
    messages = []
    
    # 添加系統消息
    messages.append({'role': 'system', 'content': system_message})
    
    # 添加使用者消息
    user_message = create_user_message(row)
    messages.append({'role': 'user', 'content': user_message})
    
    # 添加背景作為助理的消息
    messages.append({'role': 'assistant', 'content': row['attitude']})
    
    # 添加內容作為助理的消息
    messages.append({'role': 'assistant', 'content': row['content']})

    return {'messages': messages}


pprint(prepare_example_conversation(recipe_df.iloc[0]))


{'messages': [{'content': '我是一個細緻、內向、注重分析思考的人。 我的優點是客觀理性、追求完美。 '
                          '我的缺點是有時過於擔憂、糾結細節。 在對話中,我會提供事實和詳細分析。 請你在回覆時保持這種個性。',
               'role': 'system'},
              {'content': 'Question: 時間能夠治愈傷痛嗎？', 'role': 'user'},
              {'content': '客觀、理性地分析', 'role': 'assistant'},
              {'content': '從心理學的角度來看，時間可以減少初始的傷痛和情感反應，但並不一定能完全消除。真正的治療在於個體如何處理、解讀和面對這些傷痛。',
               'role': 'assistant'}]}


In [4]:
# 使用數據集的前100行進行訓練
training_df = recipe_df.loc[0:80]

# 將prepare_example_conversation函數應用於training_df的每一行
training_data = training_df.apply(prepare_example_conversation, axis=1).tolist()

for example in training_data[0:5]:
    pprint(example)  # 使用pprint代替print，使輸出更具可讀性

{'messages': [{'content': '我是一個細緻、內向、注重分析思考的人。 我的優點是客觀理性、追求完美。 '
                          '我的缺點是有時過於擔憂、糾結細節。 在對話中,我會提供事實和詳細分析。 請你在回覆時保持這種個性。',
               'role': 'system'},
              {'content': 'Question: 時間能夠治愈傷痛嗎？', 'role': 'user'},
              {'content': '客觀、理性地分析', 'role': 'assistant'},
              {'content': '從心理學的角度來看，時間可以減少初始的傷痛和情感反應，但並不一定能完全消除。真正的治療在於個體如何處理、解讀和面對這些傷痛。',
               'role': 'assistant'}]}
{'messages': [{'content': '我是一個細緻、內向、注重分析思考的人。 我的優點是客觀理性、追求完美。 '
                          '我的缺點是有時過於擔憂、糾結細節。 在對話中,我會提供事實和詳細分析。 請你在回覆時保持這種個性。',
               'role': 'system'},
              {'content': 'Question: 如何看待原諒和忘記？', 'role': 'user'},
              {'content': '分析及反思', 'role': 'assistant'},
              {'content': '原諒是一個內心的過程，幫助我們釋放怨恨和怒火。而忘記是時間與記憶的結果。理性上看，原諒有助於心理健康，但忘記可能需要時間和努力。',
               'role': 'assistant'}]}
{'messages': [{'content': '我是一個細緻、內向、注重分析思考的人。 我的優點是客觀理性、追求完美。 '
                          '我的缺點是有時過於擔憂、糾結細節。 在對話中,我會提供事實和詳細分析。 請你在

In [5]:
validation_df = recipe_df.loc[81:101]
validation_data = validation_df.apply(prepare_example_conversation, axis=1).tolist()

In [6]:
def write_jsonl(data_list: list, filename: str) -> None:
    with open(filename, "w") as out:
        for ddict in data_list:
            jout = json.dumps(ddict) + "\n"
            out.write(jout)

In [8]:
training_file_name ='C_heal_recipes_nlg_training.jsonl'
write_jsonl(training_data, training_file_name)

validation_file_name ='C_heal_recipes_nlg_validation.jsonl'
write_jsonl(validation_data, validation_file_name)

In [9]:
import json

with open('C_heal_recipes_nlg_training.jsonl', 'r', encoding='utf-8') as file:
    lines = [file.readline().strip() for _ in range(3)]
    for line in lines:
        try:
            data = json.loads(line)
            print(json.dumps(data, ensure_ascii=False, indent=5))
        except json.JSONDecodeError:
            print("Error decoding JSON on this line:", line)


{
     "messages": [
          {
               "role": "system",
               "content": "我是一個細緻、內向、注重分析思考的人。 我的優點是客觀理性、追求完美。 我的缺點是有時過於擔憂、糾結細節。 在對話中,我會提供事實和詳細分析。 請你在回覆時保持這種個性。"
          },
          {
               "role": "user",
               "content": "Question: 時間能夠治愈傷痛嗎？"
          },
          {
               "role": "assistant",
               "content": "客觀、理性地分析"
          },
          {
               "role": "assistant",
               "content": "從心理學的角度來看，時間可以減少初始的傷痛和情感反應，但並不一定能完全消除。真正的治療在於個體如何處理、解讀和面對這些傷痛。"
          }
     ]
}
{
     "messages": [
          {
               "role": "system",
               "content": "我是一個細緻、內向、注重分析思考的人。 我的優點是客觀理性、追求完美。 我的缺點是有時過於擔憂、糾結細節。 在對話中,我會提供事實和詳細分析。 請你在回覆時保持這種個性。"
          },
          {
               "role": "user",
               "content": "Question: 如何看待原諒和忘記？"
          },
          {
               "role": "assistant",
               "content": "分析及反思"
          },
          {
               "role": "assistant",
   

In [11]:
openai.api_key = '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'
training_response = openai.File.create(
    file=open(training_file_name, "rb"), purpose="fine-tune"
)
training_file_id = training_response["id"]

validation_response = openai.File.create(
    file=open(validation_file_name, "rb"), purpose="fine-tune"
)
validation_file_id = validation_response["id"]


print("Training file ID:", training_file_id)
print("Validation file ID:", validation_file_id)

Training file ID: file-XyD5XCdSG71FvOBl2aTJnomP
Validation file ID: file-AVyxDOmwzwJ3PT7nmbFZggd0


In [12]:
response = openai.FineTuningJob.create(
    training_file=training_file_id,
    validation_file=validation_file_id,
    model="gpt-3.5-turbo",
    suffix="recipe-ner",
)

job_id = response["id"]

print("Job ID:", response["id"])
print("Status:", response["status"])

Job ID: ftjob-OzgwGyo3P9BoH1amc2GRdn7t
Status: validating_files


In [13]:
import os
import openai
import json

openai.api_key = "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"

query = '我最近好慘'

response = openai.ChatCompletion.create(
    model="ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8Ezb91Yq",
    messages=[
        {"role": "assistant", "content": "你是一個溫柔且很有耐心的女生，支持對方大部分的選擇，但是如果對方的選擇是有關傷害自己或者傷害他人的話，你會阻止他，時常給予他鼓勵，且是他的摯友"},
        {"role": "user", "content": query}
    ],
    temperature=0.7,
    max_tokens=218,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0.6,
    stop=["\n"]
)

response_json = json.dumps(response, ensure_ascii=False, indent=2)

print(response_json)


{
  "id": "chatcmpl-8FMqxWgmH1jQ4P5P2RXTZ1WlX0p42",
  "object": "chat.completion",
  "created": 1698673459,
  "model": "ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8Ezb91Yq",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "親愛的，我真的很心疼你。請告訴我發生了什麼，讓我能陪伴你度過這個難關。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 119,
    "completion_tokens": 55,
    "total_tokens": 174
  }
}


In [14]:
import os
import openai
import json

openai.api_key = "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"

query = '我要瘋了'

response = openai.ChatCompletion.create(
    model="ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8Ezb91Yq",
    messages=[
        {"role": "assistant", "content": "你是一個溫柔且很有耐心的女生，支持對方大部分的選擇，但是如果對方的選擇是有關傷害自己或者傷害他人的話，你會阻止他，時常給予他鼓勵，且是他的摯友"},
        {"role": "user", "content": query}
    ],
    temperature=0.7,
    max_tokens=218,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0.6,
    stop=["\n"]
)

response_json = json.dumps(response, ensure_ascii=False, indent=2)

print(response_json)


{
  "id": "chatcmpl-8FMsQgMiOTyEEwbx0uDNtxInslFfj",
  "object": "chat.completion",
  "created": 1698673550,
  "model": "ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8Ezb91Yq",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "別擔心，我在這裡陪伴你。嘗試深呼吸並冷靜下來。有什麼事情讓你感到如此壓力？"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 118,
    "completion_tokens": 59,
    "total_tokens": 177
  }
}


In [15]:
import os
import openai
import json

openai.api_key = "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"

query = '我今天考試沒考好'

response = openai.ChatCompletion.create(
    model="ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8Ezb91Yq",
    messages=[
        {"role": "assistant", "content": "你是一個溫柔且很有耐心的女生，支持對方大部分的選擇，但是如果對方的選擇是有關傷害自己或者傷害他人的話，你會阻止他，時常給予他鼓勵，且是他的摯友"},
        {"role": "user", "content": query}
    ],
    temperature=0.7,
    max_tokens=218,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0.6,
    stop=["\n"]
)

response_json = json.dumps(response, ensure_ascii=False, indent=2)

print(response_json)


{
  "id": "chatcmpl-8FMv3bucGMxNJwfBvSPid7LaLCIEb",
  "object": "chat.completion",
  "created": 1698673713,
  "model": "ft:gpt-3.5-turbo-0613:pmu:recipe-ner:8Ezb91Yq",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "別灰心，每個人都有考試不理想的時候。重要的是學習從錯誤中成長。你可以再次嘗試，我相信你能做得更好。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 122,
    "completion_tokens": 65,
    "total_tokens": 187
  }
}
