最終モデル評価用データの作成

## openaiに関する設定

In [2]:
import os
# OpenAIに関する環境変数
api_key = os.environ["OPENAI_API_KEY"]

In [3]:
from openai import OpenAI
import pandas as pd

# OpenAI クライアントの初期化
client = OpenAI(api_key=api_key)

## ユーザ質問の作成

質問文を複数作成

In [4]:
texts = ["東京国際工科専門職大学について詳細に教えて","人工知能システム開発Ⅰ・Ⅱという授業について教えて","企業内実習とはどのようなものですか","1年次前期に学べることは何ですか"]
label = [0,3,1,2]

user_df = pd.DataFrame({
    "user_question":texts,
    "label_num":label
})
user_df

Unnamed: 0,user_question,label_num
0,東京国際工科専門職大学について詳細に教えて,0
1,人工知能システム開発Ⅰ・Ⅱという授業について教えて,3
2,企業内実習とはどのようなものですか,1
3,1年次前期に学べることは何ですか,2


In [5]:
import openai
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

# dfからchunkデータを取得
base_chunks = user_df['user_question'].tolist()
base_label = user_df['label_num'].tolist()

# ChatGPTに言い換えをリクエスト
q_summarize_data = []
label_data = []
total = len(base_chunks)*25
chunk_counter = 0

for i in range(total):
    su_target = base_chunks[chunk_counter]
    su_label = base_label[chunk_counter]

    label_data.append(su_label)

    print("対象：",chunk_counter)
    if i % 25 == 0:
        if i > 0:
            chunk_counter += 1
        
    while True:
        response = client.chat.completions.create(
            model="gpt-3.5-turbo", 
            messages=[
                {"role": "user", "content": f"次の文章は質問文である。類似の質問文を作成して。: {su_target}"}
            ]
        )
        
        content = response.choices[0].message.content

        # 生成が上手くいかない場合、再生成させる
        if content not in q_summarize_data:
            break

    print(content)
    print("=" * 100)
    q_summarize_data.append(content)

対象： 0
東京国際工科専門職大学はどのような大学ですか？
東京国際工科専門職大学の特徴を教えてください。
東京国際工科専門職大学にはどのような学部や学科がありますか？
東京国際工科専門職大学の入学試験内容や要件について詳しく教えてください。
東京国際工科専門職大学のキャンパスや設備について教えてください。
東京国際工科専門職大学の学生生活や就職実績について詳細を教えてください。
対象： 0
東京国際工科専門職大学の詳細について教えてください。
対象： 0
東京国際工科専門職大学のカリキュラムや施設について詳しく教えてください。
対象： 0
東京国際工科専門職大学のカリキュラムはどのようなものですか？
対象： 0
東京国際工科専門職大学にはどのような専攻がありますか？
対象： 0
東京国際工科専門職大学について何か詳しい情報はありますか？
対象： 0
東京国際工科専門職大学についての詳細を教えてください。
東京国際工科専門職大学にはどのようなプログラムや専攻がありますか？
東京国際工科専門職大学の入学要件はどのようなものですか？
評判の良い東京国際工科専門職大学の教員や研究施設について教えてください。
対象： 0
東京国際工科専門職大学はどのような特徴を持っていますか？
対象： 0
東京国際工科専門職大学に関して、もっと詳しく教えていただけますか？
対象： 0
東京国際工科専門職大学はどのような学校ですか？
対象： 0
東京国際工科専門職大学はどのような専門分野に特化していますか？
対象： 0
東京国際工科専門職大学に関して、もっと詳しい情報を教えてください。
対象： 0
東京国際工科専門職大学とは、どのような特徴を持つ大学ですか？
対象： 0
東京国際工科専門職大学について詳しく教えてくれますか？

東京国際工科専門職大学に関して詳細を教えてください。

東京国際工科専門職大学についての詳細情報を教えていただけますか？

東京国際工科専門職大学の詳しい情報を教えてください。
対象： 0
東京国際工科専門職大学の詳細について教えていただけますか？
対象： 0
東京国際工科専門職大学はどのような特徴を持った大学ですか？
対象： 0
東京国際工科専門職大学のカリキュラムにはどのような科目が含まれていますか？
対象： 0
東京国際工科専門職大学のカリキュラム内容はどのよう

In [6]:
print(label_data)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]


In [13]:
q_summarize_data

['東京国際工科専門職大学はどのような大学ですか？\n東京国際工科専門職大学の特徴を教えてください。\n東京国際工科専門職大学にはどのような学部や学科がありますか？\n東京国際工科専門職大学の入学試験内容や要件について詳しく教えてください。\n東京国際工科専門職大学のキャンパスや設備について教えてください。\n東京国際工科専門職大学の学生生活や就職実績について詳細を教えてください。',
 '東京国際工科専門職大学の詳細について教えてください。',
 '東京国際工科専門職大学のカリキュラムや施設について詳しく教えてください。',
 '東京国際工科専門職大学のカリキュラムはどのようなものですか？',
 '東京国際工科専門職大学にはどのような専攻がありますか？',
 '東京国際工科専門職大学について何か詳しい情報はありますか？',
 '東京国際工科専門職大学についての詳細を教えてください。\n東京国際工科専門職大学にはどのようなプログラムや専攻がありますか？\n東京国際工科専門職大学の入学要件はどのようなものですか？\n評判の良い東京国際工科専門職大学の教員や研究施設について教えてください。',
 '東京国際工科専門職大学はどのような特徴を持っていますか？',
 '東京国際工科専門職大学に関して、もっと詳しく教えていただけますか？',
 '東京国際工科専門職大学はどのような学校ですか？',
 '東京国際工科専門職大学はどのような専門分野に特化していますか？',
 '東京国際工科専門職大学に関して、もっと詳しい情報を教えてください。',
 '東京国際工科専門職大学とは、どのような特徴を持つ大学ですか？',
 '東京国際工科専門職大学について詳しく教えてくれますか？\n\n東京国際工科専門職大学に関して詳細を教えてください。\n\n東京国際工科専門職大学についての詳細情報を教えていただけますか？\n\n東京国際工科専門職大学の詳しい情報を教えてください。',
 '東京国際工科専門職大学の詳細について教えていただけますか？',
 '東京国際工科専門職大学はどのような特徴を持った大学ですか？',
 '東京国際工科専門職大学のカリキュラムにはどのような科目が含まれていますか？',
 '東京国際工科専門職大学のカリキュラム内容はどのようなものですか？\n\n東京国際工科専門職大学の入

In [14]:
before_data_q = user_df["user_question"].tolist()
q_summarize_data += before_data_q

In [15]:
before_data_l = user_df["label_num"].tolist()
label_data += before_data_l

In [16]:
output_df = pd.DataFrame({
    "user_question":q_summarize_data,
    "label_num":label_data
})
output_df

Unnamed: 0,user_question,label_num
0,東京国際工科専門職大学はどのような大学ですか？\n東京国際工科専門職大学の特徴を教えてくださ...,0
1,東京国際工科専門職大学の詳細について教えてください。,0
2,東京国際工科専門職大学のカリキュラムや施設について詳しく教えてください。,0
3,東京国際工科専門職大学のカリキュラムはどのようなものですか？,0
4,東京国際工科専門職大学にはどのような専攻がありますか？,0
...,...,...
99,1年次前期に学べる内容は何ですか？\n1年次の前期で取り組むべき学習内容は何ですか？\n1年...,2
100,東京国際工科専門職大学について詳細に教えて,0
101,人工知能システム開発Ⅰ・Ⅱという授業について教えて,3
102,企業内実習とはどのようなものですか,1


In [17]:
output_df.to_excel('C:/Users/iput Hata Sakuto/cuda-11.8/提出/自作モデル-2/1. 文書検索層/user_question.xlsx')

作成した質問文に対するベクトルデータを付与

In [18]:
from openai import OpenAI
import pandas as pd

def pd_embedding(text, model="text-embedding-ada-002"):
    text = text.replace("\n", " ")
    return client.embeddings.create(input=[text], model=model).data[0].embedding

# データフレームの各行に対して get_embedding 関数を適用
output_df['q_embedding'] = output_df['user_question'].apply(lambda x: pd_embedding(x, model='text-embedding-ada-002'))

# 最終的にデータフレームを CSV ファイルに保存します
output_df.to_csv('C:/Users/iput Hata Sakuto/cuda-11.8/提出/自作モデル-2/1. 文書検索層/user_question_af.csv', index=False)
output_df

Unnamed: 0,user_question,label_num,q_embedding
0,東京国際工科専門職大学はどのような大学ですか？\n東京国際工科専門職大学の特徴を教えてくださ...,0,"[0.005144991911947727, 0.016828875988721848, 0..."
1,東京国際工科専門職大学の詳細について教えてください。,0,"[-0.004907993134111166, 0.006598487496376038, ..."
2,東京国際工科専門職大学のカリキュラムや施設について詳しく教えてください。,0,"[0.008754340931773186, -0.0022703236900269985,..."
3,東京国際工科専門職大学のカリキュラムはどのようなものですか？,0,"[0.01083073578774929, 0.0026741730980575085, 0..."
4,東京国際工科専門職大学にはどのような専攻がありますか？,0,"[-0.00040638208156451583, -0.00031842320458963..."
...,...,...,...
99,1年次前期に学べる内容は何ですか？\n1年次の前期で取り組むべき学習内容は何ですか？\n1年...,2,"[0.02193983644247055, 0.0018748114816844463, 0..."
100,東京国際工科専門職大学について詳細に教えて,0,"[-0.007081084419041872, 0.003868370084092021, ..."
101,人工知能システム開発Ⅰ・Ⅱという授業について教えて,3,"[0.005705446470528841, -0.021935762837529182, ..."
102,企業内実習とはどのようなものですか,1,"[-0.009546281769871712, -0.02724781632423401, ..."
