llamaindexを用いた検索結果をプロンプトに挿入するのかを判断させる言語モデルの作成のためのファインチューニング用データを用意するためのソースコード

In [1]:
import os
import openai

title = "NoGame"

# 環境変数の設定
os.environ["OPENAI_API_KEY"] = "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"
openai.api_key = os.environ["OPENAI_API_KEY"]

In [2]:
from llama_index import SimpleDirectoryReader

# ドキュメントの読み込み
documents = SimpleDirectoryReader(
    input_files=["row_anime_voices\scenes_summary.txt"]
).load_data()

In [4]:
from llama_index.text_splitter import SentenceSplitter
from llama_index.node_parser import SimpleNodeParser

# ノードパーサーの準備
text_splitter = SentenceSplitter(
    chunk_overlap = 0,
    paragraph_separator="[SEP]",
)
node_parser = SimpleNodeParser.from_defaults(
    text_splitter=text_splitter
)

In [5]:
from llama_index.schema import MetadataMode
import json

# ドキュメントをコーパスに変換
nodes = node_parser.get_nodes_from_documents(documents)
corpus = {node.node_id: node.get_content(metadata_mode=MetadataMode.NONE) for node in nodes}

# コーパスの保存
with open(f"RAG/{title}_summary_corpus.json", "w+",encoding="utf-8") as f:
    json.dump(corpus, f, ensure_ascii=False)


In [6]:
# 既にファイル作成済みの場合はこっち
import json

with open(f"RAG/{title}_summary_corpus.json","r") as f:
    corpus = json.load(f)
    

In [8]:
import re
import uuid
from llama_index.llms import OpenAI
from tqdm.notebook import tqdm

# 合成データの作成関数
def generate_queries(
    corpus,
    num_questions_per_chunk=10,
    prompt_template=None,
    verbose=False,
):
    llm = OpenAI(model="gpt-3.5-turbo")

    prompt_template = prompt_template or """\
    文脈は以下のとおりです。

    ---------------------
    {context_str}
    ---------------------

    あなたは教師です。 あなたの仕事は、試験問題を作成することです。
    日本のアニメ作品に文脈から重要な事実を捉える{num_questions_per_chunk} 個の質問を、以下の条件で作成します。
    - 質問は必ず提供された文脈に限定
    - 質問は必ず日本語で記述
    - 代名詞は絶対に使用しない
    - 質問は文書全体にわたって本質的に多様である必要がある
    """

    queries = {}
    queries_relevant_docs = {}
    for node_id, text in tqdm(corpus.items()):
        query = prompt_template.format(context_str=text, num_questions_per_chunk=num_questions_per_chunk)
        response = llm.complete(query)

        result = str(response).strip().split("\n")
        questions = [
            re.sub(r"^\d+[\).\s]", "", question).strip() for question in result
        ]
        questions = [question for question in questions if len(question) > 0]

        for question in questions:
            question_id = str(uuid.uuid4())
            queries[question_id] = question
            queries_relevant_docs[question_id] = [node_id]
    return queries, queries_relevant_docs

In [9]:
# 合成データの作成
queries, queries_relevant_docs = generate_queries(corpus,num_questions_per_chunk=20)

print(queries)

  0%|          | 0/18 [00:00<?, ?it/s]

{'28c39365-3949-4941-8dad-ed6d94a35a9a': '空は何体のキャラクターを操作していたのですか？', '65e968b1-5b07-4134-ae85-910ef7f89fa4': '空はなぜ白に「妹よ空白名義のメインアカウント足で操作するのやめてくれません」と言ったのですか？', '9fe096fc-c610-44a7-adab-9f9155e22b76': '白はなぜカロリーメイトを食べていたのですか？', '39603962-da86-44e8-be4a-c70cc2e8c4fc': '空はなぜ白がカロリーメイトを食べることについて「ブルジョアなものを買うとはなぁ」と言ったのですか？', 'de2323ed-8a17-45a2-9c45-f729d54f4b10': '空はなぜ「妹よ人間の脳はぶどう糖さえあれば機能する,食パンがコスパ的に最強」と言ったのですか？', '5df882ba-2ea1-4f25-893d-d80bf11f1cbd': '白はなぜ「ぶどう糖だけでは胸が大きくならないことを伝えます」と言ったのですか？', '5195791f-eded-48ba-b579-5bbdf5f4cafb': '空はなぜ白に「今、何時だ?」と尋ねたのですか？', '5fc0dbaa-3c5c-4201-b346-25947a907b32': '空はなぜ「何日の?」とさらに聞き返したのですか？', '8ff5112d-ad27-478c-8a29-7223b33d74bf': '白はなぜ「ニートに関係ある?」と言ったのですか？', 'd580f7c9-349a-4775-9442-4cec4d253f87': '空はなぜ「あるだろうネトゲのイベント開催日とかランク大会とか」と言ったのですか？', '3b012407-1a36-4b6e-8b3b-ee545cd0ddc4': '空はなぜ白が寝ようとしていることに気づいたのですか？', 'ef37af94-7120-472b-8cdd-9268aa42f328': '空はなぜ白に「ちょっと待って五徹なのはわかるが、今落ちられたら回復担当が」と懇願したのですか？', 'd8966404-0459-4faf-a3f0-b7b3dadae7d1': '白はなぜ空の両足にマウスをはめたのです

In [13]:
with open(r"final_character_DB\NoGame_queries.json","w") as f:
    json.dump(queries,f, ensure_ascii=False)

with open(r"final_character_DB\NoGame_queries_relevant_docs.json","w") as f:
    json.dump(queries_relevant_docs,f, ensure_ascii=False)

In [17]:
print(corpus)

{'2df4c014-bc12-418c-bceb-6d12483d696c': '空白は、二人で合計4体のキャラクターを操作して、1200体の敵キャラクターとの対決を行った。白は、足で2体のキャラクターを操作していたため、空に「妹よ空白名義のメインアカウント足で操作するのやめてくれません」と言われる。それに対し、白はカロリーメイトを食べていて両手がふさがっていてからしょうがないと言い訳をします。それに対し、空は「白がカロリーメイトなんて、ブルジョアなものを買うとはなぁ」と言います。白は「栄養大事」といいますが、それに対し空は「妹よ人間の脳はぶどう糖さえあれば機能する,食パンがコスパ的に最強」といいます。白は「効率中乙、でもその他の栄養もなきゃ大きくならない」と、ぶどう糖だけでは胸が大きくならないことを伝えます。それに対し、空は「白はもう完全無欠な美人さんだから気にする必要ないだろう」と言いました。空は、その後「今、何時だ?」と白に尋ねました。白が、「夜中の午前8時」と日付を教えると、空は「何日の?」とさらに聞き返しました。しかし、白は「ニートに関係ある?」と空に言いました。空は「あるだろうネトゲのイベント開催日とかランク大会とか」と言う。この時、空は白が寝ようとしていることに気づき、「ちょっと待って五徹なのはわかるが、今落ちられたら回復担当が」と寝ないように懇願します。しかし、白は空の両足にマウスをはめて、「兄ならできる」と言いました。空は、白「おいまさか両手両足で4キャラ操作しろってことか」と状況を理解し、白に助けを求めましたが、白は「ファイト」と告げ眠りにつきました。結局、空が4キャラを操作して勝負をしました。しかし、空のゲーム技術はすさまじく1200体の敵を全て倒しました。倒された敵は、空白がチーターであると疑いました。', 'bd3a6dc8-a644-462a-b6e0-7c655888cbdc': 'しかし、実際は1200人の空白の敵が不正ツールをつかったチータであり、大魔法を連射するといったチートを使用していました。それにもかかわらず、空白はそれも予測していました。その空白のあまりの頭の良さに、敵は驚き空白の噂はさらに加速していった。\n[SEP]\n4体1200のゲーム勝負に勝利した後、空白のパソコンにあるメールが届く。メールには、「君ら兄弟は、生

In [59]:
queries_list=[]
queries_id_list=[]

for key, value in queries.items():
    queries_list.append(value)
    queries_id_list.append(key)

In [65]:
import random
import re

queries_id_real_list = queries_id_list[:]
shuffled_queries_id_list = []

for i in range(len(queries_id_real_list)):
    if (i%2==1):
        shuffled_queries_id_list.append(random.choice(queries_id_list))
    else:
        shuffled_queries_id_list.append(queries_id_list[i])


with open(r"train_dataset\train_dataset_for_usegate.csv","w") as f:
    for i in range(len(queries_list)):
        if (shuffled_queries_id_list[i] == queries_id_real_list[i]):
            answer = corpus[queries_relevant_docs[shuffled_queries_id_list[i]][0]]
            answer = answer.replace("\n","")
            answer = answer.replace(",","、")
            query = queries_list[i]
            query = query.replace(",","、")
            f.write(query+","+answer+",0\n")
        else:
            answer = corpus[queries_relevant_docs[shuffled_queries_id_list[i]][0]]
            answer = answer.replace("\n","")
            answer = answer.replace(",","、")
            query = queries_list[i]
            query = query.replace(",","、")
            f.write(query+","+answer+",1\n")
