# 概要
* GPT_indexの実装を確認する
* 区切りは解決したが、次は複数インデックスを参照して検索してほしい。

# 参考
* https://gpt-index.readthedocs.io/en/latest/how_to/custom_llms.html

In [1]:
import os
import openai

openai.api_key = os.getenv("OPENAI_API_KEY")

In [2]:
#Jupyterでも実行できるのは知らんかった...
import logging
import sys
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

# GPT-indexを用いた場合

In [3]:
from llama_index import (
    GPTKeywordTableIndex, 
    SimpleDirectoryReader, 
    LLMPredictor,
    PromptHelper
)

from gpt_index.indices.knowledge_graph.base import GPTKnowledgeGraphIndex
from langchain import OpenAI

documents = SimpleDirectoryReader('story/dragonball').load_data()

# define prompt helper
# set maximum input size
max_input_size = 4096
# set number of output tokens
num_output = 2048
# set maximum chunk overlap
max_chunk_overlap = 0
prompt_helper = PromptHelper(max_input_size, num_output, max_chunk_overlap, separator="\n\n", chunk_size_limit=512)

# define LLM
llm_predictor = LLMPredictor(llm=OpenAI(temperature=0, model_name="text-davinci-003", max_tokens=num_output))

# build index
index = GPTKeywordTableIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)

DEBUG:root:> [SimpleDirectoryReader] Total files added: 1
DEBUG:root:> Adding chunk: 孫悟空少年編
地球の人里離れた山奥に住む尻尾の生えた少年・孫悟空はある日、西の都からやって来た...
DEBUG:root:> Adding chunk: その後、悟空は旅の途中に知り合った武術の達人・亀仙人の下で、後に親友となるクリリンと共に8か月...
DEBUG:root:> Adding chunk: ピッコロ大魔王編
天下一武道会終了後、ピラフ一味によって復活したピッコロ大魔王によって、クリリ...
DEBUG:root:> Adding chunk: その約3年後、少年から青年へと成長した悟空は、天下一武道会の会場で仲間たちと再会。試合では、少...
DEBUG:root:> Adding chunk: サイヤ人編
ピッコロ（マジュニア）との闘いから約5年後、息子の孫悟飯を儲けて平和な日々を過ごし...
DEBUG:root:> Adding chunk: 悟空はドラゴンボールによって生き返るまでの間、あの世の界王の下で修業し、仲間と共に地球に強襲し...
DEBUG:root:> Adding chunk: フリーザ編
地球の神と殺された仲間たちを甦らせるため、重傷で入院中の悟空に代わり、悟飯、クリリ...
DEBUG:root:> Adding chunk: 出し抜かれて願いが叶えられなかったフリーザは激怒し、一行は対決を強いられる。フリーザの持つ圧倒...
DEBUG:root:> Adding chunk: 人造人間・セル編
ナメック星での闘いから約1年後、密かに生き延びていたフリーザとその一味が地球...
DEBUG:root:> Adding chunk: 人造人間17号と人造人間18号を吸収することで完全体となったセルは地球の命運を賭けた武道会「セ...
DEBUG:root:> Adding chunk: 魔人ブウ編
セルゲームより約7年後、高校生に成長した悟飯が天下一武道会に出場することを知った悟...
DEBUG:root:> Adding chunk: 一方、魔人ブウは様々な人間との出会いからより邪悪で強力な魔人へと変貌。悟天とトランクスが「フュ...
DEBUG:

DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/completions processing_ms=1945 request_id=4592a669238aa843f9c0659dfb356ef0 response_code=200
DEBUG:root:
KEYWORDS: ピッコロ大魔王, クリリン, 亀仙人, 悟空, ヤジロベー, 仙猫カリン, 神龍, 神, 天界, ドラゴンボール
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["Some text is provided below. Given the text, extract up to 10 keywords from the text. Avoid stopwords.---------------------\\n\\u305d\\u306e\\u7d043\\u5e74\\u5f8c\\u3001\\u5c11\\u5e74\\u304b\\u3089\\u9752\\u5e74\\u3078\\u3068\\u6210\\u9577\\u3057\\u305f\\u609f\\u7a7a\\u306f\\u3001\\u5929\\u4e0b\\u4e00\\u6b66\\u9053\\u4f1a\\u306e\\u4f1a\\u5834\\u3067\\u4ef2\\u9593\\u305f\\u3061\\u3068\\u518d\\u4f1a\\u3002\\u8a66\\u5408\\u3067\\u306f\\u3001\\u5c11\\u5e74\\u6642\\u4ee3\\u306b\\u51fa\\u4f1a\\u3063\\u305f\\u

DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/completions processing_ms=1969 request_id=54c8d67df58906cf5e3bedad3d657832 response_code=200
DEBUG:root:
KEYWORDS: 悟空, 悟飯, クリリン, ブルマ, ベジータ, フリーザ, ナメック星, ドラゴンボール, ポルンガ, 地球
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["Some text is provided below. Given the text, extract up to 10 keywords from the text. Avoid stopwords.---------------------\\n\\u51fa\\u3057\\u629c\\u304b\\u308c\\u3066\\u9858\\u3044\\u304c\\u53f6\\u3048\\u3089\\u308c\\u306a\\u304b\\u3063\\u305f\\u30d5\\u30ea\\u30fc\\u30b6\\u306f\\u6fc0\\u6012\\u3057\\u3001\\u4e00\\u884c\\u306f\\u5bfe\\u6c7a\\u3092\\u5f37\\u3044\\u3089\\u308c\\u308b\\u3002\\u30d5\\u30ea\\u30fc\\u30b6\\u306e\\u6301\\u3064\\u5727\\u5012\\u7684\\u306a\\u529b\\u306e\\u524d\\u306b\\u306f\\u30

DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/completions processing_ms=3007 request_id=e2acf9d7990044163b5507739e463e08 response_code=200
DEBUG:root:
KEYWORDS: 人造人間17号, 人造人間18号, 完全体, 武道会, セルゲーム, 悟空, 精神時の部屋, 超サイヤ人2, 悟飯, かめはめ波, ドラゴンボール, 悪人, 世界
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["Some text is provided below. Given the text, extract up to 10 keywords from the text. Avoid stopwords.---------------------\\n\\u9b54\\u4eba\\u30d6\\u30a6\\u7de8\\n\\u30bb\\u30eb\\u30b2\\u30fc\\u30e0\\u3088\\u308a\\u7d047\\u5e74\\u5f8c\\u3001\\u9ad8\\u6821\\u751f\\u306b\\u6210\\u9577\\u3057\\u305f\\u609f\\u98ef\\u304c\\u5929\\u4e0b\\u4e00\\u6b66\\u9053\\u4f1a\\u306b\\u51fa\\u5834\\u3059\\u308b\\u3053\\u3068\\u3092\\u77e5\\u3063\\u305f\\u609f\\u7a7a\\u306f\\u3001\\u81ea\\u3089\\u

In [6]:
summary = index.query("フリーザに関して日本語で教えてください")
summary

INFO:root:> Starting query: フリーザに関して日本語で教えてください
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["A question is provided below. Given the question, extract up to 10 keywords from the text. Focus on extracting the keywords that we can use to best lookup answers to the question. Avoid stopwords.\\n---------------------\\n\\u30d5\\u30ea\\u30fc\\u30b6\\u306b\\u95a2\\u3057\\u3066\\u65e5\\u672c\\u8a9e\\u3067\\u6559\\u3048\\u3066\\u304f\\u3060\\u3055\\u3044\\n---------------------\\nProvide keywords in the following comma-separated format: \'KEYWORDS: <keywords>\'\\n"], "model": "text-davinci-003", "temperature": 0.0, "max_tokens": 2048, "top_p": 1, "frequency_penalty": 0, "presence_penalty": 0, "n": 1, "best_of": 1, "logit_bias": {}}' message='Post details'
DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response'

DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/completions processing_ms=13844 request_id=832162aacbb18e356c2f67f7a41bb5b0 response_code=200
DEBUG:root:

フリーザは宇宙の帝王であり、界王すら畏怖するほどの強大な力を持つ存在です。ナメック星への来襲で、ドラゴンボールを略奪しながらナメック星人を虐殺しようとしました。悟飯たちとベジータとのドラゴンボールをめぐる三つ巴の攻防の末、悟空とナメック星人の協力を得てポルンガを呼び出し、ピッコロと地球のドラゴンボールを復活させることに成功しました。フリーザの持つ圧倒的な力の前にはベジータやピッコロ、悟空すら歯が立たず仲間たちが次々と命を落としていった。怒りを爆発させた悟空は伝説の戦士・超（スーパー）サイヤ人へと覚醒。フルパワーを解放したフリーザに勝利することに成功し、ポルンガによって地球に帰還した悟飯たちは復活したドラゴンボールによりサイヤ人やフリーザ一味に殺された人々を蘇生させることができました。一方の悟空も爆発するナメック星を辛くも脱出、ヤードラット星に漂着し一命を取り留めた。
DEBUG:root:> Refined response: 

フリーザは宇宙の帝王であり、界王すら畏怖するほどの強大な力を持つ存在です。ナメック星への来襲で、ドラゴンボールを略奪しながらナメック星人を虐殺しようとしました。悟飯たちとベジータとのドラゴンボールをめぐる三つ巴の攻防の末、悟空とナメック星人の協力を得てポルンガを呼び出し、ピッコロと地球のドラゴンボールを復活させることに成功しました。フリーザの持つ圧倒的な力の前にはベジータやピッコロ、悟空すら歯が立たず仲間たちが次々と命を落としていった。怒りを爆発させた悟空は伝説の戦士・超（スーパー）サイヤ人へと覚醒。フルパワーを解放したフリーザに勝利することに成功し、ポルンガによって地球に帰還した悟飯たちは復

INFO:root:> [query] Total LLM token usage: 3833 tokens
INFO:root:> [query] Total embedding token usage: 0 tokens


Response(response='\n\nフリーザは宇宙の帝王であり、界王すら畏怖するほどの強大な力を持つ存在です。ナメック星への来襲で、ドラゴンボールを略奪しながらナメック星人を虐殺しようとしました。悟飯たちとベジータとのドラゴンボールをめぐる三つ巴の攻防の末、悟空とナメック星人の協力を得てポルンガを呼び出し、ピッコロと地球のドラゴンボールを復活させることに成功しました。フリーザの持つ圧倒的な力の前にはベジータやピッコロ、悟空すら歯が立たず仲間たちが次々と命を落としていった。怒りを爆発させた悟空は伝説の戦士・超（スーパー）サイヤ人へと覚醒。フルパワーを解放したフリーザに勝利することに成功し、ポルンガによって地球に帰還した悟飯たちは復活したドラゴンボールによりサイヤ人やフリーザ一味に殺された人々を蘇生させることができました。一方の悟空も爆発するナメック星を辛くも脱出、ヤードラット星に漂着し一命を取り留めた。その後本当に心臓病によって危篤状態になるも、トランクスから渡された特効薬によって生還、来るべき日に備えて3年間各々に修行してその日を迎える悟空たちであったが、事態はトランクスが知っている歴史とは大きく違うものとなり、彼さえ知らなかった人造人間たちまで現れ、さらに究極の人造人間・セルが未来から出現。悟空らの想定を遥かに超えた戦士が続々と現れた。', source_nodes=[SourceNode(source_text='フリーザ編\n地球の神と殺された仲間たちを甦らせるため、重傷で入院中の悟空に代わり、悟飯、クリリン、ブルマの3人が神とピッコロの故郷であるナメック星へ向かう。だが、そこには地球で闘ったベジータや、界王すら畏怖する宇宙の帝王・フリーザとその一味が不老不死を求めて来襲し、ナメック星人を虐殺しながらドラゴンボールを略奪していた。悟飯たちはベジータ、フリーザ一味とのドラゴンボールをめぐる三つ巴の攻防の末、後から到着した悟空とナメック星人たちの協力を得てナメック星の神龍・ポルンガを呼び出し、ピッコロと地球のドラゴンボールを復活させる。', doc_id='5c66455c-0ee3-427e-baf5-e3eaf7a2afdc', extra_info=None, node_info={'start': 1325, 'end': 1589}, simi

In [7]:
summary = index.query("魔人ブウに関して日本語で教えてください")
summary

INFO:root:> Starting query: 魔人ブウに関して日本語で教えてください
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["A question is provided below. Given the question, extract up to 10 keywords from the text. Focus on extracting the keywords that we can use to best lookup answers to the question. Avoid stopwords.\\n---------------------\\n\\u9b54\\u4eba\\u30d6\\u30a6\\u306b\\u95a2\\u3057\\u3066\\u65e5\\u672c\\u8a9e\\u3067\\u6559\\u3048\\u3066\\u304f\\u3060\\u3055\\u3044\\n---------------------\\nProvide keywords in the following comma-separated format: \'KEYWORDS: <keywords>\'\\n"], "model": "text-davinci-003", "temperature": 0.0, "max_tokens": 2048, "top_p": 1, "frequency_penalty": 0, "presence_penalty": 0, "n": 1, "best_of": 1, "logit_bias": {}}' message='Post details'
DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response'

Response(response='\n魔人ブウは、界王神から恐ろしい力を持つ悪魔のような存在です。彼は、天下一武道会の最中に復活し、悟飯やベジータを倒しました。悟空があの世に帰ったため、地球の命運は悟空の次男・孫悟天と少年トランクスの幼い二人に託されました。', source_nodes=[SourceNode(source_text='魔人ブウ編\nセルゲームより約7年後、高校生に成長した悟飯が天下一武道会に出場することを知った悟空は、自らも出場するために占いババの力によって1日だけこの世に戻る。天下一武道会の最中、悟空たちは界王よりもさらに高位の存在である界王神から、恐ろしい力を持つ魔人ブウの封印が解かれようとしていることを知らされる。復活した魔人ブウにより悟飯やベジータが倒され、悟空はあの世に帰ったため、地球の命運は悟空の次男・孫悟天と少年トランクスの幼い二人に託される。', doc_id='5c66455c-0ee3-427e-baf5-e3eaf7a2afdc', extra_info=None, node_info={'start': 2482, 'end': 2705}, similarity=None)], extra_info=None)

In [10]:
summary = index.query("セルを倒したのは誰ですか。日本語で教えて下さい。")
summary

INFO:root:> Starting query: セルを倒したのは誰ですか。日本語で教えて下さい。
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["A question is provided below. Given the question, extract up to 10 keywords from the text. Focus on extracting the keywords that we can use to best lookup answers to the question. Avoid stopwords.\\n---------------------\\n\\u30bb\\u30eb\\u3092\\u5012\\u3057\\u305f\\u306e\\u306f\\u8ab0\\u3067\\u3059\\u304b\\u3002\\u65e5\\u672c\\u8a9e\\u3067\\u6559\\u3048\\u3066\\u4e0b\\u3055\\u3044\\u3002\\n---------------------\\nProvide keywords in the following comma-separated format: \'KEYWORDS: <keywords>\'\\n"], "model": "text-davinci-003", "temperature": 0.0, "max_tokens": 2048, "top_p": 1, "frequency_penalty": 0, "presence_penalty": 0, "n": 1, "best_of": 1, "logit_bias": {}}' message='Post details'
DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DE

Response(response='\nセルを倒したのは悟空です。', source_nodes=[SourceNode(source_text='人造人間・セル編\nナメック星での闘いから約1年後、密かに生き延びていたフリーザとその一味が地球を襲撃するが、謎の超サイヤ人によって撃退される。トランクスと名乗るその青年は、自分は未来からやってきたブルマとベジータの息子であることを悟空にだけ明かすと同時に、悟空は心臓病によって命を落とすこと、3年後に現れる2体の人造人間が絶望の未来をもたらすことを告げる。その後本当に心臓病によって危篤状態になるも、トランクスから渡された特効薬によって生還、来るべき日に備えて3年間各々に修行してその日を迎える悟空たちであったが、事態はトランクスが知っている歴史とは大きく違うものとなり、彼さえ知らなかった人造人間たちまで現れ、さらに究極の人造人間・セルが未来から出現。悟空らの想定を遥かに超えた戦士が続々と現れた。', doc_id='5c66455c-0ee3-427e-baf5-e3eaf7a2afdc', extra_info=None, node_info={'start': 1836, 'end': 2186}, similarity=None)], extra_info=None)

In [11]:
summary = index.query("セルに関して日本語で教えてください")
summary

INFO:root:> Starting query: セルに関して日本語で教えてください
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["A question is provided below. Given the question, extract up to 10 keywords from the text. Focus on extracting the keywords that we can use to best lookup answers to the question. Avoid stopwords.\\n---------------------\\n\\u30bb\\u30eb\\u306b\\u95a2\\u3057\\u3066\\u65e5\\u672c\\u8a9e\\u3067\\u6559\\u3048\\u3066\\u304f\\u3060\\u3055\\u3044\\n---------------------\\nProvide keywords in the following comma-separated format: \'KEYWORDS: <keywords>\'\\n"], "model": "text-davinci-003", "temperature": 0.0, "max_tokens": 2048, "top_p": 1, "frequency_penalty": 0, "presence_penalty": 0, "n": 1, "best_of": 1, "logit_bias": {}}' message='Post details'
DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/completions HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://ap

Response(response='\nセルは、未来から現れた究極の人造人間であり、超サイヤ人のトランクスが知らなかった存在です。彼は、悟空たちの想定を遥かに超える戦士として現れました。', source_nodes=[SourceNode(source_text='人造人間・セル編\nナメック星での闘いから約1年後、密かに生き延びていたフリーザとその一味が地球を襲撃するが、謎の超サイヤ人によって撃退される。トランクスと名乗るその青年は、自分は未来からやってきたブルマとベジータの息子であることを悟空にだけ明かすと同時に、悟空は心臓病によって命を落とすこと、3年後に現れる2体の人造人間が絶望の未来をもたらすことを告げる。その後本当に心臓病によって危篤状態になるも、トランクスから渡された特効薬によって生還、来るべき日に備えて3年間各々に修行してその日を迎える悟空たちであったが、事態はトランクスが知っている歴史とは大きく違うものとなり、彼さえ知らなかった人造人間たちまで現れ、さらに究極の人造人間・セルが未来から出現。悟空らの想定を遥かに超えた戦士が続々と現れた。', doc_id='5c66455c-0ee3-427e-baf5-e3eaf7a2afdc', extra_info=None, node_info={'start': 1836, 'end': 2186}, similarity=None)], extra_info=None)

In [12]:
summary = index.query("魔人ブウの生まれりは誰ですか。日本語で教えて下さい。")
summary

INFO:root:> Starting query: 魔人ブウの生まれりは誰ですか。日本語で教えて下さい。
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["A question is provided below. Given the question, extract up to 10 keywords from the text. Focus on extracting the keywords that we can use to best lookup answers to the question. Avoid stopwords.\\n---------------------\\n\\u9b54\\u4eba\\u30d6\\u30a6\\u306e\\u751f\\u307e\\u308c\\u308a\\u306f\\u8ab0\\u3067\\u3059\\u304b\\u3002\\u65e5\\u672c\\u8a9e\\u3067\\u6559\\u3048\\u3066\\u4e0b\\u3055\\u3044\\u3002\\n---------------------\\nProvide keywords in the following comma-separated format: \'KEYWORDS: <keywords>\'\\n"], "model": "text-davinci-003", "temperature": 0.0, "max_tokens": 2048, "top_p": 1, "frequency_penalty": 0, "presence_penalty": 0, "n": 1, "best_of": 1, "logit_bias": {}}' message='Post details'
DEBUG:urllib3.connectionpool:Resetting dropped connection: api.openai.com
DEBUG:url

Response(response='\n魔人ブウの生まれりは界王神です。', source_nodes=[SourceNode(source_text='魔人ブウ編\nセルゲームより約7年後、高校生に成長した悟飯が天下一武道会に出場することを知った悟空は、自らも出場するために占いババの力によって1日だけこの世に戻る。天下一武道会の最中、悟空たちは界王よりもさらに高位の存在である界王神から、恐ろしい力を持つ魔人ブウの封印が解かれようとしていることを知らされる。復活した魔人ブウにより悟飯やベジータが倒され、悟空はあの世に帰ったため、地球の命運は悟空の次男・孫悟天と少年トランクスの幼い二人に託される。', doc_id='5c66455c-0ee3-427e-baf5-e3eaf7a2afdc', extra_info=None, node_info={'start': 2482, 'end': 2705}, similarity=None)], extra_info=None)