## 1. セットアップ

In [1]:
import sys
from pprint import pprint
sys.path.append("/home/paper_translator/")
pprint(sys.path)

['/home/paper_translator/lib',
 '/home/paper_translator',
 '/usr/lib/python311.zip',
 '/usr/lib/python3.11',
 '/usr/lib/python3.11/lib-dynload',
 '',
 '/home/paper_translator/.venv/lib/python3.11/site-packages',
 '/home/paper_translator/']


In [2]:
import logging
import sys

# ログレベルの設定
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

In [3]:
from llama_index.callbacks import CallbackManager, LlamaDebugHandler
llmama_debug_handler = LlamaDebugHandler(print_trace_on_end=True)
callback_manager = CallbackManager([llmama_debug_handler])

INFO:numexpr.utils:Note: NumExpr detected 12 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8.
INFO:numexpr.utils:NumExpr defaulting to 8 threads.
INFO:numexpr.utils:NumExpr defaulting to 8 threads.


## 2. ドキュメントの準備

In [4]:
from src.XMLUtils import DocumentCreator

DEBUG:httpx:load_ssl_context verify=True cert=None trust_env=True http2=False
DEBUG:httpx:load_verify_locations cafile='/home/paper_translator/.venv/lib/python3.11/site-packages/certifi/cacert.pem'
DEBUG:httpx:load_verify_locations cafile='/home/paper_translator/.venv/lib/python3.11/site-packages/certifi/cacert.pem'
DEBUG:slack_bolt.App:Sending a request - url: https://www.slack.com/api/auth.test, query_params: {}, body_params: {}, files: {}, json_body: None, headers: {'Content-Type': 'application/x-www-form-urlencoded', 'Authorization': '(redacted)', 'User-Agent': 'Bolt/1.18.0 Python/3.11.5 slackclient/3.23.0 Linux/5.15.123.1-microsoft-standard-WSL2'}
DEBUG:slack_bolt.App:Received the following response - status: 200, headers: {'date': 'Wed, 18 Oct 2023 14:43:49 GMT', 'server': 'Apache', 'vary': 'Accept-Encoding', 'x-slack-req-id': 'b726e8eec97d748da79b0b352c1cbbe7', 'x-content-type-options': 'nosniff', 'x-xss-protection': '0', 'pragma': 'no-cache', 'cache-control': 'private, no-cache

In [5]:
base_path = "/home/paper_translator/data"
document_name = (
    "Learning_Transferable_Visual_Models_From_Natural_Language_Supervision"
    #"ChatKBQA_A_Generate-then-Retrieve_Framework_for_Knowledge_Base_Question_Answering_with_Fine-tuned_Large_Language_Models"
)
document_path = f"{base_path}/documents/{document_name}"
xml_path = f"{document_path}/{document_name}.tei.xml"

In [6]:
# 自作の DirectoryReader を使用して、
# ディレクトリ内の xml ファイルをDocumentオブジェクトとして読み込む
# run_grobid(dir_path, pdf_name)
creator = DocumentCreator()
creator.load_xml(xml_path, contain_abst=False)
docs = creator.create_docs()
print(f"documents_2 metadata: \n{docs[0].metadata}")
print(f"documents_2 text: \n{docs[0].text}")

documents_2 metadata: 
{'Section No.': '1.', 'Section Title': 'Introduction and Motivating Work', 'Title': 'Learning Transferable Visual Models From Natural Language Supervision', 'Authors': 'Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever', 'Idno': 'arXiv:2103.00020v1[cs.CV]', 'Published': '26 Feb 2021', 'Language': 'en'}
documents_2 text: 
Pre-training methods which learn directly from raw text have revolutionized NLP over the last few years (Dai & Le, 2015;Peters et al., 2018;Howard & Ruder, 2018;Radford et al., 2018;Devlin et al., 2018;Raffel et al., 2019).Task-agnostic objectives such as autoregressive and masked language modeling have scaled across many orders of magnitude in compute, model capacity, and data, steadily improving capabilities. The development of "text-to-text" as a standardized input-output interface (McCann et al., 2018;Radford et a

## 3. Context の設定

In [7]:
from src.translator.llama_cpp import create_llama_cpp_model

model_path = "/home/paper_translator/data/models/ELYZA-japanese-Llama-2-7b-fast-instruct-q4_K_M.gguf"
llm = create_llama_cpp_model(package_name="llama_index", model_path=model_path)

ggml_init_cublas: found 1 CUDA devices:
  Device 0: NVIDIA GeForce GTX 1660 Ti, compute capability 7.5
llama_model_loader: loaded meta data with 21 key-value pairs and 291 tensors from /home/paper_translator/data/models/ELYZA-japanese-Llama-2-7b-fast-instruct-q4_K_M.gguf (version GGUF V2 (latest))
llama_model_loader: - tensor    0:                token_embd.weight q4_K     [  4096, 45043,     1,     1 ]
llama_model_loader: - tensor    1:              blk.0.attn_q.weight q4_K     [  4096,  4096,     1,     1 ]
llama_model_loader: - tensor    2:              blk.0.attn_k.weight q4_K     [  4096,  4096,     1,     1 ]
llama_model_loader: - tensor    3:              blk.0.attn_v.weight q6_K     [  4096,  4096,     1,     1 ]
llama_model_loader: - tensor    4:         blk.0.attn_output.weight q4_K     [  4096,  4096,     1,     1 ]
llama_model_loader: - tensor    5:            blk.0.ffn_gate.weight q4_K     [  4096, 11008,     1,     1 ]
llama_model_loader: - tensor    6:            blk.0.f

###  3.1. SentenceWindowNodeParser の設定

In [8]:
from llama_index.node_parser import SentenceWindowNodeParser

node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,
    window_metadata_key="sentence_window",
    original_text_metadata_key="original_text",
)

### 3.2. Embedding の設定

In [9]:
from llama_index.embeddings import HuggingFaceEmbedding

model_name = "sentence-transformers/all-MiniLM-l6-v2"
chunk_size = 3072

embed_model = HuggingFaceEmbedding(
    model_name=model_name, max_length=chunk_size, device="cuda:0"
)

DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): huggingface.co:443


DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-l6-v2/resolve/main/config.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-L6-v2/resolve/main/config.json HTTP/1.1" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-l6-v2/resolve/main/tokenizer_config.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-L6-v2/resolve/main/tokenizer_config.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 140639579215760 on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/c79f2b6a0cea6f4b564fed1938984bace9d30ff0.lock
DEBUG:filelock:Lock 140639579215760 acquired on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/c79f2b6a0cea6f4b564fed1938984bace9d30ff0.lock
DEBUG:urllib3.connectionpool:https://hugg

(…)L6-v2/resolve/main/tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 140639579215760 on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/c79f2b6a0cea6f4b564fed1938984bace9d30ff0.lock
DEBUG:filelock:Lock 140639579215760 released on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/c79f2b6a0cea6f4b564fed1938984bace9d30ff0.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-l6-v2/resolve/main/vocab.txt HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-L6-v2/resolve/main/vocab.txt HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 140639577455760 on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/fb140275c155a9c7c5a3b3e0e77a9e839594a938.lock
DEBUG:filelock:Lock 140639577455760 acquired on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/fb140275c155a9c7c5a3b3e0e77a9e

(…)/all-MiniLM-L6-v2/resolve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 140639577455760 on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/fb140275c155a9c7c5a3b3e0e77a9e839594a938.lock
DEBUG:filelock:Lock 140639577455760 released on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/fb140275c155a9c7c5a3b3e0e77a9e839594a938.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-l6-v2/resolve/main/tokenizer.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-L6-v2/resolve/main/tokenizer.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 140639577597328 on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/cb202bfe2e3c98645018a6d12f182a434c9d3e02.lock
DEBUG:filelock:Lock 140639577597328 acquired on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/cb202bfe2e3c98645018

(…)MiniLM-L6-v2/resolve/main/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 140639577597328 on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/cb202bfe2e3c98645018a6d12f182a434c9d3e02.lock
DEBUG:filelock:Lock 140639577597328 released on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/cb202bfe2e3c98645018a6d12f182a434c9d3e02.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-l6-v2/resolve/main/added_tokens.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-L6-v2/resolve/main/added_tokens.json HTTP/1.1" 404 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-l6-v2/resolve/main/special_tokens_map.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /sentence-transformers/all-MiniLM-L6-v2/resolve/main/special_tokens_map.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting

(…)-v2/resolve/main/special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 140639577597328 on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/e7b0375001f109a6b8873d756ad4f7bbb15fbaa5.lock
DEBUG:filelock:Lock 140639577597328 released on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/e7b0375001f109a6b8873d756ad4f7bbb15fbaa5.lock
DEBUG:filelock:Lock 140639577597328 released on /root/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-l6-v2/blobs/e7b0375001f109a6b8873d756ad4f7bbb15fbaa5.lock


### 3.3. ServiceContext の設定

In [10]:
from llama_index import ServiceContext

ctx = ServiceContext.from_defaults(
    llm=llm,
    embed_model=embed_model,
    node_parser=node_parser,
    callback_manager=callback_manager,
    chunk_size=chunk_size,
)

### 3.4. StorageContext の設定

In [11]:
from llama_index import StorageContext
from llama_index.storage.docstore import SimpleDocumentStore
from llama_index.storage.index_store import SimpleIndexStore
from llama_index.vector_stores import SimpleVectorStore

# Storage Context の作成
storage_context = StorageContext.from_defaults(
    docstore = SimpleDocumentStore(),
    vector_store = SimpleVectorStore(),
    index_store = SimpleIndexStore()
)

## 4. Index の作成

### 4.1. セットアップ

In [12]:
from llama_index.llms.base import ChatMessage, MessageRole
from llama_index.prompts import ChatPromptTemplate

In [13]:
# (1) QAプロンプトの定義。
# QAシステムプロンプト
TEXT_QA_SYSTEM_PROMPT = ChatMessage(
    content=(
        "あなたは世界中で信頼されているQAシステムです。\n"
        "事前知識ではなく、常に提供されたコンテキスト情報を使用してクエリに回答してください。\n"
        "従うべきいくつかのルール:\n"
        "1. 回答内で指定されたコンテキストを直接参照しないでください。\n"
        "2. 「コンテキストに基づいて、...」や「コンテキスト情報は...」、またはそれに類するような記述は避けてください。"
    ),
    role=MessageRole.SYSTEM,
)

# QAプロンプトテンプレートメッセージ
TEXT_QA_PROMPT_TMPL_MSGS = [
    TEXT_QA_SYSTEM_PROMPT,
    ChatMessage(
        content=(
            "コンテキスト情報は以下のとおりです。\n"
            "---------------------\n"
            "{context_str}\n"
            "---------------------\n"
            "事前知識ではなくコンテキスト情報を考慮して、クエリに答えます。\n"
            "Query: {query_str}\n"
            "Answer: "
        ),
        role=MessageRole.USER,
    ),
]

# チャットQAプロンプト
CHAT_TEXT_QA_PROMPT = ChatPromptTemplate(message_templates=TEXT_QA_PROMPT_TMPL_MSGS)

In [14]:
# (2) TreeSummarizeプロンプトの定義。
# QAシステムプロンプト
TEXT_QA_SYSTEM_PROMPT = ChatMessage(
    content=(
        "あなたは世界中で信頼されているQAシステムです。\n"
        "事前知識ではなく、常に提供されたコンテキスト情報を使用してクエリに回答してください。\n"
        "従うべきいくつかのルール:\n"
        "1. 回答内で指定されたコンテキストを直接参照しないでください。\n"
        "2. 「コンテキストに基づいて、...」や「コンテキスト情報は...」、またはそれに類するような記述は避けてください。"
    ),
    role=MessageRole.SYSTEM,
)

# ツリー要約プロンプトメッセージ
TREE_SUMMARIZE_PROMPT_TMPL_MSGS = [
    TEXT_QA_SYSTEM_PROMPT,
    ChatMessage(
        content=(
            "複数のソースからのコンテキスト情報を以下に示します。\n"
            "---------------------\n"
            "{context_str}\n"
            "---------------------\n"
            "予備知識ではなく、複数のソースからの情報を考慮して、質問に答えます。\n"
            "疑問がある場合は、「情報無し」と答えてください。\n"
            "Query: {query_str}\n"
            "Answer: "
        ),
        role=MessageRole.USER,
    ),
]

# ツリー要約プロンプト
CHAT_TREE_SUMMARIZE_PROMPT = ChatPromptTemplate(
    message_templates=TREE_SUMMARIZE_PROMPT_TMPL_MSGS
)

In [15]:
# Summaryクエリ
SUMMARY_QUERY = "提供されたテキストの内容を要約してください。"

In [16]:
import nest_asyncio
from llama_index import get_response_synthesizer

# 非同期処理の有効化
nest_asyncio.apply()

# レスポンスシンセサイザーの準備
response_synthesizer = get_response_synthesizer(
    response_mode="tree_summarize",
    use_async=True,
    text_qa_template=CHAT_TEXT_QA_PROMPT,  # QAプロンプト
    summary_template=CHAT_TREE_SUMMARIZE_PROMPT,  # TreeSummarizeプロンプト
)

### 4.2. DocumentSummaryIndex の作成

In [17]:
from llama_index.indices.document_summary import DocumentSummaryIndex

# DocumentSummaryIndexの準備
doc_summary_index = DocumentSummaryIndex.from_documents(
    docs,
    storage_context=storage_context,
    service_context=ctx,
    response_synthesizer=response_synthesizer,
    summary_query=SUMMARY_QUERY,  # 要約クエリ
)

DEBUG:llama_index.node_parser.node_utils:> Adding chunk: Pre-training methods which learn directly from ...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: The development of "text-to-text" as a standard...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: Flagship systems like GPT-3 (Brown et al., 2020...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: However, in other fields such as computer visio...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: Could scalable pre-training methods which learn...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: Prior work is encouraging.Over 20 years ago Mor...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: (1999) explored improving content based image r...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: Quattoni et al. 
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: (2007) demonstrated it was possible to learn mo...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: Sriva

In [18]:
for i in range(len(doc_summary_index.index_id)):
    print(f"{i}")
    try:
        print(doc_summary_index.get_document_summary(f"{i}"))
    except ValueError:
        print(f"doc_id: {i} is no text.")
        continue

0
提供されたテキストは、Alec Radfordらによる「自然言語監督からの転移可能なビジュアルモデルの学習」というタイトルの論文に関する情報です。この論文では、自然言語処理（NLP）の分野での事前学習方法の進展について述べられており、自己回帰的およびマスクされた言語モデリングなどのタスク非依存の目的が能力向上に寄与していることが示されています。また、自然言語の監督を使用して画像表現を学習する可能性が示されていますが、まだ他の手法に比べて性能が低いとされています。さらに、別の論文では、自然言語の監督から学習する効率的な方法であるCLIPについて説明されており、CLIPは画像とテキストのペアのデータセットを使用してトレーニングされ、さまざまなタスクを実行することができることが報告されています。この研究の結果は、政策や倫理に重要な影響を与える可能性があります。
1
doc_id: 1 is no text.
2
提供されたテキストは、Alec Radfordらによる「Learning Transferable Visual Models From Natural Language Supervision」というタイトルの論文の一部です。この論文では、自然言語に含まれる監督情報から知覚を学習するアプローチについて説明されています。また、他の研究者による関連研究も紹介されており、自然言語をトレーニング信号として活用することの利点についても述べられています。自然言語から学習することは、他のトレーニング方法と比べてスケーリングが容易であり、柔軟なゼロショット転送を可能にするという重要な利点があります。
3
提供されたテキストによれば、Alec Radfordらによる「Learning Transferable Visual Models From Natural Language Supervision」というタイトルの論文があります。この論文では、既存のデータセットが十分な大きさを持っていないことが指摘されており、MS-COCO、Visual Genome、YFCC100Mという3つのデータセットが主に使用されていることが述べられています。しかし、これらのデータセットは現代の基準では小さく、それぞれ約10万枚のトレーニング写真しか含まれていません。そのため、3.5億枚のIn