# LlamaIndex의 사전 준비

In [1]:
# 패키지 설치
!pip install llama-index==0.6.12



In [2]:
# 환경 변수 준비
import os
os.environ["OPENAI_API_KEY"] = "<OpenAI_API의_API_키>"

In [3]:
import logging
import sys

# 로그 레벨 설정
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

# 문서 불러오기


In [4]:
from llama_index import SimpleDirectoryReader

# 문서 불러오기
documents = SimpleDirectoryReader("data").load_data()
print("documents :", documents)

INFO:numexpr.utils:Note: NumExpr detected 20 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8.
INFO:numexpr.utils:NumExpr defaulting to 8 threads.
DEBUG:llama_index.readers.file.base:> [SimpleDirectoryReader] Total files added: 7
documents : [Document(text="제1장: 데이터 프론트\n\n밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온사인이 거리를 수놓는다. 그 거리에서 빨간 두건을 쓴 소녀 미코는 불법 데이터 카우리아를 운반하는 배달원으로 일하고 있었다. 그녀는 어머니가 병에 걸려 치료비를 벌기 위해 데이터카우리아에 몸을 던지고 있었다.\n\n그러던 어느 날, 미코는 중요한 데이터를 운반하는 임무를 맡게 된다. 그 데이터에는 거대 기업 '울프 코퍼레이션'의 시민에 대한 악랄한 지배를 폭로하는 정보가 담겨 있었다. 그녀는 데이터를 받아 목적지로 향한다.\n", doc_id='665f5552-e521-4174-980b-143228bf9813', embedding=None, doc_hash='52510777650f4b413312795352941f6a82bd21691af4f6174f027fed858966f6', extra_info=None), Document(text="제2장: 울프 코퍼레이션의 함정\n\n미코는 목적지인 술집 '할머니의 집'으로 향하는 길에 울프 코퍼레이션의 요원들에게 쫓기게 된다. 그들은 '빨간 망토'라는 데이터 카우리아에 대한 소문을 듣고 데이터를 탈취하려 했다. 미코는 교묘하게 요원들을 흩뿌리고 술집에 도착한다.\n", doc_id='919a5fd3-36a9-4744-a53e-708c64483525', embedding=None, doc_hash='4f93a5aac9870e2050dad030493

In [5]:
from llama_index import Document

# 수동으로 문서 작성
texts = ["text1", "text2", "text3"]
documents = [Document(t) for t in texts]
print("documents :", documents)

documents : [Document(text='text1', doc_id='84a7ad99-bba9-4e6b-a28e-c1cc57a5a2ee', embedding=None, doc_hash='4acd4b774fffdaf45630897b01c4f68316c5da9e1f5d2f1b34ec46aba14ecf4f', extra_info=None), Document(text='text2', doc_id='930ca75e-bba2-4e9b-995d-90b26725d1fb', embedding=None, doc_hash='5af33d0dbd3518bcf38d390e29fb8ca581518ac5ab9c9ead68e118c2c351013c', extra_info=None), Document(text='text3', doc_id='bdfae3c0-0ab5-490f-b206-68dd3c162a87', embedding=None, doc_hash='4ade7a9005a517e64504d1979d3bc5d3bc2cbc91c322d5f200213664a3e53c4b', extra_info=None)]


In [6]:
from llama_index import GPTVectorStoreIndex

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(documents)

DEBUG:llama_index.node_parser.node_utils:> Adding chunk: text1...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: text2...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: text3...
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/embeddings
DEBUG:openai:api_version=None data='{"input": ["text1", "text2", "text3"], "model": "text-embedding-ada-002", "encoding_format": "base64"}' message='Post details'
DEBUG:urllib3.util.retry:Converted retries value: 2 -> Retry(total=2, connect=None, read=None, redirect=None, status=None)
DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): api.openai.com:443
DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/embeddings HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/embeddings processing_ms=50 request_id=19ee80703efd426d40d4ecc23e184cc8 response_code=200
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] To

In [7]:
from llama_index import GPTVectorStoreIndex

# 빈 인덱스 생성
index = GPTVectorStoreIndex.from_documents([])

# 문서를 인덱스에 삽입
for doc in documents:
    index.insert(doc)

INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total LLM token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total embedding token usage: 0 tokens
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: text1...
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/embeddings
DEBUG:openai:api_version=None data='{"input": ["text1"], "model": "text-embedding-ada-002", "encoding_format": "base64"}' message='Post details'
DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/embeddings HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/embeddings processing_ms=86 request_id=d4a3dea1695f8b3e573d5cac4f160e51 response_code=200
INFO:llama_index.token_counter.token_counter:> [insert] Total LLM token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [insert] Total embedding token usage: 2 tokens
DEBUG:llama_index.node_parser.node

In [8]:
from llama_index import SimpleDirectoryReader

# 문서 불러오기
documents = SimpleDirectoryReader("data").load_data()
print("documents :", documents)

DEBUG:llama_index.readers.file.base:> [SimpleDirectoryReader] Total files added: 7
documents : [Document(text="제1장: 데이터 프론트\n\n밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온사인이 거리를 수놓는다. 그 거리에서 빨간 두건을 쓴 소녀 미코는 불법 데이터 카우리아를 운반하는 배달원으로 일하고 있었다. 그녀는 어머니가 병에 걸려 치료비를 벌기 위해 데이터카우리아에 몸을 던지고 있었다.\n\n그러던 어느 날, 미코는 중요한 데이터를 운반하는 임무를 맡게 된다. 그 데이터에는 거대 기업 '울프 코퍼레이션'의 시민에 대한 악랄한 지배를 폭로하는 정보가 담겨 있었다. 그녀는 데이터를 받아 목적지로 향한다.\n", doc_id='393337eb-5b1e-47d5-95f0-dbb126b0fa4a', embedding=None, doc_hash='52510777650f4b413312795352941f6a82bd21691af4f6174f027fed858966f6', extra_info=None), Document(text="제2장: 울프 코퍼레이션의 함정\n\n미코는 목적지인 술집 '할머니의 집'으로 향하는 길에 울프 코퍼레이션의 요원들에게 쫓기게 된다. 그들은 '빨간 망토'라는 데이터 카우리아에 대한 소문을 듣고 데이터를 탈취하려 했다. 미코는 교묘하게 요원들을 흩뿌리고 술집에 도착한다.\n", doc_id='d36f3ecc-db77-4a9c-8476-9db151c0be5b', embedding=None, doc_hash='4f93a5aac9870e2050dad030493eb2191cca1bf0d3ee1ae07c4c3c19efe0b58e', extra_info=None), Document(text="제3장: 배신과 재회\n\n술집 '할머니의 집'에서 미코는 데이터를 받을 사람인 료를 기다리고 있었다. 료는 그녀의 어릴 적 친구이자 그 역시 울프 코퍼레이션과 싸우는 해

In [9]:
from llama_index import LLMPredictor, ServiceContext
from langchain.chat_models import ChatOpenAI

# LLMPredictor 준비
llm_predictor = LLMPredictor(llm=ChatOpenAI(
    temperature=0,  # 온도
    model_name="gpt-3.5-turbo" # 모델명
))

# ServiceContext 준비
service_context = ServiceContext.from_defaults(
    llm_predictor=llm_predictor, 
)

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(
    documents, 
    service_context=service_context, 
)

DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제1장: 데이터 프론트

밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제2장: 울프 코퍼레이션의 함정

미코는 목적지인 술집 '할머니의 집'으로 향하는 길...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제3장: 배신과 재회

술집 '할머니의 집'에서 미코는 데이터를 받을 사람인 료를 기...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제4장: 울프 코퍼레이션의 붕괴

미코와 료는 해커 집단과 함께 울프 코퍼레이션에 대...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제5장: 결전의 순간

미코와 료는 마침내 울프 코퍼레이션의 최상층에 도착해 CEO인...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제6장: 진실의 해방

미코는 울프 박사의 약점을 파고들어 그를 쓰러뜨리는데 성공한다...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제7장: 새로운 시작

울프 코퍼레이션이 무너진 후, 미코와 료는 서로의 과거를 용서...
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/embeddings
DEBUG:openai:api_version=None data='{"input": ["\\uc81c1\\uc7a5: \\ub370\\uc774\\ud130 \\ud504\\ub860\\ud2b8  \\ubc24\\uc774 \\ub418\\uba74 \\ubc

DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/embeddings HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/embeddings processing_ms=43 request_id=5a2c160af6610c035dab590ec5de56e7 response_code=200
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total LLM token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total embedding token usage: 2888 tokens


In [10]:
from llama_index import GPTVectorStoreIndex, PromptHelper, ServiceContext

# PromptHelper 준비
prompt_helper=PromptHelper(
    max_input_size=4096,  # LLM 입력의 최대 토큰 수
    num_output=256,  # LLM 출력의 토큰 수
    max_chunk_overlap=20,  # 청크 오버랩의 최대 토큰 개수
)

# ServiceContext 준비
service_context = ServiceContext.from_defaults(
    prompt_helper=prompt_helper
)

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(
    documents,
    service_context=service_context,
)

DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제1장: 데이터 프론트

밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제2장: 울프 코퍼레이션의 함정

미코는 목적지인 술집 '할머니의 집'으로 향하는 길...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제3장: 배신과 재회

술집 '할머니의 집'에서 미코는 데이터를 받을 사람인 료를 기...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제4장: 울프 코퍼레이션의 붕괴

미코와 료는 해커 집단과 함께 울프 코퍼레이션에 대...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제5장: 결전의 순간

미코와 료는 마침내 울프 코퍼레이션의 최상층에 도착해 CEO인...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제6장: 진실의 해방

미코는 울프 박사의 약점을 파고들어 그를 쓰러뜨리는데 성공한다...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제7장: 새로운 시작

울프 코퍼레이션이 무너진 후, 미코와 료는 서로의 과거를 용서...
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/embeddings
DEBUG:openai:api_version=None data='{"input": ["\\uc81c1\\uc7a5: \\ub370\\uc774\\ud130 \\ud504\\ub860\\ud2b8  \\ubc24\\uc774 \\ub418\\uba74 \\ubc

DEBUG:urllib3.util.retry:Converted retries value: 2 -> Retry(total=2, connect=None, read=None, redirect=None, status=None)
DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): api.openai.com:443
DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/embeddings HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/embeddings processing_ms=100 request_id=573569726812520b7540c4544157009e response_code=200
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total LLM token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total embedding token usage: 2888 tokens


In [11]:
from llama_index import GPTVectorStoreIndex, PromptHelper, ServiceContext

# PromptHelper 준비
prompt_helper=PromptHelper(
    max_input_size=4096,  # LLM 입력의 최대 토큰 수
    num_output=256,  # LLM 출력의 토큰 수
    max_chunk_overlap=20,  # 청크 오버랩의 최대 토큰 수
)

# ServiceContext 준비
service_context = ServiceContext.from_defaults(
    prompt_helper=prompt_helper
)

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(
    documents, # 문서
    service_context=service_context, # ServiceContext
)

DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제1장: 데이터 프론트

밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제2장: 울프 코퍼레이션의 함정

미코는 목적지인 술집 '할머니의 집'으로 향하는 길...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제3장: 배신과 재회

술집 '할머니의 집'에서 미코는 데이터를 받을 사람인 료를 기...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제4장: 울프 코퍼레이션의 붕괴

미코와 료는 해커 집단과 함께 울프 코퍼레이션에 대...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제5장: 결전의 순간

미코와 료는 마침내 울프 코퍼레이션의 최상층에 도착해 CEO인...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제6장: 진실의 해방

미코는 울프 박사의 약점을 파고들어 그를 쓰러뜨리는데 성공한다...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제7장: 새로운 시작

울프 코퍼레이션이 무너진 후, 미코와 료는 서로의 과거를 용서...
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/embeddings
DEBUG:openai:api_version=None data='{"input": ["\\uc81c1\\uc7a5: \\ub370\\uc774\\ud130 \\ud504\\ub860\\ud2b8  \\ubc24\\uc774 \\ub418\\uba74 \\ubc

DEBUG:urllib3.connectionpool:https://api.openai.com:443 "POST /v1/embeddings HTTP/1.1" 200 None
DEBUG:openai:message='OpenAI API response' path=https://api.openai.com/v1/embeddings processing_ms=56 request_id=dbb8cf60c9f6a7f89f2065f6e2d415c4 response_code=200
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total LLM token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total embedding token usage: 2888 tokens


In [12]:
# sentence_transformers 패키지 설치
!pip install sentence_transformers

Collecting sentence_transformers
  Using cached sentence-transformers-2.2.2.tar.gz (85 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting torch>=1.6.0 (from sentence_transformers)
  Using cached torch-2.0.1-cp311-cp311-win_amd64.whl (172.3 MB)
Collecting torchvision (from sentence_transformers)
  Using cached torchvision-0.15.2-cp311-cp311-win_amd64.whl (1.2 MB)
Collecting scikit-learn (from sentence_transformers)
  Downloading scikit_learn-1.3.0-cp311-cp311-win_amd64.whl (9.2 MB)
                                              0.0/9.2 MB ? eta -:--:--
     -                                        0.4/9.2 MB 13.1 MB/s eta 0:00:01
     -----                                    1.3/9.2 MB 16.8 MB/s eta 0:00:01
     -----------                              2.6/9.2 MB 21.0 MB/s eta 0:00:01
     -----------------                        4.1/9.2 MB 23.9 MB/s eta 0:00:01
     ------------------------                 5.6/9.2 MB 23.9

In [13]:
from langchain.embeddings import HuggingFaceEmbeddings
from llama_index import GPTVectorStoreIndex, ServiceContext, LangchainEmbedding

# 임베딩 모델 준비
embed_model = LangchainEmbedding(HuggingFaceEmbeddings(
    model_name="oshizo/sbert-jsnli-luke-japanese-base-lite"
))

# ServiceContext 준비
service_context = ServiceContext.from_defaults(
    embed_model=embed_model
)

# 인덱스 생성
index = GPTVectorStoreIndex.from_documents(
    documents, # 문서
    service_context=service_context, # ServiceContext
)

INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: oshizo/sbert-jsnli-luke-japanese-base-lite
DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): huggingface.co:443
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /api/models/oshizo/sbert-jsnli-luke-japanese-base-lite HTTP/1.1" 200 1363
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/.gitattributes HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056394064 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\.gitattributes.lock
DEBUG:filelock:Lock 2387056394064 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\.gitattributes.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881

Downloading (…)4f656/.gitattributes:   0%|          | 0.00/1.48k [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056394064 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\.gitattributes.lock
DEBUG:filelock:Lock 2387056394064 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\.gitattributes.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/1_Pooling/config.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056391440 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\1_Pooling\config.json.lock
DEBUG:filelock:Lock 2387056391440 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\1_Pooling\config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056391440 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\1_Pooling\config.json.lock
DEBUG:filelock:Lock 2387056391440 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\1_Pooling\config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/README.md HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056784848 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\README.md.lock
DEBUG:filelock:Lock 2387056784848 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\README.md.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/REA

Downloading (…)36cd14f656/README.md:   0%|          | 0.00/3.00k [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056784848 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\README.md.lock
DEBUG:filelock:Lock 2387056784848 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\README.md.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/added_tokens.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056386704 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\added_tokens.json.lock
DEBUG:filelock:Lock 2387056386704 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\added_tokens.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/add

Downloading (…)56/added_tokens.json:   0%|          | 0.00/40.0 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056386704 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\added_tokens.json.lock
DEBUG:filelock:Lock 2387056386704 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\added_tokens.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/config.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056457680 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config.json.lock
DEBUG:filelock:Lock 2387056457680 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/confi

Downloading (…)cd14f656/config.json:   0%|          | 0.00/868 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056457680 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config.json.lock
DEBUG:filelock:Lock 2387056457680 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/config_sentence_transformers.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056391760 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config_sentence_transformers.json.lock
DEBUG:filelock:Lock 2387056391760 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config_sentence_transformers.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/

Downloading (…)ce_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056391760 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config_sentence_transformers.json.lock
DEBUG:filelock:Lock 2387056391760 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\config_sentence_transformers.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/entity_vocab.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056522704 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\entity_vocab.json.lock
DEBUG:filelock:Lock 2387056522704 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\entity_vocab.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/reso

Downloading (…)56/entity_vocab.json:   0%|          | 0.00/62.0 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056522704 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\entity_vocab.json.lock
DEBUG:filelock:Lock 2387056522704 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\entity_vocab.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/pytorch_model.bin HTTP/1.1" 302 0
DEBUG:filelock:Attempting to acquire lock 2387056786640 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\pytorch_model.bin.lock
DEBUG:filelock:Lock 2387056786640 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\pytorch_model.bin.lock
DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): cdn-lfs.huggingface.co:443
DEBUG:urllib3.connectionpool:https://cdn-lfs.huggi

Downloading pytorch_model.bin:   0%|          | 0.00/532M [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056786640 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\pytorch_model.bin.lock
DEBUG:filelock:Lock 2387056786640 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\pytorch_model.bin.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/sentence_bert_config.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056391952 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentence_bert_config.json.lock
DEBUG:filelock:Lock 2387056391952 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentence_bert_config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b56

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056391952 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentence_bert_config.json.lock
DEBUG:filelock:Lock 2387056391952 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentence_bert_config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/sentencepiece.bpe.model HTTP/1.1" 302 0
DEBUG:filelock:Attempting to acquire lock 2387056883728 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentencepiece.bpe.model.lock
DEBUG:filelock:Lock 2387056883728 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentencepiece.bpe.model.lock
DEBUG:urllib3.connectionpool:https://cdn-lfs.huggingface.co:443 "GET /repos/d6/11/d611de47401cb6525525120ed

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/842k [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056883728 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentencepiece.bpe.model.lock
DEBUG:filelock:Lock 2387056883728 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\sentencepiece.bpe.model.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/special_tokens_map.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056910480 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\special_tokens_map.json.lock
DEBUG:filelock:Lock 2387056910480 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\special_tokens_map.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolv

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/595 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056910480 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\special_tokens_map.json.lock
DEBUG:filelock:Lock 2387056910480 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\special_tokens_map.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/tokenizer_config.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056882640 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\tokenizer_config.json.lock
DEBUG:filelock:Lock 2387056882640 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\tokenizer_config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b56

Downloading (…)okenizer_config.json:   0%|          | 0.00/1.89k [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056882640 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\tokenizer_config.json.lock
DEBUG:filelock:Lock 2387056882640 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\tokenizer_config.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd14f656/modules.json HTTP/1.1" 200 0
DEBUG:filelock:Attempting to acquire lock 2387056912720 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\modules.json.lock
DEBUG:filelock:Lock 2387056912720 acquired on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\modules.json.lock
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /oshizo/sbert-jsnli-luke-japanese-base-lite/resolve/8b5628784fb6ea5f7d2f80e1881dba36cd1

Downloading (…)d14f656/modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

DEBUG:filelock:Attempting to release lock 2387056912720 on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\modules.json.lock
DEBUG:filelock:Lock 2387056912720 released on C:\Users\yong/.cache\torch\sentence_transformers\oshizo_sbert-jsnli-luke-japanese-base-lite\modules.json.lock
INFO:sentence_transformers.SentenceTransformer:Use pytorch device: cpu
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제1장: 데이터 프론트

밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제2장: 울프 코퍼레이션의 함정

미코는 목적지인 술집 '할머니의 집'으로 향하는 길...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제3장: 배신과 재회

술집 '할머니의 집'에서 미코는 데이터를 받을 사람인 료를 기...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제4장: 울프 코퍼레이션의 붕괴

미코와 료는 해커 집단과 함께 울프 코퍼레이션에 대...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제5장: 결전의 순간

미코와 료는 마침내 울프 코퍼레이션의 최상층에 도착해 CEO인...
DEBUG:llama_index.node_parser.node_utils:> Adding chunk: 제6장: 진실

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total LLM token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [build_index_from_nodes] Total embedding token usage: 2888 tokens


In [14]:
# 쿼리 엔진 생성
query_engine = index.as_query_engine()

In [15]:
# 질의응답
response = query_engine.query("미코의 소꿉친구 이름은?")
print(response)

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

DEBUG:llama_index.indices.utils:> Top 2 nodes:
> [Node 2715e31c-8905-4ac0-87c3-09c1cc870e05] [Similarity score:             0.788679] 제2장: 울프 코퍼레이션의 함정

미코는 목적지인 술집 '할머니의 집'으로 향하는 길에 울프 코퍼레이션의 요원들에게 쫓기게 된다. 그들은 '빨간 망토'라는 데이터 카우리아에 ...
> [Node 40e20f3d-528e-4215-9529-23dddfd7d33f] [Similarity score:             0.783308] 제1장: 데이터 프론트

밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온사인이 거리를 수놓는다. 그 거리에서 빨간 두건을 쓴 소녀 미코는 불법 데이터 카우리아를 ...
INFO:llama_index.token_counter.token_counter:> [retrieve] Total LLM token usage: 0 tokens
INFO:llama_index.token_counter.token_counter:> [retrieve] Total embedding token usage: 29 tokens
DEBUG:openai:message='Request to OpenAI API' method=post path=https://api.openai.com/v1/completions
DEBUG:openai:api_version=None data='{"prompt": ["Context information is below. \\n---------------------\\n\\uc81c2\\uc7a5: \\uc6b8\\ud504 \\ucf54\\ud37c\\ub808\\uc774\\uc158\\uc758 \\ud568\\uc815\\n\\n\\ubbf8\\ucf54\\ub294 \\ubaa9\\uc801\\uc9c0\\uc778 \\uc220\\uc9d1 \'\\ud560\\uba38\\ub2c8

In [16]:
# 응답
print("response :", response.response, "\n")

# 소스
print("source_nodes :", response.source_nodes, "\n")

response : 
미코의 소꿉친구 이름은 알 수 없습니다. 제공된 정보에는 미코의 소꿉친구에 대한 언급이 없습니다. 

source_nodes : [NodeWithScore(node=Node(text="제2장: 울프 코퍼레이션의 함정\n\n미코는 목적지인 술집 '할머니의 집'으로 향하는 길에 울프 코퍼레이션의 요원들에게 쫓기게 된다. 그들은 '빨간 망토'라는 데이터 카우리아에 대한 소문을 듣고 데이터를 탈취하려 했다. 미코는 교묘하게 요원들을 흩뿌리고 술집에 도착한다.\n", doc_id='2715e31c-8905-4ac0-87c3-09c1cc870e05', embedding=None, doc_hash='4f93a5aac9870e2050dad030493eb2191cca1bf0d3ee1ae07c4c3c19efe0b58e', extra_info=None, node_info={'start': 0, 'end': 150}, relationships={<DocumentRelationship.SOURCE: '1'>: 'd36f3ecc-db77-4a9c-8476-9db151c0be5b'}), score=0.7886791911250957), NodeWithScore(node=Node(text="제1장: 데이터 프론트\n\n밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온사인이 거리를 수놓는다. 그 거리에서 빨간 두건을 쓴 소녀 미코는 불법 데이터 카우리아를 운반하는 배달원으로 일하고 있었다. 그녀는 어머니가 병에 걸려 치료비를 벌기 위해 데이터카우리아에 몸을 던지고 있었다.\n\n그러던 어느 날, 미코는 중요한 데이터를 운반하는 임무를 맡게 된다. 그 데이터에는 거대 기업 '울프 코퍼레이션'의 시민에 대한 악랄한 지배를 폭로하는 정보가 담겨 있었다. 그녀는 데이터를 받아 목적지로 향한다.\n", doc_id='40e20f3d-528e-4215-9529-23dddfd7d33f', embedding=None, doc_hash='52510777650f4b4133127