### 라마인덱스 준비

In [None]:
# 패키지 설치
!pip install llama-index==0.11.20
!pip install llama-index-llms-gemini
!pip install llama-index-embeddings-huggingface



In [None]:
# 환경 변수 준비(좌측 상단의 열쇠 아이콘으로 GOOGLE_API_KEY 설정)
import os
from google.colab import userdata
os.environ["GOOGLE_API_KEY"] = userdata.get("GOOGLE_API_KEY")

In [None]:
import logging
import sys

# 로그 레벨 설정
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

In [None]:
from llama_index.core import Settings
from llama_index.llms.gemini import Gemini
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# LLM 준비
Settings.llm = Gemini(
    model_name="models/gemini-1.5-flash",
    safety_settings={
        "HARM_CATEGORY_HARASSMENT": "BLOCK_NONE",
        "HARM_CATEGORY_HATE_SPEECH": "BLOCK_NONE",
        "HARM_CATEGORY_SEXUALLY_EXPLICIT" : "BLOCK_NONE",
        "HARM_CATEGORY_DANGEROUS_CONTENT" : "BLOCK_NONE"
    }
)

# 임베딩 모델 준비
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-m3"
)

INFO:numexpr.utils:NumExpr defaulting to 2 threads.
DEBUG:asyncio:Using selector: EpollSelector
DEBUG:pydot:pydot initializing
DEBUG:pydot:pydot 3.0.2
DEBUG:pydot.dot_parser:pydot dot_parser module initializing
DEBUG:pydot.core:pydot core module initializing
DEBUG:h5py._conv:Creating converter from 7 to 5
DEBUG:h5py._conv:Creating converter from 5 to 7
DEBUG:h5py._conv:Creating converter from 7 to 5
DEBUG:h5py._conv:Creating converter from 5 to 7
DEBUG:tensorflow:Falling back to TensorFlow client; we recommended you install the Cloud TPU client directly with pip install cloud-tpu-client.
DEBUG:jax._src.path:etils.epath found. Using etils.epath for file I/O.
DEBUG:urllib3.util.retry:Converted retries value: 3 -> Retry(total=3, connect=None, read=None, redirect=None, status=None)
DEBUG:urllib3.connectionpool:Starting new HTTP connection (1): localhost:44955
INFO:tornado.access:200 GET /v1beta/models/gemini-1.5-flash?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1384.39ms
DEBUG:urllib3.co

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/README.md HTTP/11" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/modules.json HTTP/11" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/sentence_bert_config.json HTTP/11" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/config.json HTTP/11" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/model.safetensors HTTP/11" 404 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/tokenizer_config.json HTTP/11" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /api/models/BAAI/bge-m3/revision/main HTTP/11" 200 4413
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /api/models/BAAI/bge-m3 HTTP/11" 200 4413
INFO:sentence_transformers.SentenceTransformer:2 prompts are 

### 라마인덱스를 활용한 질의 응답

In [None]:
from llama_index.core import SimpleDirectoryReader

# 문서 불러오기 (data 폴더에 문서를 먼저 업로드)
documents = SimpleDirectoryReader("data").load_data()

DEBUG:llama_index.core.readers.file.base:> [SimpleDirectoryReader] Total files added: 7
DEBUG:fsspec.local:open file: /content/data/redhood1.txt
DEBUG:fsspec.local:open file: /content/data/redhood2.txt
DEBUG:fsspec.local:open file: /content/data/redhood3.txt
DEBUG:fsspec.local:open file: /content/data/redhood4.txt
DEBUG:fsspec.local:open file: /content/data/redhood5.txt
DEBUG:fsspec.local:open file: /content/data/redhood6.txt
DEBUG:fsspec.local:open file: /content/data/redhood7.txt


In [None]:
from llama_index.core import VectorStoreIndex

# 인덱스 작성
index = VectorStoreIndex.from_documents(documents)

DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 3장: 아크 코퍼레이션 잠입 작전
장소: 아크 코퍼레이션 본사, 최첨단 보안 시스템...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 4장: 데이터의 바다에서 진실을 찾아서
장소: 아크 코퍼레이션 데이터 센터

은...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 5장: 추격과 탈출
장소: 도시의 뒷골목, 고속도로

아크 코퍼레이션의 추격대가...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 6장: 세상에 알리다
장소: 은비의 블로그

은비는 자신이 얻은 증거를 바탕으로...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 7장: 새로운 시작
장소: 폐허가 된 건물

은비와 잭은 다시 낡은 건물의 지하...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

In [None]:
# 쿼리 엔진 작성
query_engine = index.as_query_engine()

In [None]:
# 질의 응답 1
print(query_engine.query("은비의 나이는?"))

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

DEBUG:llama_index.core.indices.utils:> Top 2 nodes:
> [Node e9c517f1-96ea-4d07-8fa2-0f32c1d9f70a] [Similarity score:             0.536515] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
> [Node 3e087e31-d2a7-4e72-9687-fd92f108c9d8] [Similarity score:             0.447299] 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비는 낡은 건물의 지하실에 도착했다. 그곳에는 잭이 기다리고 있었다. 잭은 거대한 체구에 온...
DEBUG:urllib3.util.retry:Converted retries value: 3 -> Retry(total=3, connect=None, read=None, redirect=None, status=None)
DEBUG:urllib3.connectionpool:Starting new HTTP connection (1): localhost:44955
INFO:tornado.access:200 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1032.37ms
DEBUG:urllib3.connectionpool:http://localhost:44955 "POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint HTTP/11" 200 448
은비는 17살입니다. 



In [None]:
# 질의 응답 2
print(query_engine.query("은비가 은신처에서 만난 인물은?"))

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

DEBUG:llama_index.core.indices.utils:> Top 2 nodes:
> [Node 3e087e31-d2a7-4e72-9687-fd92f108c9d8] [Similarity score:             0.523242] 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비는 낡은 건물의 지하실에 도착했다. 그곳에는 잭이 기다리고 있었다. 잭은 거대한 체구에 온...
> [Node e9c517f1-96ea-4d07-8fa2-0f32c1d9f70a] [Similarity score:             0.481006] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
DEBUG:urllib3.connectionpool:http://localhost:44955 "POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint HTTP/11" 200 656
은비는 폐허가 된 건물의 지하실에서 거대한 체구에 온몸에 문신이 가득한 전직 용병을 만났습니다. 
INFO:tornado.access:200 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1158.65ms



In [None]:
# 질의 응답 3
print(query_engine.query("은비와 용병이 쫓기는 이유는?"))

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

DEBUG:llama_index.core.indices.utils:> Top 2 nodes:
> [Node f68f5190-d06b-4e37-826b-feebd320d91b] [Similarity score:             0.543055] 5장: 추격과 탈출
장소: 도시의 뒷골목, 고속도로

아크 코퍼레이션의 추격대가 은비와 잭을 뒤쫓았다. 둘은 도시를 가로지르는 고속도로에서 격렬한 추격전을 벌였다. 은비...
> [Node e9c517f1-96ea-4d07-8fa2-0f32c1d9f70a] [Similarity score:             0.516999] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
DEBUG:urllib3.connectionpool:Resetting dropped connection: localhost
INFO:tornado.access:200 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1862.97ms
DEBUG:urllib3.connectionpool:http://localhost:44955 "POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint HTTP/11" 200 696
은비는 거대 기업 '아크 코퍼레이션'의 불법적인 실험에 대한 증거를 찾기 위해 그들의 보안 시스템을 해킹했습니다. 



### 인덱스 저장하고 불러오기

In [None]:
# 인덱스 저장
index.storage_context.persist()

DEBUG:fsspec.local:open file: /content/storage/docstore.json
DEBUG:fsspec.local:open file: /content/storage/index_store.json
DEBUG:fsspec.local:open file: /content/storage/graph_store.json
DEBUG:fsspec.local:open file: /content/storage/default__vector_store.json
DEBUG:fsspec.local:open file: /content/storage/image__vector_store.json


In [None]:
from llama_index.core import StorageContext, load_index_from_storage

# 인덱스 불러오기
storage_context = StorageContext.from_defaults(persist_dir="./storage")
index = load_index_from_storage(storage_context)

DEBUG:llama_index.core.storage.kvstore.simple_kvstore:Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/docstore.json.
DEBUG:fsspec.local:open file: /content/storage/docstore.json
DEBUG:llama_index.core.storage.kvstore.simple_kvstore:Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/index_store.json.
DEBUG:fsspec.local:open file: /content/storage/index_store.json
DEBUG:llama_index.core.graph_stores.simple:Loading llama_index.core.graph_stores.simple from ./storage/graph_store.json.
DEBUG:fsspec.local:open file: /content/storage/graph_store.json
DEBUG:fsspec.local:open file: /content/storage/property_graph_store.json
DEBUG:llama_index.core.vector_stores.simple:Loading llama_index.core.vector_stores.simple from ./storage/image__vector_store.json.
DEBUG:fsspec.local:open file: /content/storage/image__vector_store.json
DEBUG:llama_index.core.vector_stores.simple:Loading llama_index.core.vector_stores.simple from ./storage/default__vector_store.json