# 라마인덱스

## 라인인덱스란

-   라마인덱스는 자신 또는 도메인 고유의 지식을 사용하여 전문 지식이 필요한 질의응답 챗봇을 쉽게 만들 수 있는 프레임워크
-   LLM은 공개된 대량의 데이터를 사전 학습했기에 이를 바탕으로 문장을 생성하거나 질의응답 할 수 있지만, 회사나 개인이 보유한 공개되지 않은 정보는 학습하지 못했기에 올바르게 답변할 수 없다.
-   **검색 증강 생성(Retrieval Augmented Generation, RAG)**: 질문과 관련된 정보를 외부에서 검색하여 가져오고, 그 정보를 대규모 언어 모델에 프롬프트로 전달하여 외부 데이터를 기반으로 한 답변을 생성하게 한다.
-   https://github.com/run-llama/llama_index

![라마인덱스구조](./IMG_4247.png)

## 라마인덱스 핵심 단계

1. 로딩
2. 인덱싱
3. 저장
4. 쿼링
5. 평가

### 1. 로딩

-   데이터 소스에서 데이터를 가져오는 단계
-   주요 컴포넌트:

| 컴포넌트  |                       설명                       |
| :-------: | :----------------------------------------------: |
| Document  |               데이터 소스 컨테이너               |
|   Node    | Document를 분할한 것. 청크와 메타데이터가 포함됨 |
| Connector | 데이터 소스에서 Document와 Node를 가져오는 모듈  |

### 2. 인덱싱

-   데이터 쿼리를 가능하게 하는 데이터 구조. Index를 만든다.
-   주요 컴포넌트:

| 컴포넌트  |                   설명                    |
| :-------: | :---------------------------------------: |
|   Index   |  데이터 쿼리를 가능하게 하는 데이터 구조  |
| Embedding | 관련성이 높은 데이터를 찾아내는 벡터 표현 |

### 3. 저장

-   인덱스를 생성한 뒤 인덱스와 다른 메타데이터의 쌍을 저장함으로써 이후에 같은 인덱스를 다시 생성할 필요가 없다.

### 4. 쿼링

-   인덱스에 대한 쿼리를 실행하는 단계
-   데이터베이스에서 정보를 검색하거나 조작하는 데 사용하는 명령이다.
-   주요 컴포넌트:

|       컴포넌트       |                                설명                                |
| :------------------: | :----------------------------------------------------------------: |
|      Retriever       | 쿼리할 때 인덱스에서 관련 데이터를 효율적으로 가져오는 방법을 정의 |
|  Node Postprocessor  |      가져온 노드를 받아 그것들에 변환, 필터링, 리랭킹을 적용       |
| Response Synthesizer |      사용자 쿼리와 가져온 텍스트 청크를 사용하여 응답을 생성       |

### 5. 평가

-   쿼리에 대한 응답이 객관적으로 평가
    -   정확한지
    -   충실한지
    -   신속한지 등


## 패키지 설치
```bash
pip install llama-index==0.11.20
pip install llama-index-llms-google-genai
pip install llama-index-embeddings-hugginface
```

In [10]:
!pip install llama-index-llms-google-genai

Collecting llama-index-llms-google-genai
  Downloading llama_index_llms_google_genai-0.7.3-py3-none-any.whl.metadata (3.0 kB)
Downloading llama_index_llms_google_genai-0.7.3-py3-none-any.whl (13 kB)
Installing collected packages: llama-index-llms-google-genai
Successfully installed llama-index-llms-google-genai-0.7.3


In [6]:
import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

In [8]:
from llama_index.core import Settings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.google_genai import GoogleGenAI
from google.colab import userdata

import logging
import sys
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

# LLM 모델 준비
Settings.llm = GoogleGenAI(
    model_name="models/gemini-2.5-flash",
    api_key=userdata.get('GOOGLE_API_KEY'),
    safety_settings={
        "HARM_CATEGORY_HARASSMENT": "BLOCK_NONE",
        "HARM_CATEGORY_HATE_SPEECH": "BLOCK_NONE",
        "HARM_CATEGORY_SEXUALLY_EXPLICIT": "BLOCK_NONE",
        "HARM_CATEGORY_DANGEROUS_CONTENT": "BLOCK_NONE"
    }
)

# 임베딜 모델 준비
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-m3"
)

DEBUG:httpcore.connection:connect_tcp.started host='generativelanguage.googleapis.com' port=443 local_address=None timeout=None socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7b922cd6f320>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x7b922cff0550> server_hostname='generativelanguage.googleapis.com' timeout=None
DEBUG:httpcore.connection:start_tls.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7b922cd6f290>
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'GET']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'GET']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'GET']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type

In [13]:
from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader('./data').load_data()

DEBUG:llama_index.core.readers.file.base:> [SimpleDirectoryReader] Total files added: 7
DEBUG:fsspec.local:open file: /content/data/redhood1.txt
DEBUG:fsspec.local:open file: /content/data/redhood2.txt
DEBUG:fsspec.local:open file: /content/data/redhood3.txt
DEBUG:fsspec.local:open file: /content/data/redhood4.txt
DEBUG:fsspec.local:open file: /content/data/redhood5.txt
DEBUG:fsspec.local:open file: /content/data/redhood6.txt
DEBUG:fsspec.local:open file: /content/data/redhood7.txt


In [14]:
# 인덱스 생성하기
# 문서를 청크로 분할하고, 청크 단위로 데이터를 임베딩으로 변환해서 유지
# 청크는 유사도 검색 대상이 되는 데이터

from llama_index.core import VectorStoreIndex

index = VectorStoreIndex.from_documents(documents)

DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 3장: 아크 코퍼레이션 잠입 작전
장소: 아크 코퍼레이션 본사, 최첨단 보안 시스템...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 4장: 데이터의 바다에서 진실을 찾아서
장소: 아크 코퍼레이션 데이터 센터

은...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 5장: 추격과 탈출
장소: 도시의 뒷골목, 고속도로

아크 코퍼레이션의 추격대가...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 6장: 세상에 알리다
장소: 은비의 블로그

은비는 자신이 얻은 증거를 바탕으로...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 7장: 새로운 시작
장소: 폐허가 된 건물

은비와 잭은 다시 낡은 건물의 지하...


In [15]:
# 쿼리 엔진 작성하기

# 사용자 입력과 관련된 정보를 인덱스에서 가져와 사용자 입력과 얻은 정보를 바탕으로 응답을 생성하는 모듈

query_engine = index.as_query_engine()

In [22]:
!pip3 install nest_asyncio





In [10]:
import nest_asyncio
nest_asyncio.apply()

In [24]:
print(query_engine.query("은비의 나이는?"))

DEBUG:llama_index.core.indices.utils:> Top 2 nodes:
> [Node ad17e73a-4f61-4088-ad6e-7ebf175f8682] [Similarity score:                 0.536515] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
> [Node 07bee9e8-9773-480f-8222-086689aaa32c] [Similarity score:                 0.447299] 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비는 낡은 건물의 지하실에 도착했다. 그곳에는 잭이 기다리고 있었다. 잭은 거대한 체구에 온...
INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.connection:close.started
DEBUG:httpcore.connection:close.complete
DEBUG:httpcore.connection:connect_tcp.started host='generativelanguage.googleapis.com' port=443 local_address=None timeout=None socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x780bdeb07b90>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x780bf810ced0> server_hostname='generativelanguage.googleapis.c

In [25]:
print(query_engine.query("은비가 은신처에서 만난 인물은?"))

DEBUG:llama_index.core.indices.utils:> Top 2 nodes:
> [Node 07bee9e8-9773-480f-8222-086689aaa32c] [Similarity score:                 0.523242] 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비는 낡은 건물의 지하실에 도착했다. 그곳에는 잭이 기다리고 있었다. 잭은 거대한 체구에 온...
> [Node ad17e73a-4f61-4088-ad6e-7ebf175f8682] [Similarity score:                 0.481006] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.connection:close.started
DEBUG:httpcore.connection:close.complete
DEBUG:httpcore.connection:connect_tcp.started host='generativelanguage.googleapis.com' port=443 local_address=None timeout=None socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x780bdec2ea50>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x780bf810ced0> server_hostname='generativelanguage.googleapis.c

In [26]:
# 인덱스 저장하기
# 다음에 사용할 때 같은 인덱스를 다시 작성하지 않아도 되어 시간과 비용을 줄임

index.storage_context.persist()

#  ./storage에 인덱스 정보가 저장됨

DEBUG:fsspec.local:open file: /content/storage/docstore.json
DEBUG:fsspec.local:open file: /content/storage/index_store.json
DEBUG:fsspec.local:open file: /content/storage/graph_store.json
DEBUG:fsspec.local:open file: /content/storage/default__vector_store.json
DEBUG:fsspec.local:open file: /content/storage/image__vector_store.json


In [10]:
# 인덱스 불러오기

from llama_index.core import StorageContext, load_index_from_storage

storage_context = StorageContext.from_defaults(persist_dir="./storage")
index = load_index_from_storage(storage_context)

DEBUG:llama_index.core.storage.kvstore.simple_kvstore:Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/docstore.json.
DEBUG:fsspec.local:open file: /content/storage/docstore.json
DEBUG:llama_index.core.storage.kvstore.simple_kvstore:Loading llama_index.core.storage.kvstore.simple_kvstore from ./storage/index_store.json.
DEBUG:fsspec.local:open file: /content/storage/index_store.json
DEBUG:llama_index.core.graph_stores.simple:Loading llama_index.core.graph_stores.simple from ./storage/graph_store.json.
DEBUG:fsspec.local:open file: /content/storage/graph_store.json
DEBUG:fsspec.local:open file: /content/storage/property_graph_store.json
DEBUG:llama_index.core.vector_stores.simple:Loading llama_index.core.vector_stores.simple from ./storage/image__vector_store.json.
DEBUG:fsspec.local:open file: /content/storage/image__vector_store.json
DEBUG:llama_index.core.vector_stores.simple:Loading llama_index.core.vector_stores.simple from ./storage/default__vector_store.json

## 리랭커
Recranker는 가져온 정보를 순위별로 나열해서 관련성이 높은 정보를 추출하는 모델이다.
벡터 검색과 비교하면 처리 속도는 느리지만 더 정확하다.
따라서 먼저 벡터 검색으로 정보를 걸러 낸 뒤 리랭커로 정보를 선별하는 방법을 권장

1. 벡터 검색으로 질문과 관련된 정보를 가져온다.
2. 리랭커로 정보 순위를 매긴다.
3. 상위 N개의 정보를 사용해 질문에 대한 답변을 생성한다.

In [1]:
!pip install llama-index-postprocessor-flag-embedding-reranker
!pip install FlagEmbedding
!pip install peft

Collecting FlagEmbedding
  Downloading FlagEmbedding-1.3.5.tar.gz (163 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m163.9/163.9 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting ir-datasets (from FlagEmbedding)
  Downloading ir_datasets-0.5.11-py3-none-any.whl.metadata (12 kB)
Collecting inscriptis>=2.2.0 (from ir-datasets->FlagEmbedding)
  Downloading inscriptis-2.6.0-py3-none-any.whl.metadata (25 kB)
Collecting trec-car-tools>=2.5.4 (from ir-datasets->FlagEmbedding)
  Downloading trec_car_tools-2.6-py3-none-any.whl.metadata (640 bytes)
Collecting lz4>=3.1.10 (from ir-datasets->FlagEmbedding)
  Downloading lz4-4.4.5-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (3.8 kB)
Collecting warc3-wet>=0.2.3 (from ir-datasets->FlagEmbedding)
  Downloading warc3_wet-0.2.5-py3-none-any.whl.metadata (2.2 kB)
Collecting warc3-wet-clueweb09>=0.2.5 (from ir-datasets->Flag

In [11]:
# 리랭커준비

from llama_index.postprocessor.flag_embedding_reranker import FlagEmbeddingReranker

rerank = FlagEmbeddingReranker(
    model="BAAI/bge-reranker-v2-m3",
    use_fp16=True,
    top_n=2 #최상위 n 인자. 리랭커로 추출할 노드 수를 지정
)

# 쿼리 엔진
query_engine = index.as_query_engine(
    similarity_top_k=4,
    node_postprocessors=[rerank]
)

DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-reranker-v2-m3/resolve/main/tokenizer_config.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /api/resolve-cache/models/BAAI/bge-reranker-v2-m3/953dc6f6f85a1b2dbfca4c34a2796e7dde08d41e/tokenizer_config.json HTTP/1.1" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "GET /api/models/BAAI/bge-reranker-v2-m3/tree/main/additional_chat_templates?recursive=False&expand=False HTTP/1.1" 404 64
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-reranker-v2-m3/resolve/main/config.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /api/resolve-cache/models/BAAI/bge-reranker-v2-m3/953dc6f6f85a1b2dbfca4c34a2796e7dde08d41e/config.json HTTP/1.1" 200 0


In [15]:
response = query_engine.query("은비의 나이는?")
print(response)

DEBUG:llama_index.core.indices.utils:> Top 4 nodes:
> [Node ad17e73a-4f61-4088-ad6e-7ebf175f8682] [Similarity score:                 0.536515] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
> [Node 07bee9e8-9773-480f-8222-086689aaa32c] [Similarity score:                 0.447299] 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비는 낡은 건물의 지하실에 도착했다. 그곳에는 잭이 기다리고 있었다. 잭은 거대한 체구에 온...
> [Node e4034cbf-7bbd-46fe-b4fc-af8b4cf6b4e4] [Similarity score:                 0.444639] 6장: 세상에 알리다
장소: 은비의 블로그

은비는 자신이 얻은 증거를 바탕으로 블로그에 글을 올렸다. 그녀의 글은 순식간에 퍼져나갔고, 아크 코퍼레이션의 비밀은 세상에...
> [Node 3d8f51cc-e259-42df-bbfb-f00fff430eb2] [Similarity score:                 0.416877] 7장: 새로운 시작
장소: 폐허가 된 건물

은비와 잭은 다시 낡은 건물의 지하실로 돌아왔다. 그들은 세상을 바꾸기 위해 더 많은 일을 해야 한다는 것을 알고 있었다. ...
INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.connection:close.started
DEBUG:httpcore.connection:close.complete
DEBUG:httpcore.connection:connec

In [17]:
for node in response.source_nodes:
  print(node.get_text())
  print("--")

1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)

은비는 오래된 코트를 덮어쓰고 낡은 건물 사이를 빠르게 이동했다. 그녀의 손에는 낡은 노트북, 눈에는 스마트 콘택트 렌즈가 장착되어 있었다. 은비는 도시의 어둠을 뚫고 빛나는 데이터의 바다를 헤엄치는 해커였다. 오늘밤 그녀의 목표는 거대 기업 '아크 코퍼레이션'의 보안 시스템을 뚫고, 불법적인 실험에 대한 증거를 찾아내는 것이었다.
--
2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비는 낡은 건물의 지하실에 도착했다. 그곳에는 잭이 기다리고 있었다. 잭은 거대한 체구에 온몸에 문신이 가득한 전직 용병이었다. 그는 은비의 해킹 능력을 높이 평가했고, 은비는 잭의 힘과 경험을 필요로 했다. 둘은 서로 다른 길을 걸어왔지만, 불의한 세상에 맞서 싸우는 공통의 목표를 가지고 있었다.
--


## 데이터로더
- 라마허브에서 제공하는 데이터로더는 PDF, Word 등이나 웹 서비스 문서의 데이터 소스로 사용할 수 있다.
- https://llamahub.ai/?tab=readers



In [18]:
# 웹페이지 질의 응답
# BeautifulSoup: HTML, XML 문서를 해석하는 파이썬패키지
!pip install llama-index-readers-web


Collecting llama-index-readers-web
  Downloading llama_index_readers_web-0.5.6-py3-none-any.whl.metadata (1.2 kB)
Collecting chromedriver-autoinstaller<0.7,>=0.6.3 (from llama-index-readers-web)
  Downloading chromedriver_autoinstaller-0.6.4-py3-none-any.whl.metadata (2.1 kB)
Collecting firecrawl-py>=4.3.3 (from llama-index-readers-web)
  Downloading firecrawl_py-4.8.0-py3-none-any.whl.metadata (7.4 kB)
Collecting html2text<2025,>=2024.2.26 (from llama-index-readers-web)
  Downloading html2text-2024.2.26.tar.gz (56 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.5/56.5 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting lxml-html-clean>=0.4.2 (from llama-index-readers-web)
  Downloading lxml_html_clean-0.4.3-py3-none-any.whl.metadata (2.3 kB)
Collecting markdownify>=1.1.0 (from llama-index-readers-web)
  Downloading markdownify-1.2.2-py3-none-any.whl.metadata (9.9 kB)
Collecting newspaper3k<0.3,>=0.2

  parsed = [sys.intern(str(x)) for x in rel.split(sep) if x and x != '.']


In [23]:
from llama_index.readers.web import BeautifulSoupWebReader

reader = BeautifulSoupWebReader()

documents = reader.load_data(urls=["https://naver.com"])

DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): naver.com:443
DEBUG:urllib3.connectionpool:https://naver.com:443 "GET / HTTP/1.1" 301 None
DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): www.naver.com:443
DEBUG:urllib3.connectionpool:https://www.naver.com:443 "GET / HTTP/1.1" 200 31198


In [22]:
from llama_index.core import VectorStoreIndex

# 인덱스, 쿼리 엔진 준비
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()

DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: NAVER                          
   상단영역 바로가기 서비...


In [24]:
response = query_engine.query("네이버에 대해 알려주세요")
print(response)

DEBUG:llama_index.core.indices.utils:> Top 1 nodes:
> [Node 7913505f-dfa7-4df1-9676-275a46be8611] [Similarity score:                 0.598344] NAVER                          
   상단영역 바로가기 서비스 메뉴 바로가기 새소식 블록 바로가기 쇼핑 블록 바로가기 관심사 블록 바로가기 MY 영역...
INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.connection:close.started
DEBUG:httpcore.connection:close.complete
DEBUG:httpcore.connection:connect_tcp.started host='generativelanguage.googleapis.com' port=443 local_address=None timeout=None socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7b922924a390>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x7b922cff0550> server_hostname='generativelanguage.googleapis.com' timeout=None
DEBUG:httpcore.connection:start_tls.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7b922aad5280>
DEBUG:httpcore.http11:send_request_headers.started requ

## 벡터 스토어
- 벡터 스토어는 문서의 청크와 임베딩 벡터를 저장하는 공간
- 기본 벡터스토어는 인메모리 저장소. `vector_store.persist()` 호출하여 디스크에 데이터를 영구적으로 저장 가능
- 라마인덱스는 많은 벡터 스토어를 지원. (대표적으로 파이스 ,파인콘)

## 평가
- RAG 성능을 향상시키려면 다양한 파라미터를 평가하여 더 성능을 이끌 수 있도록 파라미터를 조정해야한다.
- 라마인덱스는 두 가지 평가를 수행하는 도구를 제공한다.
  - 검색 성능 평가(Retrieval Evaluation): 벡터 스토어에서 얻는 컨텍스트(청크) 품질을 평가한다. 리트리버(검색도구)를 사용하여 기대하는 컨텍스트를 얻을 수 있는지 측정한다.
  - 응답 성능 평가(Response Evaluation): 쿼리 엔진이 생성하는 응답 품질을 평가. 환각 현상이 없는지 측정
  - https://developers.llamaindex.ai/python/framework/module_guides/evaluating/

In [3]:
from llama_index.core import Settings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.google_genai import GoogleGenAI
from google.colab import userdata

import logging
import sys
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, force=True)

# LLM 모델 준비
Settings.llm = GoogleGenAI(
    model_name="models/gemini-2.5-flash",
    api_key=userdata.get('GOOGLE_API_KEY'),
    safety_settings={
        "HARM_CATEGORY_HARASSMENT": "BLOCK_NONE",
        "HARM_CATEGORY_HATE_SPEECH": "BLOCK_NONE",
        "HARM_CATEGORY_SEXUALLY_EXPLICIT": "BLOCK_NONE",
        "HARM_CATEGORY_DANGEROUS_CONTENT": "BLOCK_NONE"
    }
)

DEBUG:httpcore.connection:connect_tcp.started host='generativelanguage.googleapis.com' port=443 local_address=None timeout=None socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7a9e58d48200>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x7a9e58d436d0> server_hostname='generativelanguage.googleapis.com' timeout=None
DEBUG:httpcore.connection:start_tls.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7a9e58a088f0>
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'GET']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'GET']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'GET']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type

In [4]:
from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader('./data').load_data()

DEBUG:llama_index.core.readers.file.base:> [SimpleDirectoryReader] Total files added: 7
DEBUG:fsspec.local:open file: /content/data/redhood1.txt
DEBUG:fsspec.local:open file: /content/data/redhood2.txt
DEBUG:fsspec.local:open file: /content/data/redhood3.txt
DEBUG:fsspec.local:open file: /content/data/redhood4.txt
DEBUG:fsspec.local:open file: /content/data/redhood5.txt
DEBUG:fsspec.local:open file: /content/data/redhood6.txt
DEBUG:fsspec.local:open file: /content/data/redhood7.txt


In [5]:
# 문서에서 노드 가져오고 ID 지정

from llama_index.core.node_parser import SentenceSplitter

node_parser = SentenceSplitter()
nodes = node_parser.get_nodes_from_documents(documents)

for idx, node in enumerate(nodes):
  node.id_ = f"node_{idx}"

DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 3장: 아크 코퍼레이션 잠입 작전
장소: 아크 코퍼레이션 본사, 최첨단 보안 시스템...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 4장: 데이터의 바다에서 진실을 찾아서
장소: 아크 코퍼레이션 데이터 센터

은...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 5장: 추격과 탈출
장소: 도시의 뒷골목, 고속도로

아크 코퍼레이션의 추격대가...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 6장: 세상에 알리다
장소: 은비의 블로그

은비는 자신이 얻은 증거를 바탕으로...
DEBUG:llama_index.core.node_parser.node_utils:> Adding chunk: 7장: 새로운 시작
장소: 폐허가 된 건물

은비와 잭은 다시 낡은 건물의 지하...


In [11]:
# 질문 컨텍스트 데이터셋 생성

# 한국어 템플릿을 준비

from llama_index.core.evaluation import generate_question_context_pairs
from llama_index.llms.google_genai import GoogleGenAI

DEFAULT_QA_GENERATE_PROMPT_TMPL = """컨텍스트 정보는 아래와 같습니다.

-----------------
{context_str}
-----------------

예비 지식이 없고 문맥 정보가 주어진 경우,
아래 쿼리를 기반으로 문제만을 생성합니다.

당신은 선생님입니다.
당신의 작업은 향후 시험용으로 {num_questions_per_chunk} 개의 질문을 작성하는 것입니다.
문제는 문서 전체에 걸쳐 다양해야 합니다.
설문은 제공된 컨텍스트 정보로 한정해주세요"""

qa_dataset = generate_question_context_pairs(
    nodes,
    llm=Settings.llm,
    num_questions_per_chunk=2,
    qa_generate_prompt_tmpl=DEFAULT_QA_GENERATE_PROMPT_TMPL
)

  0%|          | 0/7 [00:00<?, ?it/s]

INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.connection:close.started
DEBUG:httpcore.connection:close.complete
DEBUG:httpcore.connection:connect_tcp.started host='generativelanguage.googleapis.com' port=443 local_address=None timeout=None socket_options=None
DEBUG:httpcore.connection:connect_tcp.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7a9e58242630>
DEBUG:httpcore.connection:start_tls.started ssl_context=<ssl.SSLContext object at 0x7a9e58d436d0> server_hostname='generativelanguage.googleapis.com' timeout=None
DEBUG:httpcore.connection:start_tls.complete return_value=<httpcore._backends.sync.SyncStream object at 0x7a9fcaf90a70>
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_head

 14%|█▍        | 1/7 [00:02<00:12,  2.10s/it]

INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type', b'application/json; charset=UTF-8'), (b'Vary', b'Origin'), (b'Vary', b'X-Origin'), (b'Vary', b'Referer'), (b'Content-Encoding', b'gzip'), (b'Date', b'Mon, 17 Nov 2025 15:55:41 GMT'), (b'Server', b'scaffolding on HTTPServer2'), (b'X-XSS-Protection', b'0'), (b'X-Frame-Options', b'SAMEORIGIN'), (b'X-Content-Type-Options', b'nosniff'), (b'Server-Timing', b'gfet4t7; dur=1160'), (b'Transfer-Encoding', b'chunked')])
INFO:httpx:HTTP Request: POST https://generativelanguage.googleapis

 29%|██▊       | 2/7 [00:03<00:07,  1.56s/it]

INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type', b'application/json; charset=UTF-8'), (b'Vary', b'Origin'), (b'Vary', b'X-Origin'), (b'Vary', b'Referer'), (b'Content-Encoding', b'gzip'), (b'Date', b'Mon, 17 Nov 2025 15:55:43 GMT'), (b'Server', b'scaffolding on HTTPServer2'), (b'X-XSS-Protection', b'0'), (b'X-Frame-Options', b'SAMEORIGIN'), (b'X-Content-Type-Options', b'nosniff'), (b'Server-Timing', b'gfet4t7; dur=1672'), (b'Transfer-Encoding', b'chunked')])
INFO:httpx:HTTP Request: POST https://generativelanguage.googleapis

 43%|████▎     | 3/7 [00:04<00:06,  1.62s/it]

INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type', b'application/json; charset=UTF-8'), (b'Vary', b'Origin'), (b'Vary', b'X-Origin'), (b'Vary', b'Referer'), (b'Content-Encoding', b'gzip'), (b'Date', b'Mon, 17 Nov 2025 15:55:44 GMT'), (b'Server', b'scaffolding on HTTPServer2'), (b'X-XSS-Protection', b'0'), (b'X-Frame-Options', b'SAMEORIGIN'), (b'X-Content-Type-Options', b'nosniff'), (b'Server-Timing', b'gfet4t7; dur=1782'), (b'Transfer-Encoding', b'chunked')])
INFO:httpx:HTTP Request: POST https://generativelanguage.googleapis

 57%|█████▋    | 4/7 [00:06<00:05,  1.69s/it]

INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type', b'application/json; charset=UTF-8'), (b'Vary', b'Origin'), (b'Vary', b'X-Origin'), (b'Vary', b'Referer'), (b'Content-Encoding', b'gzip'), (b'Date', b'Mon, 17 Nov 2025 15:55:46 GMT'), (b'Server', b'scaffolding on HTTPServer2'), (b'X-XSS-Protection', b'0'), (b'X-Frame-Options', b'SAMEORIGIN'), (b'X-Content-Type-Options', b'nosniff'), (b'Server-Timing', b'gfet4t7; dur=1217'), (b'Transfer-Encoding', b'chunked')])
INFO:httpx:HTTP Request: POST https://generativelanguage.googleapis

 71%|███████▏  | 5/7 [00:08<00:03,  1.53s/it]

INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type', b'application/json; charset=UTF-8'), (b'Vary', b'Origin'), (b'Vary', b'X-Origin'), (b'Vary', b'Referer'), (b'Content-Encoding', b'gzip'), (b'Date', b'Mon, 17 Nov 2025 15:55:47 GMT'), (b'Server', b'scaffolding on HTTPServer2'), (b'X-XSS-Protection', b'0'), (b'X-Frame-Options', b'SAMEORIGIN'), (b'X-Content-Type-Options', b'nosniff'), (b'Server-Timing', b'gfet4t7; dur=1206'), (b'Transfer-Encoding', b'chunked')])
INFO:httpx:HTTP Request: POST https://generativelanguage.googleapis

 86%|████████▌ | 6/7 [00:09<00:01,  1.43s/it]

INFO:google_genai.models:AFC is enabled with max remote calls: 10.
DEBUG:httpcore.http11:send_request_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_headers.complete
DEBUG:httpcore.http11:send_request_body.started request=<Request [b'POST']>
DEBUG:httpcore.http11:send_request_body.complete
DEBUG:httpcore.http11:receive_response_headers.started request=<Request [b'POST']>
DEBUG:httpcore.http11:receive_response_headers.complete return_value=(b'HTTP/1.1', 200, b'OK', [(b'Content-Type', b'application/json; charset=UTF-8'), (b'Vary', b'Origin'), (b'Vary', b'X-Origin'), (b'Vary', b'Referer'), (b'Content-Encoding', b'gzip'), (b'Date', b'Mon, 17 Nov 2025 15:55:48 GMT'), (b'Server', b'scaffolding on HTTPServer2'), (b'X-XSS-Protection', b'0'), (b'X-Frame-Options', b'SAMEORIGIN'), (b'X-Content-Type-Options', b'nosniff'), (b'Server-Timing', b'gfet4t7; dur=1169'), (b'Transfer-Encoding', b'chunked')])
INFO:httpx:HTTP Request: POST https://generativelanguage.googleapis

100%|██████████| 7/7 [00:10<00:00,  1.49s/it]


In [12]:
# 질문 컨텍스트 데이터셋 저장
qa_dataset.save_json("pg_eval_dataset.json")

In [13]:
# 데이터셋 불러오기
from llama_index.core.evaluation import EmbeddingQAFinetuneDataset

qa_dataset = EmbeddingQAFinetuneDataset.from_json("pg_eval_dataset.json")

In [14]:
for key in list(qa_dataset.queries.keys()):
  print("queries", qa_dataset.queries[key])
  print("relevant_docs", qa_dataset.relevant_docs[key])

queries 알겠습니다. 2077년 밤의 도시를 배경으로 한 제시된 컨텍스트 정보를 바탕으로 시험 문제 2개를 출제하겠습니다.
relevant_docs ['node_0']
queries **문제 1:**
relevant_docs ['node_0']
queries ## 시험 문제 (2문제)
relevant_docs ['node_1']
queries 은비와 잭이 만나게 된 장소는 어디이며, 그곳의 분위기를 묘사하시오. (5점)
relevant_docs ['node_1']
queries ## 아크 코퍼레이션 잠입 작전 시험 문제 (총 2문제)
relevant_docs ['node_2']
queries **1. 은비와 잭이 아크 코퍼레이션 본사에 잠입했을 때, 각자 어떤 역할을 수행하여 잠입을 도왔는지 구체적으로 설명하시오.** (10점)
relevant_docs ['node_2']
queries ## 아크 코퍼레이션 데이터 센터 관련 시험 문제 (총 2문제)
relevant_docs ['node_3']
queries **1. 은비가 아크 코퍼레이션 데이터 센터에서 발견한 '충격적인 증거'는 구체적으로 무엇이었으며, 이 증거가 은비에게 어떤 영향을 미쳤는지 서술하시오.** (배점: 5점)
relevant_docs ['node_3']
queries ## 시험 문제 (5장: 추격과 탈출)
relevant_docs ['node_4']
queries **1. 은비와 잭은 아크 코퍼레이션의 추격대를 어떻게 따돌렸나요? 그들의 방법 각각을 구체적으로 설명하시오. (5점)**
relevant_docs ['node_4']
queries ## 시험 문제 (6장: 세상에 알리다)
relevant_docs ['node_5']
queries **1. 은비가 블로그에 글을 올린 후 발생한 결과는 무엇이며, 그 이유는 무엇이라고 생각하십니까? (5점)**
relevant_docs ['node_5']
queries ## 시험 문제 (7장: 새로운 시작)
relevant_docs ['node_

In [22]:
# 검색 성능 평가(Retrieval Evaluation)

from llama_index.core import VectorStoreIndex, Settings


Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-m3"
)

vector_index = VectorStoreIndex(nodes, embed_model=Settings.embed_model)
retriever = vector_index.as_retriever(similarity_top_k=3)

INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: BAAI/bge-m3
DEBUG:urllib3.connectionpool:Resetting dropped connection: huggingface.co
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/modules.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /api/resolve-cache/models/BAAI/bge-m3/5617a9f61b028005a4858fdac845db406aefb181/modules.json HTTP/1.1" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/config_sentence_transformers.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /api/resolve-cache/models/BAAI/bge-m3/5617a9f61b028005a4858fdac845db406aefb181/config_sentence_transformers.json HTTP/1.1" 200 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /BAAI/bge-m3/resolve/main/config_sentence_transformers.json HTTP/1.1" 307 0
DEBUG:urllib3.connectionpool:https://huggingface.co:443 "HEAD /api/resolve-c

In [19]:
# 검색 성능 평가기 준비
from llama_index.core.evaluation import RetrieverEvaluator

retriever_evaluator = RetrieverEvaluator.from_metric_names(
    ["mrr", "hit_rate"],
    # mrr: 각 쿼리 최상위에 있는 관련 문서를 조사하여 시스템 정확도를 평가하는 지표. 올바른 답의 랭크가 한 번이라면 1, 두번이라면 0.5, 세 번이라면 0.333
    # hit_rate: 취득한 상위 k개의 컨텍스트 내에 올바른 답이 포함되어 있는 비율계산 포함 1, 미포함 0
    retriever=retriever
)

In [21]:
# 평가 실행

mrr_values = []
hit_rate_values = []

for key in list(qa_dataset.queries.keys()):
  # 한 개의 쿼리 평가 실행
  result = retriever_evaluator.evaluate(
      query=qa_dataset.queries[key],
      expected_ids=qa_dataset.relevant_docs[key]
  )

  # 집계
  mrr_values.append(result.metric_dict["mrr"].score)
  hit_rate_values.append(result.metric_dict["hit_rate"].score)

  print(result)

mrr_average = sum(mrr_values) / len(mrr_values)
hit_rate_average = sum(hit_rate_values) / len(hit_rate_values)

print(f"MRR: {mrr_average}")
print(f"Hit Rate: {hit_rate_average}")

DEBUG:asyncio:Using selector: EpollSelector
DEBUG:llama_index.core.indices.utils:> Top 3 nodes:
> [Node node_0] [Similarity score:                 0.5335] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
> [Node node_6] [Similarity score:                 0.449401] 7장: 새로운 시작
장소: 폐허가 된 건물

은비와 잭은 다시 낡은 건물의 지하실로 돌아왔다. 그들은 세상을 바꾸기 위해 더 많은 일을 해야 한다는 것을 알고 있었다. ...
> [Node node_1] [Similarity score:                 0.365035] 2장: 잭과의 만남, 위험한 동행
장소: 은비의 은신처, 폐허가 된 건물

은비는 낡은 건물의 지하실에 도착했다. 그곳에는 잭이 기다리고 있었다. 잭은 거대한 체구에 온...
Query: 알겠습니다. 2077년 밤의 도시를 배경으로 한 제시된 컨텍스트 정보를 바탕으로 시험 문제 2개를 출제하겠습니다.
Metrics: {'mrr': 1.0, 'hit_rate': 1.0}

DEBUG:asyncio:Using selector: EpollSelector
DEBUG:llama_index.core.indices.utils:> Top 3 nodes:
> [Node node_0] [Similarity score:                 0.417968] 1장: 밤의 도시, 네온 불빛 아래에서
장소: 2077년, 밤의 도시, 네온 불빛이 가득한 뒷골목

등장인물: 은비(17세, 해커), 잭(은비의 파트너, 전직 용병)
...
> [Node node_3] [Similarity score:                 0.355809] 4장: 