In [1]:
from datasets import load_from_disk
import os
from huggingface_hub import login
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
from typing import List, Dict
import numpy as np
from llama_index.core import Document, VectorStoreIndex, Settings
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.retrievers import QueryFusionRetriever
from llama_index.retrievers.bm25 import BM25Retriever
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.core.schema import TextNode
from llama_index.core import StorageContext, VectorStoreIndex
from llama_index.vector_stores.faiss import FaissVectorStore
import faiss



HF_TOKEN = "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"
os.environ["HUGGINGFACE_HUB_TOKEN"] = HF_TOKEN 
login(token=HF_TOKEN)
import json

In [2]:
# wiki data load
with open('/data/ephemeral/home/data/wikipedia_documents.json') as f:
    wiki_data = json.load(f)
id_to_title = {v["document_id"]: v["title"] for v in wiki_data.values()}


train_set_dir = "/data/ephemeral/home/data/train_dataset/"
dataset = load_from_disk(train_set_dir)

In [None]:
# 중복문서 제거
# chunk size
# overlap size
# 모델 변경

In [3]:
# --- 모델 로드 설정 ---
GEMMA_MODEL_NAME = "google/gemma-3-4b-it"  # 메모리 효율성을 위해 4b 대신 9b를 예시로 사용 (사용자 환경에 따라 변경 가능)
EMBEDDING_MODEL_NAME = "BAAI/bge-m3" # jina-embeddings-v4
RERANKER_MODEL_NAME = "BAAI/bge-reranker-v2-m3" # jina-reranker-v3

In [4]:
# --- LLM 및 Tokenizer 로드 ---
def load_gemma():
    """Gemma 모델과 토크나이저를 로드합니다."""
    # Q: Gemma 3-4b-it 사용 예정이었는데, 현재는 Gemma 2-9b-it을 사용하려 합니다.
    # A: VRAM 상황에 따라 모델 이름을 적절히 변경하여 사용하세요.
    tokenizer = AutoTokenizer.from_pretrained(GEMMA_MODEL_NAME)
    model = AutoModelForCausalLM.from_pretrained(
        GEMMA_MODEL_NAME,
        device_map="cuda" if torch.cuda.is_available() else "cpu",
        torch_dtype=torch.bfloat16,
    )
    return tokenizer, model

In [5]:
documents: List[Document] = []
for doc_id, data in wiki_data.items():
    # 'text' 필드를 문서 내용으로 사용
    data['text'] = data['text'].replace('\\n', '\n')
    
    documents.append(
        Document(
            text=data['text'],
            metadata={
                "document_id": data['document_id'],
                "title": data['title'],
                "corpus_source": data['corpus_source']
            }
        )
    )


| model | chunk | overlap |
|-------|-------|---------|
| BGE   | 256   | 50     |
| BGE   | 256   | 100     |
| BGE   | 512   | 50     |
| BGE   | 512   | 100     |
| jina  | 256   | 50     |
| jina  | 256   | 100     |
| jina  | 512   | 50     |
| jina  | 512   | 100     |


In [6]:
# 3. 문서 청킹 (Node 생성)
# SentenceSplitter는 문장 단위 분할을 기본으로 하면서, 
# 최종 청크 크기를 chunk_size=512로 제한합니다.
splitter = SentenceSplitter(chunk_size=512, chunk_overlap=50) # origin 50

# nodes에는 작은 텍스트 청크(TextNode)들이 리스트 형태로 담깁니다.
nodes: List[TextNode] = splitter.get_nodes_from_documents(documents)

print(f"원본 문서 개수: {len(documents)}개")
print(f"생성된 청크(Node) 개수: {len(nodes)}개")
print(f"첫 번째 청크 텍스트 예시: {nodes[0].get_content()[:100]}...")

원본 문서 개수: 60613개
생성된 청크(Node) 개수: 128488개
첫 번째 청크 텍스트 예시: 이 문서는 나라 목록이며, 전 세계 206개 나라의 각 현황과 주권 승인 정보를 개요 형태로 나열하고 있다.

이 목록은 명료화를 위해 두 부분으로 나뉘어 있다.

# 첫 번째 부...


In [10]:
torch.cuda.is_available() 

True

In [7]:
embed_model = HuggingFaceEmbedding(
    model_name=EMBEDDING_MODEL_NAME,
    device="cuda" if torch.cuda.is_available() else "cpu"
)

# vector_index = VectorStoreIndex(nodes, embed_model=embed_model)



In [8]:
# faiss vs
print("--- VectorStoreIndex 생성 시작 (임베딩 중) ---")

dummy_emb = embed_model.get_text_embedding("dim 체크용")
dim = len(dummy_emb)
faiss_index = faiss.IndexFlatIP(dim) 
vector_store = FaissVectorStore(faiss_index=faiss_index)
storage_context = StorageContext.from_defaults(vector_store=vector_store)


--- VectorStoreIndex 생성 시작 (임베딩 중) ---


In [9]:
vector_index = VectorStoreIndex(
    nodes,
    storage_context=storage_context,
    embed_model=embed_model,
)

In [None]:
# --- 3. Reranker (사용자 정의) ---
from sentence_transformers import CrossEncoder 

class Reranker:
    def __init__(self, model_name: str = RERANKER_MODEL_NAME):
        self.model = CrossEncoder(model_name, device="cuda" if torch.cuda.is_available() else "cpu")

    def rerank(self, query: str, docs: List[Dict], doc_id, top_k: int = 5) -> List[Dict]:
        """
        query와 docs[{'text': ..., ...}]를 받아, score 기준으로 다시 정렬해서 top_k만 반환합니다.
        """
        if not docs:
            return []

        pairs = [[query, d] for d in docs]
        scores = self.model.predict(pairs)  # shape (len(docs),)
        scored_docs = list(zip(docs, scores))
        scored_id = list(zip(doc_id, scores)) 

        scored_docs.sort(key=lambda x: x[1], reverse=True)
        scored_id.sort(key=lambda x: x[1], reverse=True)

        return scored_docs[:top_k], scored_id[:top_k]

In [None]:
reranker = Reranker()


In [None]:
# tokenizer, model = load_gemma()
# gemma_llm = HuggingFaceLLM(
#     # model_name을 지정할 필요가 없거나, 명시적으로 지정해도 model/tokenizer 인자가 우선됩니다.
#     model=model,        # 이미 로드된 PyTorch 모델 객체
#     tokenizer=tokenizer,  # 이미 로드된 Tokenizer 객체
#     device="cuda" if torch.cuda.is_available() else "cpu",
#     # device_map="auto" 등은 이미 model 로드 시 적용되었으므로 LlamaIndex LLM에서는 불필요
    
#     # 템플릿 처리 방식 등 LlamaIndex 관련 설정만 추가
#     context_window=8192, # 예시: Gemma의 Context Window 설정 (필요에 따라)
# )

# # 3. LlamaIndex 설정에 적용
# Settings.llm = gemma_llm

In [None]:
#골든리트리버
retriever = vector_index.as_retriever(similarity_top_k=50)


bm25_retriever = BM25Retriever.from_defaults(nodes=nodes, similarity_top_k=50)

# dense -> 의미  , bm25 -> 언어적 
# 미국 상원 query 
# kiwi 형태소 + den rag
# ㄴ 
#


# fusion_retriever = QueryFusionRetriever(
#     retrievers=[retriever, bm25_retriever],
#     similarity_top_k=30,  
#     num_queries=1,
#     use_async=False,mode="reciprocal_rerank"
# )





In [None]:
query = dataset['train'][12]['question']
retrieved_nodes = retriever.retrieve(query)


In [144]:
docs_for_rerank = [n.node.text for n in retrieved_nodes]
ids_for_rerank = [n.node.metadata['document_id'] for n in retrieved_nodes]

reranked_results = reranker.rerank(query, docs_for_rerank, ids_for_rerank, top_k=5)


In [142]:
result = list(dict.fromkeys((list(map(int, ((list(np.array(reranked_results[1])[:,0].astype(int)))))))))[:5]
print(result)

[19310, 19312, 12253, 5043, 489]


In [145]:
np.array(reranked_results[1])[:,0]

array([19310., 19310., 19310., 19312., 12253.])

In [148]:
reranked_results[0]

[('동앵글인들은 초기에는, 분명하게 우파 왕의 이름을 따서 이름지어진 우핑가스 왕조 (비록 우파의 이름이 "늑대의 후손들"을 뜻하는 왕조의 이름에서 유래한 후대 때 만들어진 것으로 보이긴 하지)의 지배를 받았으며, 이 왕조는 전통 신앙을 따르는 자들이었다. 이스트앵글리아 왕국의 초기 역사와 이들의 지도자들에 대한 필수불가결한 자료가 비드의 『교회사』이기는 하지만, 비드는 이스트앵글리아 왕국의 왕들의 연대기나 이들의 재위 시기에 대해선 전하지는 않았다. 이스트앵글리아 왕국의 권력의 중심이 서퍽주의 동부인 스네이프와 서튼후에 있는 배무덤 집결지라는 점을 제외하면, 초기 왕들이나, 왕국이 어떻게 조직되었는지에 대해선 알려진 것이 없다. 노스퍽과 사우스퍽은 초기 동앵글리아 왕들이 도착하기 전에 있었을 수도 있다.',
  np.float32(0.98431545)),
 ('노스퍽과 사우스퍽은 초기 동앵글리아 왕들이 도착하기 전에 있었을 수도 있다. \n\n『교회사』에 따르면, 우핑가스 왕조의 왕 중 가장 강력했던 이는 "우파를 아버지로 두었던 티틸의 아들" 래드왈드였다고 한다 7세기 초 짧은 기간에, 래드왈드의 통치를 받던 이스트앵글리아는 앵글로색슨 잉글랜드의 왕국들 중에서 가장 강력했으며, 비드는 그를 험버강 이남에 있는 왕국들의 대군주로 묘사했다. 616년에, 그는 노섬브리아의 왕 애설프리트를 리버이들 전투에서 패배시켜 전사시키고 노섬브리아의 에드윈을 왕위에 앉힐 만큼 강력했다. 그는 서튼후에 있는 사치스러운 배무덤으로써, 개인적인 영예를 누렸던 것으로 보인다. 우핑가스 왕조가 동부 스웨덴의 왕족들의 후예일지도 모른다며, 서튼후에 있는 봉분 1호에서 발견된 유물과 스웨덴의 벤델에서 발견된 유물들 간의 공통점의 정도를 증거로, 블레어가 의혹을 제기했었다.',
  np.float32(0.61625445)),
 ('그러나, 이전엔 스웨덴에서 왔다고 여겨졌던 유물들은 현재 잉글랜드에서 만들어진 것으로 보며, 우핑가스 왕조가 스웨덴을 기원으로 했다는 것도 가능성이 낮아 보인

In [None]:
import gc
gc.collect()

: 

In [None]:
dataset['train'][12]

{'title': '이스트앵글리아 왕국',
 'context': '웨하가 동앵글리아의 초대 왕으로 기록되고, 그 뒤를 우파가 뒤를 잇던, 동앵글리아 왕국은 6세기 초에 형성되었다\\n\\n749년까지 이스트앵글리아의 왕들은 반신화적인 인물인 우파의 이름을 딴 우핑가스 왕조 출신들이었다. 이스트앵글리아의 래드왈드의 재위 당시인 7세기 초에, 앵글로색슨 왕국들은 평화로운 상태였다. 기독교 신자로 세례를 받은 첫 이스트앵글리아의 왕인 래드왈드는 우드브리지 인근 서튼후에서 배무덤 양식으로 묻힌 인물이라고 많은 학자들에게 여겨진다. 대략 624년경에 그가 사망하고나서 수십 년 동안에, 동앵글리아는 머시아 왕국의 서서히 지배를 받게 되었다. 래드왈드의 후임자들 몇몇은 전투 중에 사망했으며, 이중에는 기독교를 완전히 정착시킨 부르군트의 펠릭스 주교의 지도와 함께, 나라를 다스렸던 시게버트 (641년 전사)가 있었다.\\n\\n794년에 애설버트 2세가 머시아인들에게 사망하고부터 825년까지, 이스트앵글리아 왕국은 796년에 애드왈드의 잠깐의 시기를 제외하고는 독립 왕국으로서 기능을 상실했었다. 바이킹들이 전투에서 이스트앵글리아군과 전투 중에 전사한 순교왕 에드먼드를 패배시킨 869년까지 왕국은 남아있었다. 879년 이후 바이킹들은 이스트앵글리아에 영구적으로 정착했다. 903년에 추방당한 애슬링의 애설울드가 이스트앵글리아의 데인인들에게 자신의 조카인 대 애드워드에게 전쟁을 일으키게끔 부추겼다. 데인족들의 계속된 패배가 이어진 후인 917년경에 이스트앵글리아는 에드워드에게 복속되었고 잉글랜드 왕국으로 통합되었으며, 이후 백작령이 되었다.',
 'question': '우핑가스 왕조의 이름은 어디서 유래하였나?',
 'id': 'mrc-0-000425',
 'answers': {'answer_start': [86], 'text': ['반신화적인 인물인 우파']},
 'document_id': 19308,
 '__index_level_0__': 286}

In [35]:

final_context = "\n\n---\n\n".join([f"[{i+1}] {d[0]}" for i, d in enumerate(reranked_results[0])])
print(f'Q. {query}')

print(np.array(reranked_results[1])[:,0])

Q. 카드모스의 부하들이 간 곳에는 무엇이 있었는가?
[37482. 37482. 20734. 45765. 60518. 19191. 24376. 59523. 60517. 45927.]


In [70]:
dataset['train'][86]

{'title': '메이레키 대화재',
 'context': '옛날 에도에서는 17세 소녀인 우메노(梅乃)가 살고 있었다. 부유한 전당포 가문의 외동딸이었던 우메노는 에도에서 열린 마츠리에 나서던 도중에 잘 생긴 소년의 모습에 반하게 된다. 소년의 모습을 다시 보고 싶었던 우메노는 부모에게 시집을 가고 싶다고 말했지만 부모의 반대로 인해 좌절했고 음력 1월 18일에 상사병으로 인해 사망하고 만다.\\n\\n우메노의 부모는 딸의 결혼에 반대한 것을 크게 후회하면서 슬픔에 빠지게 된다. 며칠 뒤 에도의 큰 사찰인 혼묘지(本妙寺)에서는 우메노의 장례식이 열렸다. 일본의 장례식에서는 죽은 사람이 생전에 아끼던 옷을 관에 덮어주는 풍습이 있었다. 우메노의 어머니는 우메노가 마츠리에 나서던 도중에 입었던 붉은색 후리소데를 덮어주었다.\\n\\n어느 날 혼묘지에서 일하던 일꾼들이 우메노의 후리소데를 몰래 빼돌려서 시장에 팔았다. 그렇지만 3년 동안 우메노가 입었던 후리소데를 입은 3명의 소녀들이 매년 음력 1월 18일에 원인을 알 수 없는 질병으로 인해 사망하고 만다. 혼묘지에서 열린 소녀들의 장례식에서 돌아온 우메노의 후리소데를 알고 있던 일꾼들은 죄책감과 불길함에 시달리면서 이 사실을 스님에게 고백하게 된다. 스님은 우메노의 부모에게 우메노의 한과 저주가 서린 후리소데를 불에 태워 없애기로 결정했다.\\n\\n혼묘지의 스님은 뜰에 불을 피우는 동안에 불교의 경전을 외우면서 우메노의 후리소데를 불에 던져버린다. 그런데 불에 타고 있던 우메노의 후리소데가 예상치 못한 돌풍에 날아가면서 혼묘지의 본당의 지붕에 날아앉았다. 우메노의 후리소데에서 시작된 불은 혼묘지의 본당과 사찰 전체를 불태웠다. 당시 에도는 음력 11월부터 3개월 동안 비가 내리지 않아 건조한 상태였고 강한 북풍이 불면서 불은 삽시간에 에도 전체로 확산되었다.',
 'question': '우메노의 사인은?',
 'id': 'mrc-1-000379',
 'answers': {'answer_start': [171

In [27]:
print(final_context)

[1] 델포이의 신탁에 따라 암소를 따라간 카드모스는 테베 땅에 이르렀다. 카드모스는 암소를 잡아서 신들에게 공양하려고 부하들에게 근처의 샘으로 물심부름을 보냈다. 샘은 드래곤이 지키고 있었고, 드래곤은 카드모스의 부하 여럿을 죽인 뒤 카드모스의 칼에 죽었다.

《비블리오테카》에 따르면 이 드래곤은 아레스의 신수였다고 한다. 아테나는 드래곤의 이빨 중 절반을 카드모스에게 주고 그것을 땅에 심으라고 했다. 카드모스가 그렇게 하자 고랑마다 사나운 무장한 사내들이 튀어나왔다. 그들에게 겁을 먹은 카드모스는 그들 사이에 돌을 집어던졌고, 돌을 누가 던졌냐고 시비가 붙은 용아병들은 서로 싸우다가 다섯 명만 남기고 나머지는 모두 죽었다.

---

[2] 살아남은 용아병 다섯은 에키온, 우다에오스, 크토노니오스, 퓌헤레노르, 펠로루스이며, 이 다섯은 카드모스를 도와 테베라는 도시를 건립했다. 카드모스는 드래곤을 죽인 대가로 8년동안 아레스의 노예로 살았고, 그 기간이 끝나자 아레스와 아프로디테의 딸인 하르모니아를 아내로 맞았다. 

한편, 미틸레네의 헬라니코스의 판본에 따르면 애초부터 용아병은 다섯 명이 튀어나왔으며, 아레스가 카드모스를 죽이려고 하는 것을 제우스가 나서서 살려 주었다. 용아병들 중 에키온은 뒤에 카드모스의 딸 아가베와 결혼했고, 둘 사이에 태어난 아들 펜테우스가 카드모스의 뒤를 이어 테베의 왕이 되었다.

---

[3] 테베의 왕 카드무스는 고령으로 인해 그의 외손 펜테우스에게 양위하였다. 카드무스의 아들인 폴리도로스의 뒤를 이었다는 설도 있다.

펜테우스는 이모 세멜레의 아들이기도 한 디오니소스 신의 숭배를 포기하였고, 이모들에게는 의식에 참여하지 못하게 했다. 이에 화가 난 디오니소스는 펜테우스의 어머니인 아가베와 이모인 이노, 그리고 아우토노에 그리고 모든 테베의 여인과 함께 술에 취해 키타에론 산으로 달려가게 하였다. 펜테우스는 디오니소스를 가두었지만, 디오니소스는 신이었기에 결박은 무너지고 옥문은 그를 위해 열렸다.

디오니소스는 그 후 펜테

In [150]:
test_set_dir = "/data/ephemeral/home/data/test_dataset/"
test_dataset = load_from_disk(test_set_dir)

array([5028,  474,  461, 5015, 5032])

In [26]:
dataset

DatasetDict({
    train: Dataset({
        features: ['title', 'context', 'question', 'id', 'answers', 'document_id', '__index_level_0__'],
        num_rows: 3952
    })
    validation: Dataset({
        features: ['title', 'context', 'question', 'id', 'answers', 'document_id', '__index_level_0__'],
        num_rows: 240
    })
})

In [213]:
import tqdm

result_for_test = []

for i in tqdm.tqdm(range(len(test_dataset['validation']['question']))):

    # 질문과 id
    test_q_query = test_dataset['validation'][i]['question']
    test_q_id = test_dataset['validation'][i]['id']

    # 골든리트리버 귀엽다
    retrieved_nodes_test = retriever.retrieve(test_q_query)


    # data for reranker
    docs_for_rerank_test = [n.node.text for n in retrieved_nodes_test]
    ids_for_rerank_test = [n.node.metadata['document_id'] for n in retrieved_nodes_test]



    # rerank result
    reranked_results_test = reranker.rerank(test_q_query, docs_for_rerank_test, ids_for_rerank_test, top_k=5)
    result_for_test.append([test_q_id, (list(np.array(reranked_results_test[1])[:,0].astype(int)))])

100%|██████████| 600/600 [1:37:27<00:00,  9.75s/it]


In [49]:
dataset['train'][0]['id']

'mrc-1-000067'

In [135]:
nums = [7,
12,
14,
30,
31,
37,
55,
57,
67,
73,
84,
92,
98,
99]

In [None]:
import tqdm

result_for_train = []

for i in tqdm.tqdm(range(len(dataset['validation']['question']))):

    # 질문과 id
    train_q_query = dataset['train'][i]['question']
    train_q_id = dataset['train'][i]['id']

    # 골든리트리버 귀엽다
    retrieved_nodes_train = retriever.retrieve(train_q_query)


    # data for reranker
    docs_for_rerank_train = [n.node.text for n in retrieved_nodes_train]
    ids_for_rerank_train = [n.node.metadata['document_id'] for n in retrieved_nodes_train]



    # rerank result
    reranked_results_train = reranker.rerank(train_q_query, docs_for_rerank_train, ids_for_rerank_train, top_k=20)
    result = list(dict.fromkeys((list(map(int, ((list(np.array(reranked_results_train[1])[:,0].astype(int)))))))))[:5]

    result_for_train.append([train_q_id, result])

In [None]:
def convert_to_json(data):
    question_id = []
    document_list = []

    for q_id, doc_list in data:
        question_id.append(q_id)
        document_list.append(list(map(int, (doc_list))))
    result_dict = {
        "question_id": question_id,
        "document_id": document_list
    }
    return result_dict

In [None]:
# json_test = convert_to_json(result_for_test)
json_test = convert_to_json(result_for_train)

In [None]:
file_path = './document_list/train_no_redundant.json'
with open(file_path, 'w') as f:
    json.dump(json_test, f)

In [30]:
file_path = './document_list/train_no_redundant.json'

with open(file_path, 'r') as f:
    k = json.load(f)



In [81]:
k['document_id'][77],k2['document_id'][77]

([43992, 56655, 43991, 39931, 54108], [43991, 39931, 43586, 54108, 6467])

In [96]:
3952*0.02

79.04

In [33]:
# 정답확인
import tqdm
j  =  0
j_n = 0
for i in tqdm.tqdm(range(len(dataset['train']['question']))):
    doc = k['document_id'][i]
    doc_2 = k2['document_id'][i]
    answer_doc = dataset['train'][i]['document_id']
    if answer_doc in doc:
        j += 1
        if answer_doc not in doc_2:
            print(i)
        
    else:
        j_n +=1 


 64%|██████▍   | 2547/3952 [00:00<00:00, 8365.67it/s]

23
63
77
227
282
305
555
562
635
975
1014
1062
1095
1195
1264
1310
1325
1380
1412
1420
1463
1564
1645
1657
1708
2125
2391
2537
2578
2619
2675
2699
2788
2807
2835


100%|██████████| 3952/3952 [00:00<00:00, 8278.20it/s]

2863
2968
3042
3099
3282
3370
3373
3388
3543
3746
3886





In [17]:
j = 0
for i in tqdm.tqdm(range(len(dataset['train']['question']))):
    doc = k['document_id'][i]
    has_duplicate = len(doc) != len(set(doc))
    if has_duplicate:
        j+=1

100%|██████████| 3952/3952 [00:00<00:00, 599186.29it/s]


In [18]:
j/3952

0.0