# 소개
슈팅스타! 팀 프로젝트를 colab환경에서 간단히 테스트 해볼 수 있는 ipynb 파일 입니다.
___

## 사전 준비
- data 폴더엔 질문-문서.jsonl 파일과, 학습된 모델.pth 파일을 넣어 주시면 됩니다.
- vectordb 폴더는 자동생성되고, 만약 있는걸 사용하신다면 하단 main함수에 알맞은 경로를 넣어서 불러와서 사용하면 됩니다.
- ipynb파일 경로를 %cd를 통해 지정해주고 (예시) `%cd '/content/drive/MyDrive/Colab Notebooks/yeardream/shootingstar_test'`
    - 해당 폴더에 .env를 만들고 안에 'OPENAI_API_KEY'='sk-...'
- 최하단에 main.py에 들어가는 인자를 알맞게 수정
- 특히 is_first가 True일시 문서 임베딩을 처음부터 다시 하는데다가, 덮어쓰는게 아니라 추가로 넣어버리기 때문에 해당모델을 하는게 아니라면 True로 설정하시면 안됩니다.
    - 이 값을 True로 하는 경우 = 모델을 바꾸거나, workspace를 변경했을때 True
___


## main.py 부분 사용법
- 문서데이터를 처음부터 임베딩 하는게 아니라면 굳이 gpu런타임을 할 필요 없습니다.
- 모두 실행후 최하단에 input 입력창이 생기면 질문을 넣고 답변을 받을 수 있습니다.
___
## eval.py 부분 사용법
- main.py 이전셀을 실행후 실행하면 됩니다
- main.py를 돌리고 있는 중이라면 'exit'를 입력해 빠져나오거나, 직접 중지해주고 실행해주세요
- model_paths = ["data/museum_5epochs.pth", ""]
    - 평가할 모델의 경로를 순서대로 적어줍니다 (workspace와 순서가 같아야함)
    - ""은 klue/bert-base 모델을 적용합니다 (dpr X)
- workspaces = ["vectordb/museum_5epochs", "vectordb/bert-base"]
    - 해당 모델로 임베딩한 index.bin이 있는 경로를 지정해줍니다.
    - 여기서 '/' 다음 부분이 csv파일에 모델이름으로 기록되게 됩니다.




In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
# 자신의 폴더 위치에 맞게 아래 경로 변경해야 함
%cd '/content/drive/MyDrive/Colab Notebooks/슈팅스타/shootingstar_test'

/content/drive/MyDrive/Colab Notebooks/슈팅스타/shootingstar_test


In [None]:
!pip install python-dotenv docarray vectordb langchain openai

In [4]:
import os
import json
from dotenv import load_dotenv
from typing import Optional, Literal
from tqdm.auto import tqdm
import pandas as pd

from docarray import BaseDoc, DocList
from docarray.typing import NdArray
from vectordb import InMemoryExactNNVectorDB

import torch
from torch.utils.data import Dataset, DataLoader
from transformers import AutoTokenizer, AutoModel

from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage, AIMessage, ChatMessage
from langchain.callbacks.base import BaseCallbackHandler
from langchain.callbacks import get_openai_callback

import textwrap


load_dotenv()
os.environ["TOKENIZERS_PARALLELISM"] = "false"
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [5]:
# llmvdb/doc.py
class ToyDoc(BaseDoc):
    text: str = ""
    context_embedding: Optional[NdArray[768]]
    question: str = ""
    question_embedding: Optional[NdArray[768]]
    tit_id: str = ""
    ctx_id: str = ""


In [6]:
# llmvdb/customdataset.py

class CustomDataset(Dataset):
    def __init__(self, file_path, max_lines=None):
        self.documents_data = []
        seen_ctx_ids = set()
        with open(file_path, "r", encoding="utf-8") as file:
            for line in file:
                data = json.loads(line)
                ctx_id = data.get("ctx_id")

                if ctx_id not in seen_ctx_ids:
                    self.documents_data.append(data)
                    seen_ctx_ids.add(ctx_id)

                if max_lines and len(self.documents_data) >= max_lines:
                    break

    def __len__(self):
        return len(self.documents_data)

    def __getitem__(self, idx):
        data = self.documents_data[idx]
        text = f'{data.get("title", "")}\n{data.get("context", "")}{data.get("description","")}'
        return {
            "text": text,
            "question": data.get("question", ""),
            "ctx_id": data.get("ctx_id"),
            "tit_id": data.get("tit_id"),
        }


class EvalCustomDataset(CustomDataset):
    def __init__(self, file_path):
        self.documents_data = []
        with open(file_path, "r", encoding="utf-8") as file:
            for line in file:
                data = json.loads(line)
                self.documents_data.append(data)

In [7]:
# llmvdb/embedding.py

class HuggingFaceEmbedding:
    def __init__(self, model_name: str = "klue/bert-base", use_gpu: bool = True):
        self.device = torch.device(
            "cuda" if torch.cuda.is_available() and use_gpu else "cpu"
        )
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModel.from_pretrained(model_name).to(self.device)
        print(f"====={self.device}를 사용해서 임베딩합니다=====")

    def get_embedding(self, prompt):
        if isinstance(prompt, str):
            prompt = [prompt]

        inputs = self.tokenizer(
            prompt, padding=True, truncation=True, return_tensors="pt", max_length=512
        )
        inputs = {k: v.to(self.device) for k, v in inputs.items()}
        with torch.no_grad():
            model_output = self.model(**inputs)
        sentence_embeddings = self.mean_pooling(model_output, inputs["attention_mask"])
        return sentence_embeddings.cpu()

    @staticmethod
    def mean_pooling(model_output, attention_mask):
        token_embeddings = model_output[0]
        input_mask_expanded = (
            attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
        )
        return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(
            input_mask_expanded.sum(1), min=1e-9
        )


class DPRTextEmbedding(HuggingFaceEmbedding):
    def __init__(
        self,
        mode: Literal["passage", "question"],
        model_path: str = "./data/kmrc_mrc.pth",
        model_name: str = "klue/bert-base",
    ):
        if mode not in ["passage", "question"]:
            raise ValueError("Mode must be 'passage' or 'question'")
        super().__init__(model_name)
        self.mode = mode
        self.model_dict = {}
        self.load_model = torch.load(model_path, map_location=torch.device("cpu"))
        for key in self.load_model.keys():
            if key.startswith(f"module.{self.mode}_encoder."):
                self.model_dict[
                    key.replace(f"module.{self.mode}_encoder.", "")
                ] = self.load_model[key]
        self.model.load_state_dict(self.model_dict, strict=False)

In [8]:
# llmvdb/langchain.py

class LangChain:
    def __init__(self, api_token=None, instruction=None, callbacks=None, verbose=False):
        self.api_token = api_token or os.getenv("OPENAI_API_KEY") or None
        if self.api_token is None:
            raise ValueError("Open API 키가 필요합니다")
        self.instruction = instruction
        self.callbacks = callbacks
        self.verbose = verbose
        self.streaming = False if self.callbacks is None else True
        self.model = "gpt-3.5-turbo-1106"
        self.llm = ChatOpenAI(
            model=self.model,
            temperature=0.3,
            streaming=self.streaming,
            callbacks=self.callbacks,
        )
        self.system_message = f"{self.instruction}\n 주어지는 참고용 문서를 바탕으로 사용자의 질문에 답변해줘. 사용자의 질문을 자세히 분석해서 문서를 참고해 질문의 답변을 해줘\n 만약 문서에서 질문에 대한 답변을 찾을 수 없으면 반드시 '참고할 수 있는 문서가 없습니다.' 라고 말하고, 이후에 너가 아는 정보를 말해줘"
        self.history_memory = []
        self.initial_history_memory = [SystemMessage(content=self.system_message)]

    def append_limit_length(self, human_message, ai_message):
        new_pair_len = len(human_message.content) + len(ai_message.content)

        while (
            sum(len(msg.content) for msg in self.history_memory) + new_pair_len > 3000
        ):
            self.history_memory.pop(0)
            self.history_memory.pop(0)
        self.history_memory.append(human_message)
        self.history_memory.append(ai_message)

    def call(self, prompt: str, document: str) -> str:
        with get_openai_callback() as cb:
            response = self.llm(
                self.initial_history_memory
                + self.history_memory
                + [
                    HumanMessage(
                        content=f"질문:\n{prompt}\n\n ### 참고용 문서(질문과 관련 없으면 절대 참고하지 않기):\n{document}\n"
                    )
                ]
            )

        if self.verbose:
            print(cb)

        response = response.content
        print(response)

        self.append_limit_length(
            HumanMessage(content=prompt), AIMessage(content=response)
        )
        return response

    def set_callbacks(self, callbacks):
        self.llm = ChatOpenAI(
            model=self.model,
            temperature=0.3,
            streaming=self.streaming,
            callbacks=callbacks,
        )


In [9]:
# llmvdb/__init__.py

class Llmvdb:
    def __init__(
        self,
        embedding=None,
        llm=None,
        verbose: bool = False,
        file_path=None,
        workspace: Optional[str] = None,
        threshold: float = 0.7,
        top_k: int = 3,
    ):
        self.embedding = embedding
        self.llm = llm
        self.verbose = verbose
        self.workspace = workspace
        self.file_path = file_path
        self.threshold = threshold
        self.top_k = top_k

        self.db = InMemoryExactNNVectorDB[ToyDoc](workspace=self.workspace)

    def custom_collate_fn(self, batch):
        texts = [item["text"] for item in batch]
        questions = [item["question"] for item in batch]
        ctx_ids = [item["ctx_id"] for item in batch]
        tit_ids = [item["tit_id"] for item in batch]
        batched_data = []
        for i in range(len(batch)):
            batched_data.append(
                {
                    "text": texts[i],
                    "question": questions[i],
                    "ctx_id": ctx_ids[i],
                    "tit_id": tit_ids[i],
                }
            )
        return batched_data

    def initialize_db(self):
        dataset = CustomDataset(self.file_path)
        dataloader = DataLoader(
            dataset, batch_size=64, shuffle=False, collate_fn=self.custom_collate_fn
        )
        doc_list = []

        for batch in tqdm(dataloader, desc="Processing dataset embedding"):
            texts = [data["text"] for data in batch if data["text"].strip() != ""]
            context_embeddings = self.embedding.get_embedding(texts)

            for j, data in enumerate(batch):
                if data["text"].strip() != "":
                    doc_list.append(
                        ToyDoc(
                            text=data["text"],
                            context_embedding=context_embeddings[j],
                            question=data["question"],
                            tit_id=data["tit_id"],
                            ctx_id=data["ctx_id"],
                        )
                    )

        self.db.index(inputs=DocList[ToyDoc](doc_list))
        self.db.persist()

    def retrieve_document(self, prompt):
        query = ToyDoc(
            text=prompt, context_embedding=self.embedding.get_embedding(prompt)
        )
        search_parameters = {"search_field": "context_embedding"}
        results = self.db.search(
            inputs=DocList[ToyDoc]([query]),
            parameters=search_parameters,
            limit=self.top_k,
        )

        input_document = ""
        over_threshold_indices = [
            idx for idx, value in enumerate(results[0].scores) if value > self.threshold
        ]

        if self.verbose:
            # print(results[0].matches[0])
            # print(results[0].matches.ctx_id)
            print(results[0].text, results[0].scores)
            print(f"threshold를 넘는 index : {over_threshold_indices}")

            # 만약 threshold 0.8을 넘는게 있고 그 개수가 k개보다 적다면 전부 retrieve
        if 1 <= len(over_threshold_indices) < self.top_k:
            for index in over_threshold_indices:  # top-k (k=3)
                input_document += (
                    "#문서" + str(index) + "\n" + results[0].matches[index].text + "\n"
                )

        # 만약 threshold 0.8을 넘는게 있고 그 개수가 k개보다 많다면 top-k만 retrieve
        elif len(over_threshold_indices) >= self.top_k:
            for index in range(self.top_k):  # top-k (k=3)
                input_document += (
                    "#문서" + str(index) + "\n" + results[0].matches[index].text + "\n"
                )

        # 만약 threshold 0.8을 넘는게 없다면 top-1만
        elif len(over_threshold_indices) == 0:
            input_document += "#문서\n" + results[0].matches[0].text + "\n"

        if self.verbose:
            print("================아래 문서를 참고합니다================")
            print(input_document)
            print("======================================================")

        return input_document

    def generate_response(self, prompt):
        input_document = self.retrieve_document(prompt)
        completion = self.llm.call(prompt, input_document)
        return completion

    def change_embedding(self, new_embedding):
        self.embedding = new_embedding

    def evaluate_model(self, target_model):
        dataset = EvalCustomDataset("data/test.jsonl")
        dataloader = DataLoader(
            dataset, batch_size=32, shuffle=False, collate_fn=self.custom_collate_fn
        )
        question_list = []
        for batch in tqdm(dataloader, desc=f"embedding..{target_model}"):
            question = [data["question"] for data in batch]
            question_embedding = self.embedding.get_embedding(question)
            for idx, data in enumerate(batch):
                question_list.append(
                    ToyDoc(
                        question=data["question"],
                        question_embedding=question_embedding[idx],
                        ctx_id=data["ctx_id"],
                        tit_id=data["tit_id"],
                    )
                )
        question_len = len(question_list)
        correct_counts = {
            1: 0,
            2: 0,
            3: 0,
            5: 0,
            7: 0,
            10: 0,
            20: 0,
            50: 0,
            70: 0,
            100: 0,
            "question_len": question_len,
        }
        top_k_keys = sorted([k for k in correct_counts.keys() if isinstance(k, int)])

        for q in tqdm(question_list, desc=f"search..{target_model}"):
            search_query = ToyDoc(
                question=q.question,
                context_embedding=q.question_embedding,
                ctx_id=q.ctx_id,
            )
            for top_k in top_k_keys:
                search_parameters = {"search_field": "context_embedding"}
                search_results = self.db.search(
                    inputs=DocList[ToyDoc]([search_query]),
                    parameters=search_parameters,
                    limit=top_k,
                )

                for match in search_results[0].matches:
                    if match.ctx_id == search_query.ctx_id:
                        correct_counts[top_k] += 1
                        break

        for top_k, count in correct_counts.items():
            if top_k != "question_len":
                correct_counts[top_k] = count / question_len
                print(f"Top_{top_k} Accuracy: {count/question_len:.3f}")

        return correct_counts

In [10]:
# main.py
class CLIHandler(BaseCallbackHandler):
    def __init__(self):
        self.text=''

    def on_llm_new_token(self, token:str, **kwargs) -> None:
        self.text += token

def main(
    data_file_path: str,
    workspace: str,
    model_path: str,
    is_dpr: bool = False,
    is_first: bool = False,
):
    cli_handler = CLIHandler()

    if is_dpr:
        embedding = DPRTextEmbedding("passage", model_path)
        question_embedding = DPRTextEmbedding("question", model_path)
    else:
        embedding = HuggingFaceEmbedding()

    llm = LangChain(callbacks=[cli_handler])

    llmvdb = Llmvdb(
        embedding,
        llm,
        file_path=data_file_path,
        workspace=workspace,
        verbose=True,  # False로 설정시 터미널에 정보 출력 안됨
        threshold=0.1,
        top_k=5,
        )
    if is_first:
        llmvdb.initialize_db()  # vectordb저장, 처음에 한번만 실행

        # is_dpr = True 이면 question embedding으로 변경
    if is_dpr:
        llmvdb.change_embedding(question_embedding)

    while True:
        user_input = input('user: ')
        if user_input.lower() == 'exit':
            break
        try:
            response = llmvdb.generate_response(user_input)
            wrapped_response = textwrap.fill(response, width=55)
            print('AI: ', wrapped_response)
        except Exception as e:
            print(f'응답 생성중 오류 발생: {e}')

if __name__ == "__main__":
    main(
        # 질문-문서 데이터셋 경로
        data_file_path='data/train.jsonl',

        # 임베딩된 데이터가 저장되는(되어있는) 경로
        workspace='vectordb/museum_5epochs',

        #학습된 dpr모델(.pth파일)의 경로
        model_path='data/museum_5epochs.pth',

        # DPR 모델 사용 여부
        is_dpr=True,

        # 처음 실행 여부
        is_first=False,
        # 주의 : 이 값을 True로 하는 경우 = 모델을 바꾸거나, workspace를 변경했을때 True
        # 처음 폴더를 받은 상태에서 돌려보기만 할땐 False로 둬도 됨!
    )



tokenizer_config.json:   0%|          | 0.00/289 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/425 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/495k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/445M [00:00<?, ?B/s]

=====cuda를 사용해서 임베딩합니다=====
=====cuda를 사용해서 임베딩합니다=====
user: 제일 오래된 유물이 뭐야?





제일 오래된 유물이 뭐야? [0.11934506148099899, 0.11767161637544632, 0.10857498645782471, 0.10730888694524765, 0.10631198436021805]
threshold를 넘는 index : [0, 1, 2, 3, 4]
#문서0
검(劍)과 도(刀)-신분을 말하다.
이 중 머리 쪽에 있는 검은 마치 왕권을 상징하듯이 나무널 모서리에 꽂혀 있었습니다. 이 검은 손잡이를 모두 청동으로 만든 일체형입니다.사라리 130호 주인공은 청동 손잡이가 일체형인 검 1점과 결합형인 검 2점을 소유하였습니다. 허리 부근에 착장한 듯한 위치에 둔 검은 손잡이를 결합형으로 만들었지만, 일체형과 큰 차이가 없습니다. 이 검의 손잡이는 흑칠(黑漆)한 나무 몸체에 청동 장식을 촘촘하게 덧씌워서 만들었습니다.경주 사라리 유적에서 발굴한 130호는 서기 2세기 전후의 나무널(木棺) 무덤입니다. 주인공은 목에 유리와 수정으로 만든 목걸이를 걸고, 허리에는 호랑이 모양 띠고리(호형대구)를 차고 있었습니다. 양팔 부근에는 12개의 팔찌와 17개의 반지가 있었습니다. 왼쪽 머리에서 허리 쪽에는 모두 8자루의 도검류를 소유하고 있었습니다.나무널 바닥에는 61점의 얇은 쇠도끼를 깔았습니다. 나무 널 바깥에는 청동거울, 쇠솥, 칠기류 등 많은 기물(器物)을 두었습니다. 주인공이 소유한 기물은 지금까지 발굴한 나무널 무덤 중에서 단연 으뜸입니다.그는 누구이며, 죽어서도 소유한 기물은 우리에게 무엇을 말해 주고 있는 걸까요
#문서1
창원 다호리 유적에서 출토된 세형동검과 검집
발견의 순간1988년 1월의 어느 겨울날, 삽과 호미, 붓, 양동이를 든 사람들이 다호리 마을의 논으로 모여들었습니다. 그곳은 누군가가 땅을 파헤쳐 도굴 갱으로 보이는 커다란 구멍이 나 있었습니다. 국립중앙박물관은 이 유적이 더 이상 파괴되는 것을 막고자 땅을 파고 안을 조사하기로 했습니다. 1미터 넘게 깊숙이 파 내려갔을 즈음 흙과는 조금 다른 덩어리가 보이기 시작했습니

In [14]:
# eval.py
!mkdir -p eval


def eval_model(model_paths, workspaces):
    model_performance = []
    for model_path, workspace in zip(model_paths, workspaces):
        print(model_path, workspace)
        if model_path:
            embedding = DPRTextEmbedding("question", model_path)
        else:
            print("====== klue/bert-base =====")
            embedding = HuggingFaceEmbedding()
        vdb = Llmvdb(
            embedding,
            workspace=workspace,
            verbose=True,
        )

        target_model = workspace.split("/")[-1]
        accuracy = vdb.evaluate_model(target_model)

        accuracy["model"] = target_model
        model_performance.append(accuracy)

    df = pd.DataFrame(model_performance)
    return df

if __name__ == "__main__":
    # 평가할 모델의 경로를 순서대로 적어줍니다 (workspace와 순서가 같아야함)
    # ""은 klue/bert-base 모델을 적용합니다 (dpr X)
    model_paths = ["data/museum_5epochs.pth", ""]

    # 해당 모델로 임베딩한 index.bin이 있는 경로를 지정해줍니다.
    # 여기서 '/' 다음 부분이 csv파일에 모델이름으로 기록되게 됩니다.
    workspaces = ["vectordb/museum_5epochs", "vectordb/bert-base"]

    df = eval_model(model_paths, workspaces)

    df.to_csv("eval/model_performance.csv", index=False, encoding="utf-8-sig")
    print(df)


data/museum_5epochs.pth vectordb/museum_5epochs
=====cuda를 사용해서 임베딩합니다=====


embedding..museum_5epochs:   0%|          | 0/85 [00:00<?, ?it/s]

search..museum_5epochs:   0%|          | 0/2697 [00:00<?, ?it/s]

Top_1 Accuracy: 0.306
Top_2 Accuracy: 0.433
Top_3 Accuracy: 0.513
Top_5 Accuracy: 0.611
Top_7 Accuracy: 0.679
Top_10 Accuracy: 0.730
Top_20 Accuracy: 0.830
Top_50 Accuracy: 0.898
Top_70 Accuracy: 0.914
Top_100 Accuracy: 0.930
 vectordb/bert-base
=====cuda를 사용해서 임베딩합니다=====


embedding..bert-base:   0%|          | 0/85 [00:00<?, ?it/s]

search..bert-base:   0%|          | 0/2697 [00:00<?, ?it/s]

Top_1 Accuracy: 0.129
Top_2 Accuracy: 0.185
Top_3 Accuracy: 0.222
Top_5 Accuracy: 0.272
Top_7 Accuracy: 0.311
Top_10 Accuracy: 0.350
Top_20 Accuracy: 0.432
Top_50 Accuracy: 0.558
Top_70 Accuracy: 0.608
Top_100 Accuracy: 0.659
          1         2         3         5         7        10        20  \
0  0.305525  0.432703  0.512792  0.610679  0.679273  0.730441  0.829811   
1  0.129032  0.185020  0.221728  0.272154  0.311086  0.350019  0.431961   

         50        70       100  question_len           model  
0  0.898406  0.914349  0.929922          2697  museum_5epochs  
1  0.558398  0.608454  0.658880          2697       bert-base  
