In [1]:
import os
import ast
import torch
import json
import huggingface_hub


from langchain.vectorstores import FAISS
from langchain.prompts import PromptTemplate
from langchain.memory import ConversationBufferMemory
from langchain_huggingface.llms import HuggingFacePipeline
from langchain.agents import Tool, initialize_agent, AgentType
from langchain.agents import Tool, AgentType, initialize_agent
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

huggingface_hub.login("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")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/pervinco/.cache/huggingface/token
Login successful


## documents.jsonl 로드 및 처리

1. 문서 데이터를 encoder 모델로 임베딩.
2. Faiss를 벡터 DB로 정하고 벡터를 저장.

In [2]:
## 문서 데이터 로드 함수 정의
def load_jsonl(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        return [json.loads(line) for line in f]

## 문서 데이터 로드
doc_file = "../dataset/documents.jsonl"
doc_data = load_jsonl(doc_file)
print(f"문서 수: {len(doc_data)}")

문서 수: 4272


In [3]:
## 문서 임베딩 모델 로드
embedding_model_name = "jhgan/ko-sroberta-multitask"
embedding_model_kwargs = {"device": "cuda:0"}
encode_kwargs = {"normalize_embeddings": False}

embedding_model = HuggingFaceEmbeddings(
    model_name=embedding_model_name,
    model_kwargs=embedding_model_kwargs,
    encode_kwargs=encode_kwargs
)

## 벡터 DB 생성
contents = [doc['content'] for doc in doc_data]
vector_db = FAISS.from_texts(texts=contents, embedding=embedding_model)
retriever = vector_db.as_retriever(search_kwargs={"k": 10})  # 상위 10개 검색

print(f"벡터 스토어에 저장된 벡터의 수: {vector_db.index.ntotal}")



벡터 스토어에 저장된 벡터의 수: 4272


## LLM

1. LLama3 모델, 토크나이저 로드
2. Fucntion Call 정의

In [4]:
model_id = "meta-llama/Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)

# pad_token과 eos_token 설정
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token or '<|endoftext|>'

# 모델 로드
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")

# 파이프라인 생성
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=320,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
    clean_up_tokenization_spaces=True
)
llm = HuggingFacePipeline(pipeline=pipe)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [5]:
## 함수 정의: LLM을 사용하여 판단 및 생성, 출력은 JSON 포맷
def is_multi_turn_dialogue(messages):
    """
    LLM을 사용하여 입력 메시지가 멀티턴 대화인지 판단합니다.
    """
    conversation = ""
    for message in messages:
        role = '어시스턴트' if message['role'] == 'assistant' else '사용자'
        content = message['content']
        conversation += f"{role}: {content}\n"
    prompt = f"다음 대화가 멀티턴 대화인지 단일 질문인지 판단해 주세요. 멀티턴 대화이면 '예', 아니면 '아니오'로 답변해 주세요.\n\n{conversation}\n답변:"
    
    response = llm(prompt)
    if '예' in response:
        return True
    else:
        return False


def create_standalone_query(messages):
    """
    LLM을 사용하여 멀티턴 대화의 마지막 사용자의 질문을 standalone query로 만듭니다.
    """
    conversation = ""
    for message in messages:
        role = '어시스턴트' if message['role'] == 'assistant' else '사용자'
        content = message['content']
        conversation += f"{role}: {content}\n"
    
    prompt = f"다음은 사용자와 어시스턴트의 대화입니다:\n{conversation}\n\n위 대화를 기반으로, 마지막 사용자의 질문을 이해하기 위해 필요한 정보를 모두 포함하여 단일 질문으로 다시 작성해 주세요."
    response = llm(prompt)

    return response.strip()


def is_science_common_sense(query):
    """
    LLM을 사용하여 질의가 과학상식에 관련된 주제인지 판단합니다.
    """
    prompt = f"다음 질문이 과학 상식에 관련된 주제인지 판단해 주세요. 관련되면 '예', 관련되지 않으면 '아니오'로 답변해 주세요.\n\n질문: \"{query}\"\n답변:"
    response = llm(prompt)
    
    if '예' in response:
        return True
    else:
        return False

In [6]:
# Tool 정의
tools = [
    Tool(
        name="Multi-turn Check",
        func=is_multi_turn_dialogue,
        description="Determine if the dialogue is a multi-turn conversation."
    ),
    Tool(
        name="Standalone Query Creation",
        func=create_standalone_query,
        description="Create a standalone query from the multi-turn conversation."
    ),
    Tool(
        name="Science Common Sense Check",
        func=is_science_common_sense,
        description="Check if the query relates to science or common knowledge."
    )
]

In [7]:
# 에이전트 초기화 시 handle_parsing_errors=True 추가
agent = initialize_agent(
    tools=tools,
    llm=llm,
    agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
    handle_parsing_errors=True,  # 파싱 에러 처리
    verbose=True
)

  agent = initialize_agent(


## Query 처리

1. ```eval.jsonl``` 파일 로드
2. 전처리 수행
    1. 질의가 멀티턴(multi-turn) 대화인 경우 LLM이 정리해서 Standalone Query를 생성하고 멀티턴이 아닌 경우 건너뛴다.
    2. 질의가 ```과학상식```에 해당한다면 encoder로 전달해 임베딩하고 벡터 db로 전달해 유사도 기반 검색을 수행한다. 그렇지 않은 경우 "답변할 수 없습니다."로 처리한다.

In [8]:
eval_file = "../dataset/eval.jsonl"
query_data = load_jsonl(eval_file)
print(f"질의 수 : {len(query_data)}")

질의 수 : 220


In [9]:
torch.cuda.empty_cache()  # CUDA 메모리 해제
torch.backends.cudnn.benchmark = True  # 성능 최적화
torch.cuda.set_per_process_memory_fraction(0.9)  # 메모리 제한 설정

In [10]:
# 질의 처리 및 답변 생성
for entry in query_data:
    eval_id = entry.get('eval_id')
    messages = entry.get('msg')
    print(f"\n=== Eval ID: {eval_id} ===")

    try:
        # Step 1: 멀티턴 대화 여부 판단
        response = agent.run(f"다음 대화가 멀티턴 대화인지 확인해 주세요: {messages}")
        
        # 멀티턴 대화이면 standalone query 생성
        if "예" in response:
            query = agent.run(f"다음 대화를 바탕으로 standalone query를 생성해 주세요: {messages}")
        else:
            query = messages[0]['content']
        print(f"Standalone Query: {query}")
        
        # Step 2: 과학 상식 관련 여부 판단
        is_science = agent.run(f"이 질문이 과학 상식과 관련되어 있는지 확인해 주세요: {query}")
        if "아니오" in is_science:
            response = "해당 질의에는 답변할 수 없습니다."
        else:
            # Step 3: 벡터 DB에서 관련 문서 검색 및 답변 생성
            relevant_docs = retriever.get_relevant_documents(query)
            top_3_docs = relevant_docs[:3]
            references = "\n\n".join([doc.page_content for doc in top_3_docs])

            # 프롬프트 구성
            prompt = f"""다음 정보를 참고하여 질문에 답변해 주세요.
                        [질문]
                        {query}

                        [참고자료]
                        {references}

                        답변:
            """
            response = llm(prompt)

        print(f"답변:\n{response}")

    except Exception as e:
        print(f"에러 발생: {str(e)}")

    break


=== Eval ID: 78 ===


[1m> Entering new AgentExecutor chain...[0m


  response = agent.run(f"다음 대화가 멀티턴 대화인지 확인해 주세요: {messages}")
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


[32;1m[1;3mParsing LLM output produced both a final answer and a parse-able action:: Answer the following questions as best you can. You have access to the following tools:

Multi-turn Check(messages) - Determine if the dialogue is a multi-turn conversation.
Standalone Query Creation(messages) - Create a standalone query from the multi-turn conversation.
Science Common Sense Check(query) - Check if the query relates to science or common knowledge.

Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [Multi-turn Check, Standalone Query Creation, Science Common Sense Check]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin!

Question: 다음 대화가 멀티턴 대화인지 확인해 주세요: [{'role': 'user