# 시스템 설정
채점자는 검색된 문서와 사용자 질문의 관련성을 평가하는 채점자입니다.
문서에 사용자 질문과 관련된 키워드 또는 의미론적 의미가 포함되어 있으면 관련성이 있는 것으로 채점합니다. \n
엄격한 테스트일 필요는 없습니다. 잘못된 검색을 걸러내는 것이 목표입니다. \n
1 또는 0의 이진 점수를 부여합니다. 여기서 1은 해당 문서가 질문과 관련이 있음을 의미합니다.

In [None]:
# 시스템 설정
system = f"""You are a grader assessing relevance of a retrieved document to a user question.

If the document contains keyword(s) or semantic meaning related to the user question, grade it as relevant. \n

It does not need to be a stringent test. The goal is to filter out erroneous retrievals. \n

Give a binary score 1 or 0 score, where 1 means that the document is relevant to the question."""

In [1]:
# KEY설정
import os
from getpass import getpass

os.environ["OPENAI_API_KEY"] = getpass("OpenAI API key 입력: ")

# 모델로드
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage

model = ChatOpenAI(model = "gpt-4o-mini", temperature = 0.3, max_tokens = 1000)

# 파일 로드
from langchain.document_loaders import PyPDFLoader

pdf_path = "초거대언어모델연구동향.pdf"

loader = PyPDFLoader(pdf_path)

docs = loader.load()

for doc in docs:
    utf8_docs = [doc.page_content.encode('utf-8').decode('utf-8') for doc in docs]

# 문서 청크 나누기 2
from langchain.text_splitter import RecursiveCharacterTextSplitter

recursive_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=10,
    length_function=len,
    is_separator_regex=False,
)

splits = recursive_text_splitter.split_documents(docs)

    
# 벡터 임베딩 생성
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model = "text-embedding-ada-002")

# 벡터 스토어 생성
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore
import faiss

vector_dim = len(embeddings.embed_query("example text")) 
index = faiss.IndexFlatL2(vector_dim)

vector_store = FAISS(
    embedding_function=embeddings,
    index=index,
    docstore=InMemoryDocstore(),
    index_to_docstore_id={}
)

# 리트리버 변환

retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 2})

# 템플릿 정의
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

# 시스템 설정
System = f"""You are a grader assessing relevance of a retrieved document to a user question.

If the document contains keyword(s) or semantic meaning related to the user question, grade it as relevant. \n

It does not need to be a stringent test. The goal is to filter out erroneous retrievals. \n

Give a binary score 1 or 0 score, where 1 means that the document is relevant to the question."""

contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", System),
    ("user", "Context: {context}\n\nQuestion: {question}\n\nAnswer: Please provide a comprehensive response, focusing on the key trends and research findings mentioned in the document.")
])

# 질문 응답 체인 구성
class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output

class ContextToText(RunnablePassthrough):
    def invoke(self, inputs, config=None, **kwargs):
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        return {"context": context_text, "question": inputs["question"]}

# 질문 반복 처리
rag_chain_debug = {
    "context": retriever,   # 컨텍스트를 가져오는 retriever
    "question": DebugPassThrough()     # 사용자 질문이 그대로 전달되는지 확인하는 passthrough
}  | DebugPassThrough() | ContextToText()| contextual_prompt | model

# 출력
while True:
    print('=====================')
    query = input("질문을 입력하세요: ")

    response = rag_chain_debug.invoke(query)
    
    print("Final Response: ")
    print(response.content)

OpenAI API key 입력: ········
질문을 입력하세요: 문서를 요약해줘
Debug Output: 문서를 요약해줘
Debug Output: {'context': [], 'question': '문서를 요약해줘'}
Final Response: 
Score: 1
질문을 입력하세요: exit
대답: 즐거운 대화였어요.
