# Ch3 LLM, RAG 개인 도전과제

### Goal: LangSmith의 Prompt Library를 참고하여 prompt engineering을 수행

##### 1. 사용환경 준비

In [1]:
import os
from dotenv import load_dotenv

load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
os.environ["KMP_DUPLICATE_LIB_OK"] = "True"  # 라이브러리끼리의 충돌을 해결

##### 2. 모델 로드하기

In [2]:
from langchain_openai import ChatOpenAI

# 모델 초기화
model = ChatOpenAI(model="gpt-4o-mini")

##### 3. 문서 로드하기

In [3]:
from langchain_community.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader("files/인공지능산업최신동향_2024년_11월호.pdf")

# 페이지 별 문서 로드
docs = loader.load()

##### 4. 문서 청크로 나누기

**RecursiveCharacterTextSplitter**
- 주어진 문자 목록의 순서대로 청크가 충분히 작아질 때까지 재귀적으로 텍스트를 분할하는 클래스
- 문자 목록을 매개변수로 받아 동작
- 기본 문자 목록: \["\n\n", "\n", " ", ""\] (default)
- 텍스트를 재귀적으로 분할하여 의미적으로 관련있는 텍스트 조각들이 같이 있도록 하는 목적으로 설계됨

---
- `chunk_size`: 각 청크의 최대 길이
- `chunk_overlap`: 인접한 청크 사이에 중복으로 포함될 문자의 수
- `length_function`: 청크의 길이를 계산하는 함수
- `is_separator_regex`: 구분자로 정규식을 사용할지 여부를 설정

In [4]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

recursive_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=10,
    length_function=len,
    is_separator_regex=False,
)

splits = recursive_text_splitter.split_documents(docs)

##### 5. 벡터 임베딩 생성

In [5]:
from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

##### 6. 벡터 스토어 생성

In [6]:
from langchain_community.vectorstores import FAISS


vectorstore = FAISS.from_documents(documents=splits, embedding=embeddings)

##### 7. FAISS를 Retriever로 변환

In [7]:
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 1})

##### 8. 프롬프트 템플릿 정의

In [None]:
# LangChain library에서 prompt, model, chain, agent 등을 불러오는 라이브러리
from langchain import hub

# Prompts 디렉토리가 없다면 Prompts 디렉토리 만들기
os.makedirs("Prompts", exist_ok=True)

# hub.pull() 함수로 LangChain library에서 prompt 가져오기
prompt1 = hub.pull("rlm/rag-prompt")
prompt2 = hub.pull("rlm/rag-document-relevance")
prompt3 = hub.pull("rlm/rag-answer-hallucination")

# 가져온 prompt들을 prompts list에 저장
prompts = [prompt1, prompt2, prompt3]



In [None]:
# Prompts 디렉토리에 prompt 저장
for i in range(1, 4):
    # 파일 경로를 .\Prompts\prompt.txt 형태로 설정
    file_path = os.path.join(".\Prompts", f"prompt{i}.txt")
    
    # format()으로 ChatPromptTemplate을 str 타입으로 변환
    prompt = prompts[i-1].format(question="{question}", context="{context}")
    
    # 설정한 파일 경로로 변환한 prompt.txt 저장
    with open(file_path, 'w') as f:
        f.write(prompt)

In [18]:
prompts = {}
for i in range(1, 4):
    file_path = os.path.join(".\Prompts", f"prompt{i}.txt")
    with open(file_path, 'r') as f:
        prompts[f"prompt{i}"] = f.read()
        
print(prompts)


{'prompt1': "Human: You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: {question} \nContext: {context} \nAnswer:", 'prompt2': 'System: You are a grader assessing relevance of a retrieved document to a user question.\n\nIf the document contains keyword(s) or semantic meaning related to the user question, grade it as relevant. \\n\n\nIt does not need to be a stringent test. The goal is to filter out erroneous retrievals. \\n\n\nGive a binary score 1 or 0 score, where 1 means that the document is relevant to the question.\nHuman: Retrieved documents:  \n\nUser question: ', 'prompt3': 'System: You are a grader assessing whether an LLM generation is grounded in / supported by a set of retrieved facts. \n\nGive a binary score 1 or 0, where 1 means that the answer is grounded in / supported by the 

In [22]:
from langchain_core.prompts import PromptTemplate

prompt_template = prompts["prompt2"]
prompt_test = PromptTemplate.from_template(prompt_template)
print(prompt_test)


input_variables=[] input_types={} partial_variables={} template='System: You are a grader assessing relevance of a retrieved document to a user question.\n\nIf the document contains keyword(s) or semantic meaning related to the user question, grade it as relevant. \\n\n\nIt does not need to be a stringent test. The goal is to filter out erroneous retrievals. \\n\n\nGive a binary score 1 or 0 score, where 1 means that the document is relevant to the question.\nHuman: Retrieved documents:  \n\nUser question: '


##### 9. RAG 체인 구성

In [23]:
from langchain_core.runnables import RunnablePassthrough

class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output
# 문서 리스트를 텍스트로 변환하는 단계 추가
class ContextToText(RunnablePassthrough):
    def invoke(self, inputs, config=None, **kwargs):  # config 인수 추가
        # context의 각 문서를 문자열로 결합
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        return {"context": context_text, "question": inputs["question"]}

# RAG 체인에서 각 단계마다 DebugPassThrough 추가
rag_chain_debug = {
    "context": retriever,                    # 컨텍스트를 가져오는 retriever
    "question": DebugPassThrough()        # 사용자 질문이 그대로 전달되는지 확인하는 passthrough
}  | DebugPassThrough() | ContextToText() | prompt_test | model

##### 10. 챗봇 구동 확인

In [25]:
i=0
while i<2:
	print("========================")
	query = input("질문을 입력하세요: ")
	response = rag_chain_debug.invoke(query)
	print("Final Response:")
	print(response.content)
	print(type(response.content))
	i += 1

Debug Output: 카나나는 카카오의 AI서비스이다
Debug Output: {'context': [Document(metadata={'source': 'files/인공지능산업최신동향_2024년_11월호.pdf', 'page': 13}, page_content='등의 단어를 조합한 카나나는 ‘가장 나다운 AI’를 의미∙카카오는 동 브랜드를 자사가 개발하는 주요 AI 모델과 신규 서비스의 이름에 두루 사용할 계획으로, AI 메이트 서비스')], 'question': '카나나는 카카오의 AI서비스이다'}
Final Response:
It seems that the user question is missing. Please provide the user question so I can assess the relevance of the retrieved documents accordingly.
<class 'str'>
Debug Output: 미국의 발표 내용을 설명해줘
Debug Output: {'context': [Document(metadata={'source': 'files/인공지능산업최신동향_2024년_11월호.pdf', 'page': 15}, page_content='£국무부, AI 연구 우선순위로 포괄적 연구 인프라 조성과 글로벌 도전과제 해결 등 제시n미국 국무부(United States Department of State)가 2024년')], 'question': '미국의 발표 내용을 설명해줘'}
Final Response:
It seems that the user question is missing. Could you please provide the user question along with the retrieved documents? This will allow me to assess the relevance of the documents accordingly.
<class 'str'>
