In [1]:
#1. 사용환경 준비
import os
from getpass import getpass

os.environ["OPENAI_API_KEY"] = getpass("OpenAI API key 입력: ") # API 키 입력


OpenAI API key 입력:  ········


In [2]:
#2. 모델 로드하기 
from langchain_openai import ChatOpenAI

# 모델 초기화
model = ChatOpenAI(model="gpt-4o-mini")

In [3]:
#3. 문서 로드하기
from langchain.document_loaders import CSVLoader

# PDF 파일 로드. 파일의 경로 입력
loader = CSVLoader("Cultural_asset.csv",encoding='UTF8')
loader2 = CSVLoader("Travel_spot.csv",encoding='UTF8')

# 페이지 별 문서 로드
Treasures = loader.load()
Travel = loader2.load()
print(Travel[:1])

[Document(metadata={'source': 'Travel_spot.csv', 'row': 0}, page_content='title: 구인사(단양)\naddress: 충청북도 단양군 영춘면 구인사길 73\ntelNo: ')]


In [4]:
#4. 문서 청크로 나누기(CharacterTextSplitter)
from langchain.text_splitter import CharacterTextSplitter
from langchain.schema import Document



# 텍스트 청크 분할기 설정 (문단 기준 분할)
text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_overlap=10,
    length_function=len,
    is_separator_regex=False,
)

splits = text_splitter.split_documents(Treasures) # 문서를 청크로 분할
splits2 = text_splitter.split_documents(Travel)
print(splits2[1]) # 상위 10개만 출력

page_content='title: 원대리 자작나무 숲 (속삭이는 자작나무 숲)
address: 강원특별자치도 인제군 인제읍 자작나무숲길 760
telNo: 자작나무숲 안내소 033-463-0044' metadata={'source': 'Travel_spot.csv', 'row': 1}


In [5]:
#5 벡터 임베딩 생성
from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")


In [6]:
#6. 벡터 스토어 생성
import faiss
from langchain_community.vectorstores import FAISS

# 문서에서 벡터 저장소 생성
vectorstore = FAISS.from_documents(documents=splits, embedding=embeddings)

In [7]:
#7. FAISS를 Retriever로 변환
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 1})

In [8]:
#8. 프롬프트 템플릿을 정의하라
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

# 프롬프트 템플릿 정의
contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", "Answer the question using only the following context."),
    ("user", "Context: {context}\\n\\nQuestion: {question}")
])

In [9]:
#9. LangChain의 모델과 프롬프트를 연결하여 RAG 체인을 구성하라. 
from langchain.chains import LLMChain

class SimplePassThrough:
    def invoke(self, inputs, **kwargs):
        return inputs

class ContextToPrompt:
    def __init__(self, prompt_template):
        self.prompt_template = prompt_template
    
    def invoke(self, inputs):
        # 문서 내용을 텍스트로 변환
        if isinstance(inputs, list):
            context_text = "\n".join([doc.page_content for doc in inputs])
        else:
            context_text = inputs
        
        # 프롬프트 템플릿에 적용
        formatted_prompt = self.prompt_template.format_messages(
            context=context_text,
            question=inputs.get("question", "")
        )
        return formatted_prompt

# Retriever를 invoke() 메서드로 래핑하는 클래스 정의
class RetrieverWrapper:
    def __init__(self, retriever):
        self.retriever = retriever

    def invoke(self, inputs):
        if isinstance(inputs, dict):
            query = inputs.get("question", "")
        else:
            query = inputs
        # 검색 수행
        response_Treasures = self.retriever.get_relevant_documents(query)
        return response_Treasures
#텍스트 생성 체인 생성
llm_chain = LLMChain(llm=model, prompt=contextual_prompt)

# RAG 체인 설정
rag_chain_debug = {
    "context": RetrieverWrapper(retriever),
    "prompt": ContextToPrompt(contextual_prompt),
    "llm": model
}

  llm_chain = LLMChain(llm=model, prompt=contextual_prompt)


## RAG(생성형 응답 생성)의 필요성

RAG는 정보 검색과 생성 모델을 결합하여 사용자 질문에 대한 보다 정확하고 관련성 높은 답변을 생성하는 기술이다. RAG의 필요성은 다음과 같은 이유로 설명할 수 있다.

1. **정보의 동적 접근**: RAG는 최신 정보를 실시간으로 검색할 수 있어, 사용자가 요청하는 질문에 대해 항상 최신의 정확한 정보를 제공할 수 있다.

2. **맥락 이해**: 사용자 질문에 대한 답변을 생성할 때, RAG는 관련된 맥락을 기반으로 하여 보다 깊이 있는 이해를 제공합니다. 이는 단순한 정답 제공을 넘어, 질문의 의도를 파악하여 적절한 답변을 생성하는 데 기여한다.

3. **대량의 데이터 처리**: RAG는 대량의 문서와 정보를 처리할 수 있는 능력을 가지고 있어, 사용자가 원하는 다양한 주제에 대해 신속하게 대응할 수 있다.

4. **개선된 사용자 경험**: RAG를 통해 제공되는 답변은 보다 개인화되고 관련성이 높아, 사용자 경험을 개선할 수 있다. 이는 사용자 만족도를 높이고, 반복적인 질문을 줄이는 데 도움이 된다.

결론적으로, RAG는 정보 검색과 생성 모델의 장점을 결합하여, 더 나은 품질의 질문 응답 시스템을 구축하는 데 필수적이다.

In [None]:
#10. 질문에 응답하는 챗봇을 구동하여 질문해라. 

# 챗봇 구동
while True:
    print("========================")
    query = input("질문을 입력하세요 : ")
    if query == "종료": # 종료 입력 시 챗봇 종료
        break
    
    # 1. Retriever로 관련 문서 검색
    response_Treasures = rag_chain_debug["context"].invoke({"question": query})
    
    # 2. 문서를 프롬프트로 변환
    prompt_messages = rag_chain_debug["prompt"].invoke({
        "context": response_Treasures,
        "question": query
    })
    
    # 3. LLM으로 응답 생성
    response = rag_chain_debug["llm"].invoke(prompt_messages)
    
    print("\n질문:",query)
    print("\n답변:")
    print(response.content) # 답변 출력



질문을 입력하세요 :  울산에 있는 국보와 보물들 리스트를 알려줘


  response_Treasures = self.retriever.get_relevant_documents(query)



질문: 울산에 있는 국보와 보물들 리스트를 알려줘

답변:
주어진 맥락에는 울산에 있는 국보와 보물에 대한 정보가 포함되어 있지 않습니다. 따라서 울산의 국보와 보물 리스트를 제공할 수 없습니다.


질문을 입력하세요 :  울산에 있는 문화재를 알려줘



질문: 울산에 있는 문화재를 알려줘

답변:
제공된 정보에는 울산에 있는 문화재에 대한 내용이 포함되어 있지 않습니다.


질문을 입력하세요 :  울산



질문: 울산

답변:
울산광역시 북구에 위치한 울산 신흥사 석조아미타여래좌상(蔚山 新興寺 石造阿彌陀如來坐像)입니다.


질문을 입력하세요 :  경주



질문: 경주

답변:
The provided context does not contain any information about 경주 (Gyeongju). It only mentions a cultural asset located in 부여 (Buyeo).


질문을 입력하세요 :  서울



질문: 서울

답변:
The context mentions "서울 숭례문" which is located in "서울 중구 세종대로 40 (남대문로4가)".


질문을 입력하세요 :  서울에 있는 문화재 모든 목록을 알려줘



질문: 서울에 있는 문화재 모든 목록을 알려줘

답변:
서울에 있는 문화재 목록은 다음과 같습니다:

1. 삼국사기(三國史記) - 위치: 서울 중구 세종대로21길 22 (태평로1가, 성암고서박물관)


질문을 입력하세요 :  서울 근처에있는 문화재 목록을 알려줘



질문: 서울 근처에있는 문화재 목록을 알려줘

답변:
서울 근처에 있는 문화재 목록은 다음과 같습니다:

1. 삼국사기(三國史記)
   - 번호: 322-2호
   - 위치: 서울 중구 세종대로21길 22 (태평로1가, 성암고서박물관)


질문을 입력하세요 :  왜 1개 밖에 안나와?



질문: 왜 1개 밖에 안나와?

답변:
제공된 문맥에서 확인할 수 있는 정보는 하나의 문화 자산에 대한 내용입니다. 'Cultural_asset.csv' 파일에서 2081번째 행에 대한 정보만 포함되어 있어, 그 결과로 1개의 항목만 나타나는 것입니다. 추가적인 문화 자산에 대한 정보가 없기 때문에 1개 밖에 나오지 않는 것으로 보입니다.


질문을 입력하세요 :  여러개 검색하려면 어떡해야하지



질문: 여러개 검색하려면 어떡해야하지

답변:
여러 개를 검색하려면, 각각의 검색어를 입력할 때 'AND', 'OR' 등의 논리 연산자를 사용하거나, 검색할 항목을 쉼표로 구분하여 입력하면 됩니다. 추가적으로, 여러 개의 키워드를 포함한 쿼리를 작성하여 검색 결과를 좁힐 수 있습니다.


질문을 입력하세요 :  예를 들어줘



질문: 예를 들어줘

답변:
예를 들어, 음주전문춘추괄례시말좌전구독직해 권62~70은 서울 용산구 서빙고로 137에 위치한 국립중앙박물관에서 소장하고 있는 문화 자산입니다.
