<a href="https://www.kaggle.com/code/kaiyoo88/tutorial-chatbot-rag-langchain?scriptVersionId=205285484" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

In [2]:
pip install -q langchain langchain-community langchain_huggingface chromadb wikipedia

Note: you may need to restart the kernel to use updated packages.


In [3]:
import os
from langchain_community.document_loaders import WikipediaLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

In [4]:
os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

In [5]:
os.environ.get("HUGGINGFACEHUB_API_TOKEN")

'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'

In [12]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.llms import HuggingFaceHub
# from langchain.llms import HuggingFaceModel
# SKT 한국어 임베딩과 QA 모델 설정

hf_embeddings = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")
hf_llm = HuggingFaceHub(
    repo_id="skt/kogpt2-base-v2",
    model_kwargs={"task": "text-generation"}
)



In [13]:
import requests
from langchain.schema import Document
from bs4 import BeautifulSoup

# By default, English documents (https://en.wikipedia.org))
def load_Wiki_docs(query):
    loader = WikipediaLoader(query=query, load_max_docs=1)
    documents = loader.load()
    
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200
    )
    splits = text_splitter.split_documents(documents)
    
    return splits

def load_Korean_wiki_docs(topic):
    # 한국어 위키피디아 URL 설정
    url = f"https://ko.wikipedia.org/wiki/{topic}"
    
    # 데이터 가져오기
    response = requests.get(url)
    response.raise_for_status()  # 요청에 실패할 경우 예외 발생

    # HTML 파싱 및 본문 텍스트 추출
    soup = BeautifulSoup(response.text, 'html.parser')
    content = soup.find('div', {'class': 'mw-parser-output'})  # 본문 내용이 포함된 div 찾기
    
    # 본문 텍스트 추출
    paragraphs = content.find_all('p')
    text = "\n".join([p.get_text() for p in paragraphs])  # 모든 <p> 태그의 텍스트를 결합
 
    # Document 객체로 변환 (LangChain에 필요한 포맷)
    documents = [Document(page_content=text, metadata={"source": url})]
    
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200
    )
    splits = text_splitter.split_documents(documents)
    
    return splits

In [14]:
def create_vectorstore(splits):    
    # huggingface embedding model 불러와서 넣기
    vectorstore = Chroma.from_documents(documents=splits, embedding=hf_embeddings)
    return vectorstore

In [16]:
topic = "흑백요리사"
# 문서 로드 및 분할
splits = load_Korean_wiki_docs(topic)
# 벡터 저장소 생성
vectorstore = create_vectorstore(splits)

In [17]:
splits

[Document(metadata={'source': 'https://ko.wikipedia.org/wiki/흑백요리사'}, page_content='《흑백요리사: 요리 계급 전쟁》(영어: Culinary Class Wars)은 넷플릭스의 요리 서바이벌 프로그램이다. 방송 직후 세계 여러 나라에서 시청률 1위를 기록했고, 대만인들의 한국 관광 열풍과 한국 음식에 대한 사랑을 불러일으켰다. 유명 레스토랑 셰프 등 100인의 요리사가 출연한다. 심사위원은 백종원과 안성재가 맡았다. 가제는 《호날두요리사》였다.[1]')]

## Use langchain RAG

In [18]:
def create_rag_chain(vectorstore):
    prompt_template = """문맥을 참고하여 질문에 정확하고 간결하게 답하십시오.
    문맥: {context}
    질문: {question}
    답변:"""
    PROMPT = PromptTemplate(
        template=prompt_template, input_variables=["context", "question"]
    )

    chain_type_kwargs = {"prompt": PROMPT}

    # 문맥을 짧게 잘라내기
    # def short_context(context, max_length=300):
    #     return context[:max_length] if len(context) > max_length else context
    
    # # BaseRetriever를 상속받은 ShortContextRetriever 정의
    # class ShortContextRetriever(BaseRetriever):
    #     def __init__(self, retriever):
    #         super().__init__()
    #         self._retriever = retriever
        
    #     def get_relevant_documents(self, query):
    #         docs = self._retriever.get_relevant_documents(query)
    #         for doc in docs:
    #             doc.page_content = short_context(doc.page_content)
    #         return docs
    
    # retriever = ShortContextRetriever(vectorstore.as_retriever())
    
    qa_chain = RetrievalQA.from_chain_type(
        llm=hf_llm,
        chain_type="stuff",
        retriever=vectorstore.as_retriever(),
        chain_type_kwargs=chain_type_kwargs,
        return_source_documents=True
    )
    
    return qa_chain

In [20]:
# RAG 체인 생성
qa_chain = create_rag_chain(vectorstore)

In [21]:
question = "심사위원을 누가 맡았어?"

# result = qa_chain({"query": question})
result = qa_chain.invoke({"query": question})

print ("결과:")
print(result["result"])

print("출처:")
for doc in result["source_documents"]:
    print(doc.page_content)
    print("---")

  result = qa_chain({"query": question})


결과:
문맥을 참고하여 질문에 정확하고 간결하게 답하십시오.
    문맥: 《흑백요리사: 요리 계급 전쟁》(영어: Culinary Class Wars)은 넷플릭스의 요리 서바이벌 프로그램이다. 방송 직후 세계 여러 나라에서 시청률 1위를 기록했고, 대만인들의 한국 관광 열풍과 한국 음식에 대한 사랑을 불러일으켰다. 유명 레스토랑 셰프 등 100인의 요리사가 출연한다. 심사위원은 백종원과 안성재가 맡았다. 가제는 《호날두요리사》였다.[1]
    질문: 심사위원을 누가 맡았어?
    답변: 쉐프들이 심사위원으로 참여했어?
( 쉐프들이 심사위원으로 참여했어?)
심사위원: 쉐프들이 심사위원으로 참여했어?
( 쉐프들이 심사위원으로 참여했어?)
심사위원: 쉐프들이 심사위원으로 참여했어?
( 쉐프들이 심사위원으로 참여했어?)
심사위원: 쉐프들이 심사위원으로 참여했어?
( 쉐프들이 심사위원으로 참여했어?)
심사위원:
출처:
《흑백요리사: 요리 계급 전쟁》(영어: Culinary Class Wars)은 넷플릭스의 요리 서바이벌 프로그램이다. 방송 직후 세계 여러 나라에서 시청률 1위를 기록했고, 대만인들의 한국 관광 열풍과 한국 음식에 대한 사랑을 불러일으켰다. 유명 레스토랑 셰프 등 100인의 요리사가 출연한다. 심사위원은 백종원과 안성재가 맡았다. 가제는 《호날두요리사》였다.[1]
---


## Use vectorstore.similarity_search

In [22]:
import torch
from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

# 모델과 토크나이저 로드
model_name = "yjgwak/klue-bert-base-finetuned-squard-kor-v1"
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 질문-답변 파이프라인 설정
qa_pipeline = pipeline("question-answering", model=model, tokenizer=tokenizer)

In [23]:
# 질문과 문맥 정의
question = "오늘 날씨 어때?"
context = "오늘의 날씨는 맑고 따뜻한 기온이 유지될 것으로 보입니다."

# 답변 생성
result = qa_pipeline(question=question, context=context)

# 결과 출력
print("질문:", question)
print("답변:", result['answer'])

질문: 오늘 날씨 어때?
답변: 맑고 따뜻한 기온이


In [24]:
# VectorStore를 통해 문맥 검색 (예시로 Chroma 사용)
def retrieve_context(question, vectorstore):
    # 질문에 가장 관련이 높은 문맥을 검색
    docs = vectorstore.similarity_search(question, k=1)
    if docs:
        return docs[0].page_content  # 첫 번째 관련 문서 내용 반환
    else:
        return None

# RAG 체인과 유사하게 질문과 검색된 문맥을 통해 답변 생성
def answer_question_with_context(question, vectorstore):
    # 문맥 검색
    context = retrieve_context(question, vectorstore)
    if context:
        # 질문과 문맥을 기반으로 답변 생성
        result = qa_pipeline(question=question, context=context)
        return result['answer'], context  # 답변과 사용된 문맥 반환
    else:
        return "관련 문맥을 찾지 못했습니다.", None

In [25]:
# 예시 질문
question = "심사위원을 누가 맡았어?"

answer, used_context = answer_question_with_context(question, vectorstore)

print("질문:", question)
print("답변:", answer)
print("사용된 문맥:", used_context)

질문: 심사위원을 누가 맡았어?
답변: 백종원과 안성재가
사용된 문맥: 《흑백요리사: 요리 계급 전쟁》(영어: Culinary Class Wars)은 넷플릭스의 요리 서바이벌 프로그램이다. 방송 직후 세계 여러 나라에서 시청률 1위를 기록했고, 대만인들의 한국 관광 열풍과 한국 음식에 대한 사랑을 불러일으켰다. 유명 레스토랑 셰프 등 100인의 요리사가 출연한다. 심사위원은 백종원과 안성재가 맡았다. 가제는 《호날두요리사》였다.[1]
