In [1]:
import os, torch

from langchain.vectorstores import Chroma
from langchain.embeddings import SentenceTransformerEmbeddings

#api key(추가해서 쓰시오)
# import settings
import langchain
from document import BaseDBLoader
from langchain.llms import OpenAI, GooglePalm
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain, RetrievalQA, HypotheticalDocumentEmbedder
from langchain.prompts import PromptTemplate
from langchain.retrievers import BM25Retriever, EnsembleRetriever

In [2]:
#path setup
current_directory = os.getcwd()
os.chdir(current_directory)

In [3]:
def _device_check() : 
    def _device_check():
        ''' for check cuda availability '''
        if torch.cuda.is_available() : device ="cuda"
        elif torch.backends.mps.is_available() : device = "mps"
        else : device = "cpu"
        return device

In [4]:
embedding = SentenceTransformerEmbeddings(
    model_name="BM-K/KoSimCSE-roberta-multitask", 
    model_kwargs={'device':_device_check()}, 
    encode_kwargs={'normalize_embeddings':True},
    )

In [5]:
#get llm
os.environ["OPENAI_API_KEY"] = "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"
# llm = GooglePalm(google_api_key=settings.PALM_api_key, temperature=0, max_output_tokens=512)
# llm = OpenAI(temperature=1)

llm = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)

In [6]:
#HyDE Prompt_template
hyde_prompt_template = """ 
당신은 대한민국의 복지제도 전문가입니다. 복지 제도를 기반으로, 주어진 #질문에 #답변하면 됩니다.

#질문 : {question}
#답변 : ... 
"""

prompt = PromptTemplate(input_variables=["question"], template=hyde_prompt_template)

llm_chain = LLMChain(llm=llm, prompt=prompt)

In [7]:
hyde = HypotheticalDocumentEmbedder(
    llm_chain=llm_chain,
    base_embeddings=embedding
)

In [8]:
#get chroma collection from ./chroma
vectorstore = Chroma(persist_directory="./chroma", embedding_function=hyde)

In [9]:
loader = BaseDBLoader()
document = loader.load(is_regex=True, is_split=False)
corpus = loader.get_corpus()
v_list = list(corpus.values())

  rows = body.findall("tr") if body else []


In [10]:
#retrieve 방식에 따른 차이 필요(Ensemble, search type 수정 등등)
#setup chain
bm25_retriever = BM25Retriever.from_texts(v_list)
bm25_retriever.k = 5
chroma_retriever = vectorstore.as_retriever(search_type="mmr",search_kwargs={"k": 5})
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, chroma_retriever], weights=[0.5, 0.5]
)
chain = RetrievalQA.from_chain_type(
                    llm=llm,
                    chain_type="stuff",
                    retriever=ensemble_retriever
                )

In [11]:
langchain.debug = True

In [14]:
###prompt 수정 필요
result = chain.run("20대 대학생 주거 할 집")
print(result)

[32;1m[1;3m[chain/start][0m [1m[1:chain:RetrievalQA] Entering Chain run with input:
[0m{
  "query": "20대 대학생 주거 할 집"
}
[32;1m[1;3m[llm/start][0m [1m[1:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human:  \n당신은 대한민국의 복지제도 전문가입니다. 복지 제도를 기반으로, 주어진 #질문에 #답변하면 됩니다.\n\n#질문 : 20대 대학생 주거 할 집\n#답변 : ..."
  ]
}
[36;1m[1;3m[llm/end][0m [1m[1:llm:ChatOpenAI] [4.61s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "20대 대학생들을 위한 주거 지원을 위해 정부는 다양한 복지 제도를 운영하고 있습니다. 예를 들어, 국가에서는 저소득층을 위한 공공임대주택 프로그램을 운영하고 있으며, 대학생들도 해당 프로그램을 활용할 수 있습니다. 또한, 대학 내 혹은 주변에는 학생들을 위한 기숙사나 학생용 원룸을 지원하는 프로그램도 운영되고 있습니다. 또한, 대학생들을 위한 금융지원 프로그램을 통해 주거비용을 지원하는 제도도 있으니 해당 정보를 찾아보시고 신청해 보시는 것을 추천드립니다.",
        "generation_info": {
          "finish_reason": "stop"
        },
        "type": "ChatGeneration",
        "message": {
          "lc": 1,
          "type": "constructor",
          "id": [
            "langchain",
            "schema",
           