In [26]:
import os

In [25]:
from langchain.llms import OpenAI
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import LLMChain, RetrievalQA, HypotheticalDocumentEmbedder
from langchain.prompts import PromptTemplate
from langchain.embeddings import SentenceTransformerEmbeddings
import langchain,torch
from langchain.vectorstores import Chroma

In [28]:
#path setup
current_directory = os.getcwd()
os.chdir(current_directory)


In [29]:
#embedding config (edit later if domain-adaptation complete.)
def _device_check() : 
    def _device_check():
        ''' for check cuda availability '''
        if torch.cuda.is_available() : device ="cuda"
        elif torch.backends.mps.is_available() : device = "mps"
        else : device = "cpu"
        return device

In [30]:
from langchain.embeddings import HuggingFaceBgeEmbeddings

model_name = "BM-K/KoSimCSE-roberta-multitask"
encode_kwargs = {'normalize_embeddings': True} # set True to compute cosine similarity

bge_embeddings = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs={'device': _device_check()},
    encode_kwargs=encode_kwargs
)

No sentence-transformers model found with name /Users/jk/.cache/torch/sentence_transformers/BM-K_KoSimCSE-roberta-multitask. Creating a new one with MEAN pooling.


In [31]:
embedding = SentenceTransformerEmbeddings(
    model_name="BM-K/KoSimCSE-roberta-multitask", 
    model_kwargs={'device':_device_check()}, 
    encode_kwargs={'normalize_embeddings':True},
    )

No sentence-transformers model found with name /Users/jk/.cache/torch/sentence_transformers/BM-K_KoSimCSE-roberta-multitask. Creating a new one with MEAN pooling.


In [32]:
torch.backends.mps.is_available()

True

In [38]:
os.environ["OPENAI_API_KEY"] = "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"

In [35]:
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

In [36]:
#get chroma collection from ./chroma
vectorstore = Chroma(persist_directory="./chroma", embedding_function=embedding)


In [39]:
llm = OpenAI(temperature=1)

In [40]:
#HyDE Prompt_template
hyde_prompt_template = """Please answer the user's question as related to Large Language Models
Question: {question}
Answer:"""

In [41]:
prompt = PromptTemplate(input_variables=["question"], template=hyde_prompt_template)

llm_chain = LLMChain(llm=llm, prompt=prompt)

hyde = HypotheticalDocumentEmbedder(
    llm_chain=llm_chain,
    base_embeddings=embedding
)

In [42]:
#retrieve 방식에 따른 차이 필요(Ensemble, search type 수정 등등)
#setup chain
chain = RetrievalQA.from_chain_type(
                    llm=llm,
                    chain_type="stuff",
                    retriever=vectorstore.as_retriever(search_type='mmr'),
                )

In [43]:
####prompt 수정 필요
result = chain.run("문서를 기반으로 했을 때 탈북자 지원금에 대해 설명해줘.")
print(result)

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}

In [7]:
from langchain.llms import OpenAI
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import LLMChain, HypotheticalDocumentEmbedder
from langchain.prompts import PromptTemplate

from langchain.document_loaders import TextLoader
import langchain,os

In [4]:
from langchain.embeddings import HuggingFaceBgeEmbeddings

model_name = "BM-K/KoSimCSE-roberta-multitask"
encode_kwargs = {'normalize_embeddings': True} # set True to compute cosine similarity

bge_embeddings = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs={'device': 'mps'},
    encode_kwargs=encode_kwargs
)


In [8]:
os.environ["OPENAI_API_KEY"] = "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"

In [9]:
# Set up the LLM
llm = OpenAI()

In [11]:
# Load with `web_search` prompt
embeddings = HypotheticalDocumentEmbedder.from_llm(llm,
                                                   bge_embeddings,
                                                   prompt_key="web_search"
                                                   )

In [12]:
embeddings.llm_chain.prompt

PromptTemplate(input_variables=['QUESTION'], template='Please write a passage to answer the question \nQuestion: {QUESTION}\nPassage:')

In [13]:
langchain.debug = True

In [15]:
# Now we can use it as any embedding class!
result = embeddings.embed_query("What items does McDonalds make?")

[32;1m[1;3m[llm/start][0m [1m[1:llm:OpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Please write a passage to answer the question \nQuestion: What items does McDonalds make?\nPassage:"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[1:llm:OpenAI] [4.05s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": " McDonalds is a fast food restaurant chain that is known for its wide variety of items. Their menu is expansive, with items ranging from burgers, chicken sandwiches, french fries, and salads, to shakes, desserts, and breakfast items. McDonalds also offers vegetarian and vegan options, such as the McVeggie burger and the McAloo Tikki burger. McDonalds also offers seasonal and regional items, like the McRib sandwich and the McFlurry. All of these items are made with quality ingredients that are sourced from suppliers around the world.",
        "generation_info": {
          "finish_reason": "stop",
          "logprobs": null
        },
        

In [16]:
result

[-0.005997820291668177,
 0.0013683842262253165,
 -0.058818694204092026,
 -0.02450876124203205,
 -0.014619668945670128,
 -0.018255311995744705,
 -0.0024485911708325148,
 -0.04248543828725815,
 -0.012106068432331085,
 0.028832020238041878,
 0.06899719685316086,
 0.046790577471256256,
 -0.01382921077311039,
 0.0007042185752652586,
 0.005125679075717926,
 0.06832639127969742,
 -0.013754823245108128,
 -0.06495032459497452,
 0.00143722933717072,
 -0.013316464610397816,
 0.02012292668223381,
 -0.0013947704574093223,
 0.00012435117969289422,
 -0.046252138912677765,
 -0.00559958117082715,
 0.007769839372485876,
 0.033694613724946976,
 -0.011490559205412865,
 -0.05858491361141205,
 0.032886333763599396,
 0.09435796737670898,
 0.027608821168541908,
 -0.022558575496077538,
 -0.033319201320409775,
 -0.018793556839227676,
 -0.006360271479934454,
 -0.05626242980360985,
 -0.009729004465043545,
 0.0377093106508255,
 -0.026914989575743675,
 -0.08451084047555923,
 0.004351445939391851,
 -0.02183497324585

In [18]:
from document import BaseDBLoader

In [28]:
loader = BaseDBLoader()
document = loader.load(is_regex=True, is_split=False)
corpus = loader.get_corpus()
v_list = list(corpus.values())

  rows = body.findall("tr") if body else []


['어르신 국가예방접종 지원 사업\n\n대상\n\n65세 이상 어르신(1958년 12월 31일 이전 출생자)\n 주민등록상 출생연도 기준\n\n내용\n\n폐렴구균 \n 폐렴구균 23가 다당 백신(PPSV23), 1회 지원 \n \n 인플루엔자 \n 인플루엔자 4가 백신(IIV), 매년 1회 지원          인플루엔자는 접종시기가 정해져 있는 계절사업임(매년 10월경)\n\n방법\n\n신분증을 지참하고 전국 지정의료기관 및 보건소 방문\n 지정의료기관 확인 예방접종도우미 누리집\n 접종기관 방문 전 접종가능 여부 확인 필수\n\n문의\n\n질병관리청 콜센터(1339)\n\n질병관리청 예방접종관리과(04371983988399)\n\n자주 하는 질문\n\n인플루엔자 백신과 폐렴구균 백신은 동시접종이 가능한가요\n\n일반적으로 인플루엔자 백신과 폐렴구균 백신은 동시접종이 가능하며, 동시접종을 하지 못한 경우 특별히 지켜야 할 접종간격은 없습니다. 다만, 의사 예진 후 피접종자의 건강 상태 등을 고려하여 접종 일정을 조정할 수는 있습니다.',
 '노인 무릎 인공관절 수술 지원\n\n대상\n\n만 60세 이상 기초생활수급자, 차상위계층, 한부모가족 중 무릎인공관절 수술이 필요한 어르신\n\n 건강보험급여 인공관절 치환술(무릎관절) 인정 기준에 준하는 질환자\n\n내용\n\n검사비, 진료비 및 수술비 본인부담금(한쪽 무릎 기준 120만 원) 지원\n\n 지원 제외 무릎인공관절 수술과 관련 없는 검사비·치료비 등, 간병비·상급병실료 등 비급여, 지원 결정 전에 발생한 진료비 등\n\n방법\n\n해당 지역 보건소에 신청\n\n문의\n\n노인의료나눔재단(027116599, www.ok6595.or.kr)',
 '은퇴금융 아카데미\n\n대상 은퇴준비에 필요한 경제금융지식 및 은퇴생활정보 교육이 필요한 사람\n\n내용 \n 자산관리, 은퇴금융상품, 신용·부채관리 등 금융지식과 각종 생활정보 강좌 무료 제공\n\n방법 \n 개최 시 한국주택금융공사 누리집에서 수강 지역과 일정을

In [64]:
from langchain.schema.document import Document

documents = []

for text in v_list :
    doc = Document(page_content=text, metadata={})
    documents.append(doc)

print(documents)

[Document(page_content='어르신 국가예방접종 지원 사업\n\n대상\n\n65세 이상 어르신(1958년 12월 31일 이전 출생자)\n 주민등록상 출생연도 기준\n\n내용\n\n폐렴구균 \n 폐렴구균 23가 다당 백신(PPSV23), 1회 지원 \n \n 인플루엔자 \n 인플루엔자 4가 백신(IIV), 매년 1회 지원          인플루엔자는 접종시기가 정해져 있는 계절사업임(매년 10월경)\n\n방법\n\n신분증을 지참하고 전국 지정의료기관 및 보건소 방문\n 지정의료기관 확인 예방접종도우미 누리집\n 접종기관 방문 전 접종가능 여부 확인 필수\n\n문의\n\n질병관리청 콜센터(1339)\n\n질병관리청 예방접종관리과(04371983988399)\n\n자주 하는 질문\n\n인플루엔자 백신과 폐렴구균 백신은 동시접종이 가능한가요\n\n일반적으로 인플루엔자 백신과 폐렴구균 백신은 동시접종이 가능하며, 동시접종을 하지 못한 경우 특별히 지켜야 할 접종간격은 없습니다. 다만, 의사 예진 후 피접종자의 건강 상태 등을 고려하여 접종 일정을 조정할 수는 있습니다.'), Document(page_content='노인 무릎 인공관절 수술 지원\n\n대상\n\n만 60세 이상 기초생활수급자, 차상위계층, 한부모가족 중 무릎인공관절 수술이 필요한 어르신\n\n 건강보험급여 인공관절 치환술(무릎관절) 인정 기준에 준하는 질환자\n\n내용\n\n검사비, 진료비 및 수술비 본인부담금(한쪽 무릎 기준 120만 원) 지원\n\n 지원 제외 무릎인공관절 수술과 관련 없는 검사비·치료비 등, 간병비·상급병실료 등 비급여, 지원 결정 전에 발생한 진료비 등\n\n방법\n\n해당 지역 보건소에 신청\n\n문의\n\n노인의료나눔재단(027116599, www.ok6595.or.kr)'), Document(page_content='은퇴금융 아카데미\n\n대상 은퇴준비에 필요한 경제금융지식 및 은퇴생활정보 교육이 필요한 사람\n\n내용 \n 자산관리, 은퇴금융상품, 신용·부채관

In [65]:
print(type(documents))

<class 'list'>


In [50]:
prompt_template = """사용자가 던진 질문에 대해서 상세하게 답변해줘.
Question: {question}
Answer:"""

prompt = PromptTemplate(input_variables=["question"], template=prompt_template)

from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI()

llm_chain = LLMChain(llm=llm, prompt=prompt)

In [51]:
embeddings = HypotheticalDocumentEmbedder(
    llm_chain=llm_chain,
    base_embeddings=bge_embeddings
)

In [55]:
docsearch = Chroma.from_documents(documents, embeddings)

query = "대학교 다니고 있는데 내가 돈이 없는데 어떻게 해야하지?"
docs = docsearch.similarity_search(query)

[32;1m[1;3m[llm/start][0m [1m[1:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: 사용자가 던진 질문에 대해서 상세하게 답변해줘.\nQuestion: 대학교 다니고 있는데 내가 돈이 없는데 어떻게 해야하지?\nAnswer:"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[1:llm:ChatOpenAI] [91.22s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "대학교에 다니면서 돈이 부족한 상황에서는 몇 가지 대안이 있습니다.\n\n1. 장학금 신청: 대학교에서는 장학금 프로그램을 운영하고 있을 수 있습니다. 자격 요건을 충족하면 장학금을 받을 수 있으므로, 대학의 장학금 사무실에 방문하여 신청 방법과 자격 요건을 확인하세요.\n\n2. 학자금 대출: 은행이나 대학 자체에서 학자금 대출 프로그램을 제공할 수 있습니다. 이 경우에는 대출금을 상환해야 하므로, 대출금 상환 계획을 세우고 이해하는 것이 중요합니다.\n\n3. 파트타임으로 일하기: 대학 근처에서 일자리를 찾아 파트타임으로 일하면서 돈을 벌 수 있습니다. 시간 관리에 유의하여 학업과 일의 균형을 유지하는 것이 중요합니다.\n\n4. 경제적 지원을 받을 수 있는 프로그램 찾기: 정부나 비영리 단체에서 운영하는 경제적 지원 프로그램을 찾아보세요. 이러한 프로그램은 학비 지원, 생활비 지원 등을 제공할 수 있습니다.\n\n5. 생활비 절약하기: 생활비를 절약하여 돈을 절약할 수도 있습니다. 식비, 주거비, 교통비 등을 검토하여 필요 없는 지출을 줄이고 합리적인 예산을 세우는 것이 중요합니다.\n\n이러한 대안들을 고려하여 돈을 조금이나마 절약하고 얻을 수 있습니다. 하지만, 재정상황은 개인마다 다르므로 상황에 맞는 조언을 얻기 위해 학교의 재정 지원 사무실이나

In [58]:
print(docsearch)

<langchain.vectorstores.chroma.Chroma object at 0x2cc92c7f0>


In [57]:
print(docs[0].page_content)

청소년치료재활센터(국립중앙청소년디딤센터, 국립대구청소년디딤센터)운영

대상

정서·행동에 어려움이 있는 청소년(만 9세18세)

우울증, 불안장애, 학교부적응, 주의력결핍과잉행동장애(ADHD), 학대 및 학교폭력 피해 청소년 등

내용

정서·행동영역에서의 어려움 정도에 따라 디딤과정(4개월), 오름과정(1개월), 단기캠프 (11박12일) 등 제공

상담·치료(정신의학적 상담), 보호(거주형 보호시설), 교육(검정고시 지원), 자립지도 (직업교육, 체험활동 등) 지원

방법

누구나 개별 신청 가능, 또는 한국청소년상담복지개발원, 청소년상담복지센터, 학교밖 청소년지원센터, 청소년쉼터, 교육청, 학교, 위(Wee)센터, 가족센터, 아동복지시설 등을 통해 신청

 서류심사와 심층면접, 입·퇴교판정위원회 심사를 통해 최종 선정

문의

국립중앙청소년디딤센터(www.nyhc.or.kr), 0313331900

국립대구청소년디딤센터(www.youthfly.or.kr), 0536656900

자주 하는 질문

참가비용은 어떻게 되나요 저소득층에게는 어떤 혜택이 있나요

기초생활보장수급자·차상위계층·한부모가족 지원대상자 자녀는 무료로 지원받을 수 있고, 이 외 일반가정 자녀는 장기과정(디딤과정, 오름과정)은 월 30만 원, 단기과정(11박 12일)은 10만 원의 참가비를 납부해야 합니다.


In [62]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever

bm25_retriever = BM25Retriever.from_texts(v_list)
bm25_retriever.k = 2

docsearch = Chroma.from_documents(documents, embeddings)
chroma_retriever = docsearch.as_retriever(search_kwargs={"k": 2})
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, chroma_retriever], weights=[0.5, 0.5]
)

In [63]:
docs = ensemble_retriever.get_relevant_documents(query)
docs

[32;1m[1;3m[llm/start][0m [1m[1:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: 사용자가 던진 질문에 대해서 상세하게 답변해줘.\nQuestion: 대학교 다니고 있는데 내가 돈이 없는데 어떻게 해야하지?\nAnswer:"
  ]
}
[36;1m[1;3m[llm/end][0m [1m[1:llm:ChatOpenAI] [126.02s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "대학교에 다니면서 돈이 부족한 상황은 많은 학생들이 겪는 문제입니다. 이에 대한 해결책은 여러 가지가 있을 수 있으며, 다음과 같은 방법들을 고려해 볼 수 있습니다.\n\n1. 장학금 및 학자금 지원 프로그램 신청: 대학교에서는 학생들을 위한 장학금 및 학자금 지원 프로그램을 운영하고 있습니다. 자격 요건을 충족하고 신청하면, 학비나 생활비를 일부나 전액으로 지원받을 수 있습니다.\n\n2. 알바나 아르바이트 찾기: 시간을 활용하여 알바나 아르바이트를 찾아 일하면 추가적인 수입을 얻을 수 있습니다. 학교 내 또는 주변 지역의 카페, 식당, 서점 등에서 일할 수 있는 기회를 찾아보세요.\n\n3. 경비를 절약하는 방법 고려: 생활비를 줄이는 방법을 고려해보세요. 예를 들어, 식비를 줄이기 위해 집에서 식사를 해결하거나, 학교 내에서 제공하는 식사 할인 혜택을 이용할 수 있습니다. 또한, 학습 자료를 대여하거나 중고책을 구매하는 등의 방법으로 교재비를 절약할 수도 있습니다.\n\n4. 가계부 작성 및 예산 관리: 자신의 소비 패턴을 파악하기 위해 가계부를 작성하고, 예산을 관리해보세요. 이를 통해 어떤 부분에서 돈을 더 많이 사용하고 있는지 파악하고 절약할 수 있는 부분을 찾을 수 있습니다.\n\n5. 대학교 내 혜택 및 할인 활용: 학교에서 제공하는 혜택이

[Document(page_content='위기청소년 특별지원\n\n대상\n\n9세 이상 24세 이하 위기 청소년\n\n보호자가 없거나 실질적으로 보호자의 보호를 받지 못하는 청소년\n\n학교 밖 청소년\n\n비행·일탈 예방을 위해 지원이 필요한 청소년\n\n대상자 가구 소득이 중위소득 100% 이하\n\n내용\n\n생활지원 \n  의복·음식물 및 연료비, 기타 일상생활에 필요한 기초생계비  숙식 제공 \n 월 65만 원 이하 \n \n 건강지원 \n  진찰·검사  약제·치료재료의 지급  처치·수술, 기타 치료  예방·재활  입원, 간호  이송 등 기타 조치사항 \n 연 200만 원 이하 \n \n 학업지원 \n  초·중등교육법 제2조에 의한 학교 입학금 및 수업료  교과서 대금  초·중등교육법 시행령 제97조 제1항에 의한 고등학교 입학자격 검정고시 및 동법 제98조 제1항에 의한 고등학교 졸업학력 검정고시의 준비에 필요한 학원비  학원비(교과목 관련) \n 월 15만 원(수업료), 월 30만 원 이하(검정고시), 월 30만 원 이하 \n \n 자립지원 \n  기술 및 기능 습득을 위한 비용  진로상담 비용 및 직업체험 비용  취업알선 및 사후지도 비용 \n 월 36만 원 이하 \n \n 상담지원 \n  정신적·심리적 치료를 위한 청소년 본인 및 가족의 상담비, 심리검사비  프로그램 참가비 \n 월 30만 원 이하, 심리검사비(연 40만 원) 별도 \n \n 법률지원 \n  소송비용  법률상담비용 \n 연 350만 원 이하 \n \n 청소년활동지원 \n  수련활동비  문화활동비(문화체험비)  교류활동비 등 \n 월 30만 원 이하 \n \n 기타 지원 \n  청소년이 수치심을 느낄 수 있는 외모 및 흉터 등의 교정  교복 지원, 체육복 등  학용품비, 수업준비물 \n \n\n방법\n\n청소년 본인이나 보호자, 청소년상담사·지도자, 교육 공무원, 사회복지사, 청소년 업무를 담당하는 공무원 등이 읍면동 주민센터(행정복지센터)에 신청\n\n문의\n\n주소지 읍면동