In [15]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
import os
from dotenv import load_dotenv

load_dotenv()

openai_key = os.environ.get("OPENAI_API_KEY")

In [None]:
additional_info_vector_db = "./additional_info_vector_db"
benefit_vector_db = "./benefit_vector_db"
card_core_vector_db = "./card_core_vector_db"
funding_vector_db = "./funding_vector_db"

def load_huggingface_embedding_model(model_name="BAAI/bge-m3"):
    return HuggingFaceEmbeddings(model_name=model_name)

embeddings = load_huggingface_embedding_model()

In [19]:
additional_info_store = Chroma(persist_directory=additional_info_vector_db, embedding_function=embeddings)
benefit_store = Chroma(persist_directory=benefit_vector_db, embedding_function=embeddings)
card_core_store = Chroma(persist_directory=card_core_vector_db, embedding_function=embeddings)
funding_store = Chroma(persist_directory=funding_vector_db, embedding_function=embeddings)

In [26]:
additional_info_retriever = additional_info_store.as_retriever(search_type="mmr", search_kwargs={"k": 3})
benefit_retriever = benefit_store.as_retriever(search_type="mmr", search_kwargs={"k": 3})
card_core_retriever = card_core_store.as_retriever(search_type="mmr", search_kwargs={"k": 3})
funding_retriever = funding_store.as_retriever(search_type="mmr", search_kwargs={"k": 3})


In [38]:
query = "불우이웃"
docs = funding_retriever.get_relevant_documents(query)

print(docs[0])

page_content='펀딩 내용: 올여름 무더위만큼이나 다가오는 겨울 추위가 두렵다는 장애인
뉴스 보도에 따르면 올겨울은 기후 변화와 라니냐 등의 영향으로 평년보다 강한 추위가 전망된다고 합니다. 2024년 새해 서울은 영하 10도 안팎의 한파로 시작되어 1월 8일 영하 18.6도를 기록하며 35년 만에 최저기온을 기록했습니다. 이상고온과 한파가 연달아 나타나며 우리나라 겨울철 대표적 날씨 현상인 ‘삼한사온’은 모습을 감추었는데요. 이러한 현상은 지구 온난화가 원인으로 알려져 있으며, 이번 여름 장기간의 폭염과 열대야에도 그 영향을 미치고 있습니다. 
무더운 여름이 지나 날씨가 선선해지며 지금은 한숨 돌렸지만, 이제는 연말에 다가올 추위를 걱정하지 않을 수 없습니다.
“겨울 이불? 그냥 이것저것 깔고 덮고 자면 되지, 새로 살 돈이 어딨어.”
어려운 형편에 생필품 하나를 살 때도 들었다 내려놓기를 반복하며 마음 놓고 구입하지 못하는 한 저소득 장애인... 아끼던 이불이 이제 낡고, 해지고, 더러워졌지만 폐지를 모아 번 돈과 정부 생계비로 생활하는 저소득 장애인들은 선뜻 이불을 구입할 수 없습니다. "혼자 있으니 여름에는 대충 입고 아무거나 덮고 자도 괜찮아. 겨울에는 이것저것 깔고 덮고 자면 되지." 취약계층인 장애인이 한겨울을 보내기에 따뜻한 온돌 바닥은 경제적으로 큰 부담입니다.
낡고 해져 더러워진 비위생적 이불... 겨우내 유일한 친구이자 버팀목
습도가 높은 거주 환경 속에 이번 폭염을 지낸 장애인 가정에 있는 오염된 이불은 대부분 건강이 좋지 않은 장애인의 면역력을 악화시키고 또 다른 질병을 유발할 수 있습니다. 겨울 이불이 있어도, 얇은 이불이 여러 개 있어도 직접 세탁하기 힘들고, 세탁할 힘도 없는 상태입니다. 어둡고 습한 방에서 한여름을 보낸 한 저소득 장애인은 다가올 겨울 낡고 해져 더러워진 이불은 추위를 이겨내기 위한 유일한 친구이자 버팀목이라고 합니다.
여러분의 온기를 모아 모아 따뜻한 이불로, 건강한 겨울나기를 응원해 주세요!
우리에게는

In [9]:
# vectordb에 저장된 문서의 개수 확인
funding_store._collection.count()

424

In [13]:
# 사용 가능한 키 확인
additional_info_store._collection.get().keys()

dict_keys(['ids', 'embeddings', 'documents', 'uris', 'data', 'metadatas', 'included'])

In [71]:
docs = benefit_store.similarity_search("혜택", k=3)
for doc in docs:
    print(doc.page_content)

혜택 카테고리: 생활
혜택 설명: 커피, 영화, 외식 등 다양한 국내 가맹점 할인 서비스

혜택 카테고리: 생활
혜택 설명: 할인점, 소셜커머스, 커피전문점, 편의점, 영화 할인

혜택 카테고리: 생활
혜택 설명: 교통, 영화, 외식, 커피 등 최대 10% 청구할인



In [None]:
retriever = card_core_store.as_retriever(search_type="mmr", search_kwargs={"k": 3})
docs = retriever.get_relevant_documents("카드")
for doc in docs:
    print(doc.page_content)

카드 이름: LOCA for Coffee
회사 이름: 롯데카드
카드 종류: CRD

카드 이름: LOCA 나누기 카드
회사 이름: 롯데카드
카드 종류: CRD

카드 이름: Trip to 로카
회사 이름: 롯데카드
카드 종류: CRD



: 

In [39]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

In [40]:
from langchain.chat_models.openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

In [54]:
system_prompt = """
당신은 카드 및 기부 프로젝트 정보를 제공하는 전문 챗봇입니다. 아래 지침에 따라 사용자의 질문에 간결하고 정확한 답변을 제공합니다.

1. **답변 지침**:
   - 카드 관련 질문 → `card_core_store`, `benefit_store`, `additional_info_store`를 사용해 검색.
   - 기부 관련 질문 → `funding_store`를 사용해 검색.
   - 검색 결과를 바탕으로 간단하고 명확하게 요약하여 답변하세요.
2. **응답 예시**:
   - 질문: "현대카드 중 혜택이 가장 많은 카드는?"
     - 답변: "현대카드 중 혜택이 가장 많은 카드는 현대카드 Z Play입니다. 현대카드 Z Play의 혜택은 총 O개입니다."
   - 질문: "기부 프로젝트 중 가장 인기 있는 것은?"
     - 답변: "가장 인기 있는 기부 프로젝트는 '나무 심기 캠페인'으로, 현재 500명이 참여 중입니다."
3. **에러 핸들링**:
   - 검색 결과가 없을 경우: "관련된 정보를 찾을 수 없습니다. 다른 질문을 해주세요."라고 응답하세요.

당신의 목표는 검색 결과를 기반으로 신뢰할 수 있는 답변을 제공하며, 질문에 적합한 정보를 빠르게 요약하는 것입니다.
"Context: {context}"

Question: {question}
Answer:
"""

In [60]:
from langchain_core.prompts import PromptTemplate

template = """당신은 한국경제신문에서 만든 금융 용어를 설명해주는 챗봇입니다.
"개쩌는개발자소미노"가 만들었습니다. 주어진 검색 결과를 바탕으로 답변하세요.
검색 결과에 없는 내용이라면 답변할 수 없다고 하세요. 반말로 친근하게 답변하세요.
{context}

Question: {question}
Answer:
"""

prompt = PromptTemplate.from_template(template)
prompt

PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='당신은 한국경제신문에서 만든 금융 용어를 설명해주는 챗봇입니다.\n"개쩌는개발자소미노"가 만들었습니다. 주어진 검색 결과를 바탕으로 답변하세요.\n검색 결과에 없는 내용이라면 답변할 수 없다고 하세요. 반말로 친근하게 답변하세요.\n{context}\n\nQuestion: {question}\nAnswer:\n')

In [61]:
# prompt = ChatPromptTemplate.from_messages([
#     ("system", system_prompt),
#     ("human", "{input}")
# ])

llm = ChatOpenAI(
    model_name='gpt-4o-mini',
    streaming=True,
    temperature=0.3,  # 안정적인 답변을 위한 낮은 온도 설정
    callbacks=[StreamingStdOutCallbackHandler()]
)


In [62]:
prompt

PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='당신은 한국경제신문에서 만든 금융 용어를 설명해주는 챗봇입니다.\n"개쩌는개발자소미노"가 만들었습니다. 주어진 검색 결과를 바탕으로 답변하세요.\n검색 결과에 없는 내용이라면 답변할 수 없다고 하세요. 반말로 친근하게 답변하세요.\n{context}\n\nQuestion: {question}\nAnswer:\n')

In [67]:
# 체인 생성
qa_chain_additional_info = create_stuff_documents_chain(llm, prompt)
qa_chain_additional_info = create_retrieval_chain(additional_info_retriever, qa_chain_additional_info)

qa_chain_benefit = create_stuff_documents_chain(llm, prompt)
qa_chain_benefit = create_retrieval_chain(benefit_retriever, qa_chain_benefit)

qa_chain_card_core = create_stuff_documents_chain(llm, prompt)
qa_chain_card_core = create_retrieval_chain(card_core_retriever, qa_chain_card_core)

qa_chain_funding = create_stuff_documents_chain(llm, prompt)
qa_chain_funding = create_retrieval_chain(funding_retriever, qa_chain_funding)

# 테스트
query = "현대카드 중 혜택이 가장 많은 것은?"
input_data = {"question": query}
print("Input data to chain:", input_data)

response = qa_chain_additional_info.invoke(input_data)
print("LLM Response:", response)

Input data to chain: {'question': '현대카드 중 혜택이 가장 많은 것은?'}


KeyError: 'input'