In [11]:
import chromadb
import pandas as pd 
import openai
import os
import getpass
from llama_index import VectorStoreIndex, SimpleDirectoryReader, ServiceContext
from llama_index.vector_stores import ChromaVectorStore
from llama_index.readers.chroma import ChromaReader
from llama_index import StorageContext, load_index_from_storage, load_indices_from_storage
# from transformers import AutoTokenizer, AutoModel
from llama_index.embeddings import HuggingFaceEmbedding
from llama_index.llms import HuggingFaceLLM
from llama_index.node_parser import SentenceSplitter 
from llama_index.schema import MetadataMode
from IPython.display import Markdown, display
from llama_index import VectorStoreIndex, SimpleDirectoryReader, ServiceContext
from llama_index.llms import OpenAI
from llama_index.prompts import PromptTemplate

In [4]:
data_path = os.path.join('/workspace/data/')
index_path = os.path.join('/workspace/db/local')

In [5]:
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
openai.api_key = os.environ["OPENAI_API_KEY"]

OpenAI API Key: ········


In [6]:
model_name = 'kakaobank/kf-deberta-base'
embed_model = HuggingFaceEmbedding(model_name=model_name)

In [7]:
desc_storage_context = StorageContext.from_defaults(persist_dir=os.path.join(index_path, 'desc'))
features_storage_context = StorageContext.from_defaults(persist_dir=os.path.join(index_path, 'features'))
qualification_storage_context = StorageContext.from_defaults(persist_dir=os.path.join(index_path, 'qualification'))

In [8]:
parser = SentenceSplitter(chunk_size=512, chunk_overlap=30)   # SentenceSplitter(chunk_size=1024, chunk_overlap=20)

In [9]:
service_context = ServiceContext.from_defaults(node_parser=parser, embed_model=embed_model, llm=None)

LLM is explicitly disabled. Using MockLLM.


In [10]:
# service_context 전달 안해주면 query 시 dimension 오류 발생 
features_idx = load_index_from_storage(features_storage_context, index_id='loan_tmp', service_context=service_context)
desc_idx = load_indices_from_storage(desc_storage_context, index_ids=['card_tmp', 'loan_tmp', 'deposit_tmp'], service_context=service_context)
qualification_idx = load_index_from_storage(qualification_storage_context, index_id='loan_tmp', service_context=service_context)

In [14]:
template = (
    "사용자 쿼리와 유사한 문맥 정보는 다음과 같아. \n"
    "---------------------\n"
    "{context_str}"
    "\n---------------------\n"
    "주어진 문맥 정보를 바탕으로, 사용자 질문에 대답해줘: {query_str}\n"
    "대답은 한국어로 하고, 주어진 문맥이 별로 도움되지 않는다면, 너가 대답을 만들어줘"
)
qa_template = PromptTemplate(template)

In [31]:
query = "서울 시민이 신청 가능한 카드는 뭐야"
context = "서울시민카드"

In [32]:
messages = qa_template.format_messages(context_str=context, query_str=query)

In [33]:
print(messages)

[ChatMessage(role=<MessageRole.USER: 'user'>, content='사용자 쿼리와 유사한 문맥 정보는 다음과 같아. \n---------------------\n서울시민카드\n---------------------\n주어진 문맥 정보를 바탕으로, 사용자 질문에 대답해줘: 서울 시민이 신청 가능한 카드는 뭐야\n대답은 한국어로 하고, 주어진 문맥이 별로 도움되지 않는다면, 너가 대답을 만들어줘', additional_kwargs={})]


In [34]:
llm_service = ServiceContext.from_defaults()

In [35]:
query_engine = features_idx.as_query_engine(service_context=llm_service)
print(query_engine.query(query).response)

서울 시민이 신청 가능한 카드는 마이너스통장과 체크카드가 결합된 신용대출 상품입니다.


In [19]:
# query engine의 pr
prompts_dict = query_engine.get_prompts()
print(prompts_dict.keys())

dict_keys(['response_synthesizer:text_qa_template', 'response_synthesizer:refine_template'])


In [20]:
query_engine.update_prompts(
    {"response_synthesizer:text_qa_template": qa_template}
)

In [21]:
# query engine의 pr
prompts_dict = query_engine.get_prompts()
print(prompts_dict)

{'response_synthesizer:text_qa_template': PromptTemplate(metadata={'prompt_type': <PromptType.CUSTOM: 'custom'>}, template_vars=['context_str', 'query_str'], kwargs={}, output_parser=None, template_var_mappings=None, function_mappings=None, template='사용자 쿼리와 유사한 문맥 정보는 다음과 같아. \n---------------------\n{context_str}\n---------------------\n주어진 문맥 정보를 바탕으로, 사용자 질문에 대답해줘: {query_str}\n대답은 한국어로 하고, 주어진 문맥이 별로 도움되지 않는다면, 너가 대답을 만들어줘'), 'response_synthesizer:refine_template': SelectorPromptTemplate(metadata={'prompt_type': <PromptType.REFINE: 'refine'>}, template_vars=['query_str', 'existing_answer', 'context_msg'], kwargs={}, output_parser=None, template_var_mappings={}, function_mappings={}, default_template=PromptTemplate(metadata={'prompt_type': <PromptType.REFINE: 'refine'>}, template_vars=['query_str', 'existing_answer', 'context_msg'], kwargs={}, output_parser=None, template_var_mappings=None, function_mappings=None, template="The original query is as follows: {query_str}\nWe have pro

In [22]:
print(query_engine.query(query))

서울 시민이 신청 가능한 카드는 다양합니다. 하지만 주어진 문맥 정보에서는 카드에 대한 구체적인 언급이 없으므로, 다음은 일반적으로 서울 시민이 신청 가능한 카드의 종류입니다:

1. 신용카드: 대부분의 은행과 카드사에서 서울 시민을 대상으로 신용카드를 제공하고 있습니다. 신용카드는 소득과 신용 등의 조건을 충족하면 신청할 수 있습니다.

2. 체크카드: 서울 시민은 은행에서 제공하는 체크카드를 신청할 수 있습니다. 체크카드는 신용카드와 달리 결제 시 사용자의 계좌에서 직접 금액이 차감되는 형태의 카드입니다.

3. 마이너스통장과 체크카드 결합 상품: 잔고가 없어도 최대 2천만원까지 결재가 가능한 마이너스통장과 체크카드가 결합된 신용대출 상품이 있습니다. 이 상품은 서울 시민도 신청 가능합니다.

서울 시민이 카드를 신청할 때는 해당 은행이나 카드사의 신청 조건과 절차를 확인하시는 것이 좋습니다.


In [23]:
from llama_index.llms import ChatMessage, MessageRole
from llama_index.prompts import ChatPromptTemplate

# Text QA Prompt
chat_text_qa_msgs = [
    ChatMessage(
        role=MessageRole.SYSTEM,
        content=(
            "주어진 문맥 정보가 유용하지 않더라도 항상 사용자 발화에 대답해줘"
        ),
    ),
    ChatMessage(
        role=MessageRole.USER,
        content=(
            "사용자 쿼리와 유사한 문맥 정보는 다음과 같아. \n"
            "---------------------\n"
            "{context_str}"
            "\n---------------------\n"
            "주어진 문맥 정보를 바탕으로, 사용자 질문에 대답해줘: {query_str}\n"
            "대답은 한국어로 하고, 주어진 문맥이 별로 도움되지 않는다면, 너가 대답을 만들어줘"
        ),
    ),
]
text_qa_template = ChatPromptTemplate(chat_text_qa_msgs)

In [24]:
chat_refine_msgs = [
    ChatMessage(
        role=MessageRole.SYSTEM,
        content=(
            "주어진 문맥 정보가 유용하지 않더라도 항상 사용자 발화에 대답해줘"
        ),
    ),
    ChatMessage(
        role=MessageRole.USER,
        content=(
            "우리는 기존 대답을 정제할 기회가 있어"
            "(꼭 필요한 경우에만) 다음 추가 문맥 정보를 사용해서.\n"
            "------------\n"
            "{context_msg}\n"
            "------------\n"
            "새로운 문맥 정보가 주어졌을 때, 기존 대답을 보다 낫게 정제해봐"
            "대답해야 할 사용자 발화는 이거야: {query_str}. "
            "추가로 주어진 문맥 정보가 유용하지 않다면, 기존 대답을 출력해줘.\n"
            "기존 대답: {existing_answer}"
        ),
    ),
]
refine_template = ChatPromptTemplate(chat_refine_msgs)

In [25]:
print(
    features_idx.as_query_engine(
        service_context=llm_service, text_qa_template=text_qa_template, refine_template=refine_template
    ).query(query)
)

서울 시민이 신청 가능한 카드는 여러 종류가 있습니다. 예를 들어, 서울 시민이라면 서울시에서 제공하는 서울시민카드를 신청할 수 있습니다. 또한, 서울에 위치한 은행들의 신용카드나 체크카드도 신청할 수 있습니다. 하지만, 정확한 카드 종류를 알려드리기 위해서는 더 구체적인 정보가 필요합니다. 어떤 종류의 카드를 찾고 계신가요?


In [26]:
tone_qa_template = text_qa_template.partial_format(tone_name='할머니')

In [30]:
print(
    features_idx.as_query_engine(
        service_context=llm_service, text_qa_template=tone_qa_template, refine_template=refine_template
    ).query(query)
)

서울 시민이 신청 가능한 카드는 여러 종류가 있습니다. 예를 들어, 서울 시민이라면 서울시에서 발급하는 서울시민카드를 신청할 수 있습니다. 또한, 서울에 위치한 은행들이 제공하는 다양한 신용카드 상품도 신청할 수 있습니다. 이 외에도 서울 시민을 대상으로 한 특별한 카드 상품이 있을 수 있으니, 원하시는 카드의 세부 사항을 알려주시면 더 자세한 도움을 드릴 수 있습니다.


In [28]:
query_engine.update_prompts(
    {"response_synthesizer:text_qa_template": tone_qa_template}
)

In [29]:
print(query_engine.query(query))

서울 시민이 신청 가능한 카드는 다양합니다. 예를 들어, 서울 시민이라면 서울시에서 제공하는 서울시민카드를 신청할 수 있습니다. 또한, 서울에 위치한 은행들의 신용카드나 체크카드도 신청할 수 있습니다. 하지만, 주어진 문맥 정보에서는 어떤 카드가 가장 적합한지 알 수 없습니다. 따라서, 신용카드나 체크카드를 신청하기 전에 서울시에서 제공하는 혜택이나 서비스를 확인해보시는 것이 좋을 것 같습니다.


In [None]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
messages = [
{"role": "user", "content": "bbbbbb"},
{"role": "assistant", "content" : "aaaaa"},
{"role": "user", "content" : "bbbb"},
{"role": "assistant", "content" : "aaaaa"},
{"role": "user", "content" : "bbbbb"},
{"role": "assistant", "content" : "aaaaa"}
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False)
print(prompt)