# OpenSearch Hybrid 검색을 통한 RAG
> 이 노트북은  SageMaker Studio* **`Data Science 3.0`** kernel 및 ml.t3.medium 인스턴스에서 테스트 되었습니다.
---
### 중요
- 이 노트북은 Anthropic 의 Claude-v2 모델 접근 가능한 분만 실행 가능합니다. 
- 접근이 안되시는 분은 노트북의 코드와 결과 만을 확인 하시면 좋겠습니다.
- 만일 실행시에는 **"과금"** 이 발생이 되는 부분 유념 해주시기 바랍니다.

### 선수조건
- 이 노트북은 이전 노트북인 "02_1_KR_RAG_OpenSearch_Keyword.ipynb" 이 완료 되었다고 가정 합니다.
    - 오픈서치 인텍스 관련 정보를 참조 합니다.

### Methods and Resources for Hybrid search with Re-ranking 
- Score Normalization
    - [MinMax based](https://towardsdatascience.com/text-search-vs-vector-search-better-together-3bd48eb6132a)
    - [z-socre based](https://towardsdatascience.com/hybrid-search-2-0-the-pursuit-of-better-search-ce44d6f20c08)
- Reciprocal Rank Fusion (RRF)
    - [Paper](https://plg.uwaterloo.ca/~gvcormac/cormacksigir09-rrf.pdf)
    - [Description](https://medium.com/@sowmiyajaganathan/hybrid-search-with-re-ranking-ff120c8a426d)
- [LangChain API for Ensemble Retriever](https://python.langchain.com/docs/modules/data_connection/retrievers/ensemble)

### 설정

이 노트북의 나머지 부분을 실행하기 전에 아래 셀을 실행하여 (필요한 라이브러리가 설치되어 있는지 확인하고) Bedrock에 연결해야 합니다.



In [2]:
%load_ext autoreload
%autoreload 2

import sys, os
module_path = ".."
sys.path.append(os.path.abspath(module_path))

# 1. Bedrock Client 생성

In [3]:
import json
import boto3
from pprint import pprint
from termcolor import colored
from utils import bedrock, print_ww
from utils.bedrock import bedrock_info

# ---- ⚠️ Un-comment and edit the below lines as needed for your AWS setup ⚠️ ----

# os.environ["AWS_DEFAULT_REGION"] = "<REGION_NAME>"  # E.g. "us-east-1"
# os.environ["AWS_PROFILE"] = "<YOUR_PROFILE>"
# os.environ["BEDROCK_ASSUME_ROLE"] = "<YOUR_ROLE_ARN>"  # E.g. "arn:aws:..."
# os.environ["BEDROCK_ENDPOINT_URL"] = "<YOUR_ENDPOINT_URL>"  # E.g. "https://..."


boto3_bedrock = bedrock.get_bedrock_client(
    assumed_role=os.environ.get("BEDROCK_ASSUME_ROLE", None),
    endpoint_url=os.environ.get("BEDROCK_ENDPOINT_URL", None),
    region=os.environ.get("AWS_DEFAULT_REGION", None),
)

print (colored("\n== FM lists ==", "green"))
pprint (bedrock_info.get_list_fm_models())

Create new client
  Using region: us-west-2
  Using profile: None
boto3 Bedrock client successfully created!
bedrock-runtime(https://bedrock-runtime.us-west-2.amazonaws.com)
[32m
== FM lists ==[0m
{'Claude-Instant-V1': 'anthropic.claude-instant-v1',
 'Claude-V1': 'anthropic.claude-v1',
 'Claude-V2': 'anthropic.claude-v2',
 'Command': 'cohere.command-text-v14',
 'Jurassic-2-Mid': 'ai21.j2-mid-v1',
 'Jurassic-2-Ultra': 'ai21.j2-ultra-v1',
 'Titan-Embeddings-G1': 'amazon.titan-embed-text-v1',
 'Titan-Text-G1': 'TBD'}


# 2. Titan Embedding 및 LLM 인 Claude-v2 모델 로딩

## LLM 로딩 (Claude-v2)

In [4]:
from langchain.llms.bedrock import Bedrock
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

In [5]:
# - create the Anthropic Model
llm_text = Bedrock(
    model_id=bedrock_info.get_model_id(model_name="Claude-V2"),
    client=boto3_bedrock,
    model_kwargs={
        "max_tokens_to_sample": 512
    },
    streaming=True,
    callbacks=[StreamingStdOutCallbackHandler()]
)
llm_text

Bedrock(client=<botocore.client.BedrockRuntime object at 0x7fc594ff3100>, model_id='anthropic.claude-v2', model_kwargs={'max_tokens_to_sample': 512}, streaming=True, callbacks=[<langchain.callbacks.streaming_stdout.StreamingStdOutCallbackHandler object at 0x7fc5dfef1bd0>])

## Embedding 모델 선택

In [6]:
from utils.rag import KoSimCSERobertaContentHandler, SagemakerEndpointEmbeddingsJumpStart

def get_embedding_model(is_bedrock_embeddings, is_KoSimCSERobert, aws_region, endpont_name=None):
    if is_bedrock_embeddings:

        # We will be using the Titan Embeddings Model to generate our Embeddings.
        from langchain.embeddings import BedrockEmbeddings
        llm_emb = BedrockEmbeddings(
            client=boto3_bedrock,
            model_id=bedrock_info.get_model_id(
                model_name="Titan-Embeddings-G1"
            )
        )
        print("Bedrock Embeddings Model Loaded")

    elif is_KoSimCSERobert:
        LLMEmbHandler = KoSimCSERobertaContentHandler()
        endpoint_name_emb = endpont_name
        llm_emb = SagemakerEndpointEmbeddingsJumpStart(
            endpoint_name=endpoint_name_emb,
            region_name=aws_region,
            content_handler=LLMEmbHandler,
        )        
        print("KoSimCSERobert Embeddings Model Loaded")
    else:
        llm_emb = None
        print("No Embedding Model Selected")
    
    return llm_emb

#### [중요] is_KoSimCSERobert == True 일시에 endpoint_name 을 꼭 넣어 주세요.

In [7]:
is_bedrock_embeddings = True
is_KoSimCSERobert = False

aws_region = os.environ.get("AWS_DEFAULT_REGION", None)

##############################
# Parameters for is_KoSimCSERobert
##############################
if is_KoSimCSERobert: endpont_name = "<endpoint-name>"
else: endpont_name = None
##############################

llm_emb = get_embedding_model(is_bedrock_embeddings, is_KoSimCSERobert, aws_region, endpont_name)    

Bedrock Embeddings Model Loaded


# 3. LangChain OpenSearch VectorStore 생성 
## 선수 조건
- 이전 노트북 02_1_KR_RAG_OpenSearch_Keyword.ipynb 또는 02_1_KR_RAG_OpenSearch_Semantic.ipynb를 통해서 OpenSearch Index 가 생성이 되어 있어야 합니다.

## 오픈 서치 도메인 및 인증 정보 세팅

- [langchain.vectorstores.opensearch_vector_search.OpenSearchVectorSearch](https://api.python.langchain.com/en/latest/vectorstores/langchain.vectorstores.opensearch_vector_search.OpenSearchVectorSearch.html)

#### [중요] 아래에 OpenSearch ID/PW 를 입력을 해주세요.

In [8]:
os.environ["OpenSearch_UserName"] = "Type ID"
os.environ["OpenSearch_UserPassword"] = "Type PW"

rag_user_name = os.environ["OpenSearch_UserName"]
rag_user_password = os.environ["OpenSearch_UserPassword"]

In [9]:
opensearch_domain_endpoint = "<Type your domain endpoint>"

http_auth = (rag_user_name, rag_user_password) # Master username, Master password

index_name = "genai-demo-index-v1-with-tokenizer"

## LangChain OpenSearch VectorStore 생성

In [10]:
from langchain.vectorstores import OpenSearchVectorSearch

In [11]:
vector_db = OpenSearchVectorSearch(
    index_name=index_name,
    opensearch_url=opensearch_domain_endpoint,
    embedding_function=llm_emb,
    http_auth=http_auth, # http_auth
    is_aoss =False,
    engine="faiss",
    space_type="l2"
)

## OpenSearch Client 생성

In [12]:
from utils.opensearch import opensearch_utils

In [13]:
os_client = opensearch_utils.create_aws_opensearch_client(
    aws_region,
    opensearch_domain_endpoint,
    http_auth
)

## 은전한잎 형태소 분석기 (seunjeon_tokenizer) 사용하기 in Opensearch
- 형태소 분석기에 대한 자세한 사항은 02_1_KR_RAG_OpenSearch_Keyword.ipynb 참고

### 인덱스 확인 (tokenization 확인)

In [14]:
index_info = os_client.indices.get(index=index_name)
pprint(index_info)

{'genai-demo-index-v1-with-tokenizer': {'aliases': {},
                                        'mappings': {'properties': {'metadata': {'properties': {'row': {'type': 'long'},
                                                                                                'source': {'fields': {'keyword': {'ignore_above': 256,
                                                                                                                                  'type': 'keyword'}},
                                                                                                           'type': 'text'},
                                                                                                'timestamp': {'type': 'float'},
                                                                                                'type': {'fields': {'keyword': {'ignore_above': 256,
                                                                                                                         

# 4. 오픈 서치에 "유사 서치" 검색
- query 를 제공해서 실제로 유사한 내용이 검색이 되는지를 확인 합니다.



- similarity_search_with_score API 정보
    - [API: similarity_search_with_score](https://api.python.langchain.com/en/latest/vectorstores/langchain.vectorstores.opensearch_vector_search.OpenSearchVectorSearch.html#langchain.vectorstores.opensearch_vector_search.OpenSearchVectorSearch.similarity_search)

In [15]:
import copy
from langchain.schema import Document
from langchain import PromptTemplate
from operator import itemgetter

## (1) OpenSearch Vector 검색

### 프로프트 템플릿 생성

In [16]:
from utils.rag import run_RetrievalQA, show_context_used
from langchain.prompts import PromptTemplate

### [TIP] Prompt의 instruction의 경우 한글보다 **영어**로 했을 때 더 좋은 결과를 얻을 수 있습니다.

In [17]:
# prompt_template = """
# \n\nHuman: 다음 문맥의 Information을 사용하여 고객 서비스 센터 직원처럼, 마지막 질문에 대한 목차 형식으로 답변을 제공하세요. 응답을 모르면 모른다고 말하고 응답을 만들려고 하지 마세요.

# {context}

# Question: {question}
# \n\nAssistant:"""

prompt_template = """


Human: Here is the context, inside <context></context> XML tags.

<context>
{context}
</context>

Only using the contex as above, answer the following question with the rules as below:
    - Don't insert XML tag such as <context> and </context> when answering.
    - Write as much as you can
    - Be courteous and polite
    - Only answer the question if you can find the answer in the context with certainty.

Question:
{question}

If the answer is not in the context, just say "주어진 내용에서 관련 답변을 찾을 수 없습니다."


Assistant:"""

PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)


### 필터 생성

In [18]:
filter01 = "홈페이지"
# filter01 = "인증서"
filter02 = "신한은행"
# filter02 = "아마존은행"

query = "홈페이지 이용자아이디 여러 개 사용할 수 있나요?"
# query = "타기관OTP 등록 방법 알려주세요"

boolean_filter = opensearch_utils.get_filter(
    filter=[
        {"term": {"metadata.type": filter01}},
        {"term": {"metadata.source": filter02}},
    ]
)

pprint(boolean_filter)

{'bool': {'filter': [{'term': {'metadata.type': '홈페이지'}},
                     {'term': {'metadata.source': '신한은행'}}]}}


### LangChain RetrievalQA 를 통해 실행
- 아래와 같이 top_k = 5 를 실행하면 해당 관련 Context 를 가져오지 못하고 , "주어진 내용에서 찾을 수 없습니다" 라고 답변 함.

In [19]:
result = run_RetrievalQA(
    query=query,
    boolean_filter=boolean_filter,
    llm=llm_text,
    prompt=PROMPT,
    vector_db=vector_db,
    verbose=True,
    k=5
)

print("##################################")
print("query: ", query)
print("boolean_filter: ", boolean_filter)
print("##################################")

print (colored("\n\n### Answer ###", "blue"))
print_ww(result['result'])

print (colored("\n\n### Contexts ###", "green"))
show_context_used(result['source_documents'])



[1m> Entering new RetrievalQA chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m


Human: Here is the context, inside <context></context> XML tags.

<context>
ask: 홈페이지 이용자아이디 여러 개 사용할 수 있나요?
Information: 홈페이지 이용자 아이디는 개인의 경우 1인 1개만 이용 가능하고 기업의 경우에는 1개의 사업자번호당 사용자별로 이용자아이디를 복수로 사용할 수 있습니다. 
※ 개인사업자의 경우 개인과 기업 각각 이용자아이디를 발급하여 복수로 이용 가능합니다. 
기타 궁금하신 내용은 신한은행 고객센터 1599-8000로 문의하여 주시기 바랍니다.

ask: 홈페이지 회원아이디를 변경하고 싶습니다.
Information: 회원탈퇴를 하시고, 사용하시고 싶은 아이디로 신규 회원가입신청을 하시면 됩니다. 다만, 사용하시고 싶은 아이디가 이미 다른 고객이 사용하고 있는 경우에는 사용하실 수 없습니다. 기타 문의는 콜센터 1599-8000번으로 문의 바랍니다.

ask: 만14세 미만의 고객은 홈페이지 회원가입이 가능하나요?
Information: 만 14세 미만 고객은 회원가입시 '정보통신망 이용촉진 및 정보 등에 관한 법률' 및 '개인정보보호지침'에 따라 법정대리인의 정보활용 동의가 필요합니다. 당행 영업점을 통한 보호자분의 홈페이지 회원 법정대리인 등록이 완료된 고객님에 한하여 회원등록이 가능하므로 홈페이지 회원 법정대리인 등록이 안된 고객님의 보호자분께서는 먼저 가까운 영업점을 방문하여 주시기 바랍니다. [구비서류] - 법정대리인 실명확인증표 - 미성년자 기준으로 발급된 특정 또는 상세 기본증명서 - 미성년자 기준으로 발급된 가족관계증명서 *

## (2) OpenSearch Keyword 검색
- "minimum_should_match=50" 세팅을 하고, 관련 컨텍스트를 찾아 오지 못합니다.

In [20]:
from utils.opensearch import opensearch_utils
from utils.rag import get_lexical_similar_docs 
from langchain.chains.question_answering import load_qa_chain

In [21]:
filter01 = "홈페이지"
# filter01 = "인증서"
filter02 = "신한은행"
# filter02 = "아마존은행"

query = "홈페이지 이용자아이디 여러 개 사용할 수 있나요?"

search_keyword_result = get_lexical_similar_docs(
    query=query,
    minimum_should_match=25,
    filter=[
        {"term": {"metadata.type": filter01}},
        {"term": {"metadata.source": filter02}},
    ],
    index_name=index_name,
    os_client=os_client,
    k=5,
    hybrid=False
)
print(search_keyword_result)

lexical search query: 
{'query': {'bool': {'filter': [{'term': {'metadata.type': '홈페이지'}},
                               {'term': {'metadata.source': '신한은행'}}],
                    'must': [{'match': {'text': {'minimum_should_match': '25%',
                                                 'operator': 'or',
                                                 'query': '홈페이지 이용자아이디 여러 개 '
                                                          '사용할 수 있나요?'}}}]}},
 'size': 5}
[Document(page_content='ask: 홈페이지 이용자아이디 여러 개 사용할 수 있나요?\nInformation: 홈페이지 이용자 아이디는 개인의 경우 1인 1개만 이용 가능하고 기업의 경우에는 1개의 사업자번호당 사용자별로 이용자아이디를 복수로 사용할 수 있습니다. \r\n※ 개인사업자의 경우 개인과 기업 각각 이용자아이디를 발급하여 복수로 이용 가능합니다. \r\n기타 궁금하신 내용은 신한은행 고객센터 1599-8000로 문의하여 주시기 바랍니다.', metadata={'source': '신한은행', 'row': 21, 'type': '홈페이지', 'timestamp': 1697178019.0219147, 'id': '8c0dc623-51b3-43a0-9a59-216ec56ce4f6'}), Document(page_content='ask: 홈페이지 회원아이디를 변경하고 싶습니다.\nInformation: 회원탈퇴를 하시고, 사용하시고 싶은 아이디로 신규 회원가입신청을 하시면 됩니다. 다만, 사용하시고 싶은 

In [22]:
chain = load_qa_chain(
    llm=llm_text,
    chain_type="stuff",
    prompt=PROMPT,
    verbose=True
)

answer = chain.run(
    input_documents=search_keyword_result,
    question=query
)

print("##############################")
print("query: \n", query)
print("answer: \n", answer)



[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m


Human: Here is the context, inside <context></context> XML tags.

<context>
ask: 홈페이지 이용자아이디 여러 개 사용할 수 있나요?
Information: 홈페이지 이용자 아이디는 개인의 경우 1인 1개만 이용 가능하고 기업의 경우에는 1개의 사업자번호당 사용자별로 이용자아이디를 복수로 사용할 수 있습니다. 
※ 개인사업자의 경우 개인과 기업 각각 이용자아이디를 발급하여 복수로 이용 가능합니다. 
기타 궁금하신 내용은 신한은행 고객센터 1599-8000로 문의하여 주시기 바랍니다.

ask: 홈페이지 회원아이디를 변경하고 싶습니다.
Information: 회원탈퇴를 하시고, 사용하시고 싶은 아이디로 신규 회원가입신청을 하시면 됩니다. 다만, 사용하시고 싶은 아이디가 이미 다른 고객이 사용하고 있는 경우에는 사용하실 수 없습니다. 기타 문의는 콜센터 1599-8000번으로 문의 바랍니다.

ask: 홈페이지 비밀번호를 5회이상 틀렸습니다. 재설정하려면 어떻게 하죠?
Information: 홈페이지 비밀번호를 5회 오류의 경우 홈페이지 로그인이 불가능하오니 본인인증 절차 후 비밀번호를 새로 등록하시면 이용 가능합니다. 신한은행 홈페이지 접속 후 ① (오른쪽 상단)고객센터 회원서비스 ② 회원정보변경 비밀번호 찾기(재설정) ③ (개인회원)약관보기 및 동의 ④ 본인확인(이름, 생년월일, 아이디, 계좌번호, 계좌비밀번호 입력) ⑤ 사용할 비밀번호/비밀번호 확인 2회 입력확인 ※ 영문, 숫자, 특수문자 포함 8-15자리 이내 ⑥ 비밀번호 재설정 완료 - ID/PW 로그인 화면 하단 비밀번호 재설정 메뉴를 통해서도 진행 가능합니다. 기타 궁금하신 내용은 신한은행 고객센터

### 키워드 검색 결과 (search_keyword_result)
bm25 score는 max_value로 normalization 되어 있음 (score range 0 - 1)

In [23]:
search_keyword_result

[Document(page_content='ask: 홈페이지 이용자아이디 여러 개 사용할 수 있나요?\nInformation: 홈페이지 이용자 아이디는 개인의 경우 1인 1개만 이용 가능하고 기업의 경우에는 1개의 사업자번호당 사용자별로 이용자아이디를 복수로 사용할 수 있습니다. \r\n※ 개인사업자의 경우 개인과 기업 각각 이용자아이디를 발급하여 복수로 이용 가능합니다. \r\n기타 궁금하신 내용은 신한은행 고객센터 1599-8000로 문의하여 주시기 바랍니다.', metadata={'source': '신한은행', 'row': 21, 'type': '홈페이지', 'timestamp': 1697178019.0219147, 'id': '8c0dc623-51b3-43a0-9a59-216ec56ce4f6'}),
 Document(page_content='ask: 홈페이지 회원아이디를 변경하고 싶습니다.\nInformation: 회원탈퇴를 하시고, 사용하시고 싶은 아이디로 신규 회원가입신청을 하시면 됩니다. 다만, 사용하시고 싶은 아이디가 이미 다른 고객이 사용하고 있는 경우에는 사용하실 수 없습니다. 기타 문의는 콜센터 1599-8000번으로 문의 바랍니다.', metadata={'source': '신한은행', 'row': 45, 'type': '홈페이지', 'timestamp': 1697178019.0220208, 'id': '197205f4-4d2b-4bfd-b739-8e11ec244306'}),
 Document(page_content='ask: 홈페이지 비밀번호를 5회이상 틀렸습니다. 재설정하려면 어떻게 하죠?\nInformation: 홈페이지 비밀번호를 5회 오류의 경우 홈페이지 로그인이 불가능하오니 본인인증 절차 후 비밀번호를 새로 등록하시면 이용 가능합니다. 신한은행 홈페이지 접속 후 ① (오른쪽 상단)고객센터 회원서비스 ② 회원정보변경 비밀번호 찾기(재설정) ③ (개인회원)약관보기 및 동의 ④ 본인확인(이름, 생년월일, 아이디, 계좌번호, 계좌비밀번호

## (3) OpenSearch Hybrid 검색
- 아래는 결론적으로 query = "홈페이지 이용자아이디 여러 개 사용할 수 있나요?" 에 답변을 제공 합니다.
    - 시멘티 서치에서 LangChain 의 RetrievalQA 사용 대신에 , LangChain OpenSearch Vector Store의 similarity_search_with_score 를 사용 하여 제일 첫번재에 해당 답변이 검색이 됩니다.
    - 키워드 검색에서는 해당 qeury 가 검색이 되지 않습니다.
    - 이후에 시멘틱 검색, 키워드 검색에 가중치를 [0.3 , 0.5] 를 주어서 Ensembe 을 하여 랭킹을 하면, top_k = 5 에서 5번재로 Context 로 포함이 되어서 , 최종 검색이 됩니다.

#### OpenSearch Hybrid 는 아래와 같은 방식으로 작동합니다.
- (1) "Vector 서치" 하여 스코어를 얻은 후에 표준화를 하여 스코어를 구함. 
    - 전체 결과에서 가장 높은 스코어는 표준화 과정을 통하여 스코어가 1.0 이 됨.
- (2) Keyword 서치도 동일하게 함.
- (3) 위의 두 개의 결과에 랭킹 알고리즘 ("RRF" 혹은 "simple_weighted"] 을 통해, 스코어를 계산하여 정렬하여 제공 함.
    - 여기서는 simple_weighted 사용 함.

스코어 표준화 예시

<pre>
Docs    Score	    Normalized-Score

Doc1: 	0.0083		1.0

Doc2: 	0.0074		0.8900

Doc3: 	0.0071		0.8585

Example: 0.0074 / 0.0083 = 0.8900
</pre>

In [24]:
from utils.rag import get_semantic_similar_docs, get_lexical_similar_docs, get_ensemble_results

In [25]:
def search_hybrid(**kwargs):
    
    assert "query" in kwargs, "Check your query"
    assert "vector_db" in kwargs, "Check your vector_db"
    assert "index_name" in kwargs, "Check your index_name"
    assert "os_client" in kwargs, "Check your os_client"
    
    verbose = kwargs.get("verbose", False)
    
    similar_docs_semantic = get_semantic_similar_docs(
        vector_db=kwargs["vector_db"],
        query=kwargs["query"],
        k=kwargs.get("k", 5),
        hybrid=True
    )
    similar_docs_keyword = get_lexical_similar_docs(
        query=kwargs["query"],
        minimum_should_match=kwargs.get("minimum_should_match", 0),
        filter=kwargs.get("filter", []),
        index_name=kwargs["index_name"],
        os_client=kwargs["os_client"],
        k=kwargs.get("k", 5),
        hybrid=True
    )
    
    similar_docs_ensemble = get_ensemble_results(
        doc_lists = [similar_docs_semantic, similar_docs_keyword],
        weights = kwargs.get("ensemble_weights", [.5, .5]),
        algorithm=kwargs.get("fusion_algorithm", "RRF"), # ["RRF", "simple_weighted"]
        c=60,
        k=kwargs.get("k", 5)
    )
    
    if verbose:
        print("##############################")
        print("similar_docs_semantic")
        print("##############################")
        print(similar_docs_semantic)
        
        print("##############################")    
        print("similar_docs_keyword")    
        print("##############################")    
        print(similar_docs_keyword)        

        print("##############################")
        print("similar_docs_ensemble")
        print("##############################")
        print(similar_docs_ensemble)

    similar_docs_ensemble = list(map(lambda x:x[0], similar_docs_ensemble))
    
    return similar_docs_ensemble

In [26]:
%%time

filter01 = "홈페이지"
# filter01 = "인증서"
filter02 = "신한은행"
# filter02 = "아마존은행"

query = "홈페이지 이용자아이디 여러 개 사용할 수 있나요?"

search_hybrid_result = search_hybrid(
    query=query,
    vector_db=vector_db,
    k=5,
    index_name=index_name,
    os_client=os_client,
    filter=[
        {"term": {"metadata.type": filter01}},
        {"term": {"metadata.source": filter02}},
    ],
    fusion_algorithm="RRF", # ["RRF", "simple_weighted"]
    ensemble_weights=[.5, .5], # 시멘트 서치에 가중치 0.5 , 키워드 서치 가중치 0.5 부여.
    verbose=True
)

answer = chain.run(
    input_documents=search_hybrid_result,
    question=query
)

lexical search query: 
{'query': {'bool': {'filter': [{'term': {'metadata.type': '홈페이지'}},
                               {'term': {'metadata.source': '신한은행'}}],
                    'must': [{'match': {'text': {'minimum_should_match': '0%',
                                                 'operator': 'or',
                                                 'query': '홈페이지 이용자아이디 여러 개 '
                                                          '사용할 수 있나요?'}}}]}},
 'size': 5}
##############################
similar_docs_semantic
##############################
[(Document(page_content='ask: 홈페이지 이용자아이디 여러 개 사용할 수 있나요?\nInformation: 홈페이지 이용자 아이디는 개인의 경우 1인 1개만 이용 가능하고 기업의 경우에는 1개의 사업자번호당 사용자별로 이용자아이디를 복수로 사용할 수 있습니다. \r\n※ 개인사업자의 경우 개인과 기업 각각 이용자아이디를 발급하여 복수로 이용 가능합니다. \r\n기타 궁금하신 내용은 신한은행 고객센터 1599-8000로 문의하여 주시기 바랍니다.', metadata={'source': '신한은행', 'row': 21, 'type': '홈페이지', 'timestamp': 1697178019.0219147}), 1.0), (Document(page_content='ask: 홈페이지 회원아이디를 변경하고 싶습니다.\nInformation: 회원탈퇴를 하시고, 사용

In [27]:
print(f'question: {query}')
print(f'response: {answer}')

question: 홈페이지 이용자아이디 여러 개 사용할 수 있나요?
response:  주어진 내용에서,

홈페이지 이용자 아이디는 개인의 경우 1인 1개만 이용 가능하고 기업의 경우에는 1개의 사업자번호당 사용자별로 이용자아이디를 복수로 사용할 수 있습니다. 

따라서 개인은 1개만 사용 가능하며, 기업은 사용자별로 복수 사용이 가능합니다.
