In [1]:
from dotenv import load_dotenv

load_dotenv()

from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

In [2]:
from langchain_postgres import PGVector
from langchain_openai import OpenAIEmbeddings
import os 
embeddings = OpenAIEmbeddings()
vectorstore = PGVector(
    embeddings=embeddings,
    collection_name="chapter6_collection",
    connection="postgresql+psycopg://postgres:123456789@localhost:5432/postgres",
    use_jsonb=True
)

In [3]:
from langchain_community.document_loaders import PyMuPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Step1 : 문서 로드
loader = PyMuPDFLoader('data/bccard.pdf')
docs = loader.load()

# Step2 : 문서 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
split_documents = text_splitter.split_documents(docs)

# Step3 : 벡터스토어에 문서 추가
vectorstore.add_documents(split_documents)
print(f"{len(split_documents)}개의 문서가 벡터스토어에 추가되었습니다.")


413개의 문서가 벡터스토어에 추가되었습니다.



## 쿼리 확장 (Query Expansion)

1. **Query Reformulation**
    - LLM을 사용하여 원래 질문을 다른 형태로 재작성하는 방식임
    - 동의어 확장, 질문 명확화, 관련 키워드 추가 등 다양한 방식으로 쿼리를 변형함
    - 검색의 다양성과 정확도를 향상시키는 특징이 있음

1. **Multi Query** 
    - Retriever에 지정된 LLM을 활용하여 원본 쿼리를 확장하는 방법임
    - 하나의 질문에 대해 다양한 관점과 표현으로 여러 개의 쿼리를 자동 생성함
    - LLM의 생성 능력을 활용하여 검색의 다양성과 포괄성을 향상시키는 특징이 있음

1. **Decomposition** 
    - 복잡한 질문을 여러 개의 단순한 하위 질문으로 분해하는 LEAST-TO-MOST PROMPTING 전략을 사용함
    - 각각의 하위 질문에 대해 개별적으로 검색을 수행하여 더 정확한 답변을 도출함
    - 복잡한 질문을 체계적으로 해결하면서 검색의 정확도를 높이는 특징이 있음

1. **Step-Back Prompting**
    - 주어진 구체적인 질문에서 한 걸음 물러나 더 일반적인 개념이나 배경을 먼저 검색함
    - 더 넓은 맥락에서 점차 구체적인 답변으로 좁혀가는 방식을 사용함
    - 복잡한 질문에 대해 더 포괄적이고 정확한 답변을 제공하는 특징이 있음

1. **HyDE (Hypothetical Document Embedding)**
    - 주어진 질문에 대해 가상의 이상적인 답변 문서를 LLM으로 생성함
    - 생성된 가상 문서를 임베딩하여 이를 기반으로 실제 문서를 검색하는 방식임
    - 질문의 맥락을 더 잘 반영한 검색이 가능한 특징이 있음

### 1) **Query Reformulation** 

- **Query Reformulation**은 **LLM**을 활용해 원본 질문을 다양한 형태로 재구성
- **동의어 확장**과 **키워드 추가**를 통해 검색 쿼리의 범위를 확장
- 모호한 질문을 **명확하게 구체화**하여 검색 정확도 향상
- 하나의 질문에 대해 **다양한 변형 쿼리**를 생성하여 검색 커버리지 확대


[출처] https://arxiv.org/abs/2305.14283

In [4]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser

# 쿼리 리포뮬레이션을 위한 프롬프트 템플릿 정의
reformulation_template = """다음 질문을 검색 성능을 향상시키기 위해 다시 작성해주세요:
[질문]
{question}

다음 방식으로 질문을 재작성하세요:
1. 동의어 추가
2. 더 구체적인 키워드 포함
3. 관련된 개념 확장

[재작성된 질문]
"""

# 프롬프트 템플릿 생성
prompt = ChatPromptTemplate.from_template(reformulation_template)

# LLM 모델 초기화
llm = ChatOpenAI(model='gpt-4.1-mini', temperature=0)

# 쿼리 리포뮬레이션 체인 생성
reformulation_chain = prompt | llm | StrOutputParser()

# 체인 실행
query = "비씨카드의 AI 카드 서비스는 어떤 것이 있나요?"
reformulated_query = reformulation_chain.invoke({"question": query})

print(f"쿼리: {query}")
print(f"리포뮬레이션된 쿼리: \n{reformulated_query}")

쿼리: 비씨카드의 AI 카드 서비스는 어떤 것이 있나요?
리포뮬레이션된 쿼리: 
[재작성된 질문]  
비씨카드의 인공지능(AI) 기반 스마트 카드 서비스에는 어떤 종류가 있으며, 주요 기능과 혜택은 무엇인가요? 또한, 비씨카드의 AI 기술이 적용된 맞춤형 추천 서비스나 자동 결제 관리 기능에 대해 자세히 알려주세요.


### 2) **Multi Query** 

- **Multi Query**는 **Retriever의 LLM**을 사용해 단일 질문을 다수의 쿼리로 확장
- 원본 질문에 대해 **다양한 관점**과 **표현 방식**으로 쿼리 자동 생성
- **LLM의 생성 능력**을 활용해 검색 범위를 자연스럽게 확장
- 검색의 **다양성**과 **포괄성**이 향상되어 관련 문서 검색 확률 증가


[출처] https://arxiv.org/abs/2411.13154

In [5]:
# 멀티 쿼리 생성
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

retriever = vectorstore.as_retriever()

# LLM 모델 초기화 (멀티 쿼리 생성용)
llm = ChatOpenAI(
    model='gpt-4.1-mini',
    temperature=0.7,
)

# 기본 retriever를 이용한 멀티 쿼리 생성 
multi_query_retriever = MultiQueryRetriever.from_llm(
    retriever=retriever, llm=llm
)

query = "비씨카드의 AI 카드 서비스는 어떤 것이 있나요?"
retrieved_docs = multi_query_retriever.invoke(query)

for doc in retrieved_docs:
    print(f"{doc.page_content} [출처: {doc.metadata['source']}]")
    print("="*200)

투명하게 공개하고 있으며, 구체적 내용은 아래 사이트를 통해 확인할 수 있습니다. 
( 회사 홈페이지 : www.bccard.com ) [출처: data/bccard.pdf]
투명하게 공개하고 있으며, 구체적 내용은 아래 사이트를 통해 확인할 수 있습니다. 
( 회사 홈페이지 : www.bccard.com ) [출처: data/bccard.pdf]
39 
∙ 공익성 및 건전 경영에 노력할 수 있는자 
∙ 리더십과 경영혁신 마인드 보유 
지난 4 년간 비씨카드의 대표이사로 재직하면서 경영환경 및 AI 등 신기술 변화에 
대응하여 매입사업에 치중된 수익구조를 혁신하고 미래성장 동력인 자체사업(카드,금융, 
페이북,데이터 등)을 장기적 안목으로 추진하는 등 뛰어난 리더십과 경영혁신 마인드로 
비씨카드의 발전과 경쟁력 강화에 많은 기여를 해줄 것으로 판단되어 대표이사 후보로 
추천하였습니다.  
 
(2) 후보자 추천 경로 
임원후보추천위원회에서 추천되었습니다. 당사는 투명하고 공정한 대표이사 선임을 
위하여 당사 내부규정인 임원후보추천위원회 규정에 대표이사 후보 추천에 관한 
내용을 명시하고 있습니다.  
 
라) 자격충족 여부 
 
(1) 소극적 요건 
지배구조법 제5 조 및 동법 시행령 제7 조에서 정하고 있는 임원 후보로서의 자격 
요건을 모두 충족합니다. 
 
(2) 비씨카드가 정한 자격요건 
- 자격요건 [출처: data/bccard.pdf]
39 
∙ 공익성 및 건전 경영에 노력할 수 있는자 
∙ 리더십과 경영혁신 마인드 보유 
지난 4 년간 비씨카드의 대표이사로 재직하면서 경영환경 및 AI 등 신기술 변화에 
대응하여 매입사업에 치중된 수익구조를 혁신하고 미래성장 동력인 자체사업(카드,금융, 
페이북,데이터 등)을 장기적 안목으로 추진하는 등 뛰어난 리더십과 경영혁신 마인드로 
비씨카드의 발전과 경쟁력 강화에 많은 기여를 해줄 것으로 판단되어 대표이사 후보로 
추천하였습니다.  
 
(2) 후보자 추천 경로 
임원후보추천위원회에서 추천되었습니다. 당사는

### 3) **Ensemble Retriever**
 
 - **Ensemble Retriever**는 여러 개의 서로 다른 retriever(예: BM25, 벡터 기반 등)를 결합하여 검색 성능을 향상시키는 방법입니다.
 - 각 retriever의 결과에 가중치를 부여해 최종적으로 더 다양한 관점과 정보를 반영한 검색 결과를 제공합니다.
 - 서로 다른 검색 방식의 장점을 결합하여, 단일 retriever보다 더 높은 정밀도와 재현율을 기대할 수 있습니다.
 
 - 예시: BM25와 벡터스토어 기반 retriever를 0.5:0.5 비율로 결합

In [6]:


from langchain.retrievers import BM25Retriever, EnsembleRetriever

bm25_retriever = BM25Retriever.from_documents(split_documents)
bm25_retriever.k = 2

ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vectorstore.as_retriever()], weights=[0.5, 0.5]
)

In [7]:
response = ensemble_retriever.invoke("연회비 반환조건")
for doc in response:
    print(f"{doc.page_content} [출처: {doc.metadata['source']}]")
    print("="*200)

연계하고 있습니다. 
 
2) 성과보수 이연 및 조정, 환수, 지급확정 기준 
 
가) 성과보수액 중 즉시지급과 이연지급에 대한 정책 
 
성과평가 결과에 따라 산출된 임원 성과급 지급금액 중 60%는 1 차년도에 현금으로 
즉시지급하며, 40%는 현금으로 2 차년도부터 3 년간 분할하여 이연지급합니다. 
 
나) 이연된 보수액 또는 지급된 보수액에 대한 조정 및 환수정책 [출처: data/bccard.pdf]
구체적으로 제2024-6 차 이사회에서 신용카드 사회공헌재단 기부금 출연(안) 관련하여 
서민금융지원 부분이 2022 년 대비 2023 년에 대폭 증가한 사유를 질의하여, 기존 대여금  
회수에 따라 일시적으로 대여금이 크게 나타난 부분이라고 설명을 드린 바 있습니다. [출처: data/bccard.pdf]
196 
행이 불가한 경우 정관 또는 이사회 규정 등에 정한 순서로 최고경영자 직무를 대
행한다.   
② 최고경영자가 임기 중에 장기간 직무수행이 불가한 경우 이사회는 최고경영자 
직무대행자를 지정할 수 있다. 
③ 최고경영자가 건강상 이유나 금융당국으로부터 중징계 이상의 제재를 받아 직
무수행이 영구적으로 불가한 경우(이하 ‘비상상황’이라 한다) 발생시, 이사회는 직무
대행자를 지체없이 지정하고, 비상상황 경영승계 절차를 개시하여야 한다. 
④ 제3항의 비상상황 경영승계 절차가 개시된 경우 제7조 제2항, 제8조에 준해서 
절차를 진행하되, 경영공백을 최소화하기 위해 선임절차를 최대한 신속히 완료하여
야 한다. 
 
부칙(2023.3.16) 
제1조(시행일) 이 규정은 2023년 3월 16일부터 시행한다. [출처: data/bccard.pdf]
시한다.  
 
제9조 (비상상황시 경영승계 절차) ① 최고경영자가 임기 중에 일시적으로 직무수 [출처: data/bccard.pdf]


## **Re-rank** (재순위화)

- **재순위화**는 검색 결과를 재분석하여 최적의 순서로 정렬하는 고도화된 기술임

- **이중 단계 프로세스**로 기본 검색 후 정교한 기준으로 재평가를 진행함
    1. 먼저 기본 검색 알고리즘으로 관련 문서들을 찾은 후, 
    2. 더 정교한 기준으로 이들을 재평가하여 최종 순위를 결정

- 사용자의 검색 의도에 맞는 **정확도 향상**을 통해 검색 품질을 개선함

- 검색 결과의 품질을 높이기 위한 체계적인 최적화 방법론

--- 
### 1) **Cross Encoder** Reranker

- **Cross-Encoder** 모델을 활용하여 검색 결과의 정밀한 재정렬을 수행함
- 데이터를 **쌍(pair) 단위**로 처리하여 문서와 쿼리 간의 관계를 분석함 (예: 두 개의 문장 또는 문서)
- **통합 인코딩 방식**으로 검색 쿼리와 검색된 문서 간 유사도를 더 정확하게 계산함

- 참고: https://www.sbert.net/examples/applications/cross-encoder/README.html

In [8]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder

# CrossEncoderReranker 모델 초기화 
model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-v2-m3")

# CrossEncoderReranker 모델을 사용한 re-ranker 초기화 (top_n: 3)
re_ranker = CrossEncoderReranker(model=model, top_n=3)

# CrossEncoderReranker를 사용한 retriever 초기화
cross_encoder_reranker_retriever = ContextualCompressionRetriever(
    base_compressor=re_ranker, 
    base_retriever=retriever,
)

  from .autonotebook import tqdm as notebook_tqdm


In [9]:
# CrossEncoderReranker를 사용한 retriever를 사용하여 검색
query = "테슬라 트럭 모델이 있나요?"
retrieved_docs = cross_encoder_reranker_retriever.invoke(query)

for doc in retrieved_docs:
    print(f"{doc.page_content} [출처: {doc.metadata['source']}]")
    print("="*200)

있습니다. 이는 이사회의 경영진에 대한 견제기능 강화를 위한 것입니다. 
또한 이사회의 사외이사 수와 비율은 4 명, 57%로 과반수를 차지하고 있습니다. [출처: data/bccard.pdf]
있습니다. 이는 이사회의 경영진에 대한 견제기능 강화를 위한 것입니다. 
또한 이사회의 사외이사 수와 비율은 4 명, 57%로 과반수를 차지하고 있습니다. [출처: data/bccard.pdf]
1 
 
 
 
 
2024년 지배구조 및 보수체계 연차보고서 [출처: data/bccard.pdf]


### 2) **LLM** Reranker

- **대규모 언어 모델**을 활용하여 검색 결과의 재순위화를 수행함
- 쿼리와 문서 간의 **관련성 분석**을 통해 최적의 순서를 도출함
- **LLMListwiseRerank**와 같은 전문화된 재순위화 모델을 적용함

In [10]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMListwiseRerank
from langchain_openai import ChatOpenAI

# ChatOpenAI 모델 초기화
llm = ChatOpenAI(model="gpt-4.1-mini", temperature=0)

# LLMListwiseRerank 모델 초기화 (top_n: 3)
re_ranker = LLMListwiseRerank.from_llm(llm, top_n=3)

# LLMListwiseRerank 모델을 사용한 re-ranker 초기화
llm_reranker_retriever = ContextualCompressionRetriever(
    base_compressor=re_ranker, 
    base_retriever=retriever,
)

In [11]:
# LLMListwiseRerank 모델을 사용한 retriever를 사용하여 검색

query = "퇴사 규정"
retrieved_docs = llm_reranker_retriever.invoke(query)

for doc in retrieved_docs:
    print(f"{doc.page_content} [출처: {doc.metadata['source']}]")
    print("="*200)

171 
통하여 책임경영 여건을 조성하여야 하며, 이를 위해 임원의 임면을 위한 평가기
준 및 절차, 해임 및 퇴임사유 등을 명문화하여야 한다. 
 
부  칙 
 
제1조(시행일) 이 규범은 2023년 3월 16일부터 시행한다.  
 
부  칙 
 
제1조(시행일) 이 규범은 2025년 3월 12일부터 시행한다. [출처: data/bccard.pdf]
171 
통하여 책임경영 여건을 조성하여야 하며, 이를 위해 임원의 임면을 위한 평가기
준 및 절차, 해임 및 퇴임사유 등을 명문화하여야 한다. 
 
부  칙 
 
제1조(시행일) 이 규범은 2023년 3월 16일부터 시행한다.  
 
부  칙 
 
제1조(시행일) 이 규범은 2025년 3월 12일부터 시행한다. [출처: data/bccard.pdf]
만기 1년 이내 운전자본 조달은 대표이사에게 위임(2022.3.14 본목 개정) 
19. 상법 제398조에서 정하는 이사 등과 회사 간 거래의 승인 
20. 3억원 이상의 출연 및 기부 
21. 지점의 설치·이전 또는 폐지. 해외 연락사무소, 대리점 및 현지법인의 설치 
22. 독점규제및공정거래에관한법률 상의 대규모내부거래에 관한 사항 
23. 여신전문금융업법 제49조의2 제2항이 정하는 대주주에 대한 신용공여 또는 
동법 제50조 제2항이 정하는 대주주가 발행한 주식 취득 
(2019.3.12 본호 개정) 
24. 준법감시인의 임명 또는 면직, 내부통제규정, 위험관리기준 등의 제.개정 및 
폐지 (2019.3.12 본호 개정) 
25. 내부통제 및 위험관리 정책의 수립 및 감독에 관한 사항 (2025.3.12 본호 신설) 
26. 이사 및 임원에 대한 법무지원 제도 도입 및 변경 (2015.8.20. 본호 신설) [출처: data/bccard.pdf]
