In [2]:
from langchain_community.document_loaders import PyPDFLoader

pdf_file = '../data/sample_income_tax.pdf'
loader = PyPDFLoader(pdf_file)
pages = loader.load()

len(pages)

133

In [3]:
pages[0].page_content

'법제처                                                            1                                                       국가법령정보센터\n소득세법\n \n소득세법\n[시행 2025. 1. 1.] [법률 제20615호, 2024. 12. 31., 일부개정]\n기획재정부 (재산세제과(양도소득세)) 044-215-4312\n기획재정부 (소득세제과(근로소득)) 044-215-4216\n기획재정부 (금융세제과(이자소득, 배당소득)) 044-215-4233\n기획재정부 (소득세제과(사업소득, 기타소득)) 044-215-4217\n       제1장 총칙 <개정 2009. 12. 31.>\n \n제1조(목적) 이 법은 개인의 소득에 대하여 소득의 성격과 납세자의 부담능력 등에 따라 적정하게 과세함으로써 조세부\n담의 형평을 도모하고 재정수입의 원활한 조달에 이바지함을 목적으로 한다.\n[본조신설 2009. 12. 31.]\n[종전 제1조는 제2조로 이동 <2009. 12. 31.>]\n \n제1조의2(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2010. 12. 27., 2014. 12. 23., 2018. 12. 31.>\n1. “거주자”란 국내에 주소를 두거나 183일 이상의 거소(居所)를 둔 개인을 말한다.\n2. “비거주자”란 거주자가 아닌 개인을 말한다.\n3. “내국법인”이란 「법인세법」 제2조제1호에 따른 내국법인을 말한다.\n4. “외국법인”이란 「법인세법」 제2조제3호에 따른 외국법인을 말한다.\n5. “사업자”란 사업소득이 있는 거주자를 말한다.\n② 제1항에 따른 주소ㆍ거소와 거주자ㆍ비거주자의 구분은 대통령령으로 정한다.\n[본조신설 2009. 12. 31.]\n \n제2조(납세의무) ① 다음 각 호의 어느 하나에 해당하는 개인은 이 법에 따라 각자의 소득에 대한 소득세를 납부할 의\n무를 진다.\n1. 거주자\n2. 비거주자로서 국내원천소

In [4]:
import re

# 전처리 함수
def clean_text(header_pattern: str, text: str) -> str:
    # 머리말 제거
    text = re.sub(header_pattern, "", text)
    # 과도한 공백 줄 정리
    text = re.sub(r"\n{3,}", "\n\n", text)
    # 행 끝 공백 제거
    text = re.sub(r"[ \t]+$", "", text, flags=re.MULTILINE)
    return text.strip()

In [5]:
from langchain_core.documents import Document

# 소득세법 페이지 머리말/꼬리말 제거 전처리
# 예: "법제처    <페이지번호>    국가법령정보센터\n소득세법" 패턴 제거
header_pattern = r"법제처\s+\d+\s+국가법령정보센터\n소득세법"

# pages 객체를 정제된 본문으로 교체
pages = [Document(page_content=clean_text(header_pattern, p.page_content), metadata=p.metadata) for p in pages]

In [6]:
pages[0].page_content

'소득세법\n[시행 2025. 1. 1.] [법률 제20615호, 2024. 12. 31., 일부개정]\n기획재정부 (재산세제과(양도소득세)) 044-215-4312\n기획재정부 (소득세제과(근로소득)) 044-215-4216\n기획재정부 (금융세제과(이자소득, 배당소득)) 044-215-4233\n기획재정부 (소득세제과(사업소득, 기타소득)) 044-215-4217\n       제1장 총칙 <개정 2009. 12. 31.>\n\n제1조(목적) 이 법은 개인의 소득에 대하여 소득의 성격과 납세자의 부담능력 등에 따라 적정하게 과세함으로써 조세부\n담의 형평을 도모하고 재정수입의 원활한 조달에 이바지함을 목적으로 한다.\n[본조신설 2009. 12. 31.]\n[종전 제1조는 제2조로 이동 <2009. 12. 31.>]\n\n제1조의2(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2010. 12. 27., 2014. 12. 23., 2018. 12. 31.>\n1. “거주자”란 국내에 주소를 두거나 183일 이상의 거소(居所)를 둔 개인을 말한다.\n2. “비거주자”란 거주자가 아닌 개인을 말한다.\n3. “내국법인”이란 「법인세법」 제2조제1호에 따른 내국법인을 말한다.\n4. “외국법인”이란 「법인세법」 제2조제3호에 따른 외국법인을 말한다.\n5. “사업자”란 사업소득이 있는 거주자를 말한다.\n② 제1항에 따른 주소ㆍ거소와 거주자ㆍ비거주자의 구분은 대통령령으로 정한다.\n[본조신설 2009. 12. 31.]\n\n제2조(납세의무) ① 다음 각 호의 어느 하나에 해당하는 개인은 이 법에 따라 각자의 소득에 대한 소득세를 납부할 의\n무를 진다.\n1. 거주자\n2. 비거주자로서 국내원천소득(國內源泉所得)이 있는 개인\n② 다음 각 호의 어느 하나에 해당하는 자는 이 법에 따라 원천징수한 소득세를 납부할 의무를 진다.\n1. 거주자\n2. 비거주자\n3. 내국법인\n4. 외국법인의 국내지점 또는 국내영업소(출장소, 그 밖에 이에 준하는 

In [7]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 문서 분할
splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=100)
chunks = splitter.split_documents(pages)

In [9]:
from langchain_ollama  import OllamaEmbeddings

embeddings_model = OllamaEmbeddings(model="bge-m3")

In [17]:
from dotenv import load_dotenv
load_dotenv(override=True)

True

In [18]:
# 오류 발생시 설치: uv add psycopg psycopg-binary
from langchain_postgres.vectorstores import PGVector
import os

# 도커 연결 설정
# connection = 'postgresql+psycopg://langchain:langchain@localhost:5432/langchain'

PGVECTOR_ID = os.getenv("PGVECTOR_ID")
PGVECTOR_PW = os.getenv("PGVECTOR_PW")
PGVECTOR_HOST = os.getenv("PGVECTOR_HOST", "localhost")
PGVECTOR_PORT = os.getenv("PGVECTOR_PORT", "5432")
PGVECTOR_DB = os.getenv("PGVECTOR_DB")

connection = f'postgresql+psycopg://{PGVECTOR_ID}:{PGVECTOR_PW}@{PGVECTOR_HOST}:{PGVECTOR_PORT}/{PGVECTOR_DB}'

In [14]:
# 임베딩
# 컬렉션 이름을 사용하여 논리적으로 분리
income_tax_db = PGVector.from_documents(
    documents=chunks, # * 청크 적용
    embedding=embeddings_model, 
    connection=connection,
    collection_name="income_tax_law_collection", # collection_name 사용
    pre_delete_collection=True # 기존 테이블이 있다면 삭제하고 새로 생성
)

Collection not found


In [19]:
query = '소득세법의 목적은?'

# 가장 유사한 문서 5개 검색
docs = income_tax_db.similarity_search(query, k=5) # k-최근접 이웃(k-Nearest Neighbors, k-NN) 알고리즘과 같은 개념

In [20]:
for doc in docs:
    print(doc.page_content)
    print("---")

소득세법
[시행 2025. 1. 1.] [법률 제20615호, 2024. 12. 31., 일부개정]
기획재정부 (재산세제과(양도소득세)) 044-215-4312
기획재정부 (소득세제과(근로소득)) 044-215-4216
기획재정부 (금융세제과(이자소득, 배당소득)) 044-215-4233
기획재정부 (소득세제과(사업소득, 기타소득)) 044-215-4217
       제1장 총칙 <개정 2009. 12. 31.>

제1조(목적) 이 법은 개인의 소득에 대하여 소득의 성격과 납세자의 부담능력 등에 따라 적정하게 과세함으로써 조세부
담의 형평을 도모하고 재정수입의 원활한 조달에 이바지함을 목적으로 한다.
[본조신설 2009. 12. 31.]
[종전 제1조는 제2조로 이동 <2009. 12. 31.>]

제1조의2(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2010. 12. 27., 2014. 12. 23., 2018. 12. 31.>
1. “거주자”란 국내에 주소를 두거나 183일 이상의 거소(居所)를 둔 개인을 말한다.
2. “비거주자”란 거주자가 아닌 개인을 말한다.
3. “내국법인”이란 「법인세법」 제2조제1호에 따른 내국법인을 말한다.
4. “외국법인”이란 「법인세법」 제2조제3호에 따른 외국법인을 말한다.
5. “사업자”란 사업소득이 있는 거주자를 말한다.
② 제1항에 따른 주소ㆍ거소와 거주자ㆍ비거주자의 구분은 대통령령으로 정한다.
[본조신설 2009. 12. 31.]
---
제2조(납세의무) ① 다음 각 호의 어느 하나에 해당하는 개인은 이 법에 따라 각자의 소득에 대한 소득세를 납부할 의
무를 진다.
1. 거주자
2. 비거주자로서 국내원천소득(國內源泉所得)이 있는 개인
② 다음 각 호의 어느 하나에 해당하는 자는 이 법에 따라 원천징수한 소득세를 납부할 의무를 진다.
1. 거주자
2. 비거주자
3. 내국법인
4. 외국법인의 국내지점 또는 국내영업소(출장소, 그 밖에 이에 준하는 것을 포함한다. 이하 같다)
5. 그 밖에 이 법에

In [30]:

from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder

# Re-rank 모델
# uv add sentence-transformers
rerank_model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-v2-m3")
cross_reranker = CrossEncoderReranker(model=rerank_model, top_n=2) # 가장 높은 점수를 받은 상위 2개의 문서만 선택

In [31]:
from langchain.retrievers import ContextualCompressionRetriever

income_tax_db_retriever = ContextualCompressionRetriever(
    base_compressor=cross_reranker, 
    base_retriever=income_tax_db.as_retriever(search_kwargs={"k":5}),
)

In [32]:
query = '소득세법의 목적은?'

rerank_docs = income_tax_db_retriever.invoke(query)

In [33]:
for doc in rerank_docs:
    print(doc.page_content)
    print("---")

소득세법
[시행 2025. 1. 1.] [법률 제20615호, 2024. 12. 31., 일부개정]
기획재정부 (재산세제과(양도소득세)) 044-215-4312
기획재정부 (소득세제과(근로소득)) 044-215-4216
기획재정부 (금융세제과(이자소득, 배당소득)) 044-215-4233
기획재정부 (소득세제과(사업소득, 기타소득)) 044-215-4217
       제1장 총칙 <개정 2009. 12. 31.>

제1조(목적) 이 법은 개인의 소득에 대하여 소득의 성격과 납세자의 부담능력 등에 따라 적정하게 과세함으로써 조세부
담의 형평을 도모하고 재정수입의 원활한 조달에 이바지함을 목적으로 한다.
[본조신설 2009. 12. 31.]
[종전 제1조는 제2조로 이동 <2009. 12. 31.>]

제1조의2(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2010. 12. 27., 2014. 12. 23., 2018. 12. 31.>
1. “거주자”란 국내에 주소를 두거나 183일 이상의 거소(居所)를 둔 개인을 말한다.
2. “비거주자”란 거주자가 아닌 개인을 말한다.
3. “내국법인”이란 「법인세법」 제2조제1호에 따른 내국법인을 말한다.
4. “외국법인”이란 「법인세법」 제2조제3호에 따른 외국법인을 말한다.
5. “사업자”란 사업소득이 있는 거주자를 말한다.
② 제1항에 따른 주소ㆍ거소와 거주자ㆍ비거주자의 구분은 대통령령으로 정한다.
[본조신설 2009. 12. 31.]
---
제170조(질문ㆍ조사) ① 소득세에 관한 사무에 종사하는 공무원은 그 직무 수행을 위하여 필요한 경우에는 다음 각 호
의 어느 하나에 해당하는 자에 대하여 질문을 하거나 해당 장부ㆍ서류 또는 그 밖의 물건을 조사하거나 그 제출을
명할 수 있다. 다만, 제21조제1항제26호에 따른 종교인소득(제21조제4항에 해당하는 경우를 포함한다)에 대해서는
종교단체의 장부ㆍ서류 또는 그 밖의 물건 중에서 종교인소득과 관련된 부분에 한정하여 조사하거나 그 제출을 명
할 수 있

#### 근로기준법

In [21]:
from langchain_community.document_loaders import PyPDFLoader

pdf_file = '../data/sample_labor.pdf'

loader = PyPDFLoader(pdf_file)
pages = loader.load()

len(pages)

20

In [22]:
pages[0].page_content

'법제처                                                            1                                                       국가법령정보센터\n근로기준법\n \n근로기준법\n[시행 2021. 11. 19.] [법률 제18176호, 2021. 5. 18., 일부개정]\n고용노동부 (근로기준정책과 - 해고, 취업규칙, 기타) 044-202-7534\n고용노동부 (근로기준정책과 - 소년) 044-202-7535\n고용노동부 (근로기준정책과 - 임금) 044-202-7548\n고용노동부 (여성고용정책과 - 여성) 044-202-7475\n고용노동부 (임금근로시간정책과 - 근로시간, 휴게) 044-202-7545\n고용노동부 (임금근로시간정책과 - 휴일, 연차휴가) 044-202-7973\n고용노동부 (임금근로시간정책과 - 제63조 적용제외, 특례업종) 044-202-7530\n고용노동부 (임금근로시간정책과 - 유연근로시간제) 044-202-7549\n       제1장 총칙\n \n제1조(목적) 이 법은 헌법에 따라 근로조건의 기준을 정함으로써 근로자의 기본적 생활을 보장, 향상시키며 균형 있는\n국민경제의 발전을 꾀하는 것을 목적으로 한다.\n \n제2조(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2018. 3. 20., 2019. 1. 15., 2020. 5. 26.>\n1. “근로자”란 직업의 종류와 관계없이 임금을 목적으로 사업이나 사업장에 근로를 제공하는 사람을 말한다.\n2. “사용자”란 사업주 또는 사업 경영 담당자, 그 밖에 근로자에 관한 사항에 대하여 사업주를 위하여 행위하는 자를\n말한다.\n3. “근로”란 정신노동과 육체노동을 말한다.\n4. “근로계약”이란 근로자가 사용자에게 근로를 제공하고 사용자는 이에 대하여 임금을 지급하는 것을 목적으로 체\n결된 계약을 말한다.\n5. “임금”이란 사용자가 근로의 대가로 근로자에게 임금, 봉급, 

In [23]:
from langchain_core.documents import Document

header_pattern = r"법제처\s+\d+\s+국가법령정보센터\n근로기준법"

# pages 객체를 정제된 본문으로 교체
pages = [Document(page_content=clean_text(header_pattern, p.page_content), metadata=p.metadata) for p in pages]

In [24]:
pages[0].page_content

'근로기준법\n[시행 2021. 11. 19.] [법률 제18176호, 2021. 5. 18., 일부개정]\n고용노동부 (근로기준정책과 - 해고, 취업규칙, 기타) 044-202-7534\n고용노동부 (근로기준정책과 - 소년) 044-202-7535\n고용노동부 (근로기준정책과 - 임금) 044-202-7548\n고용노동부 (여성고용정책과 - 여성) 044-202-7475\n고용노동부 (임금근로시간정책과 - 근로시간, 휴게) 044-202-7545\n고용노동부 (임금근로시간정책과 - 휴일, 연차휴가) 044-202-7973\n고용노동부 (임금근로시간정책과 - 제63조 적용제외, 특례업종) 044-202-7530\n고용노동부 (임금근로시간정책과 - 유연근로시간제) 044-202-7549\n       제1장 총칙\n\n제1조(목적) 이 법은 헌법에 따라 근로조건의 기준을 정함으로써 근로자의 기본적 생활을 보장, 향상시키며 균형 있는\n국민경제의 발전을 꾀하는 것을 목적으로 한다.\n\n제2조(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2018. 3. 20., 2019. 1. 15., 2020. 5. 26.>\n1. “근로자”란 직업의 종류와 관계없이 임금을 목적으로 사업이나 사업장에 근로를 제공하는 사람을 말한다.\n2. “사용자”란 사업주 또는 사업 경영 담당자, 그 밖에 근로자에 관한 사항에 대하여 사업주를 위하여 행위하는 자를\n말한다.\n3. “근로”란 정신노동과 육체노동을 말한다.\n4. “근로계약”이란 근로자가 사용자에게 근로를 제공하고 사용자는 이에 대하여 임금을 지급하는 것을 목적으로 체\n결된 계약을 말한다.\n5. “임금”이란 사용자가 근로의 대가로 근로자에게 임금, 봉급, 그 밖에 어떠한 명칭으로든지 지급하는 모든 금품을\n말한다.\n6. “평균임금”이란 이를 산정하여야 할 사유가 발생한 날 이전 3개월 동안에 그 근로자에게 지급된 임금의 총액을\n그 기간의 총일수로 나눈 금액을 말한다. 근로자가 취업한 후 3개월 미만인

In [25]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 문서 분할
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
chunks = splitter.split_documents(pages)

In [26]:
# 임베딩
# 컬렉션 이름을 사용하여 논리적으로 분리
labor_db = PGVector.from_documents(
    documents=chunks, # * 청크 적용
    embedding=embeddings_model, 
    connection=connection,
    collection_name="labor_law_collection", # collection_name 사용
    pre_delete_collection=True # 기존 테이블이 있다면 삭제하고 새로 생성
)

Collection not found


In [27]:
# query = '근로기준법의 강제 근로의 금지는?'
query = '근로기준법의 목적은?'

# 가장 유사한 문서 5개 검색
docs = labor_db.similarity_search(query, k=5) # k-최근접 이웃(k-Nearest Neighbors, k-NN) 알고리즘과 같은 개념

In [28]:
for doc in docs:
    print(doc.page_content)
    print("---")

근로기준법
[시행 2021. 11. 19.] [법률 제18176호, 2021. 5. 18., 일부개정]
고용노동부 (근로기준정책과 - 해고, 취업규칙, 기타) 044-202-7534
고용노동부 (근로기준정책과 - 소년) 044-202-7535
고용노동부 (근로기준정책과 - 임금) 044-202-7548
고용노동부 (여성고용정책과 - 여성) 044-202-7475
고용노동부 (임금근로시간정책과 - 근로시간, 휴게) 044-202-7545
고용노동부 (임금근로시간정책과 - 휴일, 연차휴가) 044-202-7973
고용노동부 (임금근로시간정책과 - 제63조 적용제외, 특례업종) 044-202-7530
고용노동부 (임금근로시간정책과 - 유연근로시간제) 044-202-7549
       제1장 총칙

제1조(목적) 이 법은 헌법에 따라 근로조건의 기준을 정함으로써 근로자의 기본적 생활을 보장, 향상시키며 균형 있는
국민경제의 발전을 꾀하는 것을 목적으로 한다.
---
제3조(근로조건의 기준) 이 법에서 정하는 근로조건은 최저기준이므로 근로 관계 당사자는 이 기준을 이유로 근로조건
을 낮출 수 없다.

제4조(근로조건의 결정) 근로조건은 근로자와 사용자가 동등한 지위에서 자유의사에 따라 결정하여야 한다.

제5조(근로조건의 준수) 근로자와 사용자는 각자가 단체협약, 취업규칙과 근로계약을 지키고 성실하게 이행할 의무가
있다.

제6조(균등한 처우) 사용자는 근로자에 대하여 남녀의 성(性)을 이유로 차별적 대우를 하지 못하고, 국적ㆍ신앙 또는 사
회적 신분을 이유로 근로조건에 대한 차별적 처우를 하지 못한다.

제7조(강제 근로의 금지) 사용자는 폭행, 협박, 감금, 그 밖에 정신상 또는 신체상의 자유를 부당하게 구속하는 수단으로
써 근로자의 자유의사에 어긋나는 근로를 강요하지 못한다.
---
제2조(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2018. 3. 20., 2019. 1. 15., 2020. 5. 26.>
1. “근로자”란 직업의 종류와 관

In [34]:
from langchain.retrievers import ContextualCompressionRetriever

labor_db_retriever = ContextualCompressionRetriever(
    base_compressor=cross_reranker, 
    base_retriever=labor_db.as_retriever(search_kwargs={"k":5}),
)

In [None]:
query = '근로기준법의 목적은?'

rerank_docs = labor_db_retriever.invoke(query)

In [36]:
for doc in rerank_docs:
    print(doc.page_content)
    print("---")

근로기준법
[시행 2021. 11. 19.] [법률 제18176호, 2021. 5. 18., 일부개정]
고용노동부 (근로기준정책과 - 해고, 취업규칙, 기타) 044-202-7534
고용노동부 (근로기준정책과 - 소년) 044-202-7535
고용노동부 (근로기준정책과 - 임금) 044-202-7548
고용노동부 (여성고용정책과 - 여성) 044-202-7475
고용노동부 (임금근로시간정책과 - 근로시간, 휴게) 044-202-7545
고용노동부 (임금근로시간정책과 - 휴일, 연차휴가) 044-202-7973
고용노동부 (임금근로시간정책과 - 제63조 적용제외, 특례업종) 044-202-7530
고용노동부 (임금근로시간정책과 - 유연근로시간제) 044-202-7549
       제1장 총칙

제1조(목적) 이 법은 헌법에 따라 근로조건의 기준을 정함으로써 근로자의 기본적 생활을 보장, 향상시키며 균형 있는
국민경제의 발전을 꾀하는 것을 목적으로 한다.
---
제2조(정의) ① 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2018. 3. 20., 2019. 1. 15., 2020. 5. 26.>
1. “근로자”란 직업의 종류와 관계없이 임금을 목적으로 사업이나 사업장에 근로를 제공하는 사람을 말한다.
2. “사용자”란 사업주 또는 사업 경영 담당자, 그 밖에 근로자에 관한 사항에 대하여 사업주를 위하여 행위하는 자를
말한다.
3. “근로”란 정신노동과 육체노동을 말한다.
4. “근로계약”이란 근로자가 사용자에게 근로를 제공하고 사용자는 이에 대하여 임금을 지급하는 것을 목적으로 체
결된 계약을 말한다.
5. “임금”이란 사용자가 근로의 대가로 근로자에게 임금, 봉급, 그 밖에 어떠한 명칭으로든지 지급하는 모든 금품을
말한다.
6. “평균임금”이란 이를 산정하여야 할 사유가 발생한 날 이전 3개월 동안에 그 근로자에게 지급된 임금의 총액을
---


#### 도구 호출

In [37]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain_core.documents import Document
from langchain_core.tools import tool
from typing import List, Any

# 소득세법 검색 
income_tax_db = PGVector.from_existing_index(
    embedding=embeddings_model, # 기존에 사용했던 임베딩 모델과 동일해야 함
    connection=connection,      # 데이터베이스 연결 정보
    collection_name="income_tax_law_collection" # 로드할 컬렉션 이름
)

income_tax_db_retriever = ContextualCompressionRetriever(
    base_compressor=cross_reranker, 
    base_retriever=income_tax_db.as_retriever(search_kwargs={"k":5}),
)

@tool
def search_income_tax_law(query: str) -> List[Document]:
    """소득세법 법률 조항을 검색합니다."""
    docs = income_tax_db_retriever.invoke(query)

    if len(docs) > 0:
        return docs
    
    return [Document(page_content="관련 정보를 찾을 수 없습니다.")]


# 근로기준법 검색 
labor_db = PGVector.from_existing_index(
    embedding=embeddings_model, # 기존에 사용했던 임베딩 모델과 동일해야 함
    connection=connection,      # 데이터베이스 연결 정보
    collection_name="labor_law_collection" # 로드할 컬렉션 이름
)

labor_db_retriever = ContextualCompressionRetriever(
    base_compressor=cross_reranker, 
    base_retriever=labor_db.as_retriever(search_kwargs={"k":5}),
)

@tool
def search_labor_law(query: str) -> List[Document]:
    """근로기준법 법률 조항을 검색합니다."""
    docs = labor_db_retriever.invoke(query)

    if len(docs) > 0:
        return docs
    
    return [Document(page_content="관련 정보를 찾을 수 없습니다.")]

In [38]:
from langchain_community.utilities import DuckDuckGoSearchAPIWrapper
from langchain_core.callbacks import CallbackManagerForRetrieverRun
from langchain_core.retrievers import BaseRetriever

# 웹 검색 리트리버 클래스 정의
class WebSearchRetriever(BaseRetriever):
    search_wrapper: DuckDuckGoSearchAPIWrapper

    def __init__(self, search_wrapper: DuckDuckGoSearchAPIWrapper, **kwargs: Any):
        super().__init__(search_wrapper=search_wrapper, **kwargs)

    def _get_relevant_documents(self, query: str, *, run_manager: CallbackManagerForRetrieverRun) -> List[Document]:
        results = self.search_wrapper.results(query, max_results=10)
        if not results:
            return [Document(page_content="관련 정보를 찾을 수 없습니다.")]
        
        formatted_docs = []
        for result in results:
            doc = Document(
                page_content=f'<Document href="{result.get("link", "")}"/>\n{result.get("snippet", "")}\n</Document>',
                metadata={
                    "source": "web search", 
                    "url": result.get("link", ""), 
                    "title": result.get("title", "")
                }
            )
            formatted_docs.append(doc)
        return formatted_docs

web_retriever = ContextualCompressionRetriever(
    base_compressor=cross_reranker, 
    base_retriever=WebSearchRetriever(search_wrapper=DuckDuckGoSearchAPIWrapper(time='y')), 
)

@tool
def search_web(query: str) -> List[Document]:
    """
    웹 검색을 수행하고 결과를 Document 리스트 형태로 반환하는 함수.
    search_period: 검색 기간 (d: 1일, w: 1주, m: 1달, y: 1년)
    """
    # WebSearchRetriever를 기반으로 ContextualCompressionRetriever를 초기화합니다.
    
    docs = web_retriever.invoke(query)

    if len(docs) > 0:
        return docs
    
    return [Document(page_content="관련 정보를 찾을 수 없습니다.")]

In [39]:
# 도구 목록을 정의 
tools = [search_income_tax_law, search_labor_law, search_web]

In [40]:
from langchain_google_genai import ChatGoogleGenerativeAI

# 기본 LLM
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash", temperature=0)

# LLM에 도구 바인딩하여 추가 
llm_with_tools = llm.bind_tools(tools)

In [41]:
# 근로기준법과 관련된 질문을 하는 경우 -> 근로기준법 검색 도구를 호출
query = "연차휴가 부여 기준을 설명해주세요."
response = llm_with_tools.invoke(query)

In [42]:

response

AIMessage(content='', additional_kwargs={'function_call': {'name': 'search_labor_law', 'arguments': '{"query": "\\uc5f0\\ucc28\\ud734\\uac00 \\ubd80\\uc5ec \\uae30\\uc900"}'}}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-2.5-flash', 'safety_ratings': []}, id='run--3d8dbe63-07e2-4925-bf80-47ba6cbc008c-0', tool_calls=[{'name': 'search_labor_law', 'args': {'query': '연차휴가 부여 기준'}, 'id': 'b3ad4e8c-a872-406e-943d-713e7dddec45', 'type': 'tool_call'}], usage_metadata={'input_tokens': 185, 'output_tokens': 114, 'total_tokens': 299, 'input_token_details': {'cache_read': 0}, 'output_token_details': {'reasoning': 92}})

In [43]:
response.tool_calls

[{'name': 'search_labor_law',
  'args': {'query': '연차휴가 부여 기준'},
  'id': 'b3ad4e8c-a872-406e-943d-713e7dddec45',
  'type': 'tool_call'}]

In [44]:
# 도구들의 목적과 관련 없는 질문을 하는 경우 -> 도구 호출 없이 그대로 답변을 생성 
query = "내 이름은 김일남이야!"
response = llm_with_tools.invoke(query)

In [45]:
response

AIMessage(content='안녕하세요 김일남님, 만나서 반갑습니다!\n무엇을 도와드릴까요?', additional_kwargs={}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-2.5-flash', 'safety_ratings': []}, id='run--d34c79a1-7376-41a2-a1a8-ad7cf2d8621f-0', usage_metadata={'input_tokens': 183, 'output_tokens': 18, 'total_tokens': 201, 'input_token_details': {'cache_read': 0}})