## 0. 환경 구성

### 1) 라이브러리 설치

In [None]:
# poetry add langchain_community faiss-cpu

### 2) OpenAI 인증키 설정
https://openai.com/

In [1]:
from dotenv import load_dotenv
import os

# .env 파일을 불러와서 환경 변수로 설정
load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
print(OPENAI_API_KEY[:5])

gsk_o


In [2]:
EMBEDDING_MODEL_NAME = "bge-m3:latest"
EMBEDDING_MODEL_NAME

'bge-m3:latest'

#### RAG 파이프 라인
* Load Data - Text Split - Indexing - Retrieval - Generation
* OllamaEmbeddings 사용

In [None]:
from langchain_openai import ChatOpenAI,OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader
from langchain_ollama import OllamaEmbeddings

from pprint import pprint

# 1. Load Data
loader = TextLoader("../data/taxinfo.txt", encoding="utf-8")
documents = loader.load()

print(type(documents), len(documents)) #[Document, Document]
print(type(documents[0]))
print(documents[0])

In [None]:

# 2️. Text Split
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
split_docs = splitter.split_documents(documents)

print(len(split_docs), type(split_docs), type(split_docs[0]))
print(split_docs[0])
print('두번째 Document ====================')
print(split_docs[1])


In [6]:

# 3️. Indexing (벡터 저장)
embeddings_model = OllamaEmbeddings(model=EMBEDDING_MODEL_NAME)
# vector DB에 저장
vectorstore = FAISS.from_documents(
    documents=split_docs, 
    embedding=embeddings_model
)
#vectorstore = FAISS.from_documents(split_docs, OpenAIEmbeddings())

# 로컬 파일로 저장
vectorstore.save_local("faiss_index")

In [7]:

# 4️. Retrieval (유사 문서 검색) k: 질의와 가장 유사한 문서(청크) 6개를 찾아 반환하기
retriever = vectorstore.as_retriever(search_kwargs={"k": 6})
# retriever변수는 VectoreStoreRetriever 객체이다.
print(type(retriever))
# **질문(쿼리)**에 대해 유사한 문서를 검색하는 역할
retrieved_docs = retriever.invoke("소득세법에서 비과세소득에 해당하는 소득은 무엇인가요?")
print(type(retrieved_docs), len(retrieved_docs))
print(type(retrieved_docs[0]))
print(retrieved_docs[0])

<class 'langchain_core.vectorstores.base.VectorStoreRetriever'>
<class 'list'> 6
<class 'langchain_core.documents.base.Document'>
page_content='제12조(비과세소득) 다음 각 호의 소득에 대해서는 소득세를 과세하지 아니한다. <개정 2010. 12. 27., 2011. 7. 25., 2011. 9. 15., 2012. 2. 1., 2013. 1. 1., 2013. 3. 22., 2014. 1. 1., 2014. 3. 18., 2014. 12. 23., 2015. 12. 15., 2016. 12. 20., 2018. 3. 20., 2018. 12. 31., 2019. 12. 10., 2019. 12. 31., 2020. 6. 9., 2020. 12. 29., 2022. 8. 12., 2022. 12. 31., 2023. 8. 8., 2023. 12. 31.>
1. 「공익신탁법」에 따른 공익신탁의 이익
2. 사업소득 중 다음 각 목의 어느 하나에 해당하는 소득
    가. 논ㆍ밭을 작물 생산에 이용하게 함으로써 발생하는 소득' metadata={'source': '../data/taxinfo.txt'}


In [None]:

# 5️. Generation (LLM 응답 생성)
#llm = ChatOpenAI(model="gpt-4o-mini")
llm = ChatOpenAI(
    base_url="https://api.groq.com/openai/v1",
    #model="meta-llama/llama-4-scout-17b-16e-instruct",
    model="moonshotai/kimi-k2-instruct-0905",
    temperature=0
)
# 유사도 검색의 결과를 str 문자열로 만들기
context = "\n\n".join([doc.page_content for doc in retrieved_docs])
print(context)

In [9]:

response_context = llm.invoke(f"소득세법에서 비과세소득에 해당하는 소득은 무엇인가요? \
                              관련 정보: {context}")
print('context 적용한 결과')
pprint(response_context.content)

context 적용한 결과
('소득세법 제12조(비과세소득)에 따르면, 세법상 소득세를 부과하지 아니하는 「비과세소득」은 다음과 같이 크게 나눌 수 있습니다.\n'
 '\n'
 '1. 공익신탁 이익  \n'
 '   - 「공익신탁법」에 따라 설정된 공익신탁에서 발생하는 이익\n'
 '\n'
 '2. 사업소득 중 비과세 대상  \n'
 '   - 논·밭을 대여(작물 생산용)해 얻는 소득  \n'
 '   - 1주택 보유자의 주택임대소득(시가 12억 초과·국외주택 제외)  \n'
 '   - 「대통령령」으로 정하는 농·어가(부업) 소득, 전통주 제조소득, 작물재배소득, 어로·양식어업소득  \n'
 '   - 조림 5년 이상 임지의 목재(임목)를 벌채·양도해 얻는 연 600만원 이하 소득\n'
 '\n'
 '3. 근로·퇴직소득 중 비과세  \n'
 '   - 복무 중 병사 급여, 법령에 의한 동원근무자 급여  \n'
 '   - 산재보험, 근기법·선원법에 따른 보상금·보상성 급여(요양, 휴업, 장해, 유족, 장의비 등)  \n'
 '   - 종교인소득 가운데 사택·식대·실비변상·6세 이하자녀 보육비(월 20만원 이하)·학자금 등 일정금액  \n'
 '   - 위원회 위원 중 보수를 받지 않는 자가 받는 수당(법령·조례 기준)  \n'
 '   - 「산업재해보상보험법」「국군포로법」에 따른 각종 연금 및 위로금\n'
 '\n'
 '4. 기타소득 중 비과세  \n'
 '   - 국가유공자·보훈대상자, 북한이탈주민에게 지급되는 보훈급여·정착금·보로금 등  \n'
 '   - 「국가보안법」상금, 「상훈법」에 따른 훈장부상·상금  \n'
 '   - 퇴직 후 사용자(산학협력단)가 지급하는 직무발명보상금(정액 한도)·국군포로 위로지원금  \n'
 '   - 국지정문화재 작품(서화·골동품)을 박물관·미술관에 양도하거나, 문화재로 지정된 작품을 양도해 발생하는 소득\n'
 '\n'
 '요약하면, 공익신탁 이익, 일정 농어촌·임업·주택임대소득, 산재·보훈·상훈 보상금, 종교인 일급생

In [10]:

response = llm.invoke(f"소득세법에서 비과세소득에 해당하는 소득은 무엇인가요?")
print('context 적용하지 않은 결과')
pprint(response.content)


context 적용하지 않은 결과
('소득세법에서 **비과세소득**이란, 소득세를 부과하지 않는 소득을 말합니다. 「소득세법」 제12조 및 관련 법령에 따라 다음과 같은 '
 '소득들이 비과세됩니다. 주요 항목은 다음과 같습니다:\n'
 '\n'
 '---\n'
 '\n'
 '### ✅ **대표적인 비과세소득**\n'
 '\n'
 '| 구분 | 예시 |\n'
 '|------|------|\n'
 '| **국가보훈·장려금** | 국가보훈처에서 지급하는 보훈급여, 고엽제 후유의료비 등 |\n'
 '| **공공연금** | 국민연금, 공무원연금, 군인연금, 사학연금 등 수령금 |\n'
 '| **취득·장려지원금** | **장애인 증여·상속재산**, **장애인 취업·자립 지원금** 등 |\n'
 '| **채권·상속 재산** | 상속·증여받은 재산(조세특례제한법 등에 따라) |\n'
 '| **복지 혜택** | 국가·지자체가 지원하는 생계급여(전기요금 한도 감면 포함), 의료급여, 주거급여, 보육지원금 등 |\n'
 '| **연금보험 지급금** | 연금저축, 개인연금(IRP·DC), **연금보험금·연금펀드 지급분** (조건이 있음) |\n'
 '| **비재산적 상품권** | 문화상품권, 축의환급금, 사회복지시설 이용료 등 |\n'
 '| **장학금·지원금** | 국가, 지자체, 학교 등에서 주는 **장학금** 및 **학비지원금** (조건 적용) |\n'
 '| **근로자 지원금** | 육아휴직급여, 고용보험을 통해 지급되는 **출산·육아 휴업급여** 등 |\n'
 '\n'
 '---\n'
 '\n'
 '### ⚠️ 유의사항\n'
 '- **일시금, 연금의 일시금화 등**에는 종종 세제 조건이 있으므로, 개별 사례에 따라 **과세**될 수 있습니다.\n'
 '- 일부 기관(예: 국민연금)에서는 **"연금소득 비과세"**이지만, **"연금일시금"**은 원천징수 세율에 따라 **과세**됩니다.\n'
 '\n'
 '---\n'
 '\n'
 '필요하시면 **조세특례제한법**에서

### 개선한 Source - version1
* Retriever 검색방법 개선
    * search_type="mmr",  # 최대 다양성 검색
    * search_kwargs={"k": 6, "fetch_k": 10}  

In [11]:

from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader
from langchain_ollama import OllamaEmbeddings

from pprint import pprint

# 1. 데이터 로드 (기존과 동일)
loader = TextLoader("../data/taxinfo.txt", encoding="utf-8")
documents = loader.load()

# 2. 텍스트 분할 개선
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # 크기 증가
    chunk_overlap=200,
    separators=["\n\n", "\n", " ", ""],  # 자연스러운 분할을 위한 구분자
    length_function=len,
    is_separator_regex=False,
)
split_docs = splitter.split_documents(documents)

# 3. 인덱싱 (벡터 저장)
embeddings_model = OllamaEmbeddings(model=EMBEDDING_MODEL_NAME)

vectorstore = FAISS.from_documents(
    documents=split_docs, 
    embedding=embeddings_model
)
#vectorstore = FAISS.from_documents(split_docs, OpenAIEmbeddings())

vectorstore.save_local("faiss_index")

# 4. 검색 개선
"""
    최대 다양성 검색(Maximum Marginal Relevance, MMR)
    MMR은 유사도가 높은 문서를 찾는 것을 넘어, 유사도와 다양성이라는 두 가지 기준을 모두 고려함
    - search_type="mmr": 검색 방식을 MMR로 지정합니다.
    - fetch_k: 일차적으로 질의와 유사한 문서 10개를 벡터 저장소에서 가져옵니다.
    - k: fetch_k로 가져온 10개의 문서 중에서 최종적으로 6개를 선택합니다. 6개를 선택할 때, MMR 알고리즘은 다음 두 가지를 고려함
        : 질의와의 유사도가 높고, 이미 선택된 다른 문서들과의 유사도가 낮은 (즉, 내용이 다양한) 문서
    * MMR의 작동 원리:
    - 질의와 가장 유사한 fetch_k개(10개)의 문서를 예비 후보군으로 가져옵니다.
    - 이 후보군 중에서 질의와 가장 유사한 문서 하나를 첫 번째 결과로 선택합니다.
    - 남은 후보군 중에서 질의와의 유사도는 높으면서 (관련성), 
      이미 선택된 문서들과의 유사도는 낮은 (다양성) 문서를 찾아 다음 결과로 추가함
    - 이 과정을 k개(6개)의 문서가 모두 선택될 때까지 반복합니다.        
"""
retriever = vectorstore.as_retriever(
    search_type="mmr",  # 최대 다양성 검색
    search_kwargs={"k": 6, "fetch_k": 10}  # 더 많은 결과 검색
)

# 5. 프롬프트 엔지니어링
def generate_prompt(query, context):
    return f"""다음은 소득세법 비과세소득 관련 조항입니다. 문맥을 고려하여 질문에 답변하세요.

[관련 조항]
{context}

[질문]
{query}

[답변 요구사항]
- 비과세소득 유형을 계층적으로 구분하여 설명
- 각 항목별 구체적인 조건 명시
- 법조문의 항, 호, 목 번호를 포함
- 500자 이내로 간결하게 요약"""

# 검색 및 응답 생성
query = "소득세법에서 비과세소득에 해당하는 소득은 무엇인가요?"
retrieved_docs = retriever.invoke(query)
context = "\n\n".join([doc.page_content for doc in retrieved_docs])

#llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.3)  # 창의성 낮춤
llm = ChatOpenAI(
    base_url="https://api.groq.com/openai/v1",
    #model="meta-llama/llama-4-scout-17b-16e-instruct",
    model="moonshotai/kimi-k2-instruct-0905",
    temperature=0
)
response = llm.invoke(generate_prompt(query, context))

print('개선된 결과:')
pprint(response.content)

개선된 결과:
('**소득세법 제12조 비과세소득 요약**  \n'
 '\n'
 '1. **공익신탁소득** (제12조제1호)  \n'
 '   - 「공익신탁법」에 따른 이익  \n'
 '\n'
 '2. **사업소득** (제12조제2호)  \n'
 '   - 5년 이상 조림지 벌채·양도소득: 연 600만원 이하 (목 마)  \n'
 '   - 1주택 소유자의 주택임대소득: 기준시가 12억원 이하 주택에 한정 (목 나)  \n'
 '\n'
 '3. **근로·퇴직소득** (제12조제3호)  \n'
 '   - 종업원이 사용자로부터 받는 「발명진흥법」상 보상금 (1)  \n'
 '   - 대통령령 정하는 복리후생적 급여 (저)  \n'
 '   - 실업급여·육아휴직 급여 등 법정급여 (목 마)  \n'
 '\n'
 '4. **연금소득** (제12조제4호)  \n'
 '   - 국민연금·공무원연금 등 공적연금의 유족·장해·장애연금 (목 가)  \n'
 '   - 「산업재해보상보험법」 연금 (목 다)  \n'
 '\n'
 '5. **기타소득** (제12조제5호)  \n'
 '   - 국가유공자 보훈급여·학습보조비 (목 가)  \n'
 '   - 「상훈법」 훈장 부상금 (목 다)  \n'
 '   - 종교관련종사자: 월 20만원 이하 자녀보육비·실비변상성 지급액 (목 아2~4)')


### 개선한 Source - version2
* Prompt 개선

In [12]:
from langchain_openai import ChatOpenAI,OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader
from langchain_ollama import OllamaEmbeddings

from pprint import pprint

# 1. Load Data
loader = TextLoader("../data/taxinfo.txt", encoding="utf-8")
documents = loader.load()

print("=== 원본 문서 길이 ===")
print(f"전체 문서 길이: {len(documents[0].page_content)} 글자")

# 2. Text Split 개선
splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,  
    chunk_overlap=150,
    separators=["\n\n", "\n", ". ", " ", ""]  # 법령 구조에 맞는 분리자
)
split_docs = splitter.split_documents(documents)

print(f"분할된 문서 수: {len(split_docs)}개")
print("=== 분할 예시 ===")
for i, doc in enumerate(split_docs[:3]):
    print(f"Chunk {i+1} ({len(doc.page_content)}글자): {doc.page_content[:100]}...")

# 3. Indexing
embeddings_model = OllamaEmbeddings(model=EMBEDDING_MODEL_NAME)

vectorstore = FAISS.from_documents(
    documents=split_docs, 
    embedding=embeddings_model
)

#vectorstore = FAISS.from_documents(split_docs, OpenAIEmbeddings())
vectorstore.save_local("faiss_index")

# 4. Retrieval 개선
retriever = vectorstore.as_retriever(
    search_type="similarity", 
    search_kwargs={"k": 6}  
)

query = "소득세법에서 비과세소득에 해당하는 소득은 무엇인가요?"
retrieved_docs = retriever.invoke(query)

print(f"\n=== 검색된 문서 ({len(retrieved_docs)}개) ===")
for i, doc in enumerate(retrieved_docs):
    print(f"문서 {i+1}: {doc.page_content[:200]}...")
    print("---")

# 5. Generation - 개선된 프롬프트
#llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
llm = ChatOpenAI(
    base_url="https://api.groq.com/openai/v1",
    #model="meta-llama/llama-4-scout-17b-16e-instruct",
    model="moonshotai/kimi-k2-instruct-0905",
    temperature=0
)
context = "\n\n".join([f"[문서 {i+1}]\n{doc.page_content}" for i, doc in enumerate(retrieved_docs)])

# 개선된 프롬프트 - 더 구체적인 지시사항
improved_prompt = f"""
당신은 세무 전문가입니다. 아래 소득세법 제12조 조항을 바탕으로 질문에 답변해주세요.

질문: {query}

법령 조항:
{context}

다음 형식으로 답변해주세요:
1. 비과세소득의 정의
2. 주요 비과세소득 항목들을 다음과 같이 분류:
   - 사업소득 관련
   - 근로소득/퇴직소득 관련  
   - 연금소득 관련
   - 기타소득 관련
3. 각 항목별 구체적인 조건이나 한도액 명시

답변은 법조문을 인용하면서 구체적으로 작성해주세요.
"""

# 비교용 - 기존 방식
simple_prompt = f"소득세법에서 비과세소득에 해당하는 소득은 무엇인가요? 관련 정보: {context}"

print("\n=== 개선된 프롬프트로 답변 ===")
response_improved = llm.invoke(improved_prompt)
pprint(response_improved.content)

print("\n" + "="*50)
print("=== 기존 프롬프트로 답변 ===")
response_simple = llm.invoke(simple_prompt)
pprint(response_simple.content)


=== 원본 문서 길이 ===
전체 문서 길이: 4971 글자
분할된 문서 수: 8개
=== 분할 예시 ===
Chunk 1 (738글자): 제12조(비과세소득) 다음 각 호의 소득에 대해서는 소득세를 과세하지 아니한다. <개정 2010. 12. 27., 2011. 7. 25., 2011. 9. 15., 2012. 2....
Chunk 2 (636글자): 다. 대통령령으로 정하는 농어가부업소득
    라. 대통령령으로 정하는 전통주의 제조에서 발생하는 소득
    마. 조림기간 5년 이상인 임지(林地)의 임목(林木)의 벌채 또는 양...
Chunk 3 (792글자): 라. 「근로기준법」 또는 「선원법」에 따라 근로자ㆍ선원 및 그 유족이 받는 요양보상금, 휴업보상금, 상병보상금(傷病補償金), 일시보상금, 장해보상금, 유족보상금, 행방불명보상금, ...

=== 검색된 문서 (6개) ===
문서 1: 제12조(비과세소득) 다음 각 호의 소득에 대해서는 소득세를 과세하지 아니한다. <개정 2010. 12. 27., 2011. 7. 25., 2011. 9. 15., 2012. 2. 1., 2013. 1. 1., 2013. 3. 22., 2014. 1. 1., 2014. 3. 18., 2014. 12. 23., 2015. 12. 15., 2016. 12. 2...
---
문서 2: 다. 대통령령으로 정하는 농어가부업소득
    라. 대통령령으로 정하는 전통주의 제조에서 발생하는 소득
    마. 조림기간 5년 이상인 임지(林地)의 임목(林木)의 벌채 또는 양도로 발생하는 소득으로서 연 600만원 이하의 금액. 이 경우 조림기간 및 세액의 계산 등 필요한 사항은 대통령령으로 정한다.
    바. 대통령령으로 정하는 작물재배업에서 발생하...
---
문서 3: 나. 「국가보안법」에 따라 받는 상금과 보로금
    다. 「상훈법」에 따른 훈장과 관련하여 받는 부상(副賞)이나 그 밖에 대통령령으로 정하는 상금과 부상
    라. 종업원등 또는 대학의 교직원이 퇴직한 후에 사용

In [None]:

# 추가 개선: 다른 검색 방식 시도
print("\n" + "="*50)
print("=== 검색 방식 개선 테스트 ===")

# MMR(Maximum Marginal Relevance) 검색 - 다양성 확보
retriever_mmr = vectorstore.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 6, "fetch_k": 20}
)
retrieved_docs_mmr = retriever_mmr.invoke(query)
context_mmr = "\n\n".join([f"[문서 {i+1}]\n{doc.page_content}" for i, doc in enumerate(retrieved_docs_mmr)])

response_mmr = llm.invoke(f"""
{query}

법령 조항 (MMR 검색):
{context_mmr}

위 법령을 바탕으로 비과세소득 항목들을 체계적으로 정리해주세요.
""")

print("=== MMR 검색 결과 ===")
pprint(response_mmr.content)