# [RAG 절차]

1. 문서를 읽는다
    * pip install --upgrade --q docx2txt
2. 문서를 쪼갠다
    * pip install -qU langchain-text-
3. 쪼갠 문서를 임베딩 하여 vecor database에 넣음 (local에 저장) cf. 클라우드에 저장
    * pip install -q langchain-chroma
4. 질문을 이용해 유사도 검색
5. 유사도 검색한 문서를 LLM에 질문과 함께 전달하여 답변 얻음(랭체인 사용 가능)
    * pip install -q langchain
        (https://smith.langchain.com에서 key 생성 .env에 LANGCHAIN_API_KEY 추가)

# 패키지 설치

In [3]:
# 텍스트를 chunk로 나누는 기능만 있는 경량 모듈
%pip install -qU langchain-text-splitters

#벡터DB(로컬DB) --chromaDB 아님
%pip install -q langchain-chroma

#langchain 사용
%pip install -q langchain

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


# 1. 문서 읽기(X)

In [4]:
%%time
from langchain_community.document_loaders import Docx2txtLoader
loader = Docx2txtLoader("./data/소득세법(법률)(제21065호)(20260102).docx")
document = loader.load()

CPU times: total: 2.28 s
Wall time: 2.42 s


In [5]:
len(document)

1

# 2. 문서를 쪼개면서 읽기(O)
 - https://docs.langchain.com/oss/python/integrations/splitters
 
 ## 2.1 1500토큰씩 쪼개서 읽어오기

In [10]:
%%time
import time
from langchain_community.document_loaders import Docx2txtLoader
from langchain_text_splitters import TokenTextSplitter
loader = Docx2txtLoader("./data/소득세법(법률)(제21065호)(20260102).docx")

# gpt-4, gpt-4o. gpt-4 turbo, gpt4o-mini, embedding 모델들은 다 같은 방식으로 토큰 추출
text_splitter = TokenTextSplitter(
        encoding_name = "cl100k_base", #토큰을 세는 방식 이름
        chunk_size=1500,               #chunk당 토큰 수 기준
        chunk_overlap=200
#         separators=['\n', '\n\n']
)
documents = loader.load_and_split(text_splitter=text_splitter)


NameError: name 'start' is not defined

In [20]:
start = time.time()
runtime = time.time()-start
print('문서를 쪼개면서 읽는 시간 : ', runtime)

문서를 쪼개면서 읽는 시간 :  0.0


In [13]:
len(documents) #chunk 수

180

In [16]:
# chunk 글자수
# documents[0].page_content
print([len(document.page_content) for document in documents])

[1699, 1656, 1641, 1650, 1738, 1442, 1287, 1535, 1325, 1619, 1596, 1588, 1566, 1639, 1622, 1559, 1612, 1638, 1573, 1465, 1436, 1609, 1456, 1497, 1635, 1606, 1533, 1649, 1662, 1595, 1603, 1678, 1595, 1637, 1601, 1539, 1561, 1594, 1693, 1708, 1657, 1627, 1636, 1659, 1667, 1595, 1491, 1485, 1645, 1709, 1629, 1617, 1495, 1626, 1612, 1620, 1609, 1576, 1636, 1602, 1556, 1563, 1600, 1616, 1643, 1691, 1635, 1685, 1621, 1631, 1609, 1605, 1603, 1604, 1698, 1686, 1702, 1612, 1539, 1558, 1651, 2060, 1562, 1606, 1557, 1648, 1594, 1615, 1766, 1651, 1690, 1576, 1536, 1553, 1638, 1685, 1693, 1694, 1664, 1529, 1627, 1703, 1675, 1546, 1585, 1687, 1679, 1714, 1603, 1655, 1648, 1495, 1531, 1562, 1594, 1646, 1543, 1449, 1593, 1559, 1521, 1473, 1519, 1545, 1668, 1700, 1692, 1655, 1648, 1741, 1670, 1628, 1639, 1623, 1638, 1642, 1666, 1658, 1594, 1591, 1561, 1641, 1498, 1610, 1567, 1613, 1636, 1619, 1531, 1496, 1702, 1598, 1579, 1627, 1559, 1585, 1665, 1565, 1616, 1564, 1612, 1535, 1512, 1557, 1576, 1628, 165

In [17]:
# chunk 글자수 최대값, 최소값
print(max([len(document.page_content) for document in documents]))
print(min([len(document.page_content) for document in documents]))

2060
955


## 2.2 1500글자 쪼개서 읽어오기
 - 임베딩 모델 : text-embedding-3-large (기본모델 : text-embedding-ada-002)
 - 벡터데이터베이스 (vector store) : chroma


# 3.  쪼갠 문서를 임베딩 -> 벡터 베이터베이스 저장

In [22]:
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings
load_dotenv()
embedding = OpenAIEmbeddings(model="text-embedding-3-large")

In [23]:
# embed_query() 한 문자열을 임베딩 벡터로 전환한 숫자 list를 return
len(embedding.embed_query("소득세법은 어쩌구"))

3072

In [24]:
embedding_vectors = embedding.embed_documents( #여러 문자열을 임베딩 벡터로
    [
        documents[0].page_content,
        documents[1].page_content
    ]
)

In [26]:
print(len(embedding_vectors), len(embedding_vectors[0]), len(embedding_vectors[1]))
print(embedding_vectors[0][:10])

2 3072 3072
[0.0170573852956295, -0.010920221917331219, -0.0003828902554232627, 0.024876264855265617, 0.02751895785331726, 0.011247827671468258, -0.006175385322421789, 0.04204285144805908, -0.009227586910128593, 0.007627774495631456]


In [29]:
%%time
from langchain_chroma import Chroma
#데이터 처음 저장할 때
database = Chroma.from_documents(
    documents = documents, #chunk
    embedding = embedding, #임베딩 객체
    collection_name = "tax-collection", #생략시 이름 랜덤
    persist_directory = "./chroma" # 생략시 로컬 DB에 저장 안됨. 프로그램 종료 시 DB는 삭제됨
)

CPU times: total: 781 ms
Wall time: 7.33 s


In [32]:
#이미 저장된 vector DB(store)사용시
database = Chroma(
    embedding_function=embedding,
    collection_name = 'tax-collection',
    persist_directory = "./chroma"
)

In [35]:
results = database._collection.get(include=['embeddings','documents','metadatas'])
print('데이터 수 :', len(results['ids']))
print('문서 임베딩 차원 수: ', len(results['embeddings'][0]))
print('1번째 임베딩 샘플: ', results['embeddings'][1])
print('1번째 원본 :', results['documents'][1][:50])
print('1번째 metadata :' , results['metadatas'][1])

데이터 수 : 180
문서 임베딩 차원 수:  3072
1번째 임베딩 샘플:  [ 0.01991478 -0.01470464 -0.00057961 ...  0.0058937  -0.03365059
 -0.00657188]
1번째 원본 : . 구성원 간 이익의 분배비율이 정하여져 있지 아니하나 사실상 구성원별로 이익이 분배되는 
1번째 metadata : {'source': './data/소득세법(법률)(제21065호)(20260102).docx'}


# 4. vectorDB에 질문과 유사도 검색 (답변 생성을 위한 retrieval)

In [41]:
query = "연봉 5000만원 직장인의 소득세는 얼마?"
retrieved_docs = database.similarity_search(query=query,
                                           k=2) #기본 k값은 4. 

In [43]:
# retrieved_docs

In [60]:
# print("\n\n---\n\n".join([doc.page_content for doc in retrieved_docs]))
retrieved_doc = "\n\n---\n\n".join([doc.page_content for doc in retrieved_docs])

# 5. 유사도 검색으로 가져온 문서를 질문과 같이 LLM에 전달하여 답변 생성

In [61]:
from langchain_openai import ChatOpenAI
load_dotenv()
llm = ChatOpenAI(model = "gpt-4.1-nano")

In [62]:
prompt = f"""[identity]
 - you are a korean tax law expert
 - review [context] and answer the user's question
 [context] is below
 {retrieved_doc}
 queston:{query}"""

In [63]:
ai_message = llm.invoke(prompt)

In [64]:
ai_message.usage_metadata

{'input_tokens': 2085,
 'output_tokens': 943,
 'total_tokens': 3028,
 'input_token_details': {'audio': 0, 'cache_read': 0},
 'output_token_details': {'audio': 0, 'reasoning': 0}}

In [65]:
print(ai_message.content)

연봉 5,000만원인 직장인의 소득세액을 계산하기 위해서는 다음의 절차를 따릅니다. 소득세는 종합소득산출세액에서 근로소득세액공제, 표준세액공제 등 여러 공제액을 차감한 후 최종 세액이 결정됩니다. 아래는 2024년 기준의 일반적인 계산 방법입니다.

1. 총급여액 파악
- 연봉 5,000만원

2. 근로소득 간이 계산
- 근로소득 금액은 일반적으로 연봉에 따라 세법상의 근로소득 공제율과 공제액이 적용됩니다.
- 2024년 기준 근로소득공제액은 아래와 같습니다.

| 총급여액 | 근로소득공제액 |
|------------|-------------------|
| 4,600만원 이하 | 1500만원 + (총급여액 - 3,000만원)×30% |
| 4,600만원 초과 | 1,950만원 (최대공제액 한도) |

계산하면:
- 5,000만원 기준 근로소득공제액 = 1,950만원 (한도) (실제 계산 시 4,600만원 초과에 따라 공제액은 1,950만원)

근로소득금액:
- 5,000만원 - 1,950만원 = 3,050만원

3. 종합소득산출세액 계산
- 과세표준 구간별로 세율 적용

2024년 기준 과세표준별 세율은 다음과 같습니다.

| 과세표준 | 세율 | 누진공제액 |
|--------------|---------|--------------|
| 1,200만원 이하 | 6% | 0원 |
| 1,200만원 초과 ~ 4,600만원 이하 | 15% | 108만원 |
| 4,600만원 초과 | 24% | 522만원 |

계산:
- 과세표준이 3,050만원이므로:
  - 1,200만원 x 6% = 72만원
  - (3,050만원 - 1,200만원) x 15% = 1,850만원 x 15% = 277.5만원
  - 총 세액 = 72만원 + 277.5만원 = 약 349.5만원
  - 누진공제액(간단히 계산) 이외에 세액공제 등을 적용하지 않은 상태로 가정.

4. 공제액 적용
- 근로소득공제(이미 적용)
- 기본공제, 연금보험료, 건강보험료 등 공제는 별도로 계산 필요하나, 일

# 5. 유사도 검색으로 가져온 문서를 질문과 같이 LLM에 전달하여 답변 생성 -2

In [66]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model = "gpt-4.1-nano")
promptTemplate = ChatPromptTemplate([
    ('system', 'you are the top Korea income tax expert'),
    ('human', f"""follow guidelines below and answer the question.
    say you don't know if you don't know the answer.
    answer in 3 sentences.
    question : {{question}}
    context : {{context}}
    answer : """)
])
promptTemplate

ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], input_types={}, partial_variables={}, template='you are the top Korea income tax expert'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template="follow guidelines below and answer the question.\n    say you don't know if you don't know the answer.\n    answer in 3 sentences.\n    question : {question}\n    context : {context}\n    answer : "), additional_kwargs={})])

In [68]:
prompt = promptTemplate.invoke({
                'context':retrieved_doc, #retrieved_docs보다 추천
                'question':query
})

In [69]:
llm.invoke(prompt)

AIMessage(content='연봉 5000만원 직장인의 소득세는 여러 공제 및 세율에 따라 달라지며, 최신 세법에 의하면 대략 10~15% 수준인 것으로 예상됩니다. 그러나 구체적인 세액을 계산하려면 근로소득공제, 표준공제, 인적공제 등 상세 공제 항목을 반영해야 합니다. 따라서 정확한 금액은 본인 상세 소득 내역과 공제 사항에 따라 다를 수 있으므로, 확실한 계산을 원하시면 세무 전문가와 상담하시는 게 좋습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 127, 'prompt_tokens': 2102, 'total_tokens': 2229, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_provider': 'openai', 'model_name': 'gpt-4.1-nano-2025-04-14', 'system_fingerprint': 'fp_7f8eb7d1f9', 'id': 'chatcmpl-CvbEtr5ar31LIvmHEHvUW8FhOA13M', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='lc_run--019b9bb4-d05b-7550-b96b-4adfeffdbdb1-0', tool_calls=[], invalid_tool_calls=[], usage_metadata={'input_tokens': 2102, 'output_tokens': 127, 'total_tokens': 2229, 'input_token

In [70]:
# 위의 예제를 한번에
from langchain_core.output_parsers import StrOutputParser
output_parser = StrOutputParser()
output_parser.invoke(llm.invoke(promptTemplate.invoke({'context':retrieved_doc,
                                                       'question':query})))

'연봉 5000만원 직장인의 소득세는 개별적 공제, 세율, 기타 소득공제 등에 따라 차이가 있으나, 대략 10%~20%의 세율이 적용됩니다. 따라서 소득세는 약 500만 원에서 1,000만 원 사이가 될 수 있습니다. 정확한 세액은 공제항목과 세율, 기타 소득 여부에 따라 달라지기 때문에 구체적인 계산이 필요합니다.'

In [71]:
# 위의 예제를 langchain으로 답변 생성
from langchain_core.output_parsers import StrOutputParser
output_parsers = StrOutputParser()
output_parsers.invoke(llm.invoke(promptTemplate.invoke({'context':retrieved_doc,'question':query})))

'연봉 5000만원 직장인의 소득세는 구체적 세율과 공제액에 따라 다르지만, 대략 9%에서 12% 사이의 세율이 적용될 수 있습니다. 이는 근로소득세율과 각종 공제, 근로소득세액공제액 등을 고려한 추정치입니다. 정확한 세금액은 개인의 기타 소득이나 세액공제 상세 내용에 따라 달라질 수 있으니, 세무 전문가 상담이 필요합니다.'

# 6. langchain으로 답변 생성

In [72]:
# 위의 예제를 langchain으로 답변생성
rag_chain = promptTemplate | llm | output_parser
rag_chain.invoke({'context':retrieved_doc,'question':query })

'연봉 5000만원 직장인의 소득세는 정확한 계산을 위해 여러 공제와 세율을 고려해야 하며, 세법 개정에 따라 차이가 있을 수 있습니다. 일반적으로 종합소득세율은 6%에서 45%까지 다양하게 적용되며, 기본 공제와 근로소득세액공제 등을 고려해야 합니다. 따라서 구체적인 세액을 산출하려면 상세한 소득 내역과 공제 항목이 필요하므로, 정확한 계산을 위해 세무 전문가와 상담하시길 권장합니다.'

## langchain 전달
 - smith.langchain.com에서 key생성 후 .env에 LANGCHAIN_API_KEY 추가

In [74]:
# 1. LLM과 임베딩 초기화
llm = ChatOpenAI(model = "gpt-4.1-mini")
embedding = OpenAIEmbeddings(model="text-embedding-3-large")
# 2. vector store load
vectorstore = Chroma(
    embedding_function=embedding,
    collection_name="tax-collection",
    persist_directory="./chroma"
)
# 3. Retriever 생성
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k":4})
# 4. 프롬프트 템플릿
template = f"""당신은 최고의 한국 소득세 전문가입니다.
다음 문맥을 참고하여 질문에 답하세요.
답을 모르면 모른다고 답하세요.
최대 3문장으로 간결하게 답변하세요.
질문 : {{query}}
문맥 : {{context}}
답변 : """
prompt = ChatPromptTemplate.from_template(template)
# 5. 검색된 document를 텍스트로 변환하는 함수
def format_documents(documents):
    return  "\n\n---\n\n".join([doc.page_content for doc in retrieved_docs])

In [75]:
# 6. RAG 체인 구성 (LCEL 방식)
from langchain_core.runnables import RunnablePassthrough # {"query":"~"} => "~"
rag_chain = (
    {
        "context":retriever | format_documents,
        "query":RunnablePassthrough() # 질문 그대로 전달
    }
    | prompt # prompt에 context와 query 변수 주입
    | llm    
    | StrOutputParser()
)
# 7. 실행
query = "연봉 5천만원인 직장인의 소득세는 얼마인가요?"
rag_chain.invoke(query)

'연봉 5천만원인 직장인의 소득세는 기본적으로 과세표준에 따라 결정되며, 2023년 기준 근로소득공제와 각종 세액공제를 반영해야 합니다. 대략적으로 약 200만원 내외의 소득세가 부과되나, 구체적 공제 항목과 세액공제에 따라 변동될 수 있습니다. 정확한 계산을 위해서는 근로소득 금액, 인적공제, 보험료 공제 등을 포함한 상세 내역이 필요합니다.'