In [2]:
%pip install --upgrade --quiet  docx2txt langchain-community

Note: you may need to restart the kernel to use updated packages.


In [2]:
%pip install -qU langchain-text-splitters

Note: you may need to restart the kernel to use updated packages.


In [6]:
%pip install langchain-chroma

Collecting langchain-chroma
  Using cached langchain_chroma-0.2.4-py3-none-any.whl.metadata (1.1 kB)
Collecting chromadb>=1.0.9 (from langchain-chroma)
  Downloading chromadb-1.0.15-cp39-abi3-win_amd64.whl.metadata (7.1 kB)
Collecting build>=1.0.3 (from chromadb>=1.0.9->langchain-chroma)
  Using cached build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting pybase64>=1.4.1 (from chromadb>=1.0.9->langchain-chroma)
  Using cached pybase64-1.4.1-cp310-cp310-win_amd64.whl.metadata (8.7 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb>=1.0.9->langchain-chroma)
  Downloading uvicorn-0.35.0-py3-none-any.whl.metadata (6.5 kB)
Collecting posthog<6.0.0,>=2.4.0 (from chromadb>=1.0.9->langchain-chroma)
  Downloading posthog-5.4.0-py3-none-any.whl.metadata (5.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb>=1.0.9->langchain-chroma)
  Using cached onnxruntime-1.22.0-cp310-cp310-win_amd64.whl.metadata (5.0 kB)
Collecting opentelemetry-api>=1.2.0 (from chromadb>=1.0

In [1]:
from langchain_community.document_loaders import Docx2txtLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
)

loader = Docx2txtLoader('../tax_docs/tax_with_markdown.docx')
document_list = loader.load_and_split(text_splitter=text_splitter)

In [2]:
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings

load_dotenv()

embedding = OpenAIEmbeddings(model='text-embedding-3-large')

In [3]:
from langchain_chroma import Chroma

database = Chroma(embedding_function=embedding,
                    persist_directory='../chroma',
                    collection_name='chtax',
                  )


database.add_documents(documents=document_list)

['92fae159-fb9f-445b-b75b-087fde9158d1',
 'ac94a03a-ca2f-4ef1-a885-c5569468e3d7',
 'fa985a28-9505-4b9d-b3f2-dba9bfb2283e',
 'd82808b1-3db4-4fdd-a3a0-2461a591cd98',
 'ec9aa45a-4fec-401b-9263-a1a0caecfc39',
 'b2482054-4405-47a3-b78a-6b41476ff14e',
 '6d0c01f6-d77d-44e5-86a3-f7e9f8a05911',
 'ba493f84-0920-4163-aeb4-94a5f22e6461',
 '5f0e6288-84e1-4815-849e-7811f85037dc',
 '54efb6fa-6c64-4e3b-b3ea-d6741fcee077',
 'd122f396-f36c-444b-9f30-8d2b2273ad54',
 '7a89303b-dea5-44b2-b345-4274b8be3bf7',
 '38b0c9cc-0fa0-4e66-bd4a-e48152c9d394',
 '51007800-15fd-4397-9bb3-d66ed5c8d88b',
 'bbb1d958-fd1b-47a0-815d-7e1bdd234f16',
 '6df287a1-ae71-469e-9a1a-ef6df1bd996c',
 'db005620-f76a-43f9-8c4d-67706e4b6054',
 'bc511a12-3466-4440-8e58-74ee4bc07d1c',
 '2e9375ac-c25c-4a09-bd3b-b1e8d8825398',
 '3215ce43-bdde-482f-8afc-de06d38d2bc9',
 '465777fb-a8bd-4b1a-b72b-bb0b7daaffaf',
 '83be40d7-c7bf-4448-9729-6ba8f598e63f',
 'dcdfdb7d-e312-44fd-a157-e1ed37c61728',
 '93256492-0b4f-494f-8371-18d0113a074a',
 'b13d45e0-7c54-

In [4]:
query = '연봉 5천만원인 거주자 소득세는 얼마인가요?'
retrieve_docs = database.similarity_search(query)

In [9]:
retrieve_docs

[Document(id='2663f29f-ed67-4b0f-9cc6-229485f21b2c', metadata={'source': '../tax_docs/tax_with_markdown.docx'}, page_content='제55조(세율) ①거주자의 종합소득에 대한 소득세는 해당 연도의 종합소득과세표준에 다음의 세율을 적용하여 계산한 금액(이하 “종합소득산출세액”이라 한다)을 그 세액으로 한다. <개정 2014. 1. 1., 2016. 12. 20., 2017. 12. 19., 2020. 12. 29., 2022. 12. 31.>\n\n| 종합소득 과세표준          | 세율                                         |\n\n|-------------------|--------------------------------------------|\n\n| 1,400만원 이하     | 과세표준의 6퍼센트                             |\n\n| 1,400만원 초과     5,000만원 이하     | 84만원 + (1,400만원을 초과하는 금액의 15퍼센트)  |\n\n| 5,000만원 초과   8,800만원 이하     | 624만원 + (5,000만원을 초과하는 금액의 24퍼센트) |\n\n| 8,800만원 초과 1억5천만원 이하    | 3,706만원 + (8,800만원을 초과하는 금액의 35퍼센트)|\n\n| 1억5천만원 초과 3억원 이하         | 3,706만원 + (1억5천만원을 초과하는 금액의 38퍼센트)|\n\n| 3억원 초과    5억원 이하         | 9,406만원 + (3억원을 초과하는 금액의 38퍼센트)   |\n\n| 5억원 초과      10억원 이하        | 1억 7,406만원 + (5억원을 초과하는 금액의 42퍼센트)|\n\n| 10억원 초과        | 3억 8,406만원 + (10억원을 초과하는 금액의 45퍼센트)|\n\n\n\n\n\n② 거주자의 

In [5]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model = 'gpt-4o')

In [10]:
prompt = f'''
    [Identity]
    - 당신은 최고의 한국 소득세 전문가입니다.
    - [context]를 참고해서 사용자의 질문에 답변해주세요

    [context]
    {retrieve_docs}

    Questions: {query}
'''

In [14]:
ai_message = llm.invoke(prompt)

In [15]:
ai_message

AIMessage(content='연봉 5천만원인 직장인의 소득세를 계산하기 위해서는 소득세법에 따라 기본적인 세율을 적용해야 합니다. 한국의 소득세는 누진세율 구조를 가지고 있으며, 과세표준에 따라서 단계별로 세율이 적용됩니다. \n\n2023년 기준으로 소득세율은 다음과 같습니다:\n\n- 과세표준 12백만원 이하: 6%\n- 12백만원 초과 46백만원 이하: 15%\n- 46백만원 초과 88백만원 이하: 24%\n- 88백만원 초과 150백만원 이하: 35%\n- 150백만원 초과 300백만원 이하: 38%\n- 300백만원 초과 500백만원 이하: 40%\n- 500백만원 초과: 42%\n\n연봉 5천만원의 근로소득세를 계산하려면 우선 과세소득을 계산하고, 이 과세소득에 위의 세율을 적용합니다. 근로소득세 계산시에 사용되는 다양한 소득공제를 고려해야 하지만, 주어진 정보에서는 구체적인 공제 내용이 없으므로 단순 계산을 통해 누진세율을 적용하겠습니다. \n\n1. 우선, 과세표준을 계산하기 위해 기본공제 등 소득공제를 차감해야 합니다. 이 과정에서 연봉의 약 20~30%가 공제로 차감될 수 있으나, 이 예시에서는 구체적인 공제액이 명시되어 있지 않으므로 가장 단순한 접근법을 사용하겠습니다.\n\n2. 기본적인 계산 방법:\n\n   예를 들어, 만약 소득공제를 통해 과세표준이 4천만원으로 줄었다고 가정하면:\n   - 0 ~ 1,200만원: 6% = 72만원\n   - 1,200만원 초과 ~ 4,600만원: 15% = 51만원(4,600 - 1,200만원 구간 중에서)\n   - 4,600만원 초과: 24%\n\n   사실적 측면에서는 국세청의 소득세 간편계산기를 사용하는 것이 가장 정확합니다. 하지만 위의 단계별로 단순 계산을 통해 추정은 가능합니다. 예시에서는 4천만원의 과세표준이 24% 세율의 구간 부분도 적용될 수 있으나, 이는 실제 소득공제를 정확히 알지 못하는 상황에서는 추정이므로 주의가 필요합니다.\n\n다시 말하지만, 실제 세액은 개인의 공

In [17]:
%pip install -U langchain langchainhub --quiet

Note: you may need to restart the kernel to use updated packages.


In [6]:
from langchain import hub

prompt = hub.pull("rlm/rag-prompt")



In [7]:
from langchain.chains import RetrievalQA

qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=database.as_retriever(),
    chain_type_kwargs={'prompt':prompt}
)

In [8]:
print(type(query), query)
qa_chain.invoke({"query":query})

<class 'str'> 연봉 5천만원인 거주자 소득세는 얼마인가요?


{'query': '연봉 5천만원인 거주자 소득세는 얼마인가요?',
 'result': '연봉 5천만원인 거주자의 소득세는 624만원입니다. 이는 1,400만원을 초과하고 5,000만원 이하인 부분에 대해 15% 세율이 적용되어 84만원에 더해 계산됩니다.'}