In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:24pt;}
div.text_cell_render.rendered_html{font-size:20pt;}
div.text_cell_render li, div.text_cell_render p, code{font-size:22pt; line-height:40px;}
div.output {font-size:24pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:24pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:24pt;padding:5px;}
table.dataframe{font-size:24px;}
</style>
"""))

# 벡터DB : Chroma vs. Pinecone
- Chroma : 인메모리 vector DB, 로컬 vector DB
- Pinecone : 클라우드 vector DB
    (https://www.pinecone.io에서 api key 생성 -> .env에 추가(PINECONE_API_KEY등록)

# 0. 패키지 설치

In [3]:
%pip install -q pinecone langchain-pinecone --no-warn-script-location

Note: you may need to restart the kernel to use updated packages.


# 1. knowledge Base 구성을 위한 데이터 생성

In [5]:
from langchain_community.document_loaders import Docx2txtLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
loader = Docx2txtLoader('data/소득세법(법률)(제21065호)(20260102).docx')
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500, 
    chunk_overlap=200,
    # separators=["\n\n", "\n", " ", ""]
)
document_list = loader.load_and_split(text_splitter=text_splitter)
len(document_list)

193

In [6]:
# embedding : OpenAI API text-embedding-3-large
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings
load_dotenv()
embedding = OpenAIEmbeddings(model="text-embedding-3-large")

In [9]:
%%time
# pinecone vector database
from pinecone import Pinecone
from langchain_pinecone import PineconeVectorStore
import os
pc = Pinecone(
    api_key=os.getenv("PINECONE_API_KEY")
)
# 데이터를 처음 업로드할 때
index_name = "tax-index"
# database = PineconeVectorStore.from_documents(
#     documents=document_list,
#     embedding=embedding,
#     index_name=index_name
# )
# 업로드한 벡터db를 가져올 때
database = PineconeVectorStore(
    embedding=embedding,# 질문을 임베딩하여 유사도 검색
    index_name=index_name
)

CPU times: total: 0 ns
Wall time: 997 μs


# 2. 답변 생성을 위한 Retrieval

In [21]:
query = "연봉이 5천만원인 직장인의 소득세는 얼마인가요?"
retrieved_docs = database.similarity_search(query, k=3) # 기본k값:4

In [22]:
# retrieved_docs[2].page_content
retrieved_doc = "\n\n---\n\n".join([doc.page_content for doc in retrieved_docs])

In [23]:
retriever = database.as_retriever(
    search_kwargs={"k":3}
)
retrived_docs = retriever.invoke(query)
retrieved_doc = "\n\n---\n\n".join([doc.page_content for doc in retrieved_docs])

# 3. 답변 생성

In [24]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model = "gpt-4.1-nano")

In [25]:
# upstage에서 받은 20$로 llm을 사용하고 싶다면
from langchain_upstage import ChatUpstage
llm = ChatUpstage(
    model = "solar-pro2",
    reasoning_effort="high" #느리지만 더 깊게 추론함 (low, medium)
)

In [26]:
prompt = f"""[identity]
- 당신은 최고의 한국 소득세법 전문가입니다
- [context]를 참고해서 사용자의 질문에 답변해 주세요.
- [context]는 다음과 같아요
{retrieved_doc}
- 질문 : {query}"""

In [27]:
ai_message = llm.invoke(prompt)

In [28]:
print(ai_message.content)

주어진 [context]에는 소득세 세율, 과세표준 구간, 세액공제 등 구체적인 세액 계산 기준이 명시되어 있지 않습니다. 따라서 연봉 5천만원 직장인의 소득세를 정확히 산출할 수 없습니다. 다만, **한국 소득세법의 일반적 계산 구조**를 기반으로 다음과 같이 설명드릴 수 있습니다:

---

### 1. **근로소득의 과세 구조**
   - **총급여액**: 연봉 5천만원에서 비과세 소득(예: 식대, 교통비 등)을 차감한 금액.
   - **근로소득공제**: 총급여액에 따라 일정 비율을 공제 (예: 5천만원 이하 70% 공제).
   - **과세표준**: 총급여액 - 근로소득공제 - 추가 공제(의료비, 보험료 등).
   - **산출세액**: 과세표준에 **누진세율** 적용 (6%~45% 구간).
   - **결정세액**: 산출세액에서 세액공제(퇴직연금, 보험료 등) 차감.

---

### 2. **예시 계산 (가정)**
   - **총급여액**: 5,000만원 (비과세 소득 없음).
   - **근로소득공제**: 5,000만원 × 70% = 3,500만원.
   - **과세표준**: 5,000만원 - 3,500만원 = 1,500만원.
   - **산출세액** (2023년 기준 누진세율 적용):
     - 1,200만원 이하: 1,200만원 × 6% = 72만원  
     - 1,200만원 초과: 300만원 × 15% = 45만원  
     - **합계**: 72만원 + 45만원 = **117만원**.
   - **지방소득세**: 산출세액의 10% (11.7만원) 추가.
   - **총 납부세액**: 약 **128.7만원**.

> ※ 실제 세액은 연도별 세율, 공제 항목, 비과세 소득 유무에 따라 달라집니다.

---

### 3. **참고 사항**
   - **비과세 소득**: 「소득세법」 제12조에 따라 주택임대소득(12억원 미만), 농업소득 등이 비과세될 수 있으나, 일반 직장인의 경우 해당되지 않을 수 있습니다.
   - **세액공제**: 