In [None]:
%pip install python-dotenv langchain langchain-upstage langchain-community langchain-text-splitters

In [4]:
from langchain_community.document_loaders import Docx2txtLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1500,
    chunk_overlap = 200,
)

loader = Docx2txtLoader('./tax.docx')
document_list = loader.load_and_split(text_splitter=text_splitter)

In [1]:
%pip install -qU langchain-text-splitters

Note: you may need to restart the kernel to use updated packages.


In [4]:
len(document_list)

187

In [5]:
#임베딩 upstageEmbedding 사용
from dotenv import load_dotenv
from langchain_upstage import UpstageEmbeddings

load_dotenv()

embedding = UpstageEmbeddings(model='solar-embedding-1-large')

In [6]:
from langchain_chroma import Chroma

'''아래 실행하면 chroma라는 폴더가 생성되고 임베딩 된 데이터가 그곳에 생김
chroma 는 인메모리(끄면 사라짐) 라서 persist_directory 의 파일로 저장'''
database = Chroma.from_documents(documents=document_list, embedding=embedding,collection_name='chroma-tax', persist_directory="./chromaUpstage")

#database = Chroma(collection_name='chroma-tax', persist_directory="./chroma", embedding_function=embedding)

In [8]:
query = '연봉 5천만원인 직장인의 소득세는 얼마인가요?'
#질문이 있으면 벡터 데이터베이스에 유사도 검색
retrieved_docs = database.similarity_search(query, k=3)
retrieved_docs

[Document(id='b45e2192-648d-4340-ae86-cb7402229b7f', metadata={'source': './tax.docx'}, page_content='2. 2명인 경우: 연 55만원\n\n3. 3명 이상인 경우: 연 55만원과 2명을 초과하는 1명당 연 40만원을 합한 금액\n\n② 삭제<2017. 12. 19.>\n\n③ 해당 과세기간에 출산하거나 입양 신고한 공제대상자녀가 있는 경우 다음 각 호의 구분에 따른 금액을 종합소득산출세액에서 공제한다.<신설 2015. 5. 13., 2016. 12. 20.>\n\n1. 출산하거나 입양 신고한 공제대상자녀가 첫째인 경우: 연 30만원\n\n2. 출산하거나 입양 신고한 공제대상자녀가 둘째인 경우: 연 50만원\n\n3. 출산하거나 입양 신고한 공제대상자녀가 셋째 이상인 경우: 연 70만원\n\n④ 제1항 및 제3항에 따른 공제를 “자녀세액공제”라 한다.<신설 2015. 5. 13., 2017. 12. 19.>\n\n[본조신설 2014. 1. 1.]\n\n[종전 제59조의2는 제59조의5로 이동 <2014. 1. 1.>]\n\n\n\n제59조의3(연금계좌세액공제) ① 종합소득이 있는 거주자가 연금계좌에 납입한 금액 중 다음 각 호에 해당하는 금액을 제외한 금액(이하 “연금계좌 납입액”이라 한다)의 100분의 12[해당 과세기간에 종합소득과세표준을 계산할 때 합산하는 종합소득금액이 4천 500만원 이하(근로소득만 있는 경우에는 총급여액 5천 500만원 이하)인 거주자에 대해서는 100분의 15]에 해당하는 금액을 해당 과세기간의 종합소득산출세액에서 공제한다. 다만, 연금계좌 중 연금저축계좌에 납입한 금액이 연 600만원을 초과하는 경우에는 그 초과하는 금액은 없는 것으로 하고, 연금저축계좌에 납입한 금액 중 600만원 이내의 금액과 퇴직연금계좌에 납입한 금액을 합한 금액이 연 900만원을 초과하는 경우에는 그 초과하는 금액은 없는 것으로 한다. <개정 2014. 12. 23., 2015.

In [9]:
from langchain_upstage import ChatUpstage

llm = ChatUpstage()

In [None]:
'''
prompt = f"""[Identity]
- 당신은 최고의 한국 소득세 전문가 입니다
- [Context]를 참고해서 사용자의 질문에 답변해 주세요

[Context]
{retrieved_docs}

Question : {query}
"""'
'''

In [None]:
#ai_message = llm.invoke(prompt)

#ai_message.content

In [25]:
%pip install -u langchain langchainhub —quiet

Note: you may need to restart the kernel to use updated packages.



Usage:   
  c:\Users\softone\llm-test\.venv\Scripts\python.exe -m pip install [options] <requirement specifier> [package-index-options] ...
  c:\Users\softone\llm-test\.venv\Scripts\python.exe -m pip install [options] -r <requirements file> [package-index-options] ...
  c:\Users\softone\llm-test\.venv\Scripts\python.exe -m pip install [options] [-e] <vcs project url> ...
  c:\Users\softone\llm-test\.venv\Scripts\python.exe -m pip install [options] [-e] <local project path> ...
  c:\Users\softone\llm-test\.venv\Scripts\python.exe -m pip install [options] <archive url/path> ...

no such option: -u


In [10]:
from langchain import hub

prompt = hub.pull("rlm/rag-prompt")



In [34]:
prompt

ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, metadata={'lc_hub_owner': 'rlm', 'lc_hub_repo': 'rag-prompt', 'lc_hub_commit_hash': '50442af133e61576e74536c6556cefe1fac147cad032f4377b60c436e6cdcb6e'}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: {question} \nContext: {context} \nAnswer:"), additional_kwargs={})])

In [11]:
from langchain.chains import RetrievalQA

qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=database.as_retriever(),
    chain_type_kwargs={"prompt": prompt}
)

In [14]:
#ai_message = qa_chain({"query":query})
ai_message = qa_chain.invoke({"query": query})


In [15]:
ai_message

{'query': '연봉 5천만원인 직장인의 소득세는 얼마인가요?',
 'result': '근로소득세액공제는 총급여액에 따라 공제액이 달라집니다. 연봉 5천만원의 경우, 총급여액이 7천만원 초과 1억2천만원 이하에 해당하여 66만원 - [(총급여액 - 7천만원) × 1/2]. 다만, 위 금액이 50만원보다 적은 경우에는 50만원으로 공제액을 계산합니다. 따라서 이 경우에는 50만원의 공제액을 적용받을 수 있습니다.'}