### Default Setting 

In [153]:
from llama_index import Document, VectorStoreIndex, SimpleDirectoryReader, ServiceContext
from llama_index.vector_stores import ChromaVectorStore
from llama_index.readers.chroma import ChromaReader
from llama_index.storage.storage_context import StorageContext
# from transformers import AutoTokenizer, AutoModel
from llama_index.embeddings import HuggingFaceEmbedding
from llama_index.schema import MetadataMode
from IPython.display import Markdown, display
from llama_index import Document, VectorStoreIndex 
from llama_index.node_parser import SentenceSplitter
import chromadb
import pandas as pd 
import openai
import re
import os
import getpass
import glob 

In [154]:
default_path = os.getcwd()
model_path = os.path.join(default_path, '../../models')
model_dir = os.path.join(model_path, "mistral_origin")
data_path = os.path.join(default_path, '../../../data')
rulebook_path = os.path.join(data_path, 'pdf', 'rules')

In [305]:
file_list = glob.glob(f'{rulebook_path}/*.pdf')
file_list[6]

'/rag/jupyter/llama-index_examples/embedding/../../../data/pdf/rules/신여비교통비.pdf'

In [8]:
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
openai.api_key = os.environ["OPENAI_API_KEY"]

OpenAI API Key: ········


In [383]:
chroma_client = chromadb.HttpClient(host="192.168.0.146")

In [384]:
chroma_client.list_collections()

[Collection(name=deposit),
 Collection(name=data),
 Collection(name=card),
 Collection(name=loan)]

In [385]:
data_collection = chroma_client.get_or_create_collection("data")

In [386]:
data_collection

Collection(name=data)

In [387]:
data_store = ChromaVectorStore(chroma_collection=data_collection)
data_storage = StorageContext.from_defaults(vector_store=data_store)

In [388]:
page_no = 0

In [646]:
documents = SimpleDirectoryReader(input_files=[file_list[8]]).load_data()

In [647]:
num_mapper = dict({'①':'제1항', '②':'제2항', '③':'제3항', '④':'제4항', '⑤':'제5항', '⑥':'제6항',\
                   '⑦':'제7항', '⑧': '제8항', '⑨': '제9항', '⑩': '제10항', '⑪': '제11항', '⑫': '제12항',\
                  '⑬':'제13항', '⑭':'제14항', '⑮':'제15항', '⑯':'제16항', '⑰':'제17항', '⑱':'제18항', '⑲':'제19항', '⑳':'제20항'})

In [648]:
documents[page_no]

Document(id_='9d3f6e98-cb8e-4504-a7d8-d13c16951a0a', embedding=None, metadata={'page_label': '1', 'file_name': '윤리규정.pdf', 'file_path': '/rag/jupyter/llama-index_examples/embedding/../../../data/pdf/rules/윤리규정.pdf', 'file_type': 'application/pdf', 'file_size': 514996, 'creation_date': '2024-03-26', 'last_modified_date': '2024-03-06', 'last_accessed_date': '2024-03-26'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, hash='d076373d3198615971627eb226ed3cd2040f9fbb83de994a6e3d128879244a1b', text='1 \n  \n \n \n \n \n \n \n \n \n \n \n \n윤 리 규 정 \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n주식회사  핑거 \n \n \n \n \n \n \n \n \n \n ', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {va

In [649]:
def text_cleanse(document):
    '''
    여러 공백 문자열 단일 공백 문자로 변환 
    여러 줄변환 문자 줄변환 문자로 변환 (\n x 2~ => \n x 2) 
    문서 맨 윗 내용이 페이지 번호인 경우 페이지 번호 제거 
    '''
    document.text = re.sub('[^A-Za-z0-9\'\"\-가-힣(){}\\n[]]', '', document.text)
    for num in num_mapper.keys():
        document.text = document.text.replace(num, num_mapper[num])
    document.text = re.sub(' +', ' ', document.text)
    document.text = document.text.strip()
    # document.text = re.sub(r'\r\n{2,}', '\n\n', document.text)
    
    text_list = document.text.splitlines(True)
    if text_list[0].startswith('페이지') or text_list[0].startswith(document.metadata['page_label']):
        text_list = text_list[1:]

    new_text = [] 
    for line in text_list:
        if line == '\n' or line == ' \n':
            continue 
        new_text.append(line) 
    document.text = ''.join(new_text)
    return document

In [650]:
for idx in range(len(documents)):
    documents[idx] = text_cleanse(documents[idx])

In [651]:
print(documents[1].text)

 윤 리 헌 장 
우리는 기업의 사회적 책임을 소중히 여기고, 고객의 가치와 신뢰를 얻기 위해 
비즈니스 활동에서 공정한 기준에 따라 행동하며 이러한 기준에서 벗어나는 
어떠한 결과도 수용하지 않음을 선언한다 . 
우리가 지키는 높은 윤리수준은 
명문화된 규정보다 임직원 각자의 자발적 참여로 구축되는 건전한 기업문화로 자연스럽게 달성되며 
아름다운 전통으로 계승한다 . 
하나, 우리는 높은 윤리의식과 밝고 고운 심성을 바탕으로 정직하고 공정하게 직무를 수행한다 . 
하나, 우리는 최고의 솔루션과 서비스로 고객의 소중한 가치를 항상 최우선으로 생각한다 . 
하나, 우리는 효율적인 경영으로 이익을 실현함으로써 주주가치를 존중한다 . 
하나, 고객 및 협력사와의 거래는 상호 발전을 기함과 동시에 투명하고 공정하게 한다. 
하나, 우리는 국가와 지역사회의 각종 법규를 준수한다 . 
하나, 우리는 일체의 부정행위를 하지 않으며 업무수행 시 회사이익을 우선한다 . 
윤 리 강 령 
제 1 장 기 본 책 무 
제1조 (최고의 제품과 서비스창출 ) 
제1항 품질은 결코 타협하거나 양보할 대상이 아닌 우리의 최고 가치로 삼는다. 
제2항 가장 좋게, 싸게, 빠르게, 최고의 경쟁력을 확보하기 위해 최선을 다한다. 
 제3항 부단한 혁신과 연구개발을 통해 새로운 가치를 창조함으로 써 인류사회의 발전을 선도한다 . 
제2조 (법규준수와 공정한 경쟁) 
제1항 사업활동에 있어서 모든 법규와 규범, 기초질서를 충실히 준수하며 , 문화와 관습을 존중한다 . 
제2항 경쟁사를 존중하며 , 정당한 방법과 실력으로 자유롭고 공정하게 경쟁한다 . 
제3항 공정한 거래를 위하여 자유경쟁의 원칙에 따라 경쟁한다 . 
제4항 공정거래 당사자들과는 상호 신뢰를 기반으로 공동발전을 도모한다 . 
제3조 (주주에 대한 존중) 
제1항 안정적인 경영활동을 통하여 이익을 실현하고 주주의 투자수익을 보호한다 . 
제2항 주주와의 상호 신뢰를 위해서 기업정보를 투명하게 공개하도록 한다. 
제4조 (고객에 대한 

#### Document 재정의 

In [652]:
text = documents[0].text 
documents[0].metadata['page_label']

'1'

In [653]:
import re 

text = '제 1 장 제1장 제 1장 제 2 장 제2장 제 2장' 
# re.findall(r'제.*[0-9].*장', text)
re.findall(r'제.+2.+장', text)

['제 1 장 제1장 제 1장 제 2 장 제2장 제 2장']

In [654]:
text = '제 1 장 제1장 제 1장 제 2 장 제2장 제 2장 제 4장' 
re.findall(r'제 *1 *장', text)

['제 1 장', '제1장', '제 1장']

In [655]:
def get_start_point(documents):
    s_point = 1
    for doc in documents:
        if len(re.findall(r'제 *1 *장', doc.text)) != 0 and (len(re.findall(r'목 *차', doc.text)) == 0 and len(re.findall(r'차 *례', doc.text)) == 0): 
            '''
            print(re.findall(r'제 *1 *장', doc.text))
            print(re.findall(r'목 *차', doc.text))
            print(re.findall(r'차 *례', doc.text))'''
            s_point = doc.metadata['page_label']
            break 
    return int(s_point) - 1

In [656]:
documents[0].metadata['page_label']

'1'

In [657]:
s_point = get_start_point(documents)
s_point

1

In [658]:
def split_doc(idx, prev_spot, current_spot, document):
    '''
    문서를 이전 장과 현재 장으로 분리하는 함수 
    prev_spot: 이전 장, current_spot: 현재 장 
    '''
    file_name = document.metadata['file_name'].split('.')[0]
    splitted = document.text.split(current_spot)
    # print(f'prev_spot: {prev_spot}')
    # print(f'current_spot: {current_spot}')
    prev_doc = Document(text=splitted[0],
                       doc_id=f"{file_name}_doc_{idx}",
                       metadata={"spot": prev_spot, "file_name": document.metadata['file_name']},
                       excluded_llm_metadata_keys = ['spot', 'file_name'])
    current_doc = Document(text=splitted[1],
                       doc_id=f"{file_name}_doc_{idx + 1}",
                       metadata={"spot": current_spot, "file_name": document.metadata['file_name']},
                       excluded_llm_metadata_keys = ['spot', 'file_name'])
    # print(f'prev_doc: {prev_doc.text}')
    # print(f'current_doc: {current_doc.text}')
    return idx + 2, prev_doc, current_doc

In [700]:
def get_new_doc_content(idx, document):  
    '''
    input: old_document (페이지 단위로 분할된 document object) 
    output: new_documents (장 단위로 분할된 document objects) 
    idx: 파일명 설정하기 위한 값, 페이지 번호 
    '''
    global prev_spot 
    file_name = document.metadata['file_name'].split('.')[0]
    
    # print(f'prev_spot: {prev_spot}')
    doc_list = []; meta_info = dict();
    split_spot = re.findall(r'제 *[0-9] *장', document.text)
    if len(split_spot) == 0:   # 한 페이지 내에 특정 장이 없으면 (이전 장에서 계속 이어지는 내용이면)
        print(f'no split_spot !')
        # print(f'total doc: {document}')
        new_doc = Document(text=document.text,
                   doc_id=f"{file_name}_doc_{idx}",
                   metadata={"spot": prev_spot, "file_name": document.metadata['file_name']},
                   excluded_llm_metadata_keys = ['spot', 'file_name'])
        return new_doc 
        
    splitted_docs = [] 
    for spot in split_spot:   # 한 페이지 내에 제 1장, 제 2장, ... 여러장이 있는 경우 
        new_idx, prev_doc, current_doc = split_doc(idx, prev_spot, spot, document)   # 제 1장, 제 2장 
        prev_spot = spot
        splitted_docs.append(prev_doc)
        document = current_doc   # for 문을 돌리기 위한 document 
        # print(f'document: {document}')
        check_spot = re.findall(r'제 *[0-9] *장', document.text)
        if len(check_spot) == 0:
            splitted_docs.append(document)
    # print('완료')
    return splitted_docs

In [725]:
test = []
test.append(get_new_doc_content(3, documents[0]))

no split_spot !


In [726]:
test

[Document(id_='윤리규정_doc_3', embedding=None, metadata={'spot': '제 2 장', 'file_name': '윤리규정.pdf'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=['spot', 'file_name'], relationships={}, hash='bdc51d56e47ab29e231c79d768215ccafa5442232f3b0a344d14646b5ad64fbc', text='윤 리 규 정 \n주식회사 핑거', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n')]

In [727]:
old_documents = documents.copy()
len(old_documents)

4

In [728]:
global old_documents
global doc_id_checker 
global s_point
global prev_spot 

doc_id_checker = '제1장' 
prev_spot = '제1장'

In [729]:
new_documents = []
for idx, doc in enumerate(old_documents):
    # print(idx)
    if idx >= s_point:
        new_documents.append(get_new_doc_content(idx, doc))   # idx: 페이지 번호 

no split_spot !


In [749]:
type(new_documents[-1]), type(new_documents[-1]) == Document

(llama_index.schema.Document, True)

In [751]:
final_list = []

for val in new_documents: 
    if type(val) == Document:
        print(f'vaaaaaaaaaaaaal: {val}', end='\n\n')
        final_list.append(val)
        continue 
    for doc in val:
        final_list.append(doc) 

len(final_list)

vaaaaaaaaaaaaal: Doc ID: 윤리규정_doc_3
Text: 제3항 윤리강령을 위반하는 행위를 강요 받거나 인지한 경우에는 부서장 또는 윤리경영센터 에 알리고  의문사항이 있는
경우에도 사전에 부서장 또는 윤리경영센터와 협의하도록 한다.  부 칙  제1조 (시행일)  이 규정은 2016년 9월
19일부터 개정, 시행한다 .



5

In [752]:
final_list[-1]

Document(id_='윤리규정_doc_3', embedding=None, metadata={'spot': '제 2 장', 'file_name': '윤리규정.pdf'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=['spot', 'file_name'], relationships={}, hash='8783352da2e354241cd4fef022a8b90b02168e4fe84aa4820d9af46895d14857', text=' 제3항 윤리강령을 위반하는 행위를 강요 받거나 인지한 경우에는 부서장 또는 윤리경영센터 에 알리고 \n의문사항이 있는 경우에도 사전에 부서장 또는 윤리경영센터와 협의하도록 한다. \n부 칙 \n제1조 (시행일) \n이 규정은 2016년 9월 19일부터 개정, 시행한다 .', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n')

In [696]:
len(new_documents), len(old_documents)

(3, 4)

In [644]:
new_documents[1].text, new_documents[1].metadata

('1. 지출결의서 (법카_특별)로 정산하여 주시기 바랍니다 . \n2. 제목 : 휴양시설 지원금 사용 정산_6월_이름 \n3. 신청금액 : 회사에서 증액하여 지원해 준 금액 \n4. 정산금액 : 실제로 카드로 결재하신 금액 \n※ 간혹 실수로 회사 지원금액이 아닌 숙박비 총액으로 결재하신 분들이 있습니다 . 이런 \n경우에는 지원금액 초과분을 별도로 환급하셔야 하니 실수하지 않도록 주의하여 주시기 \n바랍니다 . \n5. 주요내용 : 6/0일 숙박. 휴양시설 지원금 정산 \n6. 회계일자 : 카드 거래일자 \n7. 거래일자 : 카드 거래일자 \n8. 지급기한 : 카드대금 결제일 (익월 15일. 공휴일인 경우는 그 다음일 ) \n9. 용도 : 기타복리후생비 \n10. 내용 : 6월 휴양시설 지원금 \n11. 프로젝트 : 소속 부서 CC \n12. 결재라인 : 본인만 (이 건은 상위자 결재는 필요 없습니다 .) \n13. 합의라인 : 김태영 (경영지원팀 ) >> 강신명 (김태영과장을 1번 합의자로 추가해 \n주세요 ) \n질문6) 지출결의서 (법카_기본) 작성시 "지급기한 "과 "회계처리일자 "의 일괄변경 입력방법 \n안내 \n답변) \n1. 지출결의서 작성에서 지출내역을 전체 선택 \n2. 일괄변경 선택',
 {'spot': '제1장', 'file_name': '지출결의서_아마란스_질의응답.pdf'})

In [586]:
from llama_index.node_parser import SentenceSplitter 

In [587]:
parser = SentenceSplitter(chunk_size=512, chunk_overlap=30)

In [412]:
model_name = 'kakaobank/kf-deberta-base'
embed_model = HuggingFaceEmbedding(model_name=model_name, embed_batch_size=32)

In [413]:
service_context = ServiceContext.from_defaults(node_parser=parser, embed_model=embed_model, llm=None)

LLM is explicitly disabled. Using MockLLM.


In [845]:
index = VectorStoreIndex.from_documents(
    doc_list, service_context=service_context, storage_context=data_storage
)

In [846]:
data_collection.count()

188

In [669]:
from llama_index.retrievers import VectorIndexRetriever 
from llama_index.vector_stores import SimpleVectorStore
from llama_index.query_engine import RetrieverQueryEngine 
from llama_index.postprocessor import SimilarityPostprocessor 
from llama_index.postprocessor import SentenceTransformerRerank 
from llama_index.postprocessor import KeywordNodePostprocessor 
from llama_index.postprocessor import SimilarityPostprocessor, CohereRerank
from llama_index.schema import Node, NodeWithScore 

In [671]:
retriever = VectorIndexRetriever(
    index = index,
    service_context=service_context,
    similarity_top_k = 10, 
    verbose=True
)

In [754]:
def get_retrieved_nodes(
    retriever, query_str, vector_top_k=10, similarity_cutoff=0.6, reranker_top_n=3, service_context=None, with_reranker=False
):
    query_bundle = QueryBundle(query_str)   # query bundle 생성 
    retrieved_nodes = retriever.retrieve(query_bundle)   # 유사도가 제일 높은 node 추출 
    node_postprocessors = SimilarityPostprocessor(similarity_cutoff=similarity_cutoff)   # 전처리  - 유사 점수 기준 Cutoff 
    processed_nodes = node_postprocessors.postprocess_nodes(retrieved_nodes)
    
    if with_reranker:   # 재순위화 
        reranker = SentenceTransformerRerank(
            model='bongsoo/albert-small-kor-cross-encoder-v1',
            top_n=reranker_top_n,
        )
        reranked_nodes = reranker.postprocess_nodes(
            processed_nodes, query_bundle
        )
    return reranked_nodes

In [715]:
with_reranker = True
cutoff = 0.2

query = '교통비의 정의 기준은 ?' # queries[0]

In [716]:
import time
from llama_index import QueryBundle

start = time.time()
retrieved_nodes = retriever.retrieve(query)
nodes = get_retrieved_nodes(retriever, query, similarity_cutoff=cutoff, service_context=service_context, with_reranker=with_reranker)
end = time.time() - start 
print(end)

1.19443941116333


In [717]:
nodes[0].node.relationships['1'].metadata

{'page_label': 1, 'file_name': '신여비교통비.pdf'}

In [718]:
for key, value in nodes[0].node.relationships.items():
    print(f"key: {key}, value: {value}", end='\n\n')

key: 1, value: node_id='신여비교통비_doc_1' node_type=<ObjectType.DOCUMENT: '4'> metadata={'page_label': 1, 'file_name': '신여비교통비.pdf'} hash='c0395b03779d2b24a5f5c1385ee48dccef329514cfc4293667cf5c8785f1c405'

key: 2, value: node_id='6ab7a5cd-8915-41aa-9ec6-3be743ac8f9e' node_type=<ObjectType.TEXT: '1'> metadata={'page_label': 1, 'file_name': '신여비교통비.pdf'} hash='ca8f23d11a07e5b410cff08e815078185f044ca1d079c82e79c95a9d89f5679f'

key: 3, value: node_id='987143ad-4a77-40cb-a10d-34c7b3715313' node_type=<ObjectType.TEXT: '1'> metadata={} hash='3a63d0dee2494b16d5bf5c31cb32c6e756a5eb06ea396675f703f977fd96b90b'



In [719]:
def get_info(retrieved_node):
    '''
    id, text, score 반환 
    '''
    id = retrieved_node.node.relationships['1'].node_id
    name = retrieved_node.node.relationships['1'].metadata['name']
    txt = retrieved_node.node.text 
    score = retrieved_node.score 
    return [id, name, txt, score] 

In [720]:
print(len(nodes))

3


In [721]:
contexts = [node.text for node in nodes]
scores = [node.score for node in nodes]
contexts, scores 

(['제2항 상위 직책을 대리하거나, 동행하는 경우에는 그 직급의 출장 경비를 지급할 수 있다.\n제7조 (지급의 제한)\n제1항 회사소유 또는 임차한 시설이 있거나 회사가 교통편을 제공하는 경우 이를 이용함을 원칙으로\n한다.\n제2항 장기체재에 따른 숙소 제공 시에는 숙박비를 지원하지 아니한다.\n제3항 장기출장 시에는 야근 식대 및 교통비를 지원하지 아니한다 .',
  '제18조 (장기출장 시 귀향여비 )\n제1항 해외 장기출장 시 국내 귀향에 따른 왕복항공료를 회사에서 분기당 1회씩 지원한다.\n제2항 국내 장기출장 시 귀향에 따른 교통비를 별표 제1호에 의하여 회사에서 월 2회씩 지원한다 .\n단, 거주지를 출장지로 이전한 경우에는 월 1회로 한다.\n부 칙\n제1조 (시행일)\n제1항 이 규정은 2017년 1월 1일부터 제정, 시행한다 .\n제2항 이 규정 시행일 이전의 위 내용과 관련된 규정은 이 규정의 시행 즉시 효력을 상실한다 .\n부 칙\n제1조 (시행일)\n제1항 이 규정은 2018년 8월 1일부터 개정, 시행한다 .',
  '제1장 총 칙\n제1조 (목적)\n이 규정은 회사의 임.직원 또는 계약에 의해 회사의 업무를 수행하는 자가 회사의 출장명령에 의해\n국.내외를 출장할 때 그 여비의 지급기준에 관한 사항을 정함을 목적으로 한다.\n제2조 (용어정의 )\n이 규정에서 사용하는 용어의 정의는 아래 각 호와 같다.\n1. “교통비”라 함은 경유지와 종착 지점간의 철도, 항공, 선박, 자동차 등의 운임을 말한다.\n2. “숙박비”라 함은 1박 이상의 출장 시 숙박에 소요되는 비용을 말한다.\n3. “일비”라 함은 출장 중 발생하는 현지교통비 또는 도시권내 교통비 및 이에 따른 부대비용과\n출장중의 통신비 및 제 잡비 등의 모든 경비를 말한다.\n4. “식비”라 함은 출장 중 출장자의 식사 및 음료 비용 등을 말한다.\n5. “업무상 외출”이라 함은 숙박을 요하지 않는 당일 출장을 말한다.\n6. “장기출장 ”이라 함은 1개월을 초과하여 수행하

In [724]:
print(nodes[2].text)

제1장 총 칙
제1조 (목적)
이 규정은 회사의 임.직원 또는 계약에 의해 회사의 업무를 수행하는 자가 회사의 출장명령에 의해
국.내외를 출장할 때 그 여비의 지급기준에 관한 사항을 정함을 목적으로 한다.
제2조 (용어정의 )
이 규정에서 사용하는 용어의 정의는 아래 각 호와 같다.
1. “교통비”라 함은 경유지와 종착 지점간의 철도, 항공, 선박, 자동차 등의 운임을 말한다.
2. “숙박비”라 함은 1박 이상의 출장 시 숙박에 소요되는 비용을 말한다.
3. “일비”라 함은 출장 중 발생하는 현지교통비 또는 도시권내 교통비 및 이에 따른 부대비용과
출장중의 통신비 및 제 잡비 등의 모든 경비를 말한다.
4. “식비”라 함은 출장 중 출장자의 식사 및 음료 비용 등을 말한다.
5. “업무상 외출”이라 함은 숙박을 요하지 않는 당일 출장을 말한다.
6. “장기출장 ”이라 함은 1개월을 초과하여 수행하는 출장을 말한다.
7. “장기체재 ”라 함은 장기출장의 일종으로서 동일장소에서 3개월을 초과하여 수행하는 출장을
말한다.


In [727]:
nodes[0].metadata

{'page_label': 1, 'file_name': '신여비교통비.pdf'}

In [730]:
def get_info(retrieved_node):
    '''
    id, text, score 반환 
    '''
    id = retrieved_node.node.relationships['1'].node_id
    name = retrieved_node.node.relationships['1'].metadata['file_name']
    txt = retrieved_node.node.text 
    score = retrieved_node.score 
    return [id, name, txt, score] 

In [733]:
print(get_info(nodes[0])[2])

제2항 상위 직책을 대리하거나, 동행하는 경우에는 그 직급의 출장 경비를 지급할 수 있다.
제7조 (지급의 제한)
제1항 회사소유 또는 임차한 시설이 있거나 회사가 교통편을 제공하는 경우 이를 이용함을 원칙으로
한다.
제2항 장기체재에 따른 숙소 제공 시에는 숙박비를 지원하지 아니한다.
제3항 장기출장 시에는 야근 식대 및 교통비를 지원하지 아니한다 .


In [753]:
prompt_template = (
    f"""<s>[INST] 질문: {query} \n
    관련 정보: {nodes[2].text} \n 
    관련 정보를 바탕으로 질문에 자연스럽게 답해줘 [/INST] \n"""
)

print(prompt_template)

<s>[INST] 질문: 교통비의 정의 기준은 ? 

    관련 정보: 제1장 총 칙
제1조 (목적)
이 규정은 회사의 임.직원 또는 계약에 의해 회사의 업무를 수행하는 자가 회사의 출장명령에 의해
국.내외를 출장할 때 그 여비의 지급기준에 관한 사항을 정함을 목적으로 한다.
제2조 (용어정의 )
이 규정에서 사용하는 용어의 정의는 아래 각 호와 같다.
1. “교통비”라 함은 경유지와 종착 지점간의 철도, 항공, 선박, 자동차 등의 운임을 말한다.
2. “숙박비”라 함은 1박 이상의 출장 시 숙박에 소요되는 비용을 말한다.
3. “일비”라 함은 출장 중 발생하는 현지교통비 또는 도시권내 교통비 및 이에 따른 부대비용과
출장중의 통신비 및 제 잡비 등의 모든 경비를 말한다.
4. “식비”라 함은 출장 중 출장자의 식사 및 음료 비용 등을 말한다.
5. “업무상 외출”이라 함은 숙박을 요하지 않는 당일 출장을 말한다.
6. “장기출장 ”이라 함은 1개월을 초과하여 수행하는 출장을 말한다.
7. “장기체재 ”라 함은 장기출장의 일종으로서 동일장소에서 3개월을 초과하여 수행하는 출장을
말한다. 
 
    관련 정보를 바탕으로 질문에 자연스럽게 답해줘 [/INST] 



In [737]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel, PeftConfig
from transformers import TextStreamer, GenerationConfig
from llama_index.response_synthesizers import (
    ResponseMode,
    get_response_synthesizer,
)

In [738]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

In [744]:
from transformers import LlamaForCausalLM, LlamaTokenizer, LlamaTokenizerFast, BitsAndBytesConfig

tokenizer = LlamaTokenizerFast.from_pretrained(os.path.join(model_dir, 'tokenizer'))   # LlamaTokenizer (x)  -> LlamaTokenizerFast (o)
model = AutoModelForCausalLM.from_pretrained(model_dir, torch_dtype=torch.float16, low_cpu_mem_usage=True) # , device_map="auto")

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

In [748]:
g_device = torch.device("cuda") if torch.cuda.is_available() else "cpu"
model.to(g_device)

MistralForCausalLM(
  (model): MistralModel(
    (embed_tokens): Embedding(32000, 4096)
    (layers): ModuleList(
      (0-31): 32 x MistralDecoderLayer(
        (self_attn): MistralAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): MistralRotaryEmbedding()
        )
        (mlp): MistralMLP(
          (gate_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): MistralRMSNorm()
        (post_attention_layernorm): MistralRMSNorm()
      )
    )
    (norm): MistralRMSNorm()
  

In [749]:
generation_config = GenerationConfig(
    temperature=0.8,
    do_sample=True,
    top_p=0.95,
    max_new_tokens=512,
)

In [750]:
gened = model.generate(
    **tokenizer(
        prompt_template,
        return_tensors='pt',
        return_token_type_ids=False
    ).to('cuda'),
    generation_config=generation_config,
    pad_token_id=tokenizer.eos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    # streamer=streamer,
)

In [751]:
result_str = tokenizer.decode(gened[0])

start_tag = f"[/INST]"
start_index = result_str.find(start_tag)

if start_index != -1:
    result_str = result_str[start_index + len(start_tag):].strip()

In [752]:
print(result_str)

질문: 교통비의 정의 기준은? 

답변: 
교통비는 경유지와 종착 지점간의 철도, 항공, 선박, 자동차 등의 운임을 말한다. 따라서, 출장 중 이동하는 경로와 수단에 따라 교통비가 지급되는 경우이다.</s>
