In [2]:
#SemanticChunker
#텍스트를 의미론적 유사성에 기반하여 분할합니다.
#이 방법은 텍스트를 문장 단위로 분할한 후, 3개의 문장씩 그룹화하고, 임베딩 공간에서 유사한 문장들을 병합하는 과정을 거칩니다.

# %pip install -qU langchain_experimental langchain_openai

[0mNote: you may need to restart the kernel to use updated packages.


In [None]:
# 루트경로에 .env 파일을 만들고, OPENAI_API_KEY='{API_KEY}' 식으로 입력한다.
# API 키를 환경변수로 관리하기 위한 .env설정 파일 로딩
import os
from dotenv import load_dotenv

load_dotenv() # API 키 정보 로드
print(f"[API KEY]\n{os.environ['OPENAI_API_KEY']}")

In [3]:
with open("../data/29.휴일근무자 식대 및 교통비 보조_10.02.01.txt") as f:
    file = f.read()

print(f'*type:{type(file)}')
print(f'*file:\n{file[:300]}\n')

from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# OpenAI 임베딩을 사용하여 의미론적 청크 분할기를 초기화합니다.
text_splitter = SemanticChunker(OpenAIEmbeddings())

# text_splitter를 사용하여 file 텍스트를 분할하고, 분할된 텍스트의 첫 번째 요소를 반환합니다.
texts = text_splitter.split_text(file)

print(f'\n\n*text 분할 수: {len(texts)}')

for text in texts:
    print(text)
    print(f'--' * 20)

*type:<class 'str'>
*file:
주말 근무지원금 및 휴일근무 수당 지원 지침

첫째, 주말근무지원금은 토요일, 일요일에 근무할 경우 50,000원을 지급합니다.
둘째, 휴일근무수당은 공휴일에 근무할 때 통상임금의 시급을 기준으로 근무시간에 1.5배(야간은 2.0배)를 적용하여 지급합니다.
셋째, 대체휴가는 대체휴일, 창립기념일, 임시공휴일에 사용할 수 있으며 1년 이내에 사용해야 합니다.
넷째, 공휴일이 토요일, 일요일과 겹치는 경우에는 주말근무지원금을 적용합니다.
따라서 주말, 공휴일, 대체휴일 등 법정휴일에 근무할 때 수당 또는 대체휴가를 제공하여 근로자를 지



*text 분할 수: 2
주말 근무지원금 및 휴일근무 수당 지원 지침

첫째, 주말근무지원금은 토요일, 일요일에 근무할 경우 50,000원을 지급합니다. 둘째, 휴일근무수당은 공휴일에 근무할 때 통상임금의 시급을 기준으로 근무시간에 1.5배(야간은 2.0배)를 적용하여 지급합니다. 셋째, 대체휴가는 대체휴일, 창립기념일, 임시공휴일에 사용할 수 있으며 1년 이내에 사용해야 합니다. 넷째, 공휴일이 토요일, 일요일과 겹치는 경우에는 주말근무지원금을 적용합니다. 따라서 주말, 공휴일, 대체휴일 등 법정휴일에 근무할 때 수당 또는 대체휴가를 제공하여 근로자를 지원하는 체계입니다. 지원 요건
상기 지원금 지원은 업무시간으로 4시간 이상일 경우에 적용하기로 하다.
----------------------------------------
단, 4시간 이내시 상위 결재권자가 인정하는 경우 사유를 명기하여 청구할 수 있다. 주말 근무 시 저녁식대 및 23시 이후 교통비는 본 지침과는 별도로 지급한다. 해당 건은 사원부터 팀장까지 적용한다. 단, 임원(이사 이상)인 팀장의 경우 주말/휴일근무 신청 대상에서 제외. (실비로 교통비/식대 등의 명목으로 개인형 기업카드 사용된 내역(5만원 한도) 은 월간경비 신청 및 인정)
대체휴가의 경우 전임직원 동일하게 적용한다. 지원절차
주말 및 휴일 근무자는 

In [7]:
# 기본적인 분리 방식은 백분위수(Percentile) 를 기반으로 합니다.
# 이 방법에서는 문장 간의 모든 차이를 계산한 다음, 지정한 백분위수를 기준으로 분리합니다.

text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 시맨틱 청커를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 유형을 백분위수로 설정합니다.
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=70,
)

docs = text_splitter.create_documents([file])
for i, doc in enumerate(docs):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)


[Chunk 0]

주말 근무지원금 및 휴일근무 수당 지원 지침

첫째, 주말근무지원금은 토요일, 일요일에 근무할 경우 50,000원을 지급합니다. 둘째, 휴일근무수당은 공휴일에 근무할 때 통상임금의 시급을 기준으로 근무시간에 1.5배(야간은 2.0배)를 적용하여 지급합니다. 셋째, 대체휴가는 대체휴일, 창립기념일, 임시공휴일에 사용할 수 있으며 1년 이내에 사용해야 합니다. 넷째, 공휴일이 토요일, 일요일과 겹치는 경우에는 주말근무지원금을 적용합니다. 따라서 주말, 공휴일, 대체휴일 등 법정휴일에 근무할 때 수당 또는 대체휴가를 제공하여 근로자를 지원하는 체계입니다. 지원 요건
상기 지원금 지원은 업무시간으로 4시간 이상일 경우에 적용하기로 하다.
[Chunk 1]

단, 4시간 이내시 상위 결재권자가 인정하는 경우 사유를 명기하여 청구할 수 있다. 주말 근무 시 저녁식대 및 23시 이후 교통비는 본 지침과는 별도로 지급한다.
[Chunk 2]

해당 건은 사원부터 팀장까지 적용한다.
[Chunk 3]

단, 임원(이사 이상)인 팀장의 경우 주말/휴일근무 신청 대상에서 제외. (실비로 교통비/식대 등의 명목으로 개인형 기업카드 사용된 내역(5만원 한도) 은 월간경비 신청 및 인정)
대체휴가의 경우 전임직원 동일하게 적용한다. 지원절차
주말 및 휴일 근무자는 주말 및 휴일 근무 전 사유를 명기하여 상위 결재권자에게 신청하고, 지원금 및 수당을 청구 한다.
[Chunk 4]

주말 및 휴일 근무자가 다수일 경우 PM 또는 선임자가 근무 인원을 대표해서 일괄적으로 주말 및 휴일 근무 신청을 할 수 있다. (그룹웨어_휴일근무 신청서)
주말 및 휴일 근무 종료 후 그룹웨어_휴일근무 보고서를 작성하여 상위 결재권자에게 보고하여 부서원의 휴일 근무 완료 후, 보고 및 청구된 내용을 첨부하여 경영지원본부로 송부한다. 경영지원본부는 송부된 자료를 근거로 청구일로부터 10일 이내에 회사의 자금 집행일에 지급한다.
[Chunk 5]

결재권자
주말근무지원금 – 사업부장(주말근무

In [8]:
# Standard Deviation
# 이 방법에서는 지정한 breakpoint_threshold_amount 표준편차보다 큰 차이가 있는 경우 분할됩니다.
# breakpoint_threshold_type 매개변수를 "standard_deviation"으로 설정하여 청크 분할 기준을 표준편차 기반으로 지정합니다.

text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 시맨틱 청커를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준으로 표준 편차를 사용합니다.
    breakpoint_threshold_type="standard_deviation",
    breakpoint_threshold_amount=1.25,
)

docs = text_splitter.create_documents([file])
for i, doc in enumerate(docs):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)

[Chunk 0]

주말 근무지원금 및 휴일근무 수당 지원 지침

첫째, 주말근무지원금은 토요일, 일요일에 근무할 경우 50,000원을 지급합니다. 둘째, 휴일근무수당은 공휴일에 근무할 때 통상임금의 시급을 기준으로 근무시간에 1.5배(야간은 2.0배)를 적용하여 지급합니다. 셋째, 대체휴가는 대체휴일, 창립기념일, 임시공휴일에 사용할 수 있으며 1년 이내에 사용해야 합니다. 넷째, 공휴일이 토요일, 일요일과 겹치는 경우에는 주말근무지원금을 적용합니다. 따라서 주말, 공휴일, 대체휴일 등 법정휴일에 근무할 때 수당 또는 대체휴가를 제공하여 근로자를 지원하는 체계입니다. 지원 요건
상기 지원금 지원은 업무시간으로 4시간 이상일 경우에 적용하기로 하다.
[Chunk 1]

단, 4시간 이내시 상위 결재권자가 인정하는 경우 사유를 명기하여 청구할 수 있다. 주말 근무 시 저녁식대 및 23시 이후 교통비는 본 지침과는 별도로 지급한다. 해당 건은 사원부터 팀장까지 적용한다.
[Chunk 2]

단, 임원(이사 이상)인 팀장의 경우 주말/휴일근무 신청 대상에서 제외. (실비로 교통비/식대 등의 명목으로 개인형 기업카드 사용된 내역(5만원 한도) 은 월간경비 신청 및 인정)
대체휴가의 경우 전임직원 동일하게 적용한다. 지원절차
주말 및 휴일 근무자는 주말 및 휴일 근무 전 사유를 명기하여 상위 결재권자에게 신청하고, 지원금 및 수당을 청구 한다. 주말 및 휴일 근무자가 다수일 경우 PM 또는 선임자가 근무 인원을 대표해서 일괄적으로 주말 및 휴일 근무 신청을 할 수 있다. (그룹웨어_휴일근무 신청서)
주말 및 휴일 근무 종료 후 그룹웨어_휴일근무 보고서를 작성하여 상위 결재권자에게 보고하여 부서원의 휴일 근무 완료 후, 보고 및 청구된 내용을 첨부하여 경영지원본부로 송부한다. 경영지원본부는 송부된 자료를 근거로 청구일로부터 10일 이내에 회사의 자금 집행일에 지급한다. 결재권자
주말근무지원금 – 사업부장(주말근무신청서, 주말근무완료보고서)
휴일근무수당 – 본부장(휴일근무

In [9]:
# Interquartile
# 이 방법에서는 사분위수 범위(interquartile range)를 사용하여 청크를 분할합니다.
# breakpoint_threshold_type 매개변수를 "interquartile"로 설정하여 청크 분할 기준을 사분위수 범위로 지정합니다.

text_splitter = SemanticChunker(
    # OpenAI의 임베딩 모델을 사용하여 의미론적 청크 분할기를 초기화합니다.
    OpenAIEmbeddings(),
    # 분할 기준점 임계값 유형을 사분위수 범위로 설정합니다.
    breakpoint_threshold_type="interquartile",
    breakpoint_threshold_amount=0.5,
)

# text_splitter를 사용하여 분할합니다.
docs = text_splitter.create_documents([file])

# 결과를 출력합니다.
for i, doc in enumerate(docs):
    print(f"[Chunk {i}]", end="\n\n")
    print(doc.page_content)  # 분할된 문서 중 첫 번째 문서의 내용을 출력합니다.
    print("===" * 20)


[Chunk 0]

주말 근무지원금 및 휴일근무 수당 지원 지침

첫째, 주말근무지원금은 토요일, 일요일에 근무할 경우 50,000원을 지급합니다. 둘째, 휴일근무수당은 공휴일에 근무할 때 통상임금의 시급을 기준으로 근무시간에 1.5배(야간은 2.0배)를 적용하여 지급합니다. 셋째, 대체휴가는 대체휴일, 창립기념일, 임시공휴일에 사용할 수 있으며 1년 이내에 사용해야 합니다. 넷째, 공휴일이 토요일, 일요일과 겹치는 경우에는 주말근무지원금을 적용합니다. 따라서 주말, 공휴일, 대체휴일 등 법정휴일에 근무할 때 수당 또는 대체휴가를 제공하여 근로자를 지원하는 체계입니다. 지원 요건
상기 지원금 지원은 업무시간으로 4시간 이상일 경우에 적용하기로 하다.
[Chunk 1]

단, 4시간 이내시 상위 결재권자가 인정하는 경우 사유를 명기하여 청구할 수 있다. 주말 근무 시 저녁식대 및 23시 이후 교통비는 본 지침과는 별도로 지급한다. 해당 건은 사원부터 팀장까지 적용한다.
[Chunk 2]

단, 임원(이사 이상)인 팀장의 경우 주말/휴일근무 신청 대상에서 제외. (실비로 교통비/식대 등의 명목으로 개인형 기업카드 사용된 내역(5만원 한도) 은 월간경비 신청 및 인정)
대체휴가의 경우 전임직원 동일하게 적용한다. 지원절차
주말 및 휴일 근무자는 주말 및 휴일 근무 전 사유를 명기하여 상위 결재권자에게 신청하고, 지원금 및 수당을 청구 한다.
[Chunk 3]

주말 및 휴일 근무자가 다수일 경우 PM 또는 선임자가 근무 인원을 대표해서 일괄적으로 주말 및 휴일 근무 신청을 할 수 있다. (그룹웨어_휴일근무 신청서)
주말 및 휴일 근무 종료 후 그룹웨어_휴일근무 보고서를 작성하여 상위 결재권자에게 보고하여 부서원의 휴일 근무 완료 후, 보고 및 청구된 내용을 첨부하여 경영지원본부로 송부한다. 경영지원본부는 송부된 자료를 근거로 청구일로부터 10일 이내에 회사의 자금 집행일에 지급한다.
[Chunk 4]

결재권자
주말근무지원금 – 사업부장(주말근무신청서, 주말근무완료