In [None]:
# 문자 텍스트 분할(CharacterTextSplitter)
# CharacterTextSplitter
# 이 방법은 가장 간단한 방식입니다.
# 기본적으로 "\n\n" 을 기준으로 문자 단위로 텍스트를 분할하고, 청크의 크기를 문자 수로 측정합니다.
# 텍스트 분할 방식: 단일 문자 기준
# 청크 크기 측정 방식: 문자 수 기준

#%pip install -qU langchain-text-splitters

In [9]:
with open("../data/29.휴일근무자 식대 및 교통비 보조_10.02.01.txt") as f:
    file = f.read()

print(f'*type:{type(file)}')
print(f'*file:\n{file[:300]}\n')

# CharacterTextSplitter를 사용하여 텍스트를 청크(chunk)로 분할하는 코드입니다.
# - separator 매개변수로 분할할 기준을 설정합니다. 기본 값은 "\n\n" 입니다.
# - chunk_size 매개변수를 250 으로 설정하여 각 청크의 최대 크기를 250자로 제한합니다.
# - chunk_overlap 매개변수를 50으로 설정하여 인접한 청크 간에 50자의 중복을 허용합니다.
# - length_function 매개변수를 len으로 설정하여 텍스트의 길이를 계산하는 함수를 지정합니다.
# - is_separator_regex 매개변수를 False로 설정하여 separator를 정규식이 아닌 일반 문자열로 처리합니다.

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    # 텍스트를 분할할 때 사용할 구분자를 지정합니다. 기본값은 "\n\n"입니다.
    # separator=" ",
    # 분할된 텍스트 청크의 최대 크기를 지정합니다.
    chunk_size=200,
    # 분할된 텍스트 청크 간의 중복되는 문자 수를 지정합니다.
    chunk_overlap=50,
    # 텍스트의 길이를 계산하는 함수를 지정합니다.
    length_function=len,
    # 구분자가 정규식인지 여부를 지정합니다.
    is_separator_regex=False,
)

# text_splitter 이용해서 file 텍스트를 문서단위로 출력
# -> separator를 지정하지 않았으므로, 문서에서 기본값 "\n\n" 로 구분해서 나눔.
texts = text_splitter.create_documents([file])
print(f'*문서 분할 수: {len(texts)}')

for text in texts:
    print(text)
    print(f'--' * 20)

# 문서에 메타데이터 추가하는 예시
metadatas = [
    {"문서": "메타데이터 적용된 문서입니다."},
]

documents = text_splitter.create_documents(
    [file], # 분할할 텍스트데이터를 리스트로 전달.
    metadatas=metadatas,
)
print(f'\n\n*메타데이터 적용 문서 분할 수: {len(documents)}')

for document in documents:
    print(document)
    print(f'--' * 20)

# text_splitter를 사용하여 file 텍스트를 분할하고, 분할된 텍스트의 첫 번째 요소를 반환합니다.
texts = text_splitter.split_text(file)

print(f'\n\n*text 분할 수: {len(texts)}')

for text in texts:
    print(text)
    print(f'--' * 20)

Created a chunk of size 284, which is longer than the specified 150
Created a chunk of size 285, which is longer than the specified 150
Created a chunk of size 314, which is longer than the specified 150
Created a chunk of size 284, which is longer than the specified 150
Created a chunk of size 285, which is longer than the specified 150
Created a chunk of size 314, which is longer than the specified 150
Created a chunk of size 284, which is longer than the specified 150
Created a chunk of size 285, which is longer than the specified 150
Created a chunk of size 314, which is longer than the specified 150


*type:<class 'str'>
*file:
주말 근무지원금 및 휴일근무 수당 지원 지침

첫째, 주말근무지원금은 토요일, 일요일에 근무할 경우 50,000원을 지급합니다.
둘째, 휴일근무수당은 공휴일에 근무할 때 통상임금의 시급을 기준으로 근무시간에 1.5배(야간은 2.0배)를 적용하여 지급합니다.
셋째, 대체휴가는 대체휴일, 창립기념일, 임시공휴일에 사용할 수 있으며 1년 이내에 사용해야 합니다.
넷째, 공휴일이 토요일, 일요일과 겹치는 경우에는 주말근무지원금을 적용합니다.
따라서 주말, 공휴일, 대체휴일 등 법정휴일에 근무할 때 수당 또는 대체휴가를 제공하여 근로자를 지

*문서 분할 수: 5
page_content='주말 근무지원금 및 휴일근무 수당 지원 지침'
----------------------------------------
page_content='첫째, 주말근무지원금은 토요일, 일요일에 근무할 경우 50,000원을 지급합니다.\n둘째, 휴일근무수당은 공휴일에 근무할 때 통상임금의 시급을 기준으로 근무시간에 1.5배(야간은 2.0배)를 적용하여 지급합니다.\n셋째, 대체휴가는 대체휴일, 창립기념일, 임시공휴일에 사용할 수 있으며 1년 이내에 사용해야 합니다.\n넷째, 공휴일이 토요일, 일요일과 겹치는 경우에는 주말근무지원금을 적용합니다.\n따라서 주말, 공휴일, 대체휴일 등 법정휴일에 근무할 때 수당 또는 대체휴가를 제공하여 근로자를 지원하는 체계입니다.'
----------------------------------------
page_content='지원 요건\n상기 지원금 지원은 업무시간으로 4시간 이상일 경우에 적용하기로 하다.\n단, 4시간 이내시 상위 결재권자가 인정하는 경우 사유를 명기하여 청구할 수 있다.\n주말 근무 시 저녁식대 및 23시 이후 교통비는 본 지침과는 별도로 지급한다.\n해당 건은 사원부터 팀장까지 적용한다. 단, 임원(이사 이상)인 팀장의 경우 주말/휴일근무 신청 대상에서 제외. \n(실비로 교통비/식대 등