In [2]:
# 재귀적 문자 텍스트 분할(RecursiveCharacterTextSplitter)
#
# 이 텍스트 분할기는 일반적인 텍스트에 권장되는 방식입니다.
# 이 분할기는 문자 목록을 매개변수로 받아 동작합니다.
# 분할기는 청크가 충분히 작아질 때까지 주어진 문자 목록의 순서대로 텍스트를 분할하려고 시도합니다.
# 기본 문자 목록은 ["\n\n", "\n", " ", ""]입니다.
# 단락 -> 문장 -> 단어 순서로 재귀적으로 분할합니다.
# 이는 단락(그 다음으로 문장, 단어) 단위가 의미적으로 가장 강하게 연관된 텍스트 조각으로 간주되므로, 가능한 한 함께 유지하려는 효과가 있습니다.
# 텍스트가 분할되는 방식: 문자 목록(["\n\n", "\n", " ", ""]) 에 의해 분할됩니다.
# 청크 크기가 측정되는 방식: 문자 수에 의해 측정됩니다.

#%pip install -qU langchain-text-splitters

[0mNote: you may need to restart the kernel to use updated packages.


In [3]:
with open("../data/04.급여규정_16.06.01.txt") as f:
    file = f.read()

print(f'*type:{type(file)}')
print(f'*file:\n{file[:300]}\n')

#RecursiveCharacterTextSplitter를 사용하여 텍스트를 작은 청크로 분할하는 예제입니다.
# - chunk_size를 250 으로 설정하여 각 청크의 크기를 제한합니다.
# - chunk_overlap을 50 으로 설정하여 인접한 청크 간에 50 개 문자의 중첩을 허용합니다.
# - length_function으로 len 함수를 사용하여 텍스트의 길이를 계산합니다.
# - is_separator_regex를 False로 설정하여 구분자로 정규식을 사용하지 않습니다.

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    # 청크 크기를 매우 작게 설정합니다. 예시를 위한 설정입니다.
    chunk_size=250,
    # 청크 간의 중복되는 문자 수를 설정합니다.
    chunk_overlap=50,
    # 문자열 길이를 계산하는 함수를 지정합니다.
    length_function=len,
    # 구분자로 정규식을 사용할지 여부를 설정합니다.
    is_separator_regex=False,
)

# text_splitter 이용해서 file 텍스트를 문서단위로 출력
# -> separator를 지정하지 않았으므로, 문서에서 기본값 "\n\n" 로 구분해서 나눔.
texts = text_splitter.create_documents([file])
print(f'*문서 분할 수: {len(texts)}')

for text in texts:
    print(text)
    print(f'--' * 20)

# 문서에 메타데이터 추가하는 예시
metadatas = [
    {"문서": "메타데이터 적용된 문서입니다."},
]

documents = text_splitter.create_documents(
    [file], # 분할할 텍스트데이터를 리스트로 전달.
    metadatas=metadatas,
)
print(f'\n\n*메타데이터 적용 문서 분할 수: {len(documents)}')

for document in documents:
    print(document)
    print(f'--' * 20)

# text_splitter를 사용하여 file 텍스트를 분할하고, 분할된 텍스트의 첫 번째 요소를 반환합니다.
texts = text_splitter.split_text(file)

print(f'\n\n*text 분할 수: {len(texts)}')

for text in texts:
    print(text)
    print(f'--' * 20)

*type:<class 'str'>
*file:
급여규정
1. 목적
이 규정은 주식회사 모코엠시스에 근무하는 직원의 급여에 관한 제반사항을 정하여 합리적인 급여관리를 실행함을 목적으로 한다.
2. 적용범위
직원의 급여는 관계법령, 기타 별도로 정한 것을 제외하고는 이 규정이 정하는 바에 따른다.
3. 급여의 구성
3.1 급여는 기본급, 제수당, 상여금, 퇴직금으로 구분한다.
3.2 일반적으로 월급여라 함은 기본급과 제수당을 합한 금액을 말한다.
4. 급여조정
급여의 인상은 년 1회 1월 1일부로 실시함을 원칙으로 한다.
5. 계산과 지급
5.1 계산기간
급여계산기간은 매월 1일부

*문서 분할 수: 17
page_content='급여규정\n1. 목적\n이 규정은 주식회사 모코엠시스에 근무하는 직원의 급여에 관한 제반사항을 정하여 합리적인 급여관리를 실행함을 목적으로 한다.\n2. 적용범위\n직원의 급여는 관계법령, 기타 별도로 정한 것을 제외하고는 이 규정이 정하는 바에 따른다.\n3. 급여의 구성\n3.1 급여는 기본급, 제수당, 상여금, 퇴직금으로 구분한다.\n3.2 일반적으로 월급여라 함은 기본급과 제수당을 합한 금액을 말한다.\n4. 급여조정'
----------------------------------------
page_content='3.2 일반적으로 월급여라 함은 기본급과 제수당을 합한 금액을 말한다.\n4. 급여조정\n급여의 인상은 년 1회 1월 1일부로 실시함을 원칙으로 한다.\n5. 계산과 지급\n5.1 계산기간\n급여계산기간은 매월 1일부터 당월 말일까지로 한다.\n5.2 일할계산\n5.2.1 급여의 변경이 있는 월의 급여는 일할계산한다.\n5.2.2 일할계산은 월의 대소에 관계없이 월급여의 1/30로 한다.\n5.3 일할일수'
----------------------------------------
page_content='5.2.2 일할계산은 월의 대소에 관계없이 월급여의 1/30로 한다.\n5.3 일할일수\n일할계산에 있어 그 일할