# RecursiveCharacterTextSplitter

이 텍스트 분할기는 일반적인 텍스트에 권장되는 방식입니다.

이 분할기는 문자 목록을 매개변수로 받아 동작합니다.

분할기는 청크가 충분히 작아질 때까지 주어진 문자 목록의 순서대로 텍스트를 분할하려고 시도합니다.

기본 문자 목록은 `["\n\n", "\n", " ", ""]`입니다.

- **단락** -> **문장** -> **단어** 순서로 재귀적으로 분할합니다.

이는 단락(그 다음으로 문장, 단어) 단위가 의미적으로 가장 강하게 연관된 텍스트 조각으로 간주되므로, 가능한 한 함께 유지하려는 효과가 있습니다.

1. 텍스트가 분할되는 방식: 문자 목록(`["\n\n", "\n", " ", ""]`) 에 의해 분할됩니다.

2. 청크 크기가 측정되는 방식: 문자 수에 의해 측정됩니다.


- `2025_사우회선출.txt` 파일을 열어 내용을 읽어들입니다.
- 읽어들인 내용을 `file` 변수에 저장합니다.


In [1]:
# appendix-keywords.txt 파일을 열어서 f라는 파일 객체를 생성합니다.
with open("./data/2025_사우회선출.txt") as f:
    file = f.read()  # 파일의 내용을 읽어서 file 변수에 저장합니다.

파일로부터 읽은 파일의 일부 내용을 출력합니다.


In [2]:
# 파일으로부터 읽은 내용을 일부 출력합니다.
print(file[:100])

안녕하세요, 2024년 사우회입니다.
어느덧 2024년이 마무리되어 가는 이 시점에 2025년 사우회를 이끌어주실 분에 대한 투표를 진행하겠습니다.
모두 한 분 한 분의 소중한 한


In [3]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

`RecursiveCharacterTextSplitter`를 사용하여 텍스트를 작은 청크로 분할하는 예제입니다.

- `chunk_size`를 100 으로 설정하여 각 청크의 크기를 제한합니다.
- `chunk_overlap`을 0 으로 설정하여 청크간의 중첩을 허용하지 않습니다.
- `length_function`으로 `len` 함수를 사용하여 텍스트의 길이를 계산합니다.
- `is_separator_regex`를 `False`로 설정하여 구분자로 정규식을 사용하지 않습니다.


In [4]:
text_splitter = RecursiveCharacterTextSplitter(
    # 청크 크기를 매우 작게 설정합니다. 예시를 위한 설정입니다.
    chunk_size=100,
    # 청크 간의 중복되는 문자 수를 설정합니다.
    chunk_overlap=0,
    # 문자열 길이를 계산하는 함수를 지정합니다.
    length_function=len,
    # 구분자로 정규식을 사용할지 여부를 설정합니다.
    is_separator_regex=False,
)

- `text_splitter`를 사용하여 `file` 텍스트를 문서 단위로 분할합니다.
- 분할된 문서는 `texts` 리스트에 저장됩니다.
- `print(texts[0])`과 `print(texts[1])`을 통해 분할된 문서의 첫 번째와 두 번째 문서를 출력합니다.


In [5]:
# 텍스트를 청크로 분할합니다.
texts = text_splitter.create_documents([file])

for text in texts:
    print(f"----- len: {len(text.page_content)} -----")
    print(f"{text.page_content}")

# print(len(texts[0].page_content))  # 분할된 문서의 개수를 출력합니다.
# print(texts[0])  # 분할된 문서 중 첫 번째 문서를 출력합니다.

----- len: 82 -----
안녕하세요, 2024년 사우회입니다.
어느덧 2024년이 마무리되어 가는 이 시점에 2025년 사우회를 이끌어주실 분에 대한 투표를 진행하겠습니다.
----- len: 36 -----
모두 한 분 한 분의 소중한 한 표를 꼭 행사해 주시기 바랍니다!
----- len: 57 -----
투표 방식: 무기명 온라인 1인 1투표
투표 기간: 2024년 12월 23일(월)까지 (1주일간 진행)
----- len: 42 -----
투표 링크: https://forms.gle/ooDQvUP4SzJRaUoS6
----- len: 94 -----
[노사 협의회 구성원 및 선출 공고 사항]
노사 협의회 구성원 중 근로자 대표는 노사 협의회장을 겸하며, 노사 간 중요 의사결정 과정에서 합의의 주체가 될 수 있습니다.
----- len: 97 -----
다만, 제반 제도와 관련된 안내 및 직원 커뮤니케이션 등의 업무는 여전히 인사팀에서 진행할 예정이오니, 근로자 대표로 선출된 직원분께서는 큰 부담 없이 선출 결과를 받아주시면
----- len: 8 -----
감사하겠습니다.
----- len: 31 -----
2025년 근로자(대표) 위원
사우회장 1명, 총무 1명
----- len: 67 -----
사용자 위원과 근로자 위원이 원활한 의사소통을 통해 상호 간의 이해와 협조를 증진함으로써 노사 공동의 이익을 구현합니다.
----- len: 48 -----
근로자 대표 (회사발전위원회)
근로기준법상 각종 제도에 대해 사측과 합의를 진행합니다.
----- len: 51 -----
기존 사우회 및 회사발전위원회 위원장 선출 방식과 동일하게 근로자 투표 방식으로 진행됩니다.
----- len: 95 -----
단, 근로자 대표는 직원 과반수 이상의 동의를 얻어야 하므로, 선출된 후보자는 최다 추천을 받은 1인에 대해 근로자대표선임서를 통해 과반수 이상의 직원 서명 날인을 받아야
----- len: 14 -----
합니다. (오프라인 서명)
----- 

![recursive-character.jpeg](./data/recursive-character.jpeg)

`text_splitter.split_text()` 함수를 사용하여 `file` 텍스트를 분할합니다.


In [None]:
# 텍스트를 분할하고 분할된 텍스트의 처음 2개 요소를 반환합니다.
text_splitter.split_text(file)[:2]