# CharacterTextSplitter

이 방법은 가장 간단한 방식입니다.

기본적으로 `"\n\n"` 을 기준으로 문자 단위로 텍스트를 분할하고, 청크의 크기를 문자 수로 측정합니다.

1. 텍스트 분할 방식: 단일 문자 기준
2. 청크 크기 측정 방식: 문자 수 기준


- `./data/2025_사우회선출.txt` 파일을 열어 내용을 읽어들입니다.
- 읽어들인 내용을 `file` 변수에 저장합니다.


In [1]:
with open("./data/2025_사우회선출.txt") as f:
    file = f.read()  # 파일의 내용을 읽어서 file 변수에 저장합니다.

파일로부터 읽은 파일의 일부 내용을 출력합니다.


In [2]:
# 파일으로부터 읽은 내용을 일부 출력합니다.
print(file[:100])

안녕하세요, 2024년 사우회입니다.
어느덧 2024년이 마무리되어 가는 이 시점에 2025년 사우회를 이끌어주실 분에 대한 투표를 진행하겠습니다.
모두 한 분 한 분의 소중한 한


# CharacterTextSplitter를 사용하여 분할

CharacterTextSplitter를 사용하여 텍스트를 청크(chunk)로 분할하는 코드에 대해 설명합니다.

- `separator`: 분할할 기준을 설정합니다. 기본값은 `"\n\n"`입니다.
- `chunk_size`: 각 청크의 최대 크기를 설정합니다. 예: 250자
- `chunk_overlap`: 인접한 청크 간 중복을 허용합니다. 예: 50자
- `length_function`: 텍스트의 길이를 계산하는 함수를 지정합니다. 예: `len`

In [3]:
from langchain_text_splitters import CharacterTextSplitter

# CharacterTextSplitter를 사용하여 텍스트를 청크(chunk)로 분할하는 코드
text_splitter = CharacterTextSplitter(
    # 텍스트를 분할할 때 사용할 구분자를 지정합니다. 기본값은 "\n\n"입니다.
    separator="\n\n",
    # 분할된 텍스트 청크의 최대 크기를 지정합니다 (문자 수).
    chunk_size=100,
    # 분할된 텍스트 청크 간의 중복되는 문자 수를 지정합니다.
    chunk_overlap=0,
    # 텍스트의 길이를 계산하는 함수를 지정합니다.
    length_function=len,
)

- `text_splitter`를 사용하여 `file` 텍스트를 문서 단위로 분할합니다.
- 분할된 문서 리스트 중 첫 번째 문서(`texts[0]`)를 출력합니다.


In [4]:
# 텍스트를 청크로 분할합니다.
texts = text_splitter.create_documents([file])

for text in texts:
    print(f"----- len: {len(text.page_content)} -----")
    print(f"{text.page_content}")
    
# print(len(texts[0].page_content))  # 분할된 문서의 개수를 출력합니다.
# print(texts[0])  # 분할된 문서 중 첫 번째 문서를 출력합니다.

Created a chunk of size 119, which is longer than the specified 100
Created a chunk of size 201, which is longer than the specified 100
Created a chunk of size 220, which is longer than the specified 100


----- len: 119 -----
안녕하세요, 2024년 사우회입니다.
어느덧 2024년이 마무리되어 가는 이 시점에 2025년 사우회를 이끌어주실 분에 대한 투표를 진행하겠습니다.
모두 한 분 한 분의 소중한 한 표를 꼭 행사해 주시기 바랍니다!
----- len: 100 -----
투표 방식: 무기명 온라인 1인 1투표
투표 기간: 2024년 12월 23일(월)까지 (1주일간 진행)
투표 링크: https://forms.gle/ooDQvUP4SzJRaUoS6
----- len: 201 -----
[노사 협의회 구성원 및 선출 공고 사항]
노사 협의회 구성원 중 근로자 대표는 노사 협의회장을 겸하며, 노사 간 중요 의사결정 과정에서 합의의 주체가 될 수 있습니다.
다만, 제반 제도와 관련된 안내 및 직원 커뮤니케이션 등의 업무는 여전히 인사팀에서 진행할 예정이오니, 근로자 대표로 선출된 직원분께서는 큰 부담 없이 선출 결과를 받아주시면 감사하겠습니다.
----- len: 99 -----
2025년 근로자(대표) 위원
사우회장 1명, 총무 1명
사용자 위원과 근로자 위원이 원활한 의사소통을 통해 상호 간의 이해와 협조를 증진함으로써 노사 공동의 이익을 구현합니다.
----- len: 220 -----
근로자 대표 (회사발전위원회)
근로기준법상 각종 제도에 대해 사측과 합의를 진행합니다.
기존 사우회 및 회사발전위원회 위원장 선출 방식과 동일하게 근로자 투표 방식으로 진행됩니다.
단, 근로자 대표는 직원 과반수 이상의 동의를 얻어야 하므로, 선출된 후보자는 최다 추천을 받은 1인에 대해 근로자대표선임서를 통해 과반수 이상의 직원 서명 날인을 받아야 합니다. (오프라인 서명)
후보 선출 기준
----- len: 65 -----
근로자 대표 후보 (회사발전위원회)
선출 기준: 역임자를 제외한 스펙트라 근속 10~15년 차 사우를 대상으로 선출.
----- len: 85 -----
사우회장 후보
선출 기준: 역임자를 제외한 스펙트라 근속 5~9년 차 사우를 대상으

![character.jpeg](./data/character.jpeg)

다음은 문서와 함께 메타데이터를 전달하는 예시입니다.

메타데이터가 문서와 함께 분할되는 점에 주목해 주세요.


- `create_documents` 메서드는 텍스트 데이터와 메타데이터 리스트를 인자로 받습니다.


In [None]:
metadatas = [
    {"document": 1},
    {"document": 2},
]  # 문서에 대한 메타데이터 리스트를 정의합니다.
documents = text_splitter.create_documents(
    [
        file,
        file,
    ],  # 분할할 텍스트 데이터를 리스트로 전달합니다.
    metadatas=metadatas,  # 각 문서에 해당하는 메타데이터를 전달합니다.
)
print(len(documents))  # 분할된 문서 중 첫 번째 문서를 출력합니다.
print(documents[0])  # 분할된 문서 중 첫 번째 문서를 출력합니다.

In [None]:
len(documents)

In [None]:
documents[1].metadata

`split_text()` 메서드를 사용하여 텍스트를 분할합니다.

- `text_splitter.split_text(file)[0]`은 `file` 텍스트를 `text_splitter`를 사용하여 분할한 후, 분할된 텍스트 조각 중 첫 번째 요소를 반환합니다.


In [None]:
# text_splitter를 사용하여 file 텍스트를 분할하고, 분할된 텍스트의 첫 번째 요소를 반환합니다.
text_splitter.split_text(file)[0]