# RecursiveCharacterTextSplitter, CharacterTextSplitter, TokenTextSplitter 비교

## RecursiveCharacterTextSplitter

### 특징
- 텍스트를 재귀적으로 분할하여 의미적으로 관련 있는 텍스트 조각들을 유지[1]
- 여러 구분자를 순차적으로 적용하여 텍스트 분할[1]
- 기본 구분자 목록: `["\n\n", "\n", " ", ""]`[1]
- 지정된 `chunk_size`보다 작아질 때까지 재귀적으로 분할[1]

### 장점
- 문맥을 최대한 유지하면서 텍스트를 효율적으로 분할[3]
- 복잡한 텍스트 구조에 적합[3]
- 긴 텍스트를 다룰 때 유용[3]

## CharacterTextSplitter

### 특징
- 단일 구분자를 사용하여 텍스트를 분할[1]
- 기본 구분자: `"\n\n"`[1]
- 단순하고 직관적인 분할 방식[1]

### 장점
- 간단한 작업에 적합[3]
- 빠르고 직관적인 분할이 필요할 때 유용[3]

### 단점
- 의미 단위 보존이 RecursiveCharacterTextSplitter에 비해 떨어질 수 있음[1]

## TokenTextSplitter

### 특징
- 토큰 단위로 텍스트를 분할[4]
- 언어 모델의 토큰화 방식에 따라 텍스트를 나눔[5]

### 장점
- 모델의 최대 토큰 길이에 맞춰 텍스트를 분할할 때 유용[5]
- 언어 모델의 처리 단위와 일치하는 분할 가능[4]

## 비교 요약

| 특성 | RecursiveCharacterTextSplitter | CharacterTextSplitter | TokenTextSplitter |
|------|--------------------------------|----------------------|-------------------|
| 분할 방식 | 재귀적, 여러 구분자 사용 | 단일 구분자 사용 | 토큰 단위 분할 |
| 문맥 보존 | 높음 | 중간 | 중간 |
| 복잡성 | 높음 | 낮음 | 중간 |
| 적합한 사용 사례 | 긴 텍스트, 복잡한 구조 | 간단한 텍스트, 빠른 처리 필요 | 토큰 기반 모델 사용 시 |

## 결론

- **RecursiveCharacterTextSplitter**는 문맥 보존과 복잡한 텍스트 처리에 가장 적합합니다[1][3].
- **CharacterTextSplitter**는 간단하고 빠른 분할이 필요할 때 유용합니다[1][3].
- **TokenTextSplitter**는 특정 언어 모델의 토큰 제한에 맞춰 텍스트를 분할해야 할 때 효과적입니다[4][5].

선택 시 텍스트의 복잡성, 처리 속도 요구사항, 사용할 언어 모델의 특성을 고려하여 적절한 분할기를 선택해야 합니다.

Citations:
[1] https://wikidocs.net/231569
[2] https://www.restack.io/p/text-chunking-answer-recursivecharactertextsplitter-vs-charactertextsplitter-cat-ai
[3] https://rudaks.tistory.com/entry/langchain-CharacterTextSplitter%E1%84%8B%E1%85%AA-RecursiveCharacterTextSplitter%E1%84%8B%E1%85%B4-%E1%84%8E%E1%85%A1%E1%84%8B%E1%85%B5
[4] https://wikidocs.net/234002
[5] https://mobicon.tistory.com/611
[6] https://dev.to/eteimz/understanding-langchains-recursivecharactertextsplitter-2846

In [1]:
#랭체인에서 Splitter 유형

In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
chunk_size =20
chunk_overlap = 5

r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)
c_splitter = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [3]:
# Recursive Splitter
text1 = '청킹을 위한 예제 데이터입니다. 어떻게 쪼개지는지 알아볼까요?'
r_splitter.split_text(text1)

['청킹을 위한 예제 데이터입니다.', '어떻게 쪼개지는지 알아볼까요?']

In [4]:
# Character Splitter
text2 = '청킹을 위한 예제 데이터입니다. 어떻게 쪼개지는지 알아볼까요? 결과를 확인해봅시다.'
r_splitter.split_text(text2)


['청킹을 위한 예제 데이터입니다.', '어떻게 쪼개지는지 알아볼까요?', '결과를 확인해봅시다.']

In [5]:
# Recursive Splitter
text1 = '청킹을 위한 예제 데이터입니다. 어떻게 쪼개지는지 알아볼까요?'
c_splitter.split_text(text1)


['청킹을 위한 예제 데이터입니다. 어떻게 쪼개지는지 알아볼까요?']

In [6]:
# Character Splitter
text2 = '청킹을 위한 예제 데이터입니다. 어떻게 쪼개지는지 알아볼까요? 결과를 확인해봅시다.'
c_splitter.split_text(text2)


['청킹을 위한 예제 데이터입니다. 어떻게 쪼개지는지 알아볼까요? 결과를 확인해봅시다.']

In [7]:
some_text = """When writing documents, writers will use document structure to group content. \
This can convey to the reader, which idea's are related. For example, closely related ideas \
are in sentances. Similar ideas are in paragraphs. Paragraphs form a document. \n\n  \
Paragraphs are often delimited with a carriage return or two carriage returns. \
Carriage returns are the "backslash n" you see embedded in this string. \
Sentences have a period at the end, but also, have a space.\
and words are separated by space."""

## 문단이 바뀌는 두줄 띄기(/n/n)로 잘 나누는 지 확인


In [8]:
#한줄 띄우기, 두줄 띄우기 예시
print('오늘도')
print('\n어김없이')
print('\n\nLLM을')
print('\학습한다')

오늘도

어김없이


LLM을
\학습한다


In [9]:
some_text = """When writing documents, writers will use document structure to group content. \
This can convey to the reader, which idea's are related. For example, closely related ideas \
are in sentances. Similar ideas are in paragraphs. Paragraphs form a document. \n\n  \
Paragraphs are often delimited with a carriage return or two carriage returns. \
Carriage returns are the "backslash n" you see embedded in this string. \
Sentences have a period at the end, but also, have a space.\
and words are separated by space."""

## 문단이 바뀌는 두줄 띄기(/n/n)로 잘 나누는 지 확인

In [25]:
c_splitter = CharacterTextSplitter(
    chunk_size=450,
    chunk_overlap=0,
    separator = ' '
)
c_text = c_splitter.split_text(some_text)

In [26]:
len(c_text) #2개로 나눔


2

In [27]:
print(len(c_text[0])) #chunk_size(450ea)로 나뉨
print(len(c_text[1]))

448
46


In [28]:
print(c_text[0]) # also,로 나뉨

When writing documents, writers will use document structure to group content. This can convey to the reader, which idea's are related. For example, closely related ideas are in sentances. Similar ideas are in paragraphs. Paragraphs form a document. 

 Paragraphs are often delimited with a carriage return or two carriage returns. Carriage returns are the "backslash n" you see embedded in this string. Sentences have a period at the end, but also,


In [29]:
print(c_text[1])

have a space.and words are separated by space.


In [21]:
some_text = """When writing documents, writers will use document structure to group content. \
This can convey to the reader, which idea's are related. For example, closely related ideas \
are in sentances. Similar ideas are in paragraphs. Paragraphs form a document. \n\n  \
Paragraphs are often delimited with a carriage return or two carriage returns. \
Carriage returns are the "backslash n" you see embedded in this string. \
Sentences have a period at the end, but also, have a space.\
and words are separated by space."""

In [None]:
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=450,
    chunk_overlap=0, 
    separators=["\n\n", "\n", " ", ""]
)
r_text = r_splitter.split_text(some_text)
# 하이퍼 파라미터 separators로 chunk의 우선 순위를 지정할 수 있다. 
# 1순위) '\n\n' 2)순위 '\n' ...

In [31]:
len(r_text) #2개로 나눔

2

In [34]:
print(len(r_text[0])) #chunk_size setting(450ea)가 아닌 248,243ea로 나눔
print(len(r_text[1]))

248
243


In [35]:
print(r_text[0]) #'\n\n 전/후로 나뉨

When writing documents, writers will use document structure to group content. This can convey to the reader, which idea's are related. For example, closely related ideas are in sentances. Similar ideas are in paragraphs. Paragraphs form a document.


In [36]:
print(r_text[1]) #'\n\n 전/후로 나뉨

Paragraphs are often delimited with a carriage return or two carriage returns. Carriage returns are the "backslash n" you see embedded in this string. Sentences have a period at the end, but also, have a space.and words are separated by space.


In [37]:
#RecursiveCharacterTextSplitter의 경우, 
#가장 먼저 \n\n으로 표시된 2줄 띄어쓰기 부분을 먼저 나누고, 이때 문장 역시 공백을 기준으로 나뉜 것을 확인할 수 있다
#이후 한줄에 표시된 문장을 청크로 분리한다. 
#마지막으로 Character로 분리하기 때문에 더 세밀하게 chunking이 된다

In [40]:
#TokenTextSplitter 예시
#Token 단위로 나누고 Token은 글자나 단어 단위가 아닌 것을 알 수 있다.

In [41]:
from langchain.text_splitter import TokenTextSplitter

text_splitter = TokenTextSplitter(chunk_size=1, chunk_overlap=0)

text1 = "Border collies are very intelligent, capable of learning well, and have a lot of energy, so they need a lot of exercise. They have strong herding instincts and can easily learn a variety of tricks and commands."
text_splitter.split_text(text1)

['Border',
 ' coll',
 'ies',
 ' are',
 ' very',
 ' intelligent',
 ',',
 ' capable',
 ' of',
 ' learning',
 ' well',
 ',',
 ' and',
 ' have',
 ' a',
 ' lot',
 ' of',
 ' energy',
 ',',
 ' so',
 ' they',
 ' need',
 ' a',
 ' lot',
 ' of',
 ' exercise',
 '.',
 ' They',
 ' have',
 ' strong',
 ' her',
 'ding',
 ' instincts',
 ' and',
 ' can',
 ' easily',
 ' learn',
 ' a',
 ' variety',
 ' of',
 ' tricks',
 ' and',
 ' commands',
 '.']