# 2-3. RAG - Text Splitter

https://wikidocs.net/231430

ml_langchain 커널 사용


## 2-3-1. CharacterTextSplitter


In [1]:
from langchain_community.document_loaders import TextLoader

In [3]:
loader = TextLoader('history.txt')
data = loader.load()

print(len(data[0].page_content))
data[0].page_content[:100]

1236


'\n한국의 역사는 수천 년에 걸쳐 이어져 온 긴 여정 속에서 다양한 문화와 전통이 형성되고 발전해 왔습니다. 고조선에서 시작해 삼국 시대의 경쟁, 그리고 통일 신라와 고려를 거쳐 조'

### 1. 문서를 개별 문자를 단위로 나누기 (separator="")


In [11]:
from langchain_text_splitters import CharacterTextSplitter
'''
파이썬의 split() 함수와 유사.

separator: 분할된 각 청크를 구분할 때 기준이 되는 문자열. 빈 문자열('')이면 각 글자를 기준으로 분할한다.
chunk_size: 각 청크의 최대 길이. 여기서는 500 으로 설정. 최대 500자까지의 텍스트가 하나의 청크에 포함.
chunk_overlap: 인접한 청크 사이에 중복으로 포함될 문자의 수입니다. 여기서는 100 으로 설정.
length_function: 청크의 길이를 계산하는 함수. len 함수를 사용. 즉, 문자열의 길이를 기반으로 청크의 길이를 계산.
'''

# 각 문자를 구분하여 분할
text_splitter = CharacterTextSplitter(
    separator = '',
    chunk_size = 500,
    chunk_overlap  = 100,
    length_function = len,
)
# 스플리터를 생성할 때 부터, 어떻게 분할 할 것인지가 고정되어 버린다?


In [None]:
# split_text()

texts = text_splitter.split_text(data[0].page_content)

print(len(texts))
# 3

print(list(map(len, texts)))
# [499, 499, 435]
# 왜 정확히 100 글자가 아니라 499 글자로 나누는가?

3
[499, 499, 435]


### 2. 문서를 특정 문자열을 기준으로 나누기 (separator="문자열")


In [None]:
# 줄바꿈 문자를 기준으로 분할

text_splitter = CharacterTextSplitter(
    separator = '\n',
    chunk_size = 500,
    chunk_overlap  = 100,
    length_function = len,
)
# 줄바꿈 문자를 기준으로 최대 500자를 맞출 수 있는 위치를 찾아서 분할한다.
# 즉, "모든 줄바꿈 문자에서 다 자르는 게 아니다."


In [None]:
texts = text_splitter.split_text(data[0].page_content)

print(len(texts), list(map(len, texts)))
# 3 [411, 386, 427]

3 [411, 386, 427]


In [16]:
texts[0]

'한국의 역사는 수천 년에 걸쳐 이어져 온 긴 여정 속에서 다양한 문화와 전통이 형성되고 발전해 왔습니다. 고조선에서 시작해 삼국 시대의 경쟁, 그리고 통일 신라와 고려를 거쳐 조선까지, 한반도는 많은 변화를 겪었습니다.\n고조선은 기원전 2333년 단군왕검에 의해 세워졌다고 전해집니다. 이는 한국 역사상 최초의 국가로, 한민족의 시원이라 할 수 있습니다. 이후 기원전 1세기경에는 한반도와 만주 일대에서 여러 소국이 성장하며 삼한 시대로 접어듭니다.\n4세기경, 고구려, 백제, 신라의 삼국이 한반도의 주요 세력으로 부상했습니다. 이 시기는 삼국이 각각 문화와 기술, 무력을 발전시키며 경쟁적으로 성장한 시기로, 한국 역사에서 중요한 전환점을 마련했습니다. 특히 고구려는 북방의 강대국으로 성장하여 중국과도 여러 차례 전쟁을 벌였습니다.'

## 2-3-2. RecursiveCharacterTextSplitter
https://wikidocs.net/231569


In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 텍스트를 재귀적으로 분할하여 의미적으로 관련 있는 텍스트 조각들이 같이 있도록 하는 목적으로 설계.
# 문자 리스트(['\n\n', '\n', ' ', ''])의 문자를 순서대로 사용하여 텍스트를 분할.

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 100,
    length_function = len,
)

texts = text_splitter.split_text(data[0].page_content)

len(texts)

3

In [18]:
len(texts[0]), len(texts[1]), len(texts[2])


(413, 388, 429)

In [19]:
texts[0]

'한국의 역사는 수천 년에 걸쳐 이어져 온 긴 여정 속에서 다양한 문화와 전통이 형성되고 발전해 왔습니다. 고조선에서 시작해 삼국 시대의 경쟁, 그리고 통일 신라와 고려를 거쳐 조선까지, 한반도는 많은 변화를 겪었습니다.\n\n고조선은 기원전 2333년 단군왕검에 의해 세워졌다고 전해집니다. 이는 한국 역사상 최초의 국가로, 한민족의 시원이라 할 수 있습니다. 이후 기원전 1세기경에는 한반도와 만주 일대에서 여러 소국이 성장하며 삼한 시대로 접어듭니다.\n\n4세기경, 고구려, 백제, 신라의 삼국이 한반도의 주요 세력으로 부상했습니다. 이 시기는 삼국이 각각 문화와 기술, 무력을 발전시키며 경쟁적으로 성장한 시기로, 한국 역사에서 중요한 전환점을 마련했습니다. 특히 고구려는 북방의 강대국으로 성장하여 중국과도 여러 차례 전쟁을 벌였습니다.'

## 2-3-3. 토큰 수를 기준으로 텍스트 분할 (Tokenizer 활용)


In [20]:
# TODO