## Text Splitter

RAG(Retrieval-Augmented Generation)에서 **Text Splitter(텍스트 분할기)**는 긴 문서를 작은 청크로 나누어 **효율적인 검색과 문서 임베딩을 가능하게 하는 핵심 도구**입니다.

### **Text Splitter의 주요 역할**

1. **긴 문서를 작은 단위로 분할**
    - 대형 언어 모델(LLM)은 입력 길이 제한이 있기 때문에, 문서를 적절한 크기로 나누어 처리해야 합니다.
2. **효율적인 검색(Retrieval) 최적화**
    - 문서를 청크 단위로 저장하고 검색하면, LLM이 질문에 맞는 관련 정보를 빠르게 찾을 수 있습니다.
3. **연관성 높은 문서 조각 제공**
    - 문서가 너무 크면 의미 있는 부분을 추출하기 어려움 → 적절한 크기로 나누면 검색 성능이 향상됩니다.
4. **문서의 일관성 유지**
    - 문장을 임의로 끊는 것이 아니라 문맥을 고려하여 적절한 단위로 분할해야 함.

## CharacterTextSplitter
* 특정 구분자(separator) (예: 개행 문자 \n,단락)를 기준으로 문서를 나누는 방법

In [1]:
## 간단한 예제
from langchain.text_splitter import CharacterTextSplitter

text = """RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다."""

# 마침표(".")를 기준으로 텍스트 분할, 일부 문장이 길면 chunk_size에 맞춰 조정됨.
splitter = CharacterTextSplitter(chunk_size=50, chunk_overlap=10, separator=".")
chunks = splitter.split_text(text)

print(chunks)

['RAG는 검색 기반의 텍스트 생성 모델입니다', '기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다', '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다', 'RAG는 검색과 생성 단계를 포함합니다']


In [3]:
from langchain.text_splitter import CharacterTextSplitter

# ===================================
# 예제 텍스트
# ===================================
text = """RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다. 먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다.
이 방식은 환상(hallucination) 문제를 크게 줄여줍니다. 또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다."""

print(" 원본 텍스트:")
print("-" * 50)
print(text)
print(f"\n 원본 길이: {len(text)}자")

# ===================================
#  다양한 분할 방식 비교
# ===================================

print("\n" + "="*60)
print(" 다양한 CharacterTextSplitter 설정 비교")
print("="*60)

# 기본 설정 (마침표 기준)
print("\n 마침표(.) 기준 분할:")
print("-" * 30)
splitter1 = CharacterTextSplitter(
    chunk_size=50,      # 청크 최대 크기
    chunk_overlap=10,   # 청크 간 중복
    separator="."       # 분할 기준
)
chunks1 = splitter1.split_text(text)

for i, chunk in enumerate(chunks1, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")

#  문장 기준 (좀 더 큰 청크)
print("\n 문장 기준 분할 (큰 청크):")
print("-" * 30)
splitter2 = CharacterTextSplitter(
    chunk_size=100,     # 더 큰 청크
    chunk_overlap=50,   # 더 많은 중복
    separator="."
)
chunks2 = splitter2.split_text(text)

for i, chunk in enumerate(chunks2, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")


 원본 텍스트:
--------------------------------------------------
RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다. 먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다.
이 방식은 환상(hallucination) 문제를 크게 줄여줍니다. 또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다.

 원본 길이: 235자

 다양한 CharacterTextSplitter 설정 비교

 마침표(.) 기준 분할:
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다' (길이: 24자)
청크 2: '기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다' (길이: 32자)
청크 3: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다' (길이: 32자)
청크 4: 'RAG는 검색과 생성 단계를 포함합니다' (길이: 21자)
청크 5: '먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다' (길이: 43자)
청크 6: '이 방식은 환상(hallucination) 문제를 크게 줄여줍니다' (길이: 36자)
청크 7: '또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다' (길이: 33자)

 문장 기준 분할 (큰 청크):
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다' (길이: 92자)
청크 2: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다' (길이: 56자)
청크 3: 'RAG는 검색과 생성 

In [4]:

#  줄바꿈 기준
print("\n 줄바꿈(\\n) 기준 분할:")
print("-" * 30)
splitter3 = CharacterTextSplitter(
    chunk_size=80,
    chunk_overlap=0,    # 중복 없음
    separator="\n"
)
chunks3 = splitter3.split_text(text)

for i, chunk in enumerate(chunks3, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")

#  공백 기준 (단어 단위)
print("\n 공백(' ') 기준 분할 (단어 단위):")
print("-" * 30)
splitter4 = CharacterTextSplitter(
    chunk_size=30,      # 작은 청크
    chunk_overlap=5,
    separator=" "       # 공백으로 분할
)
chunks4 = splitter4.split_text(text)

for i, chunk in enumerate(chunks4[:5], 1):  # 처음 5개만 출력
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")
print(f"... 총 {len(chunks4)}개 청크 생성됨")

# ===================================
#  설정별 결과 비교
# ===================================
print("\n" + "="*60)
print(" 설정별 결과 요약")
print("="*60)

results = [
    ("마침표 기준 (50자)", len(chunks1), chunks1),
    ("마침표 기준 (100자)", len(chunks2), chunks2),
    ("줄바꿈 기준", len(chunks3), chunks3),
    ("공백 기준", len(chunks4), chunks4)
]

for name, count, chunks in results:
    avg_length = sum(len(chunk) for chunk in chunks) / len(chunks)
    print(f"{name:15}: {count:2}개 청크, 평균 {avg_length:.1f}자")

# ===================================
#  chunk_overlap 효과 확인
# ===================================
print("\n" + "="*60)
print(" chunk_overlap 효과 확인")
print("="*60)

# 중복 없음
splitter_no_overlap = CharacterTextSplitter(
    chunk_size=50, chunk_overlap=0, separator="."
)
chunks_no_overlap = splitter_no_overlap.split_text(text)

# 중복 있음
splitter_with_overlap = CharacterTextSplitter(
    chunk_size=50, chunk_overlap=15, separator="."
)
chunks_with_overlap = splitter_with_overlap.split_text(text)

print("\n 중복 없음 (overlap=0):")
for i, chunk in enumerate(chunks_no_overlap, 1):
    print(f"청크 {i}: '{chunk.strip()}'")

print("\n 중복 있음 (overlap=15):")
for i, chunk in enumerate(chunks_with_overlap, 1):
    print(f"청크 {i}: '{chunk.strip()}'")
    if i > 1:  # 두 번째 청크부터 중복 부분 표시
        prev_chunk = chunks_with_overlap[i-2].strip()
        curr_chunk = chunk.strip()
        # 간단한 중복 확인
        if len(prev_chunk) > 10 and len(curr_chunk) > 10:
            if prev_chunk[-10:] in curr_chunk:
                print(f"    이전 청크와 중복: '{prev_chunk[-10:]}'")

# ===================================
#  실무 팁
# ===================================
print("\n" + "="*60)
print(" 실무 활용 팁")
print("="*60)

tips = """
 청크 크기 가이드:
   • 짧은 문서: 200-500자
   • 긴 문서: 500-1000자
   • 매우 긴 문서: 1000-2000자

 chunk_overlap 가이드:
   • 일반적: 청크 크기의 10-20%
   • 맥락 중요: 청크 크기의 20-30%
   • 속도 중요: 0-10%

 separator 선택:
   • 문서: 문단(\n\n) 또는 문장(.)
   • 코드: 함수나 클래스 단위
   • 대화: 발화자 변경 지점

 RAG 최적화:
   • 너무 작으면 맥락 손실
   • 너무 크면 관련성 저하
   • 적절한 중복으로 연결성 유지
"""

print(tips)


 줄바꿈(\n) 기준 분할:
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.' (길이: 59자)
청크 2: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다.' (길이: 33자)
청크 3: 'RAG는 검색과 생성 단계를 포함합니다. 먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다.' (길이: 67자)
청크 4: '이 방식은 환상(hallucination) 문제를 크게 줄여줍니다. 또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다.' (길이: 72자)

 공백(' ') 기준 분할 (단어 단위):
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다. 기존' (길이: 28자)
청크 2: '기존 언어 모델의 단점을 보완하고, 최신 정보를' (길이: 26자)
청크 3: '정보를 제공합니다.
특히, 최신 데이터를 반영하는 데' (길이: 29자)
청크 4: '데 강력한 기능을 제공합니다. 
RAG는 검색과 생성' (길이: 29자)
청크 5: '생성 단계를 포함합니다. 먼저 관련 문서를 검색하고,' (길이: 29자)
... 총 10개 청크 생성됨

 설정별 결과 요약
마침표 기준 (50자)   :  7개 청크, 평균 31.6자
마침표 기준 (100자)  :  5개 청크, 평균 73.2자
줄바꿈 기준         :  4개 청크, 평균 57.8자
공백 기준          : 10개 청크, 평균 25.9자

 chunk_overlap 효과 확인

 중복 없음 (overlap=0):
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다'
청크 2: '기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다'
청크 3: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다'
청크 4: 'RAG는 검색과 생성 단계를 포함합니다'
