### 1. CharacterTextSplitter

In [2]:
from langchain.text_splitter import CharacterTextSplitter

# ===================================
# 예제 텍스트
# ===================================
text = """RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다. 먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다.
이 방식은 환상(hallucination) 문제를 크게 줄여줍니다. 또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다."""

print(" 원본 텍스트:")
print("-" * 50)
print(text)
print(f"\n 원본 길이: {len(text)}자")

# ===================================
#  다양한 분할 방식 비교
# ===================================

print("\n" + "="*60)
print(" 다양한 CharacterTextSplitter 설정 비교")
print("="*60)

# 기본 설정 (마침표 기준)
print("\n 마침표(.) 기준 분할:")
print("-" * 30)
splitter1 = CharacterTextSplitter(
    chunk_size=50,      # 청크 최대 크기
    chunk_overlap=10,   # 청크 간 중복
    separator="."       # 분할 기준
)
chunks1 = splitter1.split_text(text)

for i, chunk in enumerate(chunks1, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")

#  문장 기준 (좀 더 큰 청크)
print("\n 문장 기준 분할 (큰 청크):")
print("-" * 30)
splitter2 = CharacterTextSplitter(
    chunk_size=100,     # 더 큰 청크
    chunk_overlap=50,   # 더 많은 중복
    separator="."
)
chunks2 = splitter2.split_text(text)

for i, chunk in enumerate(chunks2, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")


 원본 텍스트:
--------------------------------------------------
RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다. 먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다.
이 방식은 환상(hallucination) 문제를 크게 줄여줍니다. 또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다.

 원본 길이: 235자

 다양한 CharacterTextSplitter 설정 비교

 마침표(.) 기준 분할:
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다' (길이: 24자)
청크 2: '기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다' (길이: 32자)
청크 3: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다' (길이: 32자)
청크 4: 'RAG는 검색과 생성 단계를 포함합니다' (길이: 21자)
청크 5: '먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다' (길이: 43자)
청크 6: '이 방식은 환상(hallucination) 문제를 크게 줄여줍니다' (길이: 36자)
청크 7: '또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다' (길이: 33자)

 문장 기준 분할 (큰 청크):
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다' (길이: 92자)
청크 2: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다' (길이: 56자)
청크 3: 'RAG는 검색과 생성 

In [None]:

#  줄바꿈 기준
print("\n 줄바꿈(\\n) 기준 분할:")
print("-" * 30)
splitter3 = CharacterTextSplitter(
    chunk_size=80,
    chunk_overlap=0,    # 중복 없음
    separator="\n"
)
chunks3 = splitter3.split_text(text)

for i, chunk in enumerate(chunks3, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")

#  공백 기준 (단어 단위)
print("\n 공백(' ') 기준 분할 (단어 단위):")
print("-" * 30)
splitter4 = CharacterTextSplitter(
    chunk_size=30,      # 작은 청크
    chunk_overlap=5,
    separator=" "       # 공백으로 분할
)
chunks4 = splitter4.split_text(text)

for i, chunk in enumerate(chunks4[:5], 1):  # 처음 5개만 출력
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")
print(f"... 총 {len(chunks4)}개 청크 생성됨")

# ===================================
#  설정별 결과 비교
# ===================================
print("\n" + "="*60)
print(" 설정별 결과 요약")
print("="*60)

results = [
    ("마침표 기준 (50자)", len(chunks1), chunks1),
    ("마침표 기준 (100자)", len(chunks2), chunks2),
    ("줄바꿈 기준", len(chunks3), chunks3),
    ("공백 기준", len(chunks4), chunks4)
]

for name, count, chunks in results:
    avg_length = sum(len(chunk) for chunk in chunks) / len(chunks)
    print(f"{name:15}: {count:2}개 청크, 평균 {avg_length:.1f}자")

# ===================================
#  chunk_overlap 효과 확인
# ===================================
print("\n" + "="*60)
print(" chunk_overlap 효과 확인")
print("="*60)

# 중복 없음
splitter_no_overlap = CharacterTextSplitter(
    chunk_size=50, chunk_overlap=0, separator="."
)
chunks_no_overlap = splitter_no_overlap.split_text(text)

# 중복 있음
splitter_with_overlap = CharacterTextSplitter(
    chunk_size=50, chunk_overlap=15, separator="."
)
chunks_with_overlap = splitter_with_overlap.split_text(text)

print("\n 중복 없음 (overlap=0):")
for i, chunk in enumerate(chunks_no_overlap, 1):
    print(f"청크 {i}: '{chunk.strip()}'")

print("\n 중복 있음 (overlap=15):")
for i, chunk in enumerate(chunks_with_overlap, 1):
    print(f"청크 {i}: '{chunk.strip()}'")
    if i > 1:  # 두 번째 청크부터 중복 부분 표시
        prev_chunk = chunks_with_overlap[i-2].strip()
        curr_chunk = chunk.strip()
        # 간단한 중복 확인
        if len(prev_chunk) > 10 and len(curr_chunk) > 10:
            if prev_chunk[-10:] in curr_chunk:
                print(f"    이전 청크와 중복: '{prev_chunk[-10:]}'")


### 2. RecursiveCharacterTextSplitter

In [3]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 예제 텍스트
text = """RAG는 검색과 생성 단계를 포함하는 모델입니다.

이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.

Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다.

RAG의 핵심은 검색과 생성의 결합입니다! 먼저 관련 문서를 찾고, 그 정보를 바탕으로 답변을 만듭니다."""

print("원본 텍스트:")
print("-" * 50)
print(text)
print(f"\n텍스트 길이: {len(text)}자")

# ===========================================
# Recursive vs Character 비교
# ===========================================

print("\n" + "="*60)
print("RecursiveCharacterTextSplitter vs CharacterTextSplitter 비교")
print("="*60)

# 1. RecursiveCharacterTextSplitter (추천)
print("\n1. RecursiveCharacterTextSplitter (계층적 분할):")
print("-" * 45)
recursive_splitter = RecursiveCharacterTextSplitter(
    chunk_size=80,
    chunk_overlap=20,
    separators=["\n\n", "\n", ".", "!", "?", " ", ""]  # 우선순위 순서
)
recursive_chunks = recursive_splitter.split_text(text)

for i, chunk in enumerate(recursive_chunks):
    print(f"Chunk {i+1}: '{chunk.strip()}'")
    print(f"길이: {len(chunk)}자")
    print()

# 2. CharacterTextSplitter (비교용)
print("2. CharacterTextSplitter (단순 분할):")
print("-" * 35)
from langchain.text_splitter import CharacterTextSplitter
simple_splitter = CharacterTextSplitter(
    chunk_size=80,
    chunk_overlap=20,
    separator="."  # 하나의 구분자만 사용
)
simple_chunks = simple_splitter.split_text(text)

for i, chunk in enumerate(simple_chunks):
    print(f"Chunk {i+1}: '{chunk.strip()}'")
    print(f"길이: {len(chunk)}자")
    print()


원본 텍스트:
--------------------------------------------------
RAG는 검색과 생성 단계를 포함하는 모델입니다.

이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.

Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다.

RAG의 핵심은 검색과 생성의 결합입니다! 먼저 관련 문서를 찾고, 그 정보를 바탕으로 답변을 만듭니다.

텍스트 길이: 230자

RecursiveCharacterTextSplitter vs CharacterTextSplitter 비교

1. RecursiveCharacterTextSplitter (계층적 분할):
---------------------------------------------
Chunk 1: 'RAG는 검색과 생성 단계를 포함하는 모델입니다.'
길이: 27자

Chunk 2: '이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.'
길이: 67자

Chunk 3: 'Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다.'
길이: 72자

Chunk 4: 'RAG의 핵심은 검색과 생성의 결합입니다! 먼저 관련 문서를 찾고, 그 정보를 바탕으로 답변을 만듭니다.'
길이: 58자

2. CharacterTextSplitter (단순 분할):
-----------------------------------
Chunk 1: 'RAG는 검색과 생성 단계를 포함하는 모델입니다.

이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다'
길이: 58자

Chunk 2: '특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다'
길이: 35자

Chunk 3: 'Transformer 모델을 기반으로 실

In [4]:

# ===========================================
# separators 우선순위 테스트
# ===========================================

print("="*60)
print("separators 우선순위 동작 확인")
print("="*60)

test_text = """첫 번째 문단입니다.

두 번째 문단입니다.
이 문단은 여러 문장으로 구성됩니다! 정말 흥미롭죠?

세 번째 문단입니다."""

print("테스트 텍스트:")
print(repr(test_text))  # 줄바꿈 문자까지 보이도록

# 다양한 separators 설정 테스트
separators_configs = [
    (["\n\n", "\n", ".", " "], "문단 우선"),
    (["\n", ".", " "], "줄바꿈 우선"),
    ([".", "!", "?", " "], "문장 우선"),
    ([" "], "단어 단위")
]

for separators, description in separators_configs:
    print(f"\n{description} separators={separators}:")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=40,
        chunk_overlap=10,
        separators=separators
    )
    chunks = splitter.split_text(test_text)
    
    for i, chunk in enumerate(chunks, 1):
        print(f"  Chunk {i}: '{chunk.strip()}'")

# ===========================================
# chunk_size별 결과 비교
# ===========================================

print("\n" + "="*60)
print("chunk_size별 분할 결과 비교")
print("="*60)

chunk_sizes = [50, 100, 150]

for size in chunk_sizes:
    print(f"\nchunk_size={size}:")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=size,
        chunk_overlap=20,
        separators=["\n\n", "\n", ".", " "]
    )
    chunks = splitter.split_text(text)
    
    print(f"총 {len(chunks)}개 청크 생성")
    avg_length = sum(len(chunk) for chunk in chunks) / len(chunks)
    print(f"평균 청크 길이: {avg_length:.1f}자")
    
    for i, chunk in enumerate(chunks, 1):
        print(f"  Chunk {i}: '{chunk.strip()[:30]}...' (길이: {len(chunk)}자)")

# ===========================================
# chunk_overlap 효과 확인
# ===========================================

print("\n" + "="*60)
print("chunk_overlap 효과 확인")
print("="*60)

overlap_values = [0, 10, 30]

for overlap in overlap_values:
    print(f"\nchunk_overlap={overlap}:")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=80,
        chunk_overlap=overlap,
        separators=["\n\n", ".", " "]
    )
    chunks = splitter.split_text(text)
    
    print(f"총 {len(chunks)}개 청크 생성")
    for i, chunk in enumerate(chunks, 1):
        print(f"  Chunk {i}: '{chunk.strip()}'")
        
        # 중복 부분 확인
        if i > 1 and overlap > 0:
            prev_chunk = chunks[i-2].strip()
            curr_chunk = chunk.strip()
            # 간단한 중복 확인 (마지막 10자와 첫 10자 비교)
            if len(prev_chunk) >= 10 and len(curr_chunk) >= 10:
                prev_end = prev_chunk[-10:]
                curr_start = curr_chunk[:10]
                if any(word in curr_start for word in prev_end.split() if len(word) > 2):
                    print(f"    중복 감지: 이전 청크와 겹치는 부분 있음")


separators 우선순위 동작 확인
테스트 텍스트:
'첫 번째 문단입니다.\n\n두 번째 문단입니다.\n이 문단은 여러 문장으로 구성됩니다! 정말 흥미롭죠?\n\n세 번째 문단입니다.'

문단 우선 separators=['\n\n', '\n', '.', ' ']:
  Chunk 1: '첫 번째 문단입니다.'
  Chunk 2: '두 번째 문단입니다.'
  Chunk 3: '이 문단은 여러 문장으로 구성됩니다! 정말 흥미롭죠?'
  Chunk 4: '세 번째 문단입니다.'

줄바꿈 우선 separators=['\n', '.', ' ']:
  Chunk 1: '첫 번째 문단입니다.

두 번째 문단입니다.'
  Chunk 2: '이 문단은 여러 문장으로 구성됩니다! 정말 흥미롭죠?'
  Chunk 3: '세 번째 문단입니다.'

문장 우선 separators=['.', '!', '?', ' ']:
  Chunk 1: '첫 번째 문단입니다.

두 번째 문단입니다'
  Chunk 2: '.
이 문단은 여러 문장으로 구성됩니다'
  Chunk 3: '! 정말 흥미롭죠?

세 번째 문단입니다'
  Chunk 4: '.'

단어 단위 separators=[' ']:
  Chunk 1: '첫 번째 문단입니다.

두 번째 문단입니다.
이 문단은 여러 문장으로'
  Chunk 2: '여러 문장으로 구성됩니다! 정말 흥미롭죠?

세 번째 문단입니다.'

chunk_size별 분할 결과 비교

chunk_size=50:
총 9개 청크 생성
평균 청크 길이: 28.8자
  Chunk 1: 'RAG는 검색과 생성 단계를 포함하는 모델입니다....' (길이: 27자)
  Chunk 2: '이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다....' (길이: 30자)
  Chunk 3: '특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고...' (길이: 36자)
  Chunk 4: 'Transformer 모델을 기반으로 실시간 정보를 활...' (길이: 47자)
  Chunk 5

In [None]:

# ===========================================
# 활용 가이드
# ===========================================

print("\n" + "="*60)
print("실무 활용 가이드")
print("="*60)

print("""
RecursiveCharacterTextSplitter 사용 가이드:

1. 기본 설정 (일반적 문서):
   chunk_size=1000, chunk_overlap=200
   separators=["\n\n", "\n", ".", " "]

2. 한국어 문서 최적화:
   chunk_size=500-1000, chunk_overlap=100-200
   separators=["\n\n", "\n", ".", "。", " "]

3. 코드 문서:
   separators=["\n\n", "\n", "\t", " "]

4. 대화/채팅 로그:
   separators=["\n\n", "\n", ":", " "]

장점:
- 의미 단위로 자연스러운 분할
- 계층적 구분자로 최적화된 분할점 찾기
- 텍스트 특성에 맞는 유연한 설정

주의사항:
- chunk_size는 LLM 토큰 제한 고려
- chunk_overlap은 맥락 보존과 비용의 균형
- separators 순서가 분할 품질 결정
""")

print("\n프로그램 완료")