### 1. CharacterTextSplitter

In [2]:
from langchain.text_splitter import CharacterTextSplitter

# ===================================
# 예제 텍스트
# ===================================
text = """RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다. 먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다.
이 방식은 환상(hallucination) 문제를 크게 줄여줍니다. 또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다."""

print(" 원본 텍스트:")
print("-" * 50)
print(text)
print(f"\n 원본 길이: {len(text)}자")

# ===================================
#  다양한 분할 방식 비교
# ===================================

print("\n" + "="*60)
print(" 다양한 CharacterTextSplitter 설정 비교")
print("="*60)

# 기본 설정 (마침표 기준)
print("\n 마침표(.) 기준 분할:")
print("-" * 30)
splitter1 = CharacterTextSplitter(
    chunk_size=50,      # 청크 최대 크기
    chunk_overlap=10,   # 청크 간 중복
    separator="."       # 분할 기준
)
chunks1 = splitter1.split_text(text)

for i, chunk in enumerate(chunks1, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")

#  문장 기준 (좀 더 큰 청크)
print("\n 문장 기준 분할 (큰 청크):")
print("-" * 30)
splitter2 = CharacterTextSplitter(
    chunk_size=100,     # 더 큰 청크
    chunk_overlap=50,   # 더 많은 중복
    separator="."
)
chunks2 = splitter2.split_text(text)

for i, chunk in enumerate(chunks2, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")


 원본 텍스트:
--------------------------------------------------
RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다. 먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다.
이 방식은 환상(hallucination) 문제를 크게 줄여줍니다. 또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다.

 원본 길이: 235자

 다양한 CharacterTextSplitter 설정 비교

 마침표(.) 기준 분할:
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다' (길이: 24자)
청크 2: '기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다' (길이: 32자)
청크 3: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다' (길이: 32자)
청크 4: 'RAG는 검색과 생성 단계를 포함합니다' (길이: 21자)
청크 5: '먼저 관련 문서를 검색하고, 그 다음 검색된 문서를 바탕으로 답변을 생성합니다' (길이: 43자)
청크 6: '이 방식은 환상(hallucination) 문제를 크게 줄여줍니다' (길이: 36자)
청크 7: '또한 실시간으로 최신 정보를 활용할 수 있어 매우 유용합니다' (길이: 33자)

 문장 기준 분할 (큰 청크):
------------------------------
청크 1: 'RAG는 검색 기반의 텍스트 생성 모델입니다. 기존 언어 모델의 단점을 보완하고, 최신 정보를 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다' (길이: 92자)
청크 2: '특히, 최신 데이터를 반영하는 데 강력한 기능을 제공합니다. 
RAG는 검색과 생성 단계를 포함합니다' (길이: 56자)
청크 3: 'RAG는 검색과 생성 

In [None]:

#  줄바꿈 기준
print("\n 줄바꿈(\\n) 기준 분할:")
print("-" * 30)
splitter3 = CharacterTextSplitter(
    chunk_size=80,
    chunk_overlap=0,    # 중복 없음
    separator="\n"
)
chunks3 = splitter3.split_text(text)

for i, chunk in enumerate(chunks3, 1):
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")

#  공백 기준 (단어 단위)
print("\n 공백(' ') 기준 분할 (단어 단위):")
print("-" * 30)
splitter4 = CharacterTextSplitter(
    chunk_size=30,      # 작은 청크
    chunk_overlap=5,
    separator=" "       # 공백으로 분할
)
chunks4 = splitter4.split_text(text)

for i, chunk in enumerate(chunks4[:5], 1):  # 처음 5개만 출력
    print(f"청크 {i}: '{chunk.strip()}' (길이: {len(chunk)}자)")
print(f"... 총 {len(chunks4)}개 청크 생성됨")

# ===================================
#  설정별 결과 비교
# ===================================
print("\n" + "="*60)
print(" 설정별 결과 요약")
print("="*60)

results = [
    ("마침표 기준 (50자)", len(chunks1), chunks1),
    ("마침표 기준 (100자)", len(chunks2), chunks2),
    ("줄바꿈 기준", len(chunks3), chunks3),
    ("공백 기준", len(chunks4), chunks4)
]

for name, count, chunks in results:
    avg_length = sum(len(chunk) for chunk in chunks) / len(chunks)
    print(f"{name:15}: {count:2}개 청크, 평균 {avg_length:.1f}자")

# ===================================
#  chunk_overlap 효과 확인
# ===================================
print("\n" + "="*60)
print(" chunk_overlap 효과 확인")
print("="*60)

# 중복 없음
splitter_no_overlap = CharacterTextSplitter(
    chunk_size=50, chunk_overlap=0, separator="."
)
chunks_no_overlap = splitter_no_overlap.split_text(text)

# 중복 있음
splitter_with_overlap = CharacterTextSplitter(
    chunk_size=50, chunk_overlap=15, separator="."
)
chunks_with_overlap = splitter_with_overlap.split_text(text)

print("\n 중복 없음 (overlap=0):")
for i, chunk in enumerate(chunks_no_overlap, 1):
    print(f"청크 {i}: '{chunk.strip()}'")

print("\n 중복 있음 (overlap=15):")
for i, chunk in enumerate(chunks_with_overlap, 1):
    print(f"청크 {i}: '{chunk.strip()}'")
    if i > 1:  # 두 번째 청크부터 중복 부분 표시
        prev_chunk = chunks_with_overlap[i-2].strip()
        curr_chunk = chunk.strip()
        # 간단한 중복 확인
        if len(prev_chunk) > 10 and len(curr_chunk) > 10:
            if prev_chunk[-10:] in curr_chunk:
                print(f"    이전 청크와 중복: '{prev_chunk[-10:]}'")


### 2. RecursiveCharacterTextSplitter

In [3]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 예제 텍스트
text = """RAG는 검색과 생성 단계를 포함하는 모델입니다.

이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.

Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다.

RAG의 핵심은 검색과 생성의 결합입니다! 먼저 관련 문서를 찾고, 그 정보를 바탕으로 답변을 만듭니다."""

print("원본 텍스트:")
print("-" * 50)
print(text)
print(f"\n텍스트 길이: {len(text)}자")

# ===========================================
# Recursive vs Character 비교
# ===========================================

print("\n" + "="*60)
print("RecursiveCharacterTextSplitter vs CharacterTextSplitter 비교")
print("="*60)

# 1. RecursiveCharacterTextSplitter (추천)
print("\n1. RecursiveCharacterTextSplitter (계층적 분할):")
print("-" * 45)
recursive_splitter = RecursiveCharacterTextSplitter(
    chunk_size=80,
    chunk_overlap=20,
    separators=["\n\n", "\n", ".", "!", "?", " ", ""]  # 우선순위 순서
)
recursive_chunks = recursive_splitter.split_text(text)

for i, chunk in enumerate(recursive_chunks):
    print(f"Chunk {i+1}: '{chunk.strip()}'")
    print(f"길이: {len(chunk)}자")
    print()

# 2. CharacterTextSplitter (비교용)
print("2. CharacterTextSplitter (단순 분할):")
print("-" * 35)
from langchain.text_splitter import CharacterTextSplitter
simple_splitter = CharacterTextSplitter(
    chunk_size=80,
    chunk_overlap=20,
    separator="."  # 하나의 구분자만 사용
)
simple_chunks = simple_splitter.split_text(text)

for i, chunk in enumerate(simple_chunks):
    print(f"Chunk {i+1}: '{chunk.strip()}'")
    print(f"길이: {len(chunk)}자")
    print()


원본 텍스트:
--------------------------------------------------
RAG는 검색과 생성 단계를 포함하는 모델입니다.

이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.

Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다.

RAG의 핵심은 검색과 생성의 결합입니다! 먼저 관련 문서를 찾고, 그 정보를 바탕으로 답변을 만듭니다.

텍스트 길이: 230자

RecursiveCharacterTextSplitter vs CharacterTextSplitter 비교

1. RecursiveCharacterTextSplitter (계층적 분할):
---------------------------------------------
Chunk 1: 'RAG는 검색과 생성 단계를 포함하는 모델입니다.'
길이: 27자

Chunk 2: '이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다.
특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다.'
길이: 67자

Chunk 3: 'Transformer 모델을 기반으로 실시간 정보를 활용할 수 있으며, 기존의 단순한 생성 모델보다 더 정확한 답변을 제공합니다.'
길이: 72자

Chunk 4: 'RAG의 핵심은 검색과 생성의 결합입니다! 먼저 관련 문서를 찾고, 그 정보를 바탕으로 답변을 만듭니다.'
길이: 58자

2. CharacterTextSplitter (단순 분할):
-----------------------------------
Chunk 1: 'RAG는 검색과 생성 단계를 포함하는 모델입니다.

이 모델은 검색 기반의 텍스트 생성 기능을 제공합니다'
길이: 58자

Chunk 2: '특히, 최신 데이터를 반영하는 데 강력한 기능을 가지고 있습니다'
길이: 35자

Chunk 3: 'Transformer 모델을 기반으로 실

In [None]:

# ===========================================
# separators 우선순위 테스트
# ===========================================

print("="*60)
print("separators 우선순위 동작 확인")
print("="*60)

test_text = """첫 번째 문단입니다.

두 번째 문단입니다.
이 문단은 여러 문장으로 구성됩니다! 정말 흥미롭죠?

세 번째 문단입니다."""

print("테스트 텍스트:")
print(repr(test_text))  # 줄바꿈 문자까지 보이도록

# 다양한 separators 설정 테스트
separators_configs = [
    (["\n\n", "\n", ".", " "], "문단 우선"),
    (["\n", ".", " "], "줄바꿈 우선"),
    ([".", "!", "?", " "], "문장 우선"),
    ([" "], "단어 단위")
]

for separators, description in separators_configs:
    print(f"\n{description} separators={separators}:")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=40,
        chunk_overlap=10,
        separators=separators
    )
    chunks = splitter.split_text(test_text)
    
    for i, chunk in enumerate(chunks, 1):
        print(f"  Chunk {i}: '{chunk.strip()}'")

# ===========================================
# chunk_size별 결과 비교
# ===========================================

print("\n" + "="*60)
print("chunk_size별 분할 결과 비교")
print("="*60)

chunk_sizes = [50, 100, 150]

for size in chunk_sizes:
    print(f"\nchunk_size={size}:")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=size,
        chunk_overlap=20,
        separators=["\n\n", "\n", ".", " "]
    )
    chunks = splitter.split_text(text)
    
    print(f"총 {len(chunks)}개 청크 생성")
    avg_length = sum(len(chunk) for chunk in chunks) / len(chunks)
    print(f"평균 청크 길이: {avg_length:.1f}자")
    
    for i, chunk in enumerate(chunks, 1):
        print(f"  Chunk {i}: '{chunk.strip()[:30]}...' (길이: {len(chunk)}자)")

# ===========================================
# chunk_overlap 효과 확인
# ===========================================

print("\n" + "="*60)
print("chunk_overlap 효과 확인")
print("="*60)

overlap_values = [0, 10, 30]

for overlap in overlap_values:
    print(f"\nchunk_overlap={overlap}:")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=80,
        chunk_overlap=overlap,
        separators=["\n\n", ".", " "]
    )
    chunks = splitter.split_text(text)
    
    print(f"총 {len(chunks)}개 청크 생성")
    for i, chunk in enumerate(chunks, 1):
        print(f"  Chunk {i}: '{chunk.strip()}'")
        
        # 중복 부분 확인
        if i > 1 and overlap > 0:
            prev_chunk = chunks[i-2].strip()
            curr_chunk = chunk.strip()
            # 간단한 중복 확인 (마지막 10자와 첫 10자 비교)
            if len(prev_chunk) >= 10 and len(curr_chunk) >= 10:
                prev_end = prev_chunk[-10:]
                curr_start = curr_chunk[:10]
                if any(word in curr_start for word in prev_end.split() if len(word) > 2):
                    print(f"    중복 감지: 이전 청크와 겹치는 부분 있음")


In [None]:

# ===========================================
# 활용 가이드
# ===========================================

print("\n" + "="*60)
print("실무 활용 가이드")
print("="*60)

print("""
RecursiveCharacterTextSplitter 사용 가이드:

1. 기본 설정 (일반적 문서):
   chunk_size=1000, chunk_overlap=200
   separators=["\n\n", "\n", ".", " "]

2. 한국어 문서 최적화:
   chunk_size=500-1000, chunk_overlap=100-200
   separators=["\n\n", "\n", ".", "。", " "]

3. 코드 문서:
   separators=["\n\n", "\n", "\t", " "]

4. 대화/채팅 로그:
   separators=["\n\n", "\n", ":", " "]

장점:
- 의미 단위로 자연스러운 분할
- 계층적 구분자로 최적화된 분할점 찾기
- 텍스트 특성에 맞는 유연한 설정

주의사항:
- chunk_size는 LLM 토큰 제한 고려
- chunk_overlap은 맥락 보존과 비용의 균형
- separators 순서가 분할 품질 결정
""")

print("\n프로그램 완료")

### 3. TokenTextSplitter


In [None]:
# %pip install tiktoken
from langchain_text_splitters import TokenTextSplitter

# 파일 읽기
with open("./data/ai-terminology.txt", encoding="utf-8") as f:
    file = f.read()  # 파일 내용을 읽어오기

#print("원본 텍스트 미리보기:\n", file[:500])  # 앞 500자 출력

# TokenTextSplitter 설정
text_splitter = TokenTextSplitter.from_tiktoken_encoder(
    chunk_size=200,  # 청크 크기
    chunk_overlap=20,  # 청크 간 겹치는 부분 추가하여 문맥 유지
    encoding_name="cl100k_base",  # OpenAI tiktoken 기본 인코딩 사용 (한글 처리 개선)
    add_start_index=True  # 각 청크의 시작 인덱스 반환
)

# 텍스트 분할 실행
texts = text_splitter.split_text(file)

# 결과 출력
print(f"\n 총 {len(texts)}개의 청크로 분할됨.")
print("\n 첫 번째 청크:\n", texts[0])

# 청크 길이 확인
for i, chunk in enumerate(texts[:5]):  # 처음 5개만 확인
    print(f"\n Chunk {i+1} (길이: {len(chunk)}):\n{chunk}")

In [None]:
from langchain_text_splitters import TokenTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter
import tiktoken

# 파일 읽기
file_path = "./data/ai-terminology.txt"

# 파일 읽기
try:
    with open(file_path, encoding="utf-8") as f:
        ai_terminology_text = f.read()
    print(f"파일 읽기 성공: {file_path}")
except Exception as e:
    print(f"파일 읽기 실패: {e}")
    exit()

print("원본 텍스트 미리보기:")
print("-" * 50)
print(ai_terminology_text[:500] + "...")
print(f"\n전체 텍스트 길이: {len(ai_terminology_text)}자")

# ==========================================
# TokenTextSplitter vs 다른 Splitter 비교
# ==========================================

print("\n" + "="*60)
print("TokenTextSplitter 특징 및 다른 Splitter와 비교")
print("="*60)

# 1. 토큰 개수 확인 (tiktoken 사용)
encoding = tiktoken.get_encoding("cl100k_base")
tokens = encoding.encode(ai_terminology_text)
print(f"\n원본 텍스트의 토큰 개수: {len(tokens)}개")
print(f"문자 대 토큰 비율: {len(ai_terminology_text)/len(tokens):.2f} (문자/토큰)")

# 2. TokenTextSplitter 설정 및 실행
print("\n1. TokenTextSplitter (토큰 기반 분할):")
print("-" * 40)

token_splitter = TokenTextSplitter.from_tiktoken_encoder(
    chunk_size=200,              # 토큰 개수로 크기 지정
    chunk_overlap=20,            # 토큰 단위 중복
    encoding_name="cl100k_base", # OpenAI GPT 모델용 인코딩
    add_start_index=True         # 시작 인덱스 정보 포함
)

token_chunks = token_splitter.split_text(ai_terminology_text)
print(f"총 {len(token_chunks)}개 청크 생성")

for i, chunk in enumerate(token_chunks[:3], 1):
    chunk_tokens = encoding.encode(chunk)
    print(f"\nChunk {i}:")
    print(f"  토큰 수: {len(chunk_tokens)}개")
    print(f"  문자 수: {len(chunk)}자")
    print(f"  내용: {chunk[:100]}...")

# 3. 다른 Splitter와 비교
print("\n2. RecursiveCharacterTextSplitter (문자 기반 분할):")
print("-" * 45)

char_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,  # 문자 개수로 크기 지정 (토큰 200개 ≈ 문자 800개)
    chunk_overlap=80,
    separators=["\n\n", "\n", ".", " "]
)

char_chunks = char_splitter.split_text(ai_terminology_text)
print(f"총 {len(char_chunks)}개 청크 생성")

for i, chunk in enumerate(char_chunks[:3], 1):
    chunk_tokens = encoding.encode(chunk)
    print(f"\nChunk {i}:")
    print(f"  토큰 수: {len(chunk_tokens)}개")
    print(f"  문자 수: {len(chunk)}자")
    print(f"  내용: {chunk[:100]}...")

# ==========================================
# 토큰 기반 분할의 장점 확인
# ==========================================

print("\n" + "="*60)
print("토큰 기반 분할의 장점")
print("="*60)

# LLM 토큰 제한 시뮬레이션
max_tokens = 200  # 가상의 토큰 제한

print(f"\nLLM 토큰 제한: {max_tokens}개 토큰")
print("\n토큰 기반 분할 결과:")
over_limit_count = 0
for i, chunk in enumerate(token_chunks, 1):
    chunk_tokens = len(encoding.encode(chunk))
    status = "OK" if chunk_tokens <= max_tokens else "초과"
    if chunk_tokens > max_tokens:
        over_limit_count += 1
    print(f"  Chunk {i}: {chunk_tokens}개 토큰 {status}")

print(f"\n토큰 제한 초과 청크: {over_limit_count}개")

print("\n문자 기반 분할 결과:")
over_limit_count = 0
for i, chunk in enumerate(char_chunks, 1):
    chunk_tokens = len(encoding.encode(chunk))
    status = "OK" if chunk_tokens <= max_tokens else "초과"
    if chunk_tokens > max_tokens:
        over_limit_count += 1
    print(f"  Chunk {i}: {chunk_tokens}개 토큰 {status}")

print(f"\n토큰 제한 초과 청크: {over_limit_count}개")

# ==========================================
# 다양한 encoding 테스트
# ==========================================

print("\n" + "="*60)
print("다양한 인코딩 방식 비교")
print("="*60)

encodings = [
    ("cl100k_base", "GPT-4, GPT-3.5-turbo"),
    ("p50k_base", "GPT-3 (davinci)"),
    ("r50k_base", "GPT-3 (ada, babbage, curie)")
]

test_text = "안녕하세요! AI와 머신러닝에 대해 배워보겠습니다. Hello, let's learn about AI and Machine Learning!"

for encoding_name, description in encodings:
    enc = tiktoken.get_encoding(encoding_name)
    tokens = enc.encode(test_text)
    print(f"\n{encoding_name} ({description}):")
    print(f"  토큰 수: {len(tokens)}개")
    print(f"  토큰 예시: {tokens[:10]}...")

# ==========================================
# 활용 예제
# ==========================================

print("\n" + "="*60)
print("실무 활용 예제")
print("="*60)

# 다양한 chunk_size로 테스트
chunk_sizes = [100, 200, 500]

for chunk_size in chunk_sizes:
    print(f"\nchunk_size={chunk_size} 토큰:")
    splitter = TokenTextSplitter.from_tiktoken_encoder(
        chunk_size=chunk_size,
        chunk_overlap=chunk_size//10,  # 10% 중복
        encoding_name="cl100k_base"
    )
    
    chunks = splitter.split_text(ai_terminology_text)
    avg_tokens = sum(len(encoding.encode(chunk)) for chunk in chunks) / len(chunks)
    
    print(f"  총 청크 수: {len(chunks)}개")
    print(f"  평균 토큰 수: {avg_tokens:.1f}개")
    print(f"  첫 번째 청크 토큰 수: {len(encoding.encode(chunks[0]))}개")

# ==========================================
# 메타데이터 포함 문서 분할
# ==========================================

print("\n" + "="*60)
print("메타데이터 포함 Document 분할")
print("="*60)

from langchain.schema import Document

# Document 객체 생성
document = Document(
    page_content=ai_terminology_text,
    metadata={"source": "ai-terminology.txt", "type": "glossary"}
)

# Document 분할
doc_chunks = token_splitter.split_documents([document])

print(f"Document 분할 결과: {len(doc_chunks)}개 청크")
for i, doc_chunk in enumerate(doc_chunks[:2], 1):
    tokens_count = len(encoding.encode(doc_chunk.page_content))
    print(f"\nDocument Chunk {i}:")
    print(f"  토큰 수: {tokens_count}개")
    print(f"  메타데이터: {doc_chunk.metadata}")
    print(f"  내용: {doc_chunk.page_content[:100]}...")

### 4. HuggingFace Tokenizer

In [9]:
from transformers import GPT2TokenizerFast
from langchain.text_splitter import CharacterTextSplitter

# GPT-2 모델의 토크나이저 로드
hf_tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

# 데이터 파일 읽기
file_path = "./data/ai-terminology.txt"
with open(file_path, encoding="utf-8") as f:
    file_content = f.read()

print(" 원본 텍스트 미리보기:\n", file_content[:200])

# CharacterTextSplitter 설정 (Hugging Face 토크나이저 사용)
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    hf_tokenizer,
    chunk_size=300,  # 각 청크 크기 (토큰 기준 아님)
    chunk_overlap=50,  # 청크 간 중복 부분
)

# 텍스트 분할 수행
split_texts = text_splitter.split_text(file_content)

# 분할된 텍스트 출력
print(f"\n 총 {len(split_texts)}개의 청크로 분할됨\n")
for i, chunk in enumerate(split_texts[:5]):  # 처음 5개만 출력
    print(f" Chunk {i+1} ({len(chunk)}자):\n{chunk}\n")

# 토크나이저로 텍스트를 토큰 단위로 변환하여 확인
tokenized_example = hf_tokenizer.tokenize(split_texts[0])
print(f"\n 첫 번째 청크의 토큰 개수: {len(tokenized_example)}")
print(" 첫 번째 청크의 토큰 리스트:", tokenized_example[:20])  # 앞 20개만 출력

  from .autonotebook import tqdm as notebook_tqdm
None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Created a chunk of size 321, which is longer than the specified 300
Created a chunk of size 362, which is longer than the specified 300


 원본 텍스트 미리보기:
 Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Faceboo

 총 23개의 청크로 분할됨

 Chunk 1 (25자):
Semantic Search (의미론적 검색)

 Chunk 2 (157자):
정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

 Chunk 3 (37자):
FAISS (Facebook AI Similarity Search)

 Chunk 4 (176자):
정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.
예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.
연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화

 Chunk 5 (143자):
Embedding (임베딩)

정의: 단어나 문장을 벡터 공간에 매핑하여 의미적으로 유사한 것들이 가까이 위치하도록 하는 기법.
예시: "강아지"와 "고양이"의 벡터 표현이 유사하게 위치함.
연관 키워드: 벡터화, 자연어 처리, 딥러닝

Token (토큰)


 첫 번째 청크의 토큰 개수: 23
 첫 번째 청크의 토큰 리스트: ['Sem', 'antic', 'ĠSearch', 'Ġ(', 'ìĿ', 'ĺ', 'ë', '¯', '¸', 'ë', '¡', 'ł', 'ì', 'ł', 'ģ', 'Ġ', '