## TokenTextSplitter
**토큰 개수를 기준으로 문서를 분할하는 방식**입니다.

- LLM은 단어가 아닌 **토큰(Token) 단위**로 입력을 처리하므로, 모델의 입력 제한을 초과하지 않도록 분할하는 것이 중요함.
- OpenAI의 GPT 계열 모델처럼 **토큰 단위로 입력을 받는 모델**을 사용할 때는 `TokenTextSplitter`가  유용합니다. ( `TokenTextSplitter`를 활용하면 **입력 토큰 제한을 초과하지 않도록 관리 가능함 )**
- TokenTextSplitter는 실제 LLM이 인식하는 토큰 개수로 분할하기 때문에 LLM의 실제 토큰 처리 방식과 더 잘 맞음
- 내부적으로 `tiktoken` 라이브러리를 사용하여 **토큰 개수를 세고 분할**함.

### **tiktoken이란?**

- OpenAI에서 개발한 **토큰화(Tokenization) 라이브러리**
- GPT-3, GPT-4 등의 모델이 사용하는 토큰화 방식 제공
- 예: `"ChatGPT is amazing!"` → `[2023, 345, 8723, 12]` 형태의 토큰으로 변환

**1. TokenTextSplitter의 특징**

- **토큰 단위 분할**: 문자가 아닌 토큰 개수로 청크 크기 결정
- **정확한 제어**: LLM 토큰 제한을 정확히 준수
- **tiktoken 활용**: OpenAI 모델과 동일한 토큰화 방식

In [1]:
!poetry add tiktoken

Using version ^0.9.0 for tiktoken

Updating dependencies
Resolving dependencies...

No dependencies to install or update

Writing lock file


In [4]:
# 간단 예제
from langchain_text_splitters import TokenTextSplitter

# 파일 읽기
with open("../data/ai-terminology.txt", encoding="utf-8") as f:
    file = f.read()  # 파일 내용을 읽어오기

print("원본 텍스트 미리보기:\n", file[:500])  # 앞 500자 출력

# TokenTextSplitter 설정
text_splitter = TokenTextSplitter.from_tiktoken_encoder(
    chunk_size=200,  # 청크 크기
    chunk_overlap=20,  # 청크 간 겹치는 부분 추가하여 문맥 유지
    encoding_name="cl100k_base",  # OpenAI tiktoken 기본 인코딩 사용 (한글 처리 개선)
    add_start_index=True  # 각 청크의 시작 인덱스 반환
)

# 텍스트 분할 실행
texts = text_splitter.split_text(file)

# 결과 출력
print(f"\n 총 {len(texts)}개의 청크로 분할됨.")
print("\n 첫 번째 청크:\n", texts[0])

# 청크 길이 확인
for i, chunk in enumerate(texts[:5]):  # 처음 5개만 확인
    print(f"\n Chunk {i+1} (길이: {len(chunk)}):\n{chunk}")

원본 텍스트 미리보기:
 Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Facebook AI Similarity Search)

정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.
예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.
연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화

Embedding (임베딩)

정의: 단어나 문장을 벡터 공간에 매핑하여 의미적으로 유사한 것들이 가까이 위치하도록 하는 기법.
예시: "강아지"와 "고양이"의 벡터 표현이 

 총 14개의 청크로 분할됨.

 첫 번째 청크:
 Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Facebook AI Similarity Search)

정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대�

 Chunk 1 (길이: 270):
Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어

In [5]:
from langchain_text_splitters import TokenTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter
import tiktoken

# 파일 읽기
file_path = "../data/ai-terminology.txt"

# 파일 읽기
try:
    with open(file_path, encoding="utf-8") as f:
        ai_terminology_text = f.read()
    print(f"파일 읽기 성공: {file_path}")
except Exception as e:
    print(f"파일 읽기 실패: {e}")
    exit()

print("원본 텍스트 미리보기:")
print("-" * 50)
print(ai_terminology_text[:500] + "...")
print(f"\n전체 텍스트 길이: {len(ai_terminology_text)}자")

# ==========================================
# TokenTextSplitter vs 다른 Splitter 비교
# ==========================================

print("\n" + "="*60)
print("TokenTextSplitter 특징 및 다른 Splitter와 비교")
print("="*60)

# 1. 토큰 개수 확인 (tiktoken 사용)
encoding = tiktoken.get_encoding("cl100k_base")
tokens = encoding.encode(ai_terminology_text)
print(f"\n원본 텍스트의 토큰 개수: {len(tokens)}개")
print(f"문자 대 토큰 비율: {len(ai_terminology_text)/len(tokens):.2f} (문자/토큰)")

# 2. TokenTextSplitter 설정 및 실행
print("\n1. TokenTextSplitter (토큰 기반 분할):")
print("-" * 40)

token_splitter = TokenTextSplitter.from_tiktoken_encoder(
    chunk_size=200,              # 토큰 개수로 크기 지정
    chunk_overlap=20,            # 토큰 단위 중복
    encoding_name="cl100k_base", # OpenAI GPT 모델용 인코딩
    add_start_index=True         # 시작 인덱스 정보 포함
)

token_chunks = token_splitter.split_text(ai_terminology_text)
print(f"총 {len(token_chunks)}개 청크 생성")

for i, chunk in enumerate(token_chunks[:3], 1):
    chunk_tokens = encoding.encode(chunk)
    print(f"\nChunk {i}:")
    print(f"  토큰 수: {len(chunk_tokens)}개")
    print(f"  문자 수: {len(chunk)}자")
    print(f"  내용: {chunk[:100]}...")

# 3. 다른 Splitter와 비교
print("\n2. RecursiveCharacterTextSplitter (문자 기반 분할):")
print("-" * 45)

char_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,  # 문자 개수로 크기 지정 (토큰 200개 ≈ 문자 800개)
    chunk_overlap=80,
    separators=["\n\n", "\n", ".", " "]
)

char_chunks = char_splitter.split_text(ai_terminology_text)
print(f"총 {len(char_chunks)}개 청크 생성")

for i, chunk in enumerate(char_chunks[:3], 1):
    chunk_tokens = encoding.encode(chunk)
    print(f"\nChunk {i}:")
    print(f"  토큰 수: {len(chunk_tokens)}개")
    print(f"  문자 수: {len(chunk)}자")
    print(f"  내용: {chunk[:100]}...")

# ==========================================
# 토큰 기반 분할의 장점 확인
# ==========================================

print("\n" + "="*60)
print("토큰 기반 분할의 장점")
print("="*60)

# LLM 토큰 제한 시뮬레이션
max_tokens = 200  # 가상의 토큰 제한

print(f"\nLLM 토큰 제한: {max_tokens}개 토큰")
print("\n토큰 기반 분할 결과:")
over_limit_count = 0
for i, chunk in enumerate(token_chunks, 1):
    chunk_tokens = len(encoding.encode(chunk))
    status = "OK" if chunk_tokens <= max_tokens else "초과"
    if chunk_tokens > max_tokens:
        over_limit_count += 1
    print(f"  Chunk {i}: {chunk_tokens}개 토큰 {status}")

print(f"\n토큰 제한 초과 청크: {over_limit_count}개")

print("\n문자 기반 분할 결과:")
over_limit_count = 0
for i, chunk in enumerate(char_chunks, 1):
    chunk_tokens = len(encoding.encode(chunk))
    status = "OK" if chunk_tokens <= max_tokens else "초과"
    if chunk_tokens > max_tokens:
        over_limit_count += 1
    print(f"  Chunk {i}: {chunk_tokens}개 토큰 {status}")

print(f"\n토큰 제한 초과 청크: {over_limit_count}개")

# ==========================================
# 다양한 encoding 테스트
# ==========================================

print("\n" + "="*60)
print("다양한 인코딩 방식 비교")
print("="*60)

encodings = [
    ("cl100k_base", "GPT-4, GPT-3.5-turbo"),
    ("p50k_base", "GPT-3 (davinci)"),
    ("r50k_base", "GPT-3 (ada, babbage, curie)")
]

test_text = "안녕하세요! AI와 머신러닝에 대해 배워보겠습니다. Hello, let's learn about AI and Machine Learning!"

for encoding_name, description in encodings:
    enc = tiktoken.get_encoding(encoding_name)
    tokens = enc.encode(test_text)
    print(f"\n{encoding_name} ({description}):")
    print(f"  토큰 수: {len(tokens)}개")
    print(f"  토큰 예시: {tokens[:10]}...")

# ==========================================
# 활용 예제
# ==========================================

print("\n" + "="*60)
print("실무 활용 예제")
print("="*60)

# 다양한 chunk_size로 테스트
chunk_sizes = [100, 200, 500]

for chunk_size in chunk_sizes:
    print(f"\nchunk_size={chunk_size} 토큰:")
    splitter = TokenTextSplitter.from_tiktoken_encoder(
        chunk_size=chunk_size,
        chunk_overlap=chunk_size//10,  # 10% 중복
        encoding_name="cl100k_base"
    )
    
    chunks = splitter.split_text(ai_terminology_text)
    avg_tokens = sum(len(encoding.encode(chunk)) for chunk in chunks) / len(chunks)
    
    print(f"  총 청크 수: {len(chunks)}개")
    print(f"  평균 토큰 수: {avg_tokens:.1f}개")
    print(f"  첫 번째 청크 토큰 수: {len(encoding.encode(chunks[0]))}개")

# ==========================================
# 메타데이터 포함 문서 분할
# ==========================================

print("\n" + "="*60)
print("메타데이터 포함 Document 분할")
print("="*60)

from langchain.schema import Document

# Document 객체 생성
document = Document(
    page_content=ai_terminology_text,
    metadata={"source": "ai-terminology.txt", "type": "glossary"}
)

# Document 분할
doc_chunks = token_splitter.split_documents([document])

print(f"Document 분할 결과: {len(doc_chunks)}개 청크")
for i, doc_chunk in enumerate(doc_chunks[:2], 1):
    tokens_count = len(encoding.encode(doc_chunk.page_content))
    print(f"\nDocument Chunk {i}:")
    print(f"  토큰 수: {tokens_count}개")
    print(f"  메타데이터: {doc_chunk.metadata}")
    print(f"  내용: {doc_chunk.page_content[:100]}...")

파일 읽기 성공: ../data/ai-terminology.txt
원본 텍스트 미리보기:
--------------------------------------------------
Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Facebook AI Similarity Search)

정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.
예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.
연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화

Embedding (임베딩)

정의: 단어나 문장을 벡터 공간에 매핑하여 의미적으로 유사한 것들이 가까이 위치하도록 하는 기법.
예시: "강아지"와 "고양이"의 벡터 표현이 ...

전체 텍스트 길이: 3036자

TokenTextSplitter 특징 및 다른 Splitter와 비교

원본 텍스트의 토큰 개수: 2407개
문자 대 토큰 비율: 1.26 (문자/토큰)

1. TokenTextSplitter (토큰 기반 분할):
----------------------------------------
총 14개 청크 생성

Chunk 1:
  토큰 수: 200개
  문자 수: 270자
  내용: Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를...

Chunk 2:
  토큰 수: 200개
  문자 수: 229자
  내용: 성 검색 라이브러리로, 특히

In [6]:
!poetry show

aiofiles                 24.1.0      File support for asyncio.
aiohappyeyeballs         2.6.1       Happy Eyeballs for asyncio
aiohttp                  3.12.12     Async http client/server framework (as...
aiosignal                1.3.2       aiosignal: a list of registered asynch...
annotated-types          0.7.0       Reusable constraint types to use with ...
anyio                    4.9.0       High level compatibility layer for mul...
asttokens                3.0.0       Annotate AST trees with source code po...
attrs                    25.3.0      Classes Without Boilerplate
certifi                  2025.4.26   Python package for providing Mozilla's...
charset-normalizer       3.4.2       The Real First Universal Charset Detec...
click                    8.2.1       Composable command line interface toolkit
colorama                 0.4.6       Cross-platform colored terminal text.
comm                     0.2.2       Jupyter Python Comm implementation, fo...
dataclasses-json      