## 1. 효과적인 텍스트 분할 전략
- 개인적으로 모델의 성능 뿐만 아니라 가장 중요 요소라가 생각.
- LLM은 한 번에 처리할 수 있는 토큰(텍스트의 단위) 수에 제한이 있음(컨텍스트 윈도우).
- 긴 문서는 검색 및 LLM 처리에 적합하도록 여러 개의 작은 청크(chunk)로 분할해야 함
- 효과적인 텍스트 분할은 RAG 시스템의 성능에 매우 중요


**텍스트 분할의 중요성:**
- **컨텍스트 윈도우 관리**: LLM의 입력 제한을 초과하지 않도록 해야함.
- **검색 정확도 향상**: 관련성 높은 정보만 담긴 작은 청크를 검색하여 LLM에 제공함으로써 답변 품질을 높일 수 있음.
- **비용 효율성**: 필요한 부분만 LLM에 전달하여 API 비용을 절감 가능 

**고려사항:**
- **청크 크기 (`chunk_size`)**: 너무 작으면 문맥이 손실되고, 너무 크면 관련 없는 정보가 포함될 수 있음.
- **청크 중복 (`chunk_overlap`)**: 청크 간의 연속성을 유지하고, 중요한 정보가 청크 경계에서 잘리는 것을 방지 할 수 있지만, 너무 크면 중복 정보가 많아짐
- **분할 기준**: 문장, 단락 등 의미론적 단위를 기준으로 분할하는 것이 좋은거 같음

### 1-1 RecursiveCharacterTextSplitter

-`RecursiveCharacterTextSplitter`는 가장 일반적으로 사용되는 텍스트 분할기 중 하나
- 지정된 구분자(separator) 리스트를 순서대로 적용하여 재귀적으로 텍스트를 분할
- 예를 들어, 먼저 문단(`\n\n`)으로 나누고, 각 문단이 너무 길면 문장(`. `)으로, 그래도 길면 단어(` `)로 나누는 식으로 진행

**주요 파라미터:**
- `chunk_size`: 목표 청크 크기 (글자 수 또는 토큰 수).
- `chunk_overlap`: 청크 간 중복되는 글자 수 또는 토큰 수. 문맥 유지를 위해 사용
- `length_function`: 청크 크기를 계산하는 함수 (기본값은 `len`, 즉 글자 수).
- `separators`: 분할에 사용할 구분자 리스트. 우선순위 순서대로 적용. (예: `["\n\n", "\n", " ", ""]`)

**장점:**
- 설정이 비교적 간단하고, 일반적인 텍스트에 잘 작동.
- 재귀적 접근 방식으로 의미론적 경계를 어느 정도 존중.

**단점:**
- `separators` 설정에 따라 성능이 달라질 수 있음.
- 고정된 크기를 엄격하게 지키기보다, 구분자를 우선적으로 고려하여 분할하여서 청크 크기가 다소 불균일할 수 있음

In [1]:
from langchain_community.document_loaders import PyPDFLoader

pdf_loader = PyPDFLoader('./data/transformer.pdf')
pdf_docs = pdf_loader.load() # Document 객체의 리스트로 반환

In [2]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter_recursive = RecursiveCharacterTextSplitter(
    chunk_size=1000,        # 각 청크의 최대 글자 수
    chunk_overlap=200,      # 청크 간 중복되는 글자 수 (연속성 유지)
    length_function=len,    # 글자 수를 기준으로 분할 (기본값)
    separators=["\n\n", "\n", ". ", " ", ""],  # 분할 시도 순서: 문단 -> 줄바꿈 -> 마침표 -> 공백 -> 글자
    is_separator_regex=False, # 구분자를 정규표현식으로 해석할지 여부
)

# PDF 문서(pdf_docs)를 분할합니다.
recursive_texts = text_splitter_recursive.split_documents(pdf_docs)
print(f"생성된 텍스트 청크 수: {len(recursive_texts)}")
chunk_lengths = [len(text.page_content) for text in recursive_texts]
print(f"각 청크의 길이 (처음 5개): {chunk_lengths[:5]}")
print(f"각 청크의 길이 (마지막 5개): {chunk_lengths[-5:]}")

생성된 텍스트 청크 수: 52
각 청크의 길이 (처음 5개): [981, 910, 975, 451, 932]
각 청크의 길이 (마지막 5개): [929, 849, 812, 814, 817]


- RecursiveCharacterTextSplitter는 이름에서 알 수 있듯이 재귀적으로 텍스트를 분할
- 구분자를 순차적으로 적용하여 큰 청크에서 시작하여 점진적으로 더 작은 단위로 나뉨 
- CharacterTextSplitter보다 더 엄격하게 크기를 준수하려고 하지만, 구분자를 우선시

In [3]:
# 각 청크의 시작 부분과 끝 부분 확인 (중복(overlap)이 어떻게 적용되는지 관찰)
for i, text_chunk in enumerate(recursive_texts[:3]): # 처음 3개 청크만 확인
    print(f"--- 청크 {i+1} (길이: {len(text_chunk.page_content)}) ---")
    print("[시작 부분]")
    print(text_chunk.page_content[:200])
    print("\n[...중략...]\n")
    print("[끝 부분]")
    print(text_chunk.page_content[-200:])
    print("=" * 100 + "\n")

--- 청크 1 (길이: 981) ---
[시작 부분]
Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and figures in this paper solely for use in journalistic or
scholarly works.
Attention Is All You Need


[...중략...]

[끝 부분]
the encoder and decoder through an attention
mechanism. We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions

--- 청크 2 (길이: 910) ---
[시작 부분]
mechanism. We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions
entirely. Experiments on two machine transla

[...중략...]

[끝 부분]
the
best models from the literature. We show that the Transformer generalizes well to
other tasks by applying it successfully to English constituency parsing both with
large and limited training data.

--- 청크 3 (길이: 975) ---
[시작 부분]
best models from the literature. We show that the Transformer

### 1-2 정규표현식 사용 (CharacterTextSplitter)

- `CharacterTextSplitter`는 `RecursiveCharacterTextSplitter`의 기반이 되는 분할기
- `separator`를 단일 문자열로 받으며, `is_separator_regex=True`로 설정하면 이 `separator`를 정규표현식으로 해석하여 분할
- 특정 패턴을 기준으로 텍스트를 정교하게 나눌 때 유용

**주요 파라미터:**
- `separator`: 분할 기준이 되는 문자열 또는 정규표현식.
- `is_separator_regex`: `separator`를 정규표현식으로 다룰지 여부 (기본값 `False`).
- `keep_separator`: 분할 후 각 청크에 구분자를 유지할지 여부 (기본값 `False`).

**정규표현식 예시: `(?<=[.!?])\s+`**
- `(?<=[.!?])`: 마침표(.), 느낌표(!), 물음표(?) 중 하나가 앞에 오는 위치를 찾으며, 이 문자 자체는 분할 기준에 포함되지 않음
- `\s+`: 하나 이상의 공백 문자와 일치
- 즉, 문장의 끝을 나타내는 구두점(`.`, `!`, `?`) 뒤에 오는 공백을 기준으로 분할

**장점:**
- 정규표현식을 통해 매우 유연하고 정교한 분할 규칙을 정의할 수 있습니다.

**단점:**
- 정규표현식 작성 및 디버깅이 어려울 수 있음.(아직 어려움)
- 복잡한 정규표현식은 성능에 영향을 줄 수 있음.
- `chunk_size`를 엄격히 지키기보다는 정규표현식에 의한 분할을 우선하여, 청크 크기가 매우 불균일하게 나올 수 있으며, `chunk_size`는 사실상 분할된 부분들을 합칠 때의 최대 크기 제한처럼 동작함

In [4]:
from langchain_community.document_loaders import JSONLoader
def metadata_func(record: dict, metadata: dict) -> dict:

    metadata["sender"] = record.get("sender")
    metadata["timestamp"] = record.get("timestamp")
    return metadata
jsonl_loader_with_meta = JSONLoader(
    file_path="./data/kakao_chat.jsonl",
    jq_schema=".",                 
    content_key="content",         
    metadata_func=metadata_func,   
    json_lines=True,            
)

jsonl_docs_with_meta = jsonl_loader_with_meta.load()
json_docs = jsonl_docs_with_meta 

In [5]:
# 문장을 구분하여 분할 (마침표, 느낌표, 물음표 다음에 공백이 오는 경우 문장의 끝으로 판단)
from langchain_text_splitters import CharacterTextSplitter

text_splitter_regex = CharacterTextSplitter(
    chunk_size=20, # 정규식으로 분리된 조각들을 합칠 때의 최대 크기.
                   # 실제 청크는 이보다 훨씬 작을 수 있음.
    chunk_overlap=0, # 문장 단위 분할이므로 중복을 0으로 설정
    separator=r'(?<=[.!?])\s+', # 문장 끝 구두점 뒤 공백을 기준으로 분할하는 정규표현식
    is_separator_regex=True,
    keep_separator=True, # 구분자(공백)를 청크에 포함하지 않음
    # keep_separator False일때, 사용할수있는 경우는 언제일까????
    
)

regex_texts = text_splitter_regex.split_documents(json_docs) 
print(f"생성된 텍스트 청크 수: {len(regex_texts)}")
chunk_lengths_regex = [len(text.page_content) for text in regex_texts]
print(f"각 청크의 길이 (처음 10개): {chunk_lengths_regex[:10]}")
print()

생성된 텍스트 청크 수: 8
각 청크의 길이 (처음 10개): [31, 9, 15, 19, 11, 27, 13, 13]



In [6]:
# 각 청크의 내용 확인 (문장 단위로 잘 분할되었는지)
for i, text_chunk in enumerate(regex_texts[:5]): # 처음 5개 청크만 확인
    print(f"--- 정규식 청크 {i+1} (길이: {len(text_chunk.page_content)}) ---")
    print(text_chunk.page_content)
    print("=" * 70 + "\n")

--- 정규식 청크 1 (길이: 31) ---
안녕하세요 여러분, 오늘 회의 시간 확인차 연락드립니다.

--- 정규식 청크 2 (길이: 9) ---
네, 안녕하세요.

--- 정규식 청크 3 (길이: 15) ---
오후 2시에 하기로 했어요.

--- 정규식 청크 4 (길이: 19) ---
확인했습니다. 회의실은 어디인가요?

--- 정규식 청크 5 (길이: 11) ---
3층 대회의실입니다.



### 1-3 토큰 수를 기반으로 분할

- LLM은 내부적으로 텍스트를 토큰(token) 단위로 처리
- 글자 수보다는 토큰 수를 기준으로 텍스트를 분할하는 것이 LLM의 컨텍스트 윈도우를 보다 정확하게 관리하는 방법
- LangChain은 다양한 토크나이저와 연동하여 토큰 기반 분할을 지원

**장점:**
- LLM의 실제 처리 단위인 토큰을 기준으로 분할하므로 컨텍스트 윈도우 관리가 용이
- 모델별 토크나이저를 사용하여 해당 모델에 최적화된 분할이 가능합니다.

**단점:**
- 어떤 토크나이저를 사용하느냐에 따라 분할 결과와 토큰 수가 달라짐
- 토큰화 과정 자체에 약간의 연산 비용이 추가

`(1) tiktoken`  
- OpenAI에서 만든 BPE (Byte Pair Encoding) 기반 토크나이저 라이브러리
- GPT 시리즈 (gpt-3.5-turbo, gpt-4, text-embedding-ada-002 등) 모델들이 사용하는 토큰화 방식을 따름.
- `RecursiveCharacterTextSplitter.from_tiktoken_encoder()` 메서드를 사용하면 특정 OpenAI 모델의 토크나이저를 기준으로 분할할 수 있음
  - `encoding_name`: `cl100k_base` (대부분의 최신 OpenAI 모델), `p50k_base` 등 Tiktoken 인코딩 이름을 직접 지정
  - `model_name`: `gpt-4o-mini`, `text-embedding-3-small` 등 OpenAI 모델 이름을 지정하면 해당 모델의 기본 인코딩을 사용

In [7]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Tiktoken을 사용하여 토큰 수 기준으로 분할하는 TextSplitter 생성
text_splitter_tiktoken = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base",  # text-embedding-ada-002, gpt-3.5-turbo, gpt-4 등 최신 모델용 인코딩
    # model_name="gpt-4o-mini", # 모델 이름을 지정하여 해당 모델의 토크나이저 사용
    chunk_size=300,  # 각 청크의 최대 토큰 수
    chunk_overlap=50, # 청크 간 중복되는 토큰 수
    # separators 등 RecursiveCharacterTextSplitter의 다른 파라미터도 사용 가능
)

# PDF 문서의 첫 페이지만 분할 (pdf_docs[:1])
chunks_tiktoken = text_splitter_tiktoken.split_documents(pdf_docs[:1])

print(f"생성된 청크 수: {len(chunks_tiktoken)}")
chunk_char_lengths_tiktoken = [len(chunk.page_content) for chunk in chunks_tiktoken]
print(f"각 청크의 글자 수: {chunk_char_lengths_tiktoken}")
print("\n--- 각 청크 미리보기 (Tiktoken) ---")
# 각 청크의 시작 부분과 끝 부분 확인
for i, chunk in enumerate(chunks_tiktoken[:3]): # 처음 3개 청크만 확인
    print(f"\n--- 청크 {i+1} (글자 수: {len(chunk.page_content)}) ---")
    print("[시작 부분]")
    print(chunk.page_content[:100])
    print("\n[...중략...]\n")
    print("[끝 부분]")
    print(chunk.page_content[-100:])
    print("=" * 70)

생성된 청크 수: 3
각 청크의 글자 수: [1140, 1389, 783]

--- 각 청크 미리보기 (Tiktoken) ---

--- 청크 1 (글자 수: 1140) ---
[시작 부분]
Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and

[...중략...]

[끝 부분]
w these models to
be superior in quality while being more parallelizable and requiring significantly

--- 청크 2 (글자 수: 1389) ---
[시작 부분]
based solely on attention mechanisms, dispensing with recurrence and convolutions
entirely. Experime

[...중략...]

[끝 부분]
iki designed, implemented, tuned and evaluated countless model variants in our original codebase and

--- 청크 3 (글자 수: 783) ---
[시작 부분]
attention and the parameter-free position representation and became the other person involved in nea

[...중략...]

[끝 부분]
ormation Processing Systems (NIPS 2017), Long Beach, CA, USA.arXiv:1706.03762v7  [cs.CL]  2 Aug 2023


**Tiktoken으로 실제 토큰 수 확인**
분할된 각 청크가 실제로 목표한 토큰 수 (`chunk_size=300`)에 근접하는지 확인

In [8]:
import tiktoken

# text_splitter_tiktoken에서 사용한 것과 동일한 인코딩/모델을 지정해야 정확합니다.
# tokenizer = tiktoken.get_encoding("cl100k_base")
tokenizer_gpt4omini = tiktoken.encoding_for_model("gpt-4o-mini")

print("--- 각 청크의 실제 토큰 수 (Tiktoken gpt-4o-mini) ---")
for i, chunk in enumerate(chunks_tiktoken[:5]): # 처음 5개 청크 확인
    tokens = tokenizer_gpt4omini.encode(chunk.page_content)
    print(f"청크 {i+1}: {len(tokens)} 토큰")
    # print(f"  첫 10개 토큰 ID: {tokens[:10]}")
    # token_strings = [tokenizer_gpt4omini.decode([token]) for token in tokens[:10]]
    # print(f"  첫 10개 토큰 문자열: {token_strings}")
    # print("-" * 50)

--- 각 청크의 실제 토큰 수 (Tiktoken gpt-4o-mini) ---
청크 1: 275 토큰
청크 2: 287 토큰
청크 3: 164 토큰


`(2) Hugging Face 토크나이저`  
- Hugging Face `transformers` 라이브러리에서 제공하는 다양한 오픈소스 모델의 토크나이저를 사용할 수 있음.
- `RecursiveCharacterTextSplitter.from_huggingface_tokenizer()` 메서드를 사용.
  - `tokenizer`: Hugging Face `transformers.PreTrainedTokenizerBase`의 인스턴스를 전달

In [9]:
from transformers import AutoTokenizer

# BAAI/bge-m3 모델의 토크나이저 로드
hf_tokenizer_bge_m3 = AutoTokenizer.from_pretrained("BAAI/bge-m3")
print(hf_tokenizer_bge_m3)

XLMRobertaTokenizerFast(name_or_path='BAAI/bge-m3', vocab_size=250002, model_max_length=8192, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'}, clean_up_tokenization_spaces=True, added_tokens_decoder={
	0: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	250001: AddedToken("<mask>", rstrip=False, lstrip=True, single_word=False, normalized=False, special=True),
}
)


In [10]:
# Hugging Face 토크나이저 인코딩 테스트
sample_text_ko = "안녕하세요. 반갑습니다."
tokens_hf_bge_m3 = hf_tokenizer_bge_m3.encode(sample_text_ko)
print(f"'{sample_text_ko}' -> 토큰 ID: {tokens_hf_bge_m3}")

'안녕하세요. 반갑습니다.' -> 토큰 ID: [0, 107687, 5, 20451, 54272, 16367, 5, 2]


In [11]:
# 토큰 ID를 실제 토큰 문자열로 변환
print(f"토큰 문자열: {hf_tokenizer_bge_m3.convert_ids_to_tokens(tokens_hf_bge_m3)}")

토큰 문자열: ['<s>', '▁안녕하세요', '.', '▁반', '갑', '습니다', '.', '</s>']


In [12]:
# 토큰 ID를 다시 원본 텍스트로 디코딩
print(f"디코딩된 텍스트: {hf_tokenizer_bge_m3.decode(tokens_hf_bge_m3)}")

디코딩된 텍스트: <s> 안녕하세요. 반갑습니다.</s>


In [13]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Hugging Face 토크나이저를 사용하여 토큰 수 기준으로 분할하는 TextSplitter 생성
text_splitter_hf = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer=hf_tokenizer_bge_m3,
    chunk_size=300, 
    chunk_overlap=50,
)

# PDF 문서의 첫 페이지만 분할 (pdf_docs[:1])
chunks_hf = text_splitter_hf.split_documents(pdf_docs[:1])

In [14]:
print(f"생성된 청크 수: {len(chunks_hf)}")
chunk_char_lengths_hf = [len(chunk.page_content) for chunk in chunks_hf]
print(f"각 청크의 글자 수: {chunk_char_lengths_hf}")
print()

print("--- 각 청크의 실제 토큰 수 (HuggingFace BAAI/bge-m3) ---")
for i, chunk in enumerate(chunks_hf[:5]): # 처음 5개 청크 확인
    tokens = hf_tokenizer_bge_m3.encode(chunk.page_content)
    print(f"청크 {i+1}: {len(tokens)} 토큰")
    # print(f"  첫 10개 토큰 ID: {tokens[:10]}")
    # token_strings = hf_tokenizer_bge_m3.convert_ids_to_tokens(tokens[:10]) 
    # print(f"  첫 10개 토큰 문자열: {token_strings}")
    # print("=" * 70)

생성된 청크 수: 3
각 청크의 글자 수: [1214, 1307, 783]

--- 각 청크의 실제 토큰 수 (HuggingFace BAAI/bge-m3) ---
청크 1: 301 토큰
청크 2: 293 토큰
청크 3: 181 토큰


### 1-4 Semantic Chunking (시맨틱 청킹)

- `SemanticChunker`은 고정된 크기나 규칙 기반이 아닌, 문장 간의 의미론적 유사성을 기반으로 텍스트를 분할
- 임베딩 모델을 사용하여 각 문장의 임베딩 벡터를 계산하고, 인접한 문장들 간의 코사인 유사도를 측정합니다. 이 유사도가 특정 임계값(breakpoint)을 기준으로 크게 변하는 지점에서 청크를 나눕니다. 즉, 의미적으로 관련성이 높은 문장들을 하나의 청크로 묶으려는 시도입니다.

**주요 파라미터:**
- `embeddings`: 문장의 의미론적 유사도를 계산하는 데 사용할 임베딩 모델 (예: `OpenAIEmbeddings`).
- `breakpoint_threshold_type`: 유사도 변화의 기준점을 정하는 방식.
  - `"percentile"` (기본값): 유사도 분포의 특정 백분위수를 기준점
  - `"standard_deviation"`: 평균에서 표준편차의 특정 배수만큼 떨어진 지점을 기준점
  - `"gradient"`: 유사도 값의 변화율(기울기)이 급격히 변하는 지점을 찾으며, 문맥 전환을 더 잘 감지할 수 있음
  - `"interquartile"`: 사분위수 범위를 사용하여 기준점을 설정
- `breakpoint_threshold_amount` (또는 `percentile_threshold`, `threshold` 등 타입에 따라 다름): 기준점 타입에 따른 구체적인 값.

**장점:**
- 의미론적으로 응집력 있는 청크를 생성하여 RAG의 검색 품질 및 답변 생성 품질을 향상시킬 잠재력이 있음
- 고정 크기 분할보다 문맥 유지가 잘 됨

**단점:**
- **실험적 기능**: 아직 개발 중이며, 성능이 불안정하거나 API가 변경될 수 있어, 고정된 값이 안 나올 수 있음.
- **계산 비용**: 모든 문장에 대해 임베딩을 계산해야 하므로 다른 분할 방식보다 연산량이 많고 느림.
- 임베딩 모델의 품질과 데이터 특성에 따라 분할 결과가 크게 달라질 수 있음.
- 최적의 `breakpoint_threshold_type`과 값을 찾기 위한 실험이 필요함.


**사내 연구용으로 적용하기에는 적절한 구조일것으로 추정**

In [17]:
from dotenv import load_dotenv
load_dotenv() # .env 파일에 정의된 환경변수들을 로드합니다.

True

In [20]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# SemanticChunker는 임베딩 모델을 사용하여 문장 간 유사도를 계산
text_splitter_semantic = SemanticChunker(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-small"), # OpenAI 임베딩 사용
    breakpoint_threshold_type="gradient",  # 기준점 타입: 기울기 변화 감지
    # breakpoint_threshold_type="percentile", percentile_threshold=95, # 예: 상위 5% 변화 지점
    # add_start_index=True # 메타데이터에 청크 시작 인덱스 추가 여부 (토큰 기반으로 문서를 재조합할 때 유용)
    )


In [22]:
# PDF 문서의 첫 페이지만 분할 (pdf_docs[:1])
# 주의: SemanticChunker는 내부적으로 문장 단위로 나누고 임베딩을 계산하므로, 
# 입력 문서가 클 경우 상당한 시간이 소요될 수 있습니다.
chunks_semantic = text_splitter_semantic.split_documents(pdf_docs[:1])

print(f"생성된 청크 수 (SemanticChunker): {len(chunks_semantic)}")
chunk_char_lengths_semantic = [len(chunk.page_content) for chunk in chunks_semantic]
print(f"각 청크의 글자 수: {chunk_char_lengths_semantic}")
print()

# Tiktoken 토크나이저로 각 시맨틱 청크의 토큰 수 확인 (참고용)
tokenizer_for_semantic_check = tiktoken.encoding_for_model("gpt-4o-mini")

print("--- 각 시맨틱 청크 미리보기 및 토큰 수 (참고용) ---")
for i, chunk in enumerate(chunks_semantic[:5]): # 처음 5개 청크 확인
    tokens = tokenizer_for_semantic_check.encode(chunk.page_content)
    print(f"\n--- 시맨틱 청크 {i+1} (글자 수: {len(chunk.page_content)}, 토큰 수: {len(tokens)}) ---")
    print(chunk.page_content[:200]) # 내용 일부 출력
    if len(chunk.page_content) > 200:
        print("[...]")
    print("=" * 70)

생성된 청크 수 (SemanticChunker): 2
각 청크의 글자 수: [1736, 1116]

--- 각 시맨틱 청크 미리보기 및 토큰 수 (참고용) ---

--- 시맨틱 청크 1 (글자 수: 1736, 토큰 수: 415) ---
Provided proper attribution is provided, Google hereby grants permission to
reproduce the tables and figures in this paper solely for use in journalistic or
scholarly works. Attention Is All You Need

[...]

--- 시맨틱 청크 2 (글자 수: 1116, 토큰 수: 235) ---
∗Equal contribution. Listing order is random. Jakob proposed replacing RNNs with self-attention and started
the effort to evaluate this idea. Ashish, with Illia, designed and implemented the first Tra
[...]
