# Chunking 전략 고도화
텍스트를 어떻게 나누는지(Chunking)는 검색 정확도와 LLM 응답 품질에 직접적인 영향을 줍니다.
이번 실습에서는 다양한 Chunking 전략을 실험해봅니다.

## 1. Chunking이 중요한 이유
- 너무 짧으면 정보 부족 → LLM이 답변을 잘 못함
- 너무 길면 검색 정확도 저하 또는 토큰 초과 발생
- 최적의 길이와 Overlap 설정은 검색 품질에 핵심적인 역할을 합니다.

## 2. 기본 세팅

In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
import os

# 텍스트 로드
with open("kr_constitution_cleaned.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

## 3. 다양한 Chunk 설정 테스트

In [2]:
# 설정 1: 기본 (chunk_size=300, overlap=0)
splitter1 = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
chunks1 = splitter1.split_text(raw_text)
print("[1] 기본 설정 - 문단 수:", len(chunks1))

[1] 기본 설정 - 문단 수: 70


In [3]:
# 설정 2: Overlap 추가 (chunk_size=300, overlap=50)
splitter2 = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)
chunks2 = splitter2.split_text(raw_text)
print("[2] Overlap 50 - 문단 수:", len(chunks2))

[2] Overlap 50 - 문단 수: 74


In [4]:
# 설정 3: 더 짧은 chunk (chunk_size=150, overlap=30)
splitter3 = RecursiveCharacterTextSplitter(chunk_size=150, chunk_overlap=30)
chunks3 = splitter3.split_text(raw_text)
print("[3] 짧은 chunk - 문단 수:", len(chunks3))

[3] 짧은 chunk - 문단 수: 168


## 4. 정리
- 적절한 chunk size와 overlap은 검색 정확도와 응답 신뢰도에 영향을 줍니다.
- 이후 실습에서 이 중 어떤 전략이 성능이 더 좋은지 테스트해볼 수 있습니다.