# 📚 RecursiveCharacterTextSplitter 완전 정복 가이드

## 📖 개요

**RecursiveCharacterTextSplitter**는 LangChain에서 텍스트를 **의미 단위로 똑똑하게 분할**하는 최고의 도구입니다! 📝

### 🎯 왜 RecursiveCharacterTextSplitter가 특별할까?

일반적인 텍스트 분할기와 달리 이 도구는 **사람이 읽는 방식**을 따라 텍스트를 분할합니다:

- **📄 단락 우선**: 의미가 완성된 단락을 최대한 유지
- **📝 문장 단위**: 단락이 크면 문장 단위로 분할
- **🔤 단어 단위**: 문장도 크면 단어 단위로 분할
- **🔀 재귀적 접근**: 크기가 맞을 때까지 반복 분할

### 🏗️ 동작 원리

RecursiveCharacterTextSplitter는 **우선순위가 있는 분할 전략**을 사용합니다:

1. **구분자 목록**: `["\n\n", "\n", " ", ""]` 순서로 시도
2. **재귀적 분할**: 청크가 목표 크기에 맞을 때까지 반복
3. **의미 보존**: 가능한 한 관련된 내용을 함께 유지

### 🎮 실생활 비유로 이해하기

**피자 자르기**를 떠올려보세요! 🍕

```
🍕 큰 피자 (전체 텍스트)
├── 🥧 조각 나누기 (단락별 분할) - 먼저 시도
├── 🔪 더 작게 자르기 (문장별 분할) - 조각이 크면
└── ✂️ 아주 작게 자르기 (단어별 분할) - 여전히 크면
```

### 🎯 이 튜토리얼에서 배울 것들

1. **📂 파일 읽기** - 실제 텍스트 데이터 준비하기
2. **⚙️ 분할기 설정** - chunk_size, chunk_overlap 등 핵심 매개변수 이해
3. **🔧 실제 분할** - 텍스트를 청크로 나누는 실전 예제
4. **📊 결과 분석** - 분할된 결과 확인하고 최적화하기

### 💡 핵심 매개변수 미리보기

- **chunk_size**: 각 청크의 최대 크기 (문자 수)
- **chunk_overlap**: 청크 간 중복되는 문자 수 (맥락 유지용)
- **separators**: 분할에 사용할 구분자 목록

### 🚀 준비되셨나요?

이제 실제 예제를 통해 RecursiveCharacterTextSplitter의 강력한 기능을 체험해봅시다! 🎯

## 환경 설정 🛠️

RecursiveCharacterTextSplitter를 사용하기 전에 필요한 환경을 설정해봅시다!

In [None]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv(override=True)

In [None]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("LangChain-Tutorial")

---

# Part 1: 데이터 준비 📂

## 1.1 샘플 텍스트 파일 읽기 🔍

실제 텍스트 분할을 체험하기 위해 먼저 샘플 데이터를 준비해봅시다! 

### 📋 샘플 파일 정보
- **파일명**: `appendix-keywords.txt`
- **용도**: RecursiveCharacterTextSplitter 테스트용 샘플 텍스트
- **특징**: 다양한 단락과 문장이 포함된 실제 문서

### 📖 Python으로 텍스트 파일 읽기

Python의 **with open()** 구문을 사용하여 텍스트 파일을 안전하게 읽어옵니다.

#### 💡 with open() 구문의 장점
- **🔒 자동 파일 닫기**: 파일을 사용한 후 자동으로 닫아줌
- **🛡️ 안전한 파일 처리**: 오류가 발생해도 파일이 안전하게 닫힘
- **🎯 깔끔한 코드**: 파일 열기/닫기를 신경 쓰지 않아도 됨

In [None]:
# 샘플 텍스트 파일을 열어서 읽기
with open("./data/appendix-keywords.txt") as f:
    file = f.read()  # 파일 전체 내용을 문자열로 읽어서 file 변수에 저장

### 🔍 파일 내용 미리보기

읽어온 텍스트가 어떤 내용인지 **처음 500자** 만 출력하여 확인해봅시다.

#### 🎯 왜 일부만 출력할까?
- **📊 효율적인 확인**: 전체 내용을 다 보면 너무 길어서 불편
- **🔍 구조 파악**: 텍스트의 전체적인 구조와 패턴 파악
- **⚡ 빠른 검증**: 파일이 제대로 읽혔는지 빠르게 확인

In [None]:
# 파일 내용의 처음 500자만 출력하여 미리보기
print(file[:500])

---

# Part 2: RecursiveCharacterTextSplitter 심화 학습 ⚙️

## 2.1 라이브러리 import 📦

LangChain의 **text_splitters** 모듈에서 RecursiveCharacterTextSplitter를 가져옵니다.

### 🔍 langchain_text_splitters 모듈이란?

LangChain에서 제공하는 **다양한 텍스트 분할기들의 집합체** 입니다:

- **📝 RecursiveCharacterTextSplitter**: 가장 일반적이고 똑똑한 분할기
- **📄 TokenTextSplitter**: 토큰 단위로 분할 (GPT 토큰 기준)
- **🔤 CharacterTextSplitter**: 단순 문자 기준 분할
- **📊 MarkdownHeaderTextSplitter**: 마크다운 헤더 기준 분할

In [None]:
# LangChain 텍스트 분할기 라이브러리에서 RecursiveCharacterTextSplitter 가져오기
from langchain_text_splitters import RecursiveCharacterTextSplitter

## 2.2 분할기 설정하기 🔧

이제 **RecursiveCharacterTextSplitter** 인스턴스를 생성하고 핵심 매개변수들을 설정해봅시다!

### 🎯 핵심 매개변수 완전 해부

#### 📏 **chunk_size: 250**
- **의미**: 각 청크(조각)의 **최대 문자 수**
- **예시**: "안녕하세요"는 5자, "Hello World"는 11자
- **주의**: 실제로는 구분자 위치에 따라 조금 다를 수 있음

#### 🔗 **chunk_overlap: 50**  
- **의미**: **인접한 청크 간 중복되는 문자 수**
- **목적**: 문맥이 끊어지는 것을 방지
- **예시**: 청크1의 마지막 50자가 청크2의 첫 50자와 동일

#### 📐 **length_function: len**
- **의미**: **텍스트 길이를 측정하는 함수**
- **기본값**: Python의 `len()` 함수 (문자 수 기준)
- **대안**: 토큰 수 기준 함수도 사용 가능

#### 🔤 **is_separator_regex: False**
- **의미**: **구분자를 정규식으로 해석할지 여부**
- **False**: 구분자를 일반 문자열로 처리 (추천)
- **True**: 구분자를 정규식 패턴으로 처리 (고급 사용자용)

### 🎮 실생활 비유로 이해하기

**책장 정리**를 떠올려보세요! 📚

- **chunk_size**: 각 책장 칸의 **최대 수납 공간**
- **chunk_overlap**: 책들이 **약간씩 겹쳐지도록 배치** (연결성 유지)
- **length_function**: 책의 **두께를 재는 방법** (페이지 수? 무게?)
- **is_separator_regex**: 책 분류 **기준이 복잡한 규칙인지 단순한지**

In [None]:
# RecursiveCharacterTextSplitter 인스턴스 생성 및 설정
text_splitter = RecursiveCharacterTextSplitter(
    # 각 청크의 최대 문자 수 설정 (예시를 위해 작은 값 사용)
    chunk_size=250,
    # 인접한 청크 간 중복되는 문자 수 설정 (문맥 연결 유지용)
    chunk_overlap=50,
    # 텍스트 길이를 측정하는 함수 지정 (문자 수 기준)
    length_function=len,
    # 구분자를 정규식으로 처리할지 여부 (False: 일반 문자열로 처리)
    is_separator_regex=False,
)

## 2.3 실제 텍스트 분할하기 ✂️

이제 설정한 분할기로 실제 텍스트를 **Document 객체**로 분할해봅시다!

### 🔍 create_documents() vs split_text()의 차이

#### 📄 **create_documents()** - Document 객체로 분할
- **반환 타입**: `List[Document]` (Document 객체들의 리스트)
- **포함 내용**: 텍스트 내용 + 메타데이터
- **장점**: 추후 벡터 스토어나 체인에서 바로 사용 가능
- **사용 시기**: 실제 RAG 시스템 구축할 때

#### 📝 **split_text()** - 순수 텍스트로 분할  
- **반환 타입**: `List[str]` (문자열들의 리스트)
- **포함 내용**: 텍스트 내용만
- **장점**: 간단하고 직관적
- **사용 시기**: 단순 텍스트 분할 테스트할 때

### 🎯 Document 객체란?

LangChain의 **Document**는 텍스트와 메타데이터를 함께 저장하는 **컨테이너** 입니다:

```python
Document(
    page_content="실제 텍스트 내용",  # 분할된 텍스트
    metadata={"source": "파일명", "chunk_id": 0}  # 부가 정보
)
```

In [None]:
# create_documents()로 텍스트를 Document 객체들로 분할
texts = text_splitter.create_documents([file])

# 분할된 첫 번째 Document 출력 (내용과 메타데이터 모두 포함)
print(texts[0])
print("===" * 20)  # 구분선
# 분할된 두 번째 Document 출력
print(texts[1])

## 2.4 순수 텍스트 분할 - split_text() 📝

이번에는 **split_text()** 메서드를 사용하여 순수한 문자열 리스트로 분할해봅시다!

### 🎯 split_text()의 특징

#### ✨ **장점**
- **🚀 빠른 처리**: Document 객체 생성 과정이 없어 더 빠름
- **🎯 직관적**: 단순히 문자열 리스트로 반환
- **💫 가벼움**: 메타데이터 없이 텍스트만 처리

#### ⚠️ **단점**  
- **🔍 추적 어려움**: 어느 청크가 원본의 어느 부분인지 알기 어려움
- **🔗 연결 부족**: LangChain 체인에서 바로 사용하기 어려움
- **📊 메타데이터 없음**: 부가 정보 없이 텍스트만 제공

### 🔍 언제 어떤 방법을 사용할까?

| 상황 | 추천 메서드 | 이유 |
|------|-------------|------|
| **RAG 시스템 구축** | `create_documents()` | 벡터 스토어 저장 시 메타데이터 필요 |
| **간단한 테스트** | `split_text()` | 빠르고 직관적인 결과 확인 |
| **텍스트 분석** | `split_text()` | 순수 문자열로 분석 작업 진행 |
| **프로덕션 환경** | `create_documents()` | 완전한 기능과 추적성 필요 |

In [None]:
# split_text()로 순수 문자열 리스트로 분할하고 처음 2개 청크만 출력
text_splitter.split_text(file)[:2]

---

# 🎯 정리 및 핵심 포인트

## 🏆 오늘 배운 것들

축하합니다! **RecursiveCharacterTextSplitter**의 핵심 기능을 모두 마스터했습니다! 🎉

### 📋 학습 요약

1. **📂 데이터 준비**: 실제 텍스트 파일을 안전하게 읽어오기
2. **⚙️ 분할기 설정**: 핵심 매개변수들의 의미와 활용법
3. **📄 Document 분할**: `create_documents()`로 메타데이터와 함께 분할
4. **📝 텍스트 분할**: `split_text()`로 순수 문자열 리스트로 분할

### 💡 핵심 매개변수 복습

- **chunk_size**: 각 청크의 최대 문자 수
- **chunk_overlap**: 청크 간 중복 문자 수 (맥락 유지용)
- **length_function**: 길이 측정 함수 (기본: `len`)
- **is_separator_regex**: 구분자 정규식 사용 여부

### 🚀 다음 단계로 나아가기

이제 RecursiveCharacterTextSplitter를 활용하여:

- **🔍 벡터 스토어 구축**: 분할된 텍스트를 임베딩으로 변환
- **🤖 RAG 시스템 구축**: 질문-답변 시스템 개발
- **📊 텍스트 분석**: 대용량 문서 분석 및 처리
- **🔧 최적화**: chunk_size와 overlap 조정으로 성능 개선

### 🎯 실무 활용 팁

- **📝 일반 텍스트**: chunk_size=1000, chunk_overlap=200 추천
- **💬 대화형 텍스트**: chunk_size=500, chunk_overlap=50 추천  
- **📚 기술 문서**: chunk_size=1500, chunk_overlap=300 추천
- **🔍 테스트용**: chunk_size=250, chunk_overlap=50 (본 튜토리얼과 같음)

### 🎉 수고하셨습니다!

RecursiveCharacterTextSplitter의 기본기를 확실히 다졌습니다. 이제 본격적인 RAG 시스템 구축으로 나아갈 준비가 완료되었습니다! 💪