
# RAG 실습 개념 정리: Chunking, Embedding, Indexing

RAG 실습 전에 알아야 할 핵심 개념인  
**텍스트 분할(Chunking)**, **임베딩(Embedding)**, **벡터 인덱스(Indexing)** 의 개념을 설명합니다.

---

## 1. 텍스트 분할 (Chunking)이란?

LLM(Large Language Model)은 한 번에 처리할 수 있는 **토큰 수가 제한**되어 있습니다.  
긴 문서 전체를 처리하기 어렵기 때문에 **작은 조각으로 나누는 과정**이 필요하며, 이를 Chunking이라 부릅니다.

### 주요 Chunking 방식

| 방식 | 설명 |
|------|------|
| 줄바꿈 기준 | 문단 단위로 나눔 (`\n`) |
| 고정 길이 | 예: 500자씩 슬라이딩 윈도우 |
| 의미 단위 | 문장/문단 의미적으로 구분 |

### 예시

```text
[원본 문서]
제1장 총강
제1조 대한민국은 민주공화국이다.

→ 줄바꿈 기준 분할
['제1장 총강', '제1조 대한민국은 민주공화국이다.']
```

---

## 2. 임베딩(Embedding)이란?

**텍스트 → 벡터** 로 변환하는 과정입니다.  
예를 들어:

> "대한민국은 민주공화국이다" → `[0.123, -0.445, ..., 0.056]` (768차원 또는 1536차원 벡터 등)

### 임베딩의 주요 활용

| 활용 분야 | 설명 |
|-----------|------|
| 의미 기반 검색 | 질문과 유사한 문서 찾기 |
| 문서 분류/군집화 | 의미가 비슷한 문서끼리 묶기 |
| 추천 시스템 | 사용자와 유사한 콘텐츠 연결 |

### 예시

```text
입력 문장: "대한민국은 민주공화국이다."
임베딩 벡터 (예시): [0.21, -0.45, 0.03, ..., 0.12]
```

---

## 3. 벡터 인덱스(Vector Index)란?

수천~수만 개의 벡터 중에서 **빠르게 유사한 벡터를 찾기 위한 검색 구조**입니다.

### 주요 벡터 DB 도구

| 도구 | 특징 |
|------|------|
| FAISS | Facebook 개발, 빠르고 경량 |
| Chroma | LangChain 친화적 |
| Weaviate / Milvus | 대규모 검색에 적합, 실시간 가능 |

### 인덱스의 역할

- 문서 임베딩 → 벡터 인덱스에 저장
- 사용자 질문 → 임베딩 후 인덱스에서 검색
- 관련 문서 Top-k 추출 → LLM 입력

### 예시 흐름

```text
[질문] 대한민국의 정체는 무엇인가요?
↓
[임베딩] → [벡터 검색] → ['제1조 대한민국은 민주공화국이다.']
↓
LLM 답변 생성
```

---

## 요약

| 개념 | 정의 | RAG에서의 역할 |
|------|------|----------------|
| Chunking | 문서를 나누는 작업 | LLM 토큰 제한 해결, 검색 정확도 향상 |
| Embedding | 텍스트를 벡터로 변환 | 의미 유사도 계산, 검색 기반 |
| Indexing | 벡터를 빠르게 찾는 구조 | Top-k 유사 문서 검색 수행 |

---

다음으론, 이론을 바탕으로 실제 임베딩 생성 및 검색 실습을 진행해봅니다.