# RAG — Retrieval-Augmented Generation

## Генерация с опорой на знания)

Большие языковые модели:

* не имеют доступа (не обучались на) приватных данных
* имеют устаревшие знания
* склонны к галлюцинациям

Пример:

> «Что написано во внутренней документации компании?»

LLM **не имеет доступа** к этим данным.


## Наивные решения (и почему они плохи)

### 1. Дообучение (fine-tuning)

* дорого
* долго
* сложно обновлять знания

### 2. Просто вставить всё в prompt

* ограничение по context window
* дорого
* плохо масштабируется


## Идея RAG

**Retrieval-Augmented Generation** =

> LLM + внешний источник знаний

Модель:

1. **ищет** релевантные документы
2. **читает** их
3. **генерирует ответ**, опираясь на них

## Классическая схема RAG

1. Пользовательский запрос
2. Поиск релевантных документов
3. Формирование prompt с контекстом
4. Генерация ответа LLM

## Из чего состоит RAG-система

### Основные компоненты:

* **Документы** (PDF, Markdown, HTML, DB)
* **Chunking** — разбиение текста
* **Embeddings** — векторное представление
* **Vector Store** — поиск по векторам
* **LLM** — генерация ответа


## Chunking — зачем и как

Почему нельзя хранить документ целиком:

* слишком длинный
* плохо ищется

Chunking:

* 200–1000 токенов
* часто с overlap (перекрытием)


## Embeddings

Embedding — это:

* отображение текста → вектор
* семантическая близость = близость векторов

Используются для:

* semantic search
* similarity

Популярные модели:

* OpenAI text-embedding-3
* bge
* e5


## Vector Store (векторная БД)

Хранит:

* embedding
* текст chunk'а
* метаданные

Примеры:

* FAISS
* Qdrant
* Milvus
* Weaviate

Решают задачу `kNN`. 


## Retriever

Retriever = логика поиска:

* embedding запроса
* similarity search
* фильтры по метаданным

Варианты:

* cosine similarity
* dot product
* hybrid (BM25 + vectors)

## Формирование prompt

Один из ключевых этапов!

Пример:

```
Answer the question using only the context below.

Context:
- chunk 1
- chunk 2

Question:
...
```

Плохой prompt -> галлюцинации

## Генерация ответа

LLM:

* читает контекст
* обобщает
* отвечает



## Минимальный RAG-пайплайн (псевдокод)

```python
query_emb = embed(query)
docs = vector_db.search(query_emb, k=5)

prompt = build_prompt(query, docs)
answer = llm.generate(prompt)
```

Просто, концептуально, масштабируемо.


## Где возникают проблемы

Типичные ошибки:

* плохой chunking
* нерелевантный retrieval
* слишком много контекста
* слабые embeddings


## Улучшения RAG

* **Re-ranking** (cross-encoder)
* **Multi-query retrieval**
* **Hybrid search**
* **Query rewriting**
* **Context compression**


## Advanced RAG

* RAG + агенты
* RAG + tools
* RAG + SQL / API
* Graph RAG
* Self-RAG (проверка ответа)
