## RAG

**RAG (Retrieval-Augmented Generation)** — это одна из самых популярных и эффективных архитектур для создания интеллектуальных чат-ботов и поисковых систем, работающих с вашими собственными данными.


**С RAG:** Вы идете в библиотеку (ваше хранилище данных), находите нужные книги и статьи (этап Retrieval), внимательно их читаете (Augmentation), а затем на основе этой актуальной информации пишете свой доклад (Generation).

**RAG — это мост между вашими собственными данными и мощью большой языковой модели.** Он решает главные проблемы "голых" LLM (устаревание данных и галлюцинации), заставляя модель работать с проверенной и актуальной информацией. Именно поэтому RAG лежит в основе большинства современных корпоративных AI-решений.

**Токенизация и чанкование: что это и в чём разница**

Обработка длинных текстов всегда начинается с токенизации. **Токенизация — это процесс разделения исходного текста на токены: минимальные смысловые или технические единицы.** Для разных языков и задач токен может быть словом, частью слова, символом или даже байтом.

Чтобы языковая модель могла эффективно работать с текстом, токены объединяют в более крупные блоки — **чанки** — фрагменты текста, которые используют как единицы поиска и обработки информации.

Обычно чанк совпадает с абзацем, предложением или представляет собой фрагмент фиксированной длины — на практике от ≈ 128 до ≈ 1 000 токенов, в зависимости от используемой модели и специфики задачи: чем больше модель допускает контекст, тем крупнее может быть чанк. Процесс формирования таких блоков называют чанкованием: текст разбивают на чанки либо по смысловым границам, либо по заданному числу токенов, чтобы сохранить связность информации и обеспечить эффективную работу retrieval‑системы и генеративной модели.



**Способы токенизации и чанкования**

**Существует несколько подходов к токенизации:**


**По пробелам (whitespace tokenization):** простейший способ, применяется для языков с чёткой границей между словами.
Byte Pair Encoding, WordPiece, Unigram: используются в современных моделях — разбивают слова на подслова или даже отдельные символы для повышения гибкости.

**Морфологическая токенизация:** для сложных языков — с учётом грамматики.
**Для чанкования:**


**Применяют фиксированный размер чанка:** каждая часть содержит одинаковое число токенов.

**Делят по смысловым границам:** деление по абзацам, предложениям, заголовкам.
Применяют метод с перекрытием (overlap): части текста пересекаются, чтобы не терять смысл на стыках.

In [1]:
# Путь для коллаба
# from google.colab import drive

# drive.mount('/content/drive/')
# path = '/content/drive/MyDrive/Sberbank/LLMs/RAG/article.pdf'

In [2]:
path = '/Users/sweetd0ve/Work/Sberbank/llms/rag/article.pdf'

In [15]:
%%capture
# !pip install -r /content/drive/MyDrive/Sberbank/LLMs/RAG/requirements.txt
!pip3 install -r requirments.txt

In [16]:
from rag import SimpleRAG

RuntimeError: no validator found for <class 'langchain_core.prompts.base.BasePromptTemplate'>, see `arbitrary_types_allowed` in Config

In [9]:
def main():
    # Инициализация
    rag = SimpleRAG(path)

    # Загрузка документа
    rag.load_and_process_document()

    # Настройка QA системы
    rag.setup_qa_chain(model_name="llama2", search_k=3)

    # Вопросы
    result = rag.ask_question("Какие основные темы обсуждаются в документе?")

    # Поиск похожего контента
    similar_docs = rag.search_similar("машинное обучение", k=2)

    # Информация о системе
    print(rag.get_document_info())

if __name__ == "__main__":
    main()

NameError: name 'SimpleRAG' is not defined