## RAG

**RAG (Retrieval-Augmented Generation)** — это одна из самых популярных и эффективных архитектур для создания интеллектуальных чат-ботов и поисковых систем, работающих с вашими собственными данными.


**С RAG:** Вы идете в библиотеку (ваше хранилище данных), находите нужные книги и статьи (этап Retrieval), внимательно их читаете (Augmentation), а затем на основе этой актуальной информации пишете свой доклад (Generation).

**RAG — это мост между вашими собственными данными и мощью большой языковой модели.** Он решает главные проблемы "голых" LLM (устаревание данных и галлюцинации), заставляя модель работать с проверенной и актуальной информацией. Именно поэтому RAG лежит в основе большинства современных корпоративных AI-решений.

**Токенизация и чанкование: что это и в чём разница**

Обработка длинных текстов всегда начинается с токенизации. **Токенизация — это процесс разделения исходного текста на токены: минимальные смысловые или технические единицы.** Для разных языков и задач токен может быть словом, частью слова, символом или даже байтом.

Чтобы языковая модель могла эффективно работать с текстом, токены объединяют в более крупные блоки — **чанки** — фрагменты текста, которые используют как единицы поиска и обработки информации.

Обычно чанк совпадает с абзацем, предложением или представляет собой фрагмент фиксированной длины — на практике от ≈ 128 до ≈ 1 000 токенов, в зависимости от используемой модели и специфики задачи: чем больше модель допускает контекст, тем крупнее может быть чанк. Процесс формирования таких блоков называют чанкованием: текст разбивают на чанки либо по смысловым границам, либо по заданному числу токенов, чтобы сохранить связность информации и обеспечить эффективную работу retrieval‑системы и генеративной модели.



**Способы токенизации и чанкования**

**Существует несколько подходов к токенизации:**


**По пробелам (whitespace tokenization):** простейший способ, применяется для языков с чёткой границей между словами.
Byte Pair Encoding, WordPiece, Unigram: используются в современных моделях — разбивают слова на подслова или даже отдельные символы для повышения гибкости.

**Морфологическая токенизация:** для сложных языков — с учётом грамматики.
**Для чанкования:**


**Применяют фиксированный размер чанка:** каждая часть содержит одинаковое число токенов.

**Делят по смысловым границам:** деление по абзацам, предложениям, заголовкам.
Применяют метод с перекрытием (overlap): части текста пересекаются, чтобы не терять смысл на стыках.

In [115]:
# Путь для коллаба
# from google.colab import drive

# drive.mount('/content/drive/')
# path = '/content/drive/MyDrive/Sberbank/LLMs/RAG/article.pdf'

In [155]:
path = '/Users/sweetd0ve/Work/Sberbank/llms/rag/article.pdf'

In [156]:
%%capture
# !pip install -r /content/drive/MyDrive/Sberbank/LLMs/RAG/requirements.txt
!pip3 install -r requirments.txt

In [162]:
import getpass
import logging
import os
import shutil
from typing import Any, Dict, List, Optional

import chromadb
from chromadb.config import Settings
from langchain.chains import RetrievalQA
from langchain.llms.huggingface_pipeline import HuggingFacePipeline
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.llms import Ollama  # или другая LLM
from langchain_community.vectorstores import Chroma
from langchain_core.prompts import PromptTemplate
from sentence_transformers import SentenceTransformer
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

os.environ["HUGGINGFACEHUB_API_TOKEN"] = getpass.getpass(
    "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"
)
from dotenv import load_dotenv

load_dotenv()


False

In [174]:
from rag import SimpleRAG

In [175]:
def main():
    # Инициализация
    rag = SimpleRAG(path)

    # Загрузка документа
    rag.load_and_process_document()

    # Настройка QA системы
    rag.setup_qa_chain(model_name="llama2", search_k=3)

    # Вопросы
    result = rag.ask_question("Какие основные темы обсуждаются в документе?")

    # Поиск похожего контента
    similar_docs = rag.search_similar("машинное обучение", k=2)

    # Информация о системе
    print(rag.get_document_info())

if __name__ == "__main__":
    main()

2025-11-17 14:00:17 INFO: Загружаю документ...
2025-11-17 14:00:19 INFO: Создано 185 чанков из документа
2025-11-17 14:00:19 INFO: Используется 185 валидных чанков
2025-11-17 14:00:19 INFO: Load pretrained SentenceTransformer: sentence-transformers/all-MiniLM-L6-v2
2025-11-17 14:00:21 INFO: Создание векторной базы...
2025-11-17 14:00:21 INFO: Пробую способ 2...
2025-11-17 14:00:27 INFO: Векторная база создана с использованием FAISS
2025-11-17 14:00:27 INFO: Цепочка QA успешно настроена
2025-11-17 14:00:27 INFO: Вопрос: Какие основные темы обсуждаются в документе?




[1m> Entering new RetrievalQA chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mТы - помощник, отвечающий на вопросы на основе предоставленного контекста.

Контекст:


Вопрос: Какие основные темы обсуждаются в документе?

Инструкции:
1. Ответь строго на основе предоставленного контекста
2. Если ответа нет в контексте, скажи "В предоставленных документах нет информации для ответа на этот вопрос"
3. Будь точным и лаконичным
4. Используй маркированные списки если уместно

Ответ:[0m

[1m> Finished chain.[0m

[1m> Finished chain.[0m

[1m> Finished chain.[0m

Ответ: В предоставленных документах нет информации для ответа на этот вопрос. Конечно, я могу предложить основные темы, которые могут быть обсуждаемыми в документе, но без доступа к конкретному документу, я не могу указать конкретные темы.

Использованные источники (0):


AttributeError: 'FAISS' object has no attribute '_collection'