# RAG асистент

## Устанавливаем зависимости

In [1]:
%pip install -qq langchain langchain-community langchain-qdrant unstructured yandexcloud requests markdown langchain-ollama

Note: you may need to restart the kernel to use updated packages.


## Скачиваем документ

In [2]:
#import requests
#file_link = "https://teach-in.ru/file/synopsis/pdf/introduction-to-quantum-physics-lectures-rubtsov-M.pdf"
#response = requests.get(file_link)

#if response.status_code == 200:
#    print("Загрузка прошла успешно)")
#else:
#    print(f"Ошибка [ {response.status_code} ]")

Сохраняем документ на временном диске сессии

In [3]:
# Локальное расположение документа
from pathlib import Path
file_path = Path("introduction-to-quantum-physics-lectures-rubtsov-M.pdf")

In [4]:
#with open("introduction-to-quantum-physics-lectures-rubtsov-M.pdf", "w") as file:
#    file.write(response.text)

## Pre-Retrieval

### Чанкование данных

**Импортируем библиотеки**

In [6]:
from langchain_community.document_loaders import (
    TextLoader,
    PyPDFLoader,
    Docx2txtLoader,
    UnstructuredMarkdownLoader
)
from langchain_text_splitters import RecursiveCharacterTextSplitter
#from langchain.schema import Document

#### Загрузка документа

In [7]:
def get_loader(file_path: Path):
    suffix = file_path.suffix.lower()

    loaders = {
        ".txt": TextLoader,
        ".pdf": PyPDFLoader,
        ".docx": Docx2txtLoader,
        ".md": UnstructuredMarkdownLoader
    }

    if suffix not in loaders:
        raise ValueError(f"Неподдерживаемый формат файла: {suffix}")

    return loaders[suffix](file_path)

**Загружаем документ**

In [8]:
loader = get_loader(file_path)
document = loader.load()

Проверяем корректность загрузки

In [9]:
print(document[0].metadata)
print(document[0].page_content[:500])

{'producer': 'pdfTeX-1.40.21', 'creator': 'LaTeX with hyperref', 'creationdate': '2020-12-22T13:00:30+00:00', 'author': '', 'keywords': '', 'moddate': '2020-12-22T20:59:17+03:00', 'ptex.fullbanner': 'This is pdfTeX, Version 3.14159265-2.6-1.40.21 (TeX Live 2020) kpathsea version 6.3.2', 'subject': '', 'title': '', 'trapped': '/False', 'source': 'introduction-to-quantum-physics-lectures-rubtsov-M.pdf', 'total_pages': 211, 'page': 0, 'page_label': '1'}
МЕХАНИКА  • СЛЕПКОВ АЛЕКСАНДР ИВАНОВИЧ
КОНСПЕКТ ПОДГОТОВЛЕН СТУДЕНТАМИ, НЕ ПРОХОДИЛ  
ПРОФ. РЕДАКТУРУ И МОЖЕТ СОДЕРЖАТЬ ОШИБКИ.  
СЛЕДИТЕ ЗА ОБНОВЛЕНИЯМИ НА VK.COM/TEACHINMSU.
ВВЕДЕНИЕ В 
КВАНТОВУЮ ФИЗИКУ 
РУБЦОВ
АЛЕКСЕЙ НИКОЛАЕВМЧ
ФИЗФАК МГУ
КОНСПЕКТ ПОДГОТОВЛЕН 
СТУДЕНТАМИ, НЕ ПРОХОДИЛ 
ПРОФ. РЕДАКТУРУ И МОЖЕТ 
СОДЕРЖАТЬ ОШИБКИ.  
СЛЕДИТЕ ЗА ОБНОВЛЕНИЯМИ 
НА VK.COM/TEACHINMSU .
ЕСЛИ ВЫ ОБНАРУЖИЛИ 
ОШИБКИ ИЛИ ОПЕЧАТКИ, 
ТО СООБЩИТЕ ОБ ЭТОМ, 
НАПИСАВ СООБЩЕСТВУ 
VK.COM/TEACHINMSU .
ФИЗИЧЕСКИЙ  



#### Чанкование

**Конфигурационные параметры**

* `chunk_size` - максимальный размер чанка, кол-во символов
* `chunk_overlap` - размер перекрытия чанков (нахлёста), кол-во символов

In [10]:
chunk_size = 500
chunk_overlap = 150

**Настройка нарезчика данных на чанки**

Будем использовать нарезчик, учитывающий иерархическую структуру документа, т.е. абзаци, главы и т.д.

In [11]:
recursive_character_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

**Чанкование**

In [12]:
chunks = recursive_character_splitter.split_documents(document)

Проверка корректности чанкования

In [13]:
starting_chunk = 4 # Начальный чанк
count_chunks = 2 # Количество выводимых чанков

for i, chunk in enumerate(chunks[starting_chunk:starting_chunk + count_chunks]):
    print(f'---[ {i + starting_chunk} ]---\n {chunk.page_content}')

---[ 4 ]---
 1.4 РаботыЭйнштейна.Фотоэффект.Люминесценция.Законыфотоэффекта 11
1.5 Ультрафиолетовая катастрофа . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6 Неравенства Белла . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7 Соотношение классической и квантовой физики . . . . . . . . . . . . . . 16
1.8 Атомная система единиц. Фундаментальные константы . . . . . . . . . 17
2 Лекция 2. Корпускулярные и волновые свойства света 19
---[ 5 ]---
 1.8 Атомная система единиц. Фундаментальные константы . . . . . . . . . 17
2 Лекция 2. Корпускулярные и волновые свойства света 19
2.1 История физики. Энергия и импульс релятивистских частиц. Эффект
Комптона . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Волновые свойства света. Опыт Юнга-Френеля . . . . . . . . . . . . . . 23
2.3 Опыт Винера. Стоячие волны . . . . . . . . . . . . . . . . . . . . . . . . 24


## Retrieval

**Импорт библиотек**

In [14]:
from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams
from langchain_qdrant.qdrant import QdrantVectorStore

#from langchain_community.embeddings import YandexGPTEmbeddings
#from langchain_community.embeddings import OllamaEmbeddings
from langchain_ollama import OllamaEmbeddings


### Развёртывание векторной БД

**Конфигурационные параметры**

* `collection_name` - наименование коллекции в БД, в которой будут храниться загруженные данные.
* `vector_size` - количество значений в векторном представлении, его длина. У используемых эмбеддинговых моделей от Яндекса максимальная длина 256, поэтому здесь также её придерживаемся.
* `distance` - метрика для определения расстояния между векторами. Лучше представлять, как обыкновенное расстояние между точками в пространстве.

In [15]:
collection_name = "physics_collection"
vector_size = 1024     # Размер векторов, возможно стоит прейти на более маленькую размерность - 256     
distance = 'Cosine'

Загружаем переменные окружения из файла .env

In [17]:
from dotenv import load_dotenv
import os

load_dotenv()

QDRANT_URL = os.getenv("QDRANT_URL")
#QDRANT_API_KEY = os.getenv("QDRANT_API_KEY")
#YANDEX_API_KEY = os.getenv("YANDEX_API_KEY")
#YANDEX_FOLDER_ID = os.getenv("YANDEX_FOLDER_ID")

**Подключению к векторной БД**

In [18]:
qdrant_client = QdrantClient(
    url=QDRANT_URL,
    #api_key=QDRANT_API_KEY,  # Если есть токен, например в  Qdrant Cloud
)

**Создание коллекции данных в кластере**

Создание коллекции

In [19]:
if collection_name not in [collection.name for collection in qdrant_client.get_collections().collections]:
    qdrant_client.create_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(
        size=vector_size,
        distance=Distance(distance)
    )
)

**Создание векторного хранилища**

Для создания эмбедингов будем использовать модель YandexGPTEmbeddings

In [None]:
# Загрузка модели для создания эмбеддингов через YandexGPT
#yandex_embedding = YandexGPTEmbeddings(
#    api_key=YANDEX_API_KEY,
#    folder_id=YANDEX_FOLDER_ID
#)

# Загрузка модели для создания эмбеддингов через  Ollama
local_embedding = OllamaEmbeddings(
    model="mxbai-embed-large",
    base_url="http://127.0.0.1:11434" 
)


In [21]:
# Инициализация векторного хранилища
vector_store = QdrantVectorStore(
    client=qdrant_client,
    collection_name=collection_name,
    #embedding=yandex_embedding
    embedding=local_embedding
)

### Добавление базы знаний в векторную БД

#### Принцип работы модели для создания эмбеддингов

Искомый текст:

In [None]:
text = chunks[100].page_content  # Текст из 100 чанка страницы
print(text)

атомной физики, для описания каких-то субатомных по шкале масштабов процессов
естественно необходимо ввести какую-то систему единиц, в которой этой неприятно-
сти не будет. Иногда постоянную Планка пишут вместо¯h2 ¯h´2 или наоборот ¯h это
10´27, поэтому ¯h2 вместо ¯h´2 это 104 порядка лишних, физикам сразу хочется, что-
то сделать с лишним порядком. Поэтому если считать в атомной системе единиц, то
конечно хотя бы таких казусов не будет.


Текст преобразованный в эмбеддинг (векторное представление):

In [24]:
print(local_embedding.embed_query(text))

[0.028990695, -0.022860402, -0.0064567924, -0.005391826, -0.015899675, 0.018887352, -0.008127154, -0.0038229064, -0.020286113, 0.032261845, 0.039194737, -0.042031355, 0.06267854, -0.024218155, 0.0041320855, -0.0027518037, -0.026698438, -0.051940493, -0.055142853, 0.007783928, 0.0004724278, -0.023773197, -0.07905636, -0.03796073, -0.035795424, 0.012156376, 0.005731768, 0.044766232, 0.049801525, 0.006262548, 0.008732393, 0.012456631, 0.0019867574, -0.055362925, 0.04832317, -0.01241032, 0.0033474425, -0.027377859, 0.0066634086, -0.035154182, 0.05374207, 0.018453173, -0.007826936, -0.021269077, -0.013206661, -0.029776456, -0.026600476, -0.014580463, -0.023375409, -0.03694004, -0.0059247524, 0.03179329, -0.007212411, -0.0013098882, -0.015097676, -0.01970146, -0.034769766, -0.0030223497, -0.020888682, 0.01036723, 0.022880007, 0.008251055, 0.04389702, -0.024096683, -0.046792448, -0.01859701, -0.0002392334, 0.024961255, -0.007937579, -0.054060496, -0.03122921, 0.007133394, -0.0050950674, 0.008

**Добавляем чанки в векторную БД**

In [None]:
# Adds the documents in the 'chunks' list to the vector store
vector_store.add_documents(chunks)

['fd72d62505374e338fdb08feb7da6771',
 '6254f9f3989a44798e1f451bf91dae72',
 '2114d53c5279466a8ebf6b604ca25f1e',
 'd5b506c995f342e9aec924d6b833e901',
 '9b491188350644f4a43fb195278e6dbc',
 'facf6a09f7c8484e842b516565c3903f',
 'd444b1c08c994a5c865f38de320a6029',
 '27a16da305b943c0b94a6e0d0844004d',
 '715bb4c057ca493c9e0e61ca19a9d3d9',
 '6fbc50858a9e4a8ea7fab83d2a8106e6',
 '944f833f1f584f7a91819a31fde2c961',
 'd8fde456d892413eb31881c5018ca69c',
 '5fc6771a29cc4a2fab0d5a3700effed0',
 '0e9d8e3127e6476ca754f8db92c10980',
 '7c1addf6674e406d845735dea51353b4',
 'cbbdc8cf3b2f47f8be1c0cc3ca1d0519',
 'dc588e0b82144a3fb27056aad6992a64',
 '6b5d0020419a4e7188dc8771b2bdbb7e',
 '456cb3639d9941d0be7f089ac18f5ef0',
 '4ae168840aa240d1a3d16121136c8479',
 '3c56d3e68eac4840868db4ac07081a51',
 '9ee2aaf93f5e4c6caa2fc74c654a4afb',
 '333f8999128b4cd0be1c540c97535735',
 '6642ad5094b34c0dac316aec90fe6b0e',
 '73d3d547f8014e039fa415d2cd355147',
 '32be9b0f608b4a01a2a685591c2f7650',
 '65a8a23d769a43508c081316d122248c',
 

#### Поиск в векторной БД

**Конфигурационные параметры**

* `k` - максимальное количетсво возвращаемых валидных чанков. Другими словами - это топ `k` самых близких к запросу чанков.
* `query` - пользовательский запрос.

In [42]:
k = 5
#query = "Перескажи в кратце о чём говорится в предисловии к изданию."
query = "Кратко перескажи о чём говорится в Лекции 3."


**Поиск валидных чанков**

In [43]:
searching_chunks = vector_store.similarity_search(
    query=query,
    k=k
)

Топ `k` наиболее близких к запросу чанков

In [44]:
for i, searching_chunk in enumerate(searching_chunks):
    print(f'{i + 1}. {searching_chunk.page_content}')

1. 3 Лекция 3. Корпускулярно-волновой дуализм. Строение атома 36
3.1 Модель Томсона . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Описание Бора . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Описание Де-Бройля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Лекция 4. Частица в потенциальной яме 51
4.1 Уравнение Шредингера . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2. разогретых парах стали лития или если порошок лития посыпать на огонь. Литий,
как известно, окрашивает пламя в розовато-красный цвет, что является характер-
ный цветом красного спектра. Что касается натрия, переход происходит3p в 3S. Все
происходит тоже самое, но энергия перехода больше. Натрий окрашивает пламя в
ярко желтый цвет, что является характерный цветом желтого спектра. То есть есть
122
3. то третье окажется в одном из этих четырех.
Например, «Алиса» берет частицы1 и частицу3, частица3 находится в каком-то
состоянии
|Ψ3y“ α|0y3 `β|1y

## Generative

**Импорт библиотек**

In [48]:
from langchain_core.prompts import ChatPromptTemplate
#from langchain_community.llms import YandexGPT
from langchain_community.llms.ollama import Ollama

from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

**Конфигурационные параметры**
* `model_name` - наименование модели
* `temperature` - температура - отвечает за степень галлюционирования модели, т.е. добавления в ответы несвязных данных, выбросов и т.д. Данный параметр примимает занчения в промежутке `[0, 1]`
* `max_tokens` - максимальное количество токенов, доступных для полного цикла работы модели, т.е. сумма колличества токенов из входного запроса плюс - в ответе. Обыно у моделей данный параметр может принимать различные максимумы, поэтому необходимо читать документацию конкретного экземпляра.

In [90]:
#model_name = 'yandexgpt'
model = "gemma3:12b-it-q4_K_M"
temperature = 0.7
base_url="http://127.0.0.1:11434"
#max_tokens = 8000


**Загрузка LLM**



In [91]:
OllamaGPT = Ollama(
    #api_key=YANDEX_API_KEY,
    #folder_id=YANDEX_FOLDER_ID,
    base_url=base_url,
    model=model,
    temperature=temperature,
    #max_tokens=max_tokens
)

**Создание шаблона запроса**

In [92]:
system_prompt ="""
**Роль**
Ты — Физик с большим стажем, который пишет объяснения студентам и не любит долгих разговоров.

**Инструкции**
1. Используй приведённый контекст для ответа на вопрос.
2. Если ты не можешь найти ответ в контексте, так и скажи: 'В документе отсутствуют данные для формирования ответа.', не пытайся придумать ответ.
3. Твои высказывания должны быть связными по смыслу и чётко доносить мысль из контекста.
4. Сфомируй ответ простым текстом, не более 10-20 слов.

**Контекст**
{context}
"""

In [93]:
prompt = ChatPromptTemplate.from_messages(
    [
        ('system', system_prompt),
        ('human', '{input}')
    ]
)

**Финализация RAG pipeline`а**

In [94]:
question_answer_chain = create_stuff_documents_chain(
    OllamaGPT,
    prompt
)

chain = create_retrieval_chain(
    vector_store.as_retriever(),
    question_answer_chain
)

Отправляем запрос:

In [95]:
print(query)

Кратко перескажи о чём говорится в Лекции 3.


In [97]:
answer = chain.invoke({"input": query})

In [99]:
print(answer["answer"])

Лекция 3 посвящена корпускулярно-волновому дуализму и описанию строения атома, включая модели Томсона, Бора и Де-Бройля.


### Общение с RAG-ассистентом

In [103]:
def get_answer(query):
    k = 20

    searching_chunks = vector_store.similarity_search(
        query=query,
        k=k
    )

    system_prompt ="""
        **Роль**
        Ты — DevOps с большим стажем, который недавно написал документацию и не любит долгих разговоров.

        **Инструкции**
        1. Используй приведённый контекст для ответа на вопрос.
        2. Если ты не можешь найти ответ в контексте, так и скажи: 'В документе отсутствуют данные для формирования ответа.', не пытайся придумать ответ.
        3. Твои высказывания должны быть связными по смыслу и чётко доносить мысль из контекста.

        **Контекст**
        {context}
    """

    prompt = ChatPromptTemplate.from_messages(
        [
            ('system', system_prompt),
            ('human', '{input}')
        ]
    )

    question_answer_chain = create_stuff_documents_chain(
        OllamaGPT,
        prompt
    )

    chain = create_retrieval_chain(
        vector_store.as_retriever(),
        question_answer_chain
    )

    answer = chain.invoke({"input": query})

    return answer["answer"]

**Примеры**

In [109]:
query = "В чём цель данной книги?"
print(get_answer(query))

В документе отсутствуют данные для формирования ответа.


In [110]:
query = "Для кого написана данная книга?"
print(get_answer(query))

Книга написана для студентов, конспект подготовлен студентами и не проходил профессиональную редактуру. Следите за обновлениями на VK.COM/TEACHINMSU.


In [111]:
query = "Какие были предпосылки к появлению DevOps, как профессии?"
print(get_answer(query))

В документе отсутствуют данные для формирования ответа.


In [108]:
query = "Что отражает волновая функция?"
print(get_answer(query))

Волновая функция отражает координаты и время. Общая фаза волновой функции не отражается в наблюдаемых величинах и не имеет прямого физического смысла.
