# Построение RAG пайплайна

Данный ноутбук демонстрирует обработку ГОСТ-документа, поиск в нем ключевой информации о товарах и структуризацию не человеко-читаемых данных

## Установка

В данном блоке мы устанавливаем необходимые зависимости и окружения для работы данного ноутбука.
1. Установка библиотек llama-index - платформы по обработке данных для создания приложений LLM
2. Поднятие и подготовка PostgreSQL вместе с плагином векторизации


In [None]:
%pip install llama-index-readers-file pymupdf
%pip install llama-index-vector-stores-postgres
%pip install llama-index-embeddings-huggingface
%pip install llama-index-llms-llama-cpp
%pip install llama-index-llms-openai

!pip install llama-index-embeddings-openai
!CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python
!pip install psycopg2-binary pgvector asyncpg "sqlalchemy[asyncio]" greenlet


!sudo apt update
!echo | sudo apt install -y postgresql-common
!echo | sudo /usr/share/postgresql-common/pgdg/apt.postgresql.org.sh
!echo | sudo apt install postgresql-15-pgvector
!sudo service postgresql stop
!sudo service postgresql start

!sudo -u postgres psql -c "ALTER USER postgres PASSWORD 'password';"
!sudo -u postgres psql -c "CREATE DATABASE vector_db;"


#### Подготовка к работе с PostgreSQL


In [None]:
import psycopg2

connection_string = "postgresql://postgres:password@localhost:5432"
db_name = "vector_db"
conn = psycopg2.connect(connection_string)
conn.autocommit = True

with conn.cursor() as c:
    c.execute(f"DROP DATABASE IF EXISTS {db_name}")
    c.execute(f"CREATE DATABASE {db_name}")

In [None]:
from sqlalchemy import make_url
from llama_index.vector_stores.postgres import PGVectorStore

vector_store = PGVectorStore.from_params(
    database=db_name,
    host='localhost',
    password='password',
    port='5432',
    user='postgres',
    table_name="llama2_paper",
    embed_dim=768,  # openai embedding dimension
)

## Создание конвейера приема данных

В данном блоке идет описание загрузки и подготовки данных с преобразованием их в вектора

### 1. Загрузка Embedding модели

В данном примере используется качественная модель BERT для расчетов эмбеддингов предложений на русском языке - sergeyzh/LaBSE-ru-sts

Подробная информация о модели доступна на платформе HuggingFace: [sergeyzh/LaBSE-ru-sts](https://huggingface.co/sergeyzh/LaBSE-ru-sts)


In [None]:
# sentence transformers
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(model_name="sergeyzh/LaBSE-ru-sts")

### Загрузка данных

В демонтрационном примере используется ГОСТ 52502—2012, который вы можете найти в репозитории, либо загрузить из интернета

> Для работы кода нужно создать папку и положить туда документ ГОСТа

In [None]:
from pathlib import Path
from llama_index.readers.file import PyMuPDFReader

loader = PyMuPDFReader()
documents = loader.load(file_path="/content/data/gost-52502-2012.pdf")

### 2. Использование SentenceSplitter для разделения документов

Делим наш документ на чанки определенного размера.

Конкретные параметры и разделители стоит подбирать исходя из того формата ГОСТов, которые у вас есть.

> К примеру, если это `.txt` формат, то вы можете найти разделители\паттерны, которые лучше всего отделят блоки с характеристиками от других, что явно скажется на дальнейшем поиске




In [None]:
from llama_index.core.node_parser import SentenceSplitter

text_parser = SentenceSplitter(
    chunk_size=2048,
    # separator=" ",
)

text_chunks = []
doc_idxs = []
for doc_idx, doc in enumerate(documents):
    cur_text_chunks = text_parser.split_text(doc.text)
    text_chunks.extend(cur_text_chunks)
    doc_idxs.extend([doc_idx] * len(cur_text_chunks))

### 3. Построение Node из текстовых чанков

In [None]:
from llama_index.core.schema import TextNode

nodes = []
for idx, text_chunk in enumerate(text_chunks):
    node = TextNode(
        text=text_chunk,
    )
    src_doc = documents[doc_idxs[idx]]
    node.metadata = src_doc.metadata
    nodes.append(node)

### 4. Генерация Embeddings из Node

Здесь мы генерируем вложения для каждой Node, используя эмбеддинговую модель

In [None]:
for node in nodes:
    node_embedding = embed_model.get_text_embedding(
        node.get_content(metadata_mode="all")
    )
    node.embedding = node_embedding

### 5. Загрузка сформированных эмбеддингов в Векторное Хранилище

В качестве хранилища используется PostgreSQL с заранее установленным плагином, реализующим векторный вариант хранения данных

In [None]:
vector_store.add(nodes)

## Построение конвейера поиска

Здесь идет построение пайплайна поиска нужных данных из векторного представления на основе запроса.

### 1. Генерирование поискового запроса в ГОСТ документе

In [None]:
query_str = "Основные характеристики и требования"
query_embedding = embed_model.get_query_embedding(query_str)

### 2. Запрос в векторную базу

In [None]:
from llama_index.core.vector_stores import VectorStoreQuery

query_mode = "default"
vector_store_query = VectorStoreQuery(
    query_embedding=query_embedding, similarity_top_k=2, mode=query_mode
)

query_result = vector_store.query(vector_store_query)
print(query_result.nodes[0].get_content())

ГОСТ Р 52502—2012
Структура условного обозначения жалюзи-роллеты:
П р и м е р ы  у с л о в н о г о  о б о з н а ч е н и я
Жалюзи-роллета. обозначенная по КД изготовителя AER55/S, из алюминиевых профилей, с руч­
ным приводом, без специальных защитных свойств:
ЖР AER55/S А РП ГОСТ Р 52502— 2012.
Жалюзи-роллета. обозначенная по КД изготовителя 03746-SC. из стальных профилей, с комбини­
рованным приводом. 2-го класса защиты по устойчивости к взлому:
ЖР 03746-SC С КП В(Р2) ГОСТ Р 52502— 2012.
Жалюзи-роллета. обозначенная по КД изготовителя DPL-01. из титановых профилей, с электро­
приводом. класса устойчивости к взлому Р5 и 2-го класса защиты по пулостойкости:
ЖР DPL-01 Т ЭП В(Р5) П(2) ГОСТ Р 52502—2012.
5 Технические требования
Жалюзи-роллеты должны изготавливаться в соответствии с требованиями настоящего стандарта 
и КД. утвержденной в установленном порядке.
5.1 Основные характеристики
5.1.1 Показатели назначения
5.1.1.1 Жалюзи-роллеты. установленные перед окном или дверью, должны обеспеч

### 3. Разбор результатов поиска

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
from llama_index.core.schema import NodeWithScore
from typing import Optional

nodes_with_scores = []
for index, node in enumerate(query_result.nodes):
    score: Optional[float] = None
    if query_result.similarities is not None:
        score = query_result.similarities[index]
    nodes_with_scores.append(NodeWithScore(node=node, score=score))

### 4. Создание класса для работы с векторами и базой данных

Здесь производится наследование от BaseRetriever и определние логики перевода текста в вектор

In [None]:
from llama_index.core import QueryBundle
from llama_index.core.retrievers import BaseRetriever
from typing import Any, List


class VectorDBRetriever(BaseRetriever):
    """Retriever over a postgres vector store."""

    def __init__(
        self,
        vector_store: PGVectorStore,
        embed_model: Any,
        query_mode: str = "default",
        similarity_top_k: int = 2,
    ) -> None:
        """Init params."""
        self._vector_store = vector_store
        self._embed_model = embed_model
        self._query_mode = query_mode
        self._similarity_top_k = similarity_top_k
        super().__init__()

    def _retrieve(self, query_bundle: QueryBundle) -> List[NodeWithScore]:
        """Retrieve."""
        query_embedding = embed_model.get_query_embedding(
            # query_bundle.query_str
            'Основные характеристики и требования'
        )
        vector_store_query = VectorStoreQuery(
            query_embedding=query_embedding,
            similarity_top_k=self._similarity_top_k,
            mode=self._query_mode,
        )

        query_result = vector_store.query(vector_store_query)
        nodes_with_scores = []
        for index, node in enumerate(query_result.nodes):
            score: Optional[float] = None
            if query_result.similarities is not None:
                score = query_result.similarities[index]
            nodes_with_scores.append(NodeWithScore(node=node, score=score))

        return nodes_with_scores

## Подключение нашего поискового механизма к LLM

В данном примере используется стандартная модель OpenAI `GPT-3.5-turbo`

> В данном подходе можно использовать любую другую модель, которая будет способна выдать результат в соответствии с некоторым шаблоном. Можно использовать другие модели по типу `GigaChat` или `YandexGPT`




In [68]:
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.llms.openai import OpenAI
import os


os.environ['OPENAI_API_KEY'] = 'sk-...'

llm = OpenAI()
retriever = VectorDBRetriever(
    vector_store, embed_model, query_mode="default", similarity_top_k=2
)

query_engine = RetrieverQueryEngine.from_args(retriever, llm=llm)

Формирование запроса в модель и подготовка шаблона вывода информации

Формируется из:
- Товаров. Склейка полей Название и Параметры
- Данные по ГОСТам (определяется в классе)
- Шаблон ответа модели

In [None]:
positions = [
    'РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1900Х1850 RHE45M=9 ЭЛЕКТРОПРИВОД RS6/28 БЕЛЫЙ'
    'РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1300Х2600 RHE45M=9 ЭЛЕКТРОПРИВОД RS6/28 БЕЛЫЙ'
    'РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1950Х2150 RHE45M=9 ЭЛЕКТРОПРИВОД RS6/28 БЕЛЫЙ'
    'РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 2230Х2160 RHE45M=9 ЭЛЕКТРОПРИВОД RS6/28 БЕЛЫЙ'

]

query_str = f'''
Выведи основные характеристики для следующих товаров: {positions}.
Ответ дай в форме:

Список характеристик: "Характеристика1", "Характеристика2", ...
Характеристики для каждого товара:
1. "Название", "Характеристика1", "Характеристика2", ...
2. ...


Пояснения:
В ПОЛЕ "Список характеристик" ДОЛЖЕН БЫТЬ СПИСОК ХАРАКТЕРИСТИК, ПОЛУЧЕННЫХ В ГОСТ.
ЕСЛИ В ТОВАРАХ НЕТ КАКОЙ-ТО ИНФОРМАЦИИ О ХАРАКТЕРИСТИКЕ, ТО ОСТАВЛЯЙ ПОЛЕ ПУСТЫМ.

'''
response = query_engine.query(query_str)

In [70]:
print(str(response))

Список характеристик: "Размер", "Привод", "Цвет", "Дополнительное сопротивление теплопередаче", "Стойкость к нагрузке", "Стойкость к ветровой нагрузке"

Характеристики для каждого товара:
1. "РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1900Х1850", "1900Х1850", "Электропривод RS6/28", "Белый", "", "", ""
2. "РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1300Х2600", "1300Х2600", "Электропривод RS6/28", "Белый", "", "", ""
3. "РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1950Х2150", "1950Х2150", "Электропривод RS6/28", "Белый", "", "", ""
4. "РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 2230Х2160", "2230Х2160", "Электропривод RS6/28", "Белый", "", "", ""


In [79]:
import pandas as pd
import re

# Обновленная строка с характеристиками и данными
text = str(response)

# Извлекаем заголовки характеристик
header_match = re.search(r'Список характеристик: (.+)\n', text)
headers = [h.strip('" ') for h in header_match.group(1).split(', ')] if header_match else []

# Добавляем заголовок для названия товара
headers = ["Жалюзи-роллета"] + headers

# Извлекаем данные для каждого товара
data = []
for line in re.findall(r'\d+\.\s*(.+)', text):
    # Разделение строки на характеристики, убираем кавычки и пробелы
    row = [item.strip('" ') for item in line.split('", "')]
    data.append(row)

# Создаем DataFrame с данными
df = pd.DataFrame(data, columns=headers)
df.columns.values[0] = "Товар"

df

Unnamed: 0,Товар,Размер,Привод,Цвет,Дополнительное сопротивление теплопередаче,Стойкость к нагрузке,Стойкость к ветровой нагрузке
0,"РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1900Х1850",1900Х1850,Электропривод RS6/28,Белый,,,
1,"РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1300Х2600",1300Х2600,Электропривод RS6/28,Белый,,,
2,"РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 1950Х2150",1950Х2150,Электропривод RS6/28,Белый,,,
3,"РОЛЬСТАВНИ С ЭЛЕКТРОПРИВОДОМ, 2230Х2160",2230Х2160,Электропривод RS6/28,Белый,,,
