In [13]:
# !pip install evaluate==0.4.3 bert-score==0.3.13
# Остальные зависимости в requirements.txt

In [14]:
import json
import os
import re
import time
from typing import List

import numpy as np
import pandas as pd
import torch
from datasets import load_dataset
from dotenv import load_dotenv
from evaluate import load
from langchain.retrievers import EnsembleRetriever
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from openai import OpenAI

load_dotenv()

True

In [15]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f'Device: {device}')

Device: cuda


### Зададим константы

In [16]:
# bert-score для подсчёта метрики
BERTSCORE = load("bertscore")

# Датасет с Hugging Face
DATASET = "neural-bridge/rag-dataset-1200"
SPLIT_DATASET = "test"

# Модели
## Загружаем модель эмбедингов
EMBEDDING_MODEL = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-large",
    model_kwargs={"device": device}
)

# Бесплатное API к LLM от сервиса https://openrouter.ai/api/v1
## Определяем модель для генерации ответа на основе документов
# LLM_MODEL = "meta-llama/llama-3.2-3b-instruct:free"
## API-конфигурация к LLM
# CLIENT = OpenAI(
#     base_url="https://openrouter.ai/api/v1", 
#     api_key=os.getenv("TOKEN_OPENAI")
# )

# Бесплатное API к LLM от сервиса https://api.together.xyz/v1
## Определяем модель для генерации ответа на основе документов
LLM_MODEL = "meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
## API-конфигурация к LLM
CLIENT = OpenAI(
    base_url="https://api.together.xyz/v1", 
    api_key=os.getenv("TOKEN_TAI")
)

# Создадим два промпта для уменьшения вероятности нерелевантного ответа

## Промпт для LLM, который просит определить только релевантные документы
DOC_RETRIEVAL_PROMPT = (
    "You are an AI assistant specialized in document retrieval. "
    "Your task is to extract only the most relevant document IDs and chunk IDs from the provided documents. "
    "Strictly follow these rules: "
    "1. Return only a JSON object in this exact format: "
    '{"relevant_documents": [{"document_id": <doc_id>, "chunk_id": <chunk_id>}, ...]}. '
    "2. Do not modify, summarize, or explain the documents. "
    "3. Do not include any additional text, explanations, reasoning, or commentary. "
    "4. Do not return the document content, only IDs. "
    "5. If no relevant documents exist, return an empty JSON: {\"relevant_documents\": []}. "
    "6. Any deviation from these rules is strictly prohibited."
)

## Промпт для LLM, который просит составить ответ только на релевантных документах
ANSWER_GENERATION_PROMPT = (
    "You are an assistant that answers user questions based strictly on the provided documents. "
    "Use only the content from the relevant documents and chunks listed below: "
    "{retrieved_data} "
    "Now, generate a well-structured answer to the user's question."
    "Do not make up information. If the answer is unclear from the documents, say 'Insufficient information'."
)

### Определим данные и создадим базу знаний

In [17]:
# Загружаем данные и смотрим что в них
rag_dataset = load_dataset(DATASET, split=SPLIT_DATASET)
display(rag_dataset)

# Смотрим пример одного row
print('Dataset example:') 
rag_dataset[0]

Dataset({
    features: ['context', 'question', 'answer'],
    num_rows: 240
})

Dataset example:


{'context': 'Trail Patrol Training\nWant to be a part of the Trail Patrol ?? Join an Orientation & Hike on the 1st Tuesday of each month. This course is required for all PATC members interested in joining the PATC Trail Patrol.\nThe course teaches the essential skills necessary to be a trail patrol member and to provide a reassuring presence on the trail while teaching safety and environmental responsibility. A Trail Patrol handbook is provided to all students. Please bring a pencil, your hiking daypack & lunch.\nMore Info: View the Calendar or contact TP Training or visit the Trail Patrol Training web pages.\nHike Leader Class.\nMore Info: Contact Hike Leader Training or click here to register.\nBackpacking Classes\nEducating people in safe and environmentally friendly practices for traveling into the backcountry is one of Trail Patrol’s core responsibilities. We offer backpacking classes for novices seeking to take up backpacking as well as for experienced backpackers.\nBackpacking 1

In [18]:
def chunk_documents(documents: List[str], chunk_size: int = 1000, chunk_overlap: int = 100) -> List[Document]:
    """
    Разбивает документы на чанки.

    Args:
        documents (List[Document]): Список документов.
        chunk_size (int): Размер чанка в символах.
        chunk_overlap (int): Перекрытие чанков.

    Returns:
        List[Document]: Разбитые на чанки документы.
    """
    print(f"Разбиваем {len(documents)} документов на чанки (размер: {chunk_size}, перекрытие: {chunk_overlap})")
    
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
    chunked_documents = []

    # Предобработка всех текстовых файлов\документов\текстов
    for i, document in enumerate(documents):
        # Минимально очистим текст
        text = re.sub(r'(\r\n|\r|\n){2,}', r'\n', document)  # Удаляем лишние пустые строки
        text = re.sub(r'[ \t]+', ' ', text)  # Заменяем табуляции на пробелы
        text = text.strip()

        # Создадим langchain-документ (совместимый формат для RecursiveCharacterTextSplitter)
        langchain_document = Document(page_content=text)
        # Разобьём длинный текст на чанки
        chunks = text_splitter.split_documents([langchain_document])

        # Добавим номер документа (текста) и номер чанка как доп.информацию
        # И добавим сам чанк в список всех чанков
        for j, chunk in enumerate(chunks):
            chunk.metadata["document_id"] = i + 1
            chunk.metadata["chunk_id"] = j + 1
            chunked_documents.append(chunk)

    print(f"Создано {len(chunked_documents)} чанков")
    return chunked_documents

In [19]:
def create_retriever(documents: List[Document], weights: List[float] = [0.4, 0.6]) -> EnsembleRetriever:
    """
    Создаёт EnsembleRetriever на основе FAISS и BM25.

    Args:
        documents (List[Document]): Список документов для индексации.
        weights (List[float]): Веса для каждого из retrievers

    Returns:
        EnsembleRetriever: Комбинированный ретривер для поиска.
    """
    # FAISS retriever (векторный поиск по эмбеддингам)
    vector_store = FAISS.from_documents(documents, EMBEDDING_MODEL)
    faiss_retriever = vector_store.as_retriever(
        search_type="similarity",
        search_kwargs={'k': 2}  # Количество возвращаемых документов
    )

    # BM25 retriever (традиционный текстовый поиск) 
    # *В основном используется для поиска по специфичным аббревиатурам домена. 
    # *Для данного датасета является излишеством, использован в качестве примера.
    bm25_retriever = BM25Retriever.from_documents(documents)
    bm25_retriever.k = 2  # Количество возвращаемых документов

    # Объединяем их в EnsembleRetriever
    ensemble_retriever = EnsembleRetriever(
        retrievers=[bm25_retriever, faiss_retriever],
        weights=weights  # Вес каждого retriever
    )

    return ensemble_retriever

In [20]:
chunked_documents = chunk_documents(rag_dataset['context'])
print("\nПример чанка:")
chunked_documents[3]

Разбиваем 240 документов на чанки (размер: 1000, перекрытие: 100)
Создано 1139 чанков

Пример чанка:


Document(metadata={'document_id': 1, 'chunk_id': 4}, page_content='More Info: Contact Backpacking Training or click here to register.\nWilderness First Aid\nBasic Wilderness First Aid (BWFA) is a 2-day workshop. Day one covers Adult CPR and AED and American Heart Association First Aid. You will receive a textbook and a certification card good for two years. Day two is American Safety and Health Institute (ASHI) Basic Wilderness First Aid. You will learn how to do bleeding control, splinting and other basic first aid skills in the wilderness setting. There is plenty of hands-on time & paramedics with years of backcountry experience teach the classes.\nMore Info: Contact TP First Aid or click here to register.\nWilderness First Aid (WFA)')

In [21]:
ensemble_retriever = create_retriever(chunked_documents)

### Убедимся что всё работает на тестовом примере

In [22]:
# Пример запроса
test_query = rag_dataset['question'][3]
print("Тестовый запрос:", test_query)

Тестовый запрос: Who were the two convicted killers that escaped from an upstate New York maximum-security prison?


In [23]:
def get_llm_response(system_prompt: str, docs: str, query: str, temperature: float = 0.0) -> str:
    """
    Отправляет запрос в LLM, используя заданный системный промпт.

    Args:
        system_prompt (str): Промпт, определяющий задачу для модели.
        docs (str): Документы в формате JSON, содержащие релевантную информацию.
        query (str): Вопрос пользователя.
        temperature (float): Температура ответа (насколько модель креативна)

    Returns:
        str: Ответ LLM.
    """
    # Формируем контекст для LLM
    chat_history = [
        {'role': 'system', 'content': system_prompt},
        {'role': 'documents', 'content': docs},
        {'role': 'user', 'content': query}
    ]

    # Отправляем запрос в LLM и возвращаем ответ
    response = CLIENT.chat.completions.create(
        model=LLM_MODEL,
        messages=chat_history,
        temperature=temperature,
        max_tokens=2048
    ).choices[0].message.content
    
    return response

In [24]:
# Поиск релевантных документов для тестового запроса
relevant_docs = ensemble_retriever.invoke(test_query)

# Преобразуем найденные документы в нужный нам формат
relevant_docs_data = [
    {
        "document_id": doc.metadata.get("document_id", -1),
        "chunk_id": doc.metadata.get("chunk_id", -1),
        "content": doc.page_content
    }
    for doc in relevant_docs
]
json_docs = json.dumps(relevant_docs_data, ensure_ascii=False)

In [25]:
# Первый запрос к LLM: получение списка ID релевантных документов
id_docs_response = get_llm_response(
    system_prompt=DOC_RETRIEVAL_PROMPT, 
    docs=json_docs, 
    query=test_query,
    temperature=0.0 # Жёсткий режим для строгого ответа
)
print(f"Полученные идентификаторы документов: {id_docs_response}")

Полученные идентификаторы документов: {"relevant_documents": [{"document_id": 4, "chunk_id": 1}]


In [26]:
# Второй запрос к LLM: генерация финального ответа
response = get_llm_response(
    system_prompt=ANSWER_GENERATION_PROMPT.format(retrieved_data=id_docs_response), 
    docs=json_docs, 
    query=test_query,
    temperature=0.3 # Разрешаем быть слегка креативными
)
print("Сгенерированный ответ:", response)
print("\nЭталонный ответ:", rag_dataset[3]['answer'])

Сгенерированный ответ: The two convicted killers who escaped from an upstate New York maximum-security prison were Richard Matt and David Sweat. Richard Matt was serving 25 years to life for killing and dismembering his former boss, while David Sweat was serving a sentence of life without parole for killing a sheriff's deputy in Broome County in 2002.

Эталонный ответ: The two convicted killers that escaped from an upstate New York maximum-security prison were Richard Matt and David Sweat.


### Проверим насколько качественно работает наша RAG система

In [27]:
# Положим вопросы и ответы в датафрейм и возьмём лишь 20 примеров (т.к. API имеет лимиты)
df = pd.DataFrame({
    'question': rag_dataset['question'],
    'answer': rag_dataset['answer'],
})
df_sample = df.sample(100, random_state=42)
df_sample.reset_index(drop=True, inplace=True)
df_sample.head()

Unnamed: 0,question,answer
0,What are some of the features of the yellow pa...,The yellow paper plates mentioned in the conte...
1,"What is a ""Cultural Muslim"" according to Kaigh...","A ""Cultural Muslim"" is someone who calls thems..."
2,"Who are the main characters in the book ""Odd a...","The main characters in the book ""Odd and the F..."
3,What are some features of the WHIRLPOOL BATHTU...,The WHIRLPOOL BATHTUB model AM152JDTS-1Z has s...
4,What is the rank of Iasi in terms of populatio...,Iasi is the 4th biggest city in Romania in ter...


In [30]:
def rag_answer(query: str) -> str:
    """
    Генерирует ответ на заданный запрос, используя retriever, документы и LLM.

    Аргументы:
        query (str): Вопрос пользователя.

    Возвращает:
        str: Сгенерированный ответ модели.
    """
    # Поиск релевантных документов
    relevant_docs = ensemble_retriever.invoke(query)
    relevant_docs_data = [
        {
            "document_id": doc.metadata.get("document_id", -1),
            "chunk_id": doc.metadata.get("chunk_id", -1),
            "content": doc.page_content
        }
        for doc in relevant_docs
    ]
    json_docs = json.dumps(relevant_docs_data, ensure_ascii=False)
    
    # Первый запрос: получение релевантных ID документов
    id_docs_response = get_llm_response(
        system_prompt=DOC_RETRIEVAL_PROMPT, 
        docs=json_docs, 
        query=query,
        temperature=0.0
    )
    # Задержка для соблюдения лимитов API
    time.sleep(10)
    # Второй запрос: генерация ответа на основе релевантных документов
    response = get_llm_response(
        system_prompt=ANSWER_GENERATION_PROMPT.format(retrieved_data=id_docs_response), 
        docs=json_docs, 
        query=query,
        temperature=0.3
    )
    # Задержка для соблюдения лимитов API
    time.sleep(10)
    return response

In [31]:
df_sample['rag_answer'] = df_sample['question'].apply(rag_answer)
df_sample.head()

Unnamed: 0,question,answer,rag_answer
0,What are some of the features of the yellow pa...,The yellow paper plates mentioned in the conte...,The features of the yellow paper plates mentio...
1,"What is a ""Cultural Muslim"" according to Kaigh...","A ""Cultural Muslim"" is someone who calls thems...","According to Kaighla Um Dayo, a!Cultural Musli..."
2,"Who are the main characters in the book ""Odd a...","The main characters in the book ""Odd and the F...","The main characters in the book ""Odd and the F..."
3,What are some features of the WHIRLPOOL BATHTU...,The WHIRLPOOL BATHTUB model AM152JDTS-1Z has s...,The WHIRLPOOL BATHTUB model AM152JDTS-1Z has t...
4,What is the rank of Iasi in terms of populatio...,Iasi is the 4th biggest city in Romania in ter...,Iasi is the 4th biggest city in Romania in ter...


In [32]:
def compute_bertscore(predictions: List[str], references: List[str], lang: str = "en") -> float:
    """
    Вычисляет средний F1-скор BertScore между предсказанными и эталонными ответами.

    Аргументы:
        predictions (List[str]): Список сгенерированных моделью ответов.
        references (List[str]): Список эталонных (правильных) ответов.
        lang (str): Язык текстов (по умолчанию "en").

    Возвращает:
        float: Средний F1 из BertScore.
    """
    results = BERTSCORE.compute(predictions=predictions, references=references, lang=lang)
    return float(np.mean(results["f1"]))


In [33]:
avg_f1 = compute_bertscore(df_sample['rag_answer'].tolist(), df_sample['answer'].tolist())
print(f"BertScore F1 (с дополнительной проверкой релевантности): {avg_f1:.4f}")

Some weights of RobertaModel were not initialized from the model checkpoint at roberta-large and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertScore F1 (с дополнительной проверкой релевантности): 0.9312


### Проверим будет ли результат лучше, если мы уберем дополнительную проверку на релевантность

In [34]:
def rag_answer_v2(query):
    """
    Генерирует ответ на заданный запрос, используя retriever, документы и LLM.
    Отличие: отсутствует дополнительная проверка релевантности документов.

    Аргументы:
        query (str): Вопрос пользователя.

    Возвращает:
        str: Сгенерированный ответ модели.
    """
    # Поиск релевантных документов
    relevant_docs = ensemble_retriever.invoke(query)
    relevant_docs_data = [
        {
            "document_id": doc.metadata.get("document_id", -1),
            "chunk_id": doc.metadata.get("chunk_id", -1),
            "content": doc.page_content
        }
        for doc in relevant_docs
    ]
    json_docs = json.dumps(relevant_docs_data, ensure_ascii=False)
    
    # Формируем промпт без шага фильтрации релевантности
    system_prompt = (
        "You are an assistant that answers user questions based strictly on the provided documents. "
        "Use only the content from the relevant documents."
        "Now, generate a well-structured answer to the user's question."
        "Do not make up information. If the answer is unclear from the documents, say 'Insufficient information'."
    )
    response = get_llm_response(
        system_prompt=system_prompt, 
        docs=json_docs, 
        query=query,
        temperature=0.3
    )
    # Задержка для соблюдения лимитов API
    time.sleep(10)
    return response

In [35]:
df_sample['rag_answer_v2'] = df_sample['question'].apply(rag_answer_v2)
df_sample.head()

Unnamed: 0,question,answer,rag_answer,rag_answer_v2
0,What are some of the features of the yellow pa...,The yellow paper plates mentioned in the conte...,The features of the yellow paper plates mentio...,The features of the yellow paper plates mentio...
1,"What is a ""Cultural Muslim"" according to Kaigh...","A ""Cultural Muslim"" is someone who calls thems...","According to Kaighla Um Dayo, a!Cultural Musli...","According to Kaighla Um Dayo, a ""Cultural Musl..."
2,"Who are the main characters in the book ""Odd a...","The main characters in the book ""Odd and the F...","The main characters in the book ""Odd and the F...","The main characters in the book ""Odd and the F..."
3,What are some features of the WHIRLPOOL BATHTU...,The WHIRLPOOL BATHTUB model AM152JDTS-1Z has s...,The WHIRLPOOL BATHTUB model AM152JDTS-1Z has t...,The WHIRLPOOL BATHTUB model AM152JDTS-1Z has t...
4,What is the rank of Iasi in terms of populatio...,Iasi is the 4th biggest city in Romania in ter...,Iasi is the 4th biggest city in Romania in ter...,Iasi is the 4th biggest city in Romania in ter...


In [36]:
avg_f1_v2 = compute_bertscore(df_sample['rag_answer_v2'].tolist(), df_sample['answer'].tolist())
print(f"BertScore F1 (без дополнительной проверки релевантности): {avg_f1_v2:.4f}")

BertScore F1 (без дополнительной проверки релевантности): 0.9309


❗Полный код (с оптимизациями видеопамяти, с re-ranking, с кэшированием ответов) - смотрите в проекте❗

🏷️ Более глубокие **улучшения**я возможностей, качества и оптимизации требуют: 
1. 🚀 Достаточные **вычислительные мощности**
2. 📖 **Доменную область** (для предъявления требований к очистке текста, используемой LLM-модели, используемой sentence-модели и т.д.)
3. 🔄 **Наличие Flow**(MLflow\Airflow\Kubeflow) для проведения и логирования экспериментов

## 📣 Выводы:

1. Построена рабочая RAG-система, способная генерировать ответы, основываясь на релевантных документах (тестовых текстах, в данном случае).

2. Использование дополнительного шага для определения релевантных документов (через DOC_RETRIEVAL_PROMPT) может улучшить качество ответа (что должно подтвердиться на более малой LLM-модели при сравнении BertScore и на более реальных текстах\документах)

3. Выбор между подходами (с дополнительной фильтрацией и без неё) зависит от задачи и требований к точности.
