### Базовый алгоритм RAG
(обработка нормативной документации по строительству объектов)

### Загрузка документов

In [18]:
import os
import re
from langchain.schema import Document

root_folder = "docs"

# Функция для извлечения номера страницы из имени файла
def extract_page_number(file_name):
    match = re.search(r'page_(\d+)', file_name)
    if match:
        return int(match.group(1))
    return None

# Переменная для хранения всех документов
documents = []

# Проходим по каждой папке внутри root_folder
for folder_name in os.listdir(root_folder):
    folder_path = os.path.join(root_folder, folder_name)
    
    if os.path.isdir(folder_path):        
        # Ищем подпапку text_from_pdf в текущей папке
        text_from_pdf_folder = os.path.join(folder_path, "text_from_pdf")
        if os.path.isdir(text_from_pdf_folder):  # Проверяем, существует ли подпапка text_from_pdf
            # Собираем все txt файлы и их номера страниц
            files_with_pages = []
            for file_name in os.listdir(text_from_pdf_folder):
                file_path = os.path.join(text_from_pdf_folder, file_name)
                
                # Проверяем, что это txt-файл
                if file_name.endswith(".txt"): 
                    page_number = extract_page_number(file_name)
                    if page_number is not None:
                        files_with_pages.append((file_name, page_number))
            
            # Сортируем файлы по номеру страницы
            sorted_files = sorted(files_with_pages, key=lambda x: x[1])
            
            # Проходим по отсортированным файлам
            for file_name, page_number in sorted_files:
                file_path = os.path.join(text_from_pdf_folder, file_name)
                
                with open(file_path, "r", encoding="utf-8") as file:
                    page_content = file.read()

                # Создаем объект Document с метаданными
                doc = Document(
                    page_content=page_content,
                    metadata={
                        'source': folder_name,  # Название основной папки
                        'page': page_number     # Номер страницы
                    }
                )
                
                # Добавляем документ в список
                documents.append(doc)

### Разбивка документов на чанки 

In [19]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
splits = text_splitter.split_documents(documents)

### Подгружаем LLM

In [20]:
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings

llm = Ollama(model="llama3.1")
embedding_model = OllamaEmbeddings(model="llama3.1")

### Строим prompt-инструкцию для LLM

In [21]:
from langchain.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template("""Вы являетесь помощником в выполнении поиска ответов на вопросы по нормативной документации по строительству объектов. 
                                          Используйте приведенные ниже фрагменты извлеченного контекста, чтобы ответить на вопрос.
                                          Если вы не знаете ответа, просто скажите, что вы не знаете.
        Question: {question} 
        Context: {context} 
        Answer:""")

### Индексируем чанки 

In [30]:
from langchain.vectorstores import FAISS

db = FAISS.from_documents(documents=splits, embedding=embedding_model)
# сохранение
db.save_local("path_to_faiss_index")

In [31]:
from langchain.vectorstores import FAISS

# Загружаем FAISS индекс из файла с разрешением 
db = FAISS.load_local(
    "path_to_faiss_index",
    embeddings=embedding_model,
    allow_dangerous_deserialization=True
)

# Устанавливаем ретривер для поиска контекста
retriever = db.as_retriever(
    search_type="similarity",
    search_kwargs={'k': 3}
)

In [None]:
# # временное хранение
# from langchain.vectorstores import FAISS
# db = FAISS.from_documents(documents=splits, embedding=embedding_model)

# # устанавливаем ретриевер для поиска контекста
# retriever = db.as_retriever(
#     search_type="similarity",
#     search_kwargs={'k': 3}
# )

In [33]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

answer = rag_chain.invoke("какой должна быть лестничная клетка?")

In [34]:
answer

'Лестничная клетка должна быть незадымляемой типа Н1 либо Н2 с входом на каждом этаже через тамбур-шлюз 1-го типа с подпорой воздуха на этаже пожара.'