## Импорт и определение библиотек

In [1]:
# отключение параллелизма
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

In [2]:
# импортируем библиотеки
from langchain.document_loaders import WebBaseLoader, PyPDFLoader, UnstructuredEPubLoader
from langchain_core.documents import Document
from langchain.prompts import PromptTemplate
from langchain.tools import Tool
from langchain.agents import initialize_agent
from langchain.chains import RetrievalQA
from langchain_huggingface import HuggingFaceEmbeddings
import tqdm as notebook_tqdm
from langchain_community.vectorstores import FAISS
from langchain.llms import Ollama
from langchain_ollama import OllamaLLM
from langchain.text_splitter import TextSplitter
from typing import List

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [8]:
# Чтение токена из файла
def read_token(file_path): 
    with open(file_path, 'r') as f:
        for line in f:
            if line.startswith("HUGGINGFACEHUB_API_TOKEN"):
                return line.split('=')[1].strip()
    raise ValueError("Token not found in the specified file.")

In [15]:
hf_token = read_token('../.env')
hf_token

'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'

# Реюнион

In [3]:
from langchain.text_splitter import TextSplitter
from typing import List
    
class RecipeSplitter(TextSplitter):
    def __init__(self):
        super().__init__(chunk_size=1000, chunk_overlap=0)
    
    def split_text(self, text: str) -> List[str]:
        # Убираем все пустые строки и лишние пробелы
        cleaned_text = "\n".join([line.strip() for line in text.split("\n") if line.strip()])
        
        # Разделяем текст на рецепты по маркеру "НАЗВАНИЕ_РЕЦЕПТА\nАВТОР"
        chunks = []
        current_chunk = []
        lines = cleaned_text.split("\n")
        
        i = 0
        while i < len(lines):
            line = lines[i]
            # Проверяем начало нового рецепта
            if i + 1 < len(lines) and lines[i+1].isupper() and "(" in lines[i+1] and ")" in lines[i+1]:
                if current_chunk:
                    chunks.append("\n".join(current_chunk))
                    current_chunk = []
                current_chunk.append(line)
                current_chunk.append(lines[i+1])
                i += 2
                continue
            
            current_chunk.append(line)
            i += 1
        
        if current_chunk:
            chunks.append("\n".join(current_chunk))
        
        return chunks

In [4]:
# Пример текста
text = """
Рожь и предубеждение
ГОРДОСТЬ И ПРЕДУБЕЖДЕНИЕ (1813)
ДЖЕЙН ОСТИН
Роман благородных нравов XIX века подарил Джейн Остин шанс еще при жизни (хоть и недолгой – всего 41 год) вкусить свои пять минут славы. «Гордость и предубеждение» повествует о попытках семейства Беннет выдать замуж своих дочерей. От лица одной из пяти девиц и ведется рассказ. Увы, Элизабет – в одной из экранизаций блеснувшая выразительными скулами Киры Найтли – та еще язва, и ее жажда припечатать всех и каждого чуть ли не затмевает ее трепетное чувство к мистеру Дарси, джентльмену с завидным самомнением (зато ну очень богатому!). Впрочем, все кончается восхитительной двойной свадьбой. Вот и мы сосватаем две сильные натуры – терпкую пряность ржи и жизнеутверждающую горечь грейпфрута – и на славу погуляем на нашем импровизированном торжестве:


90 мл грейпфрутового сока;

50 мл ржаного виски.


Ингредиенты выливаем в стакан рокс поверх кубиков льда, размешиваем в ритме «сердце вскачь». Хотим подчеркнуть, юные леди, мы нисколечко не предубеждены против замужества, а лишь призываем вас уяснить главное: чтобы почувствовать себя королевой, не нужно и дворца (как, впрочем, и короля).


Кофейный ликер без меры
ЛЮБОВЬ ВО ВРЕМЯ ХОЛЕРЫ (1985)
ГАБРИЭЛЬ ГАРСИА МАРКЕС
Зачем вы, девочки, докторов заграничных любите? Отдашь такому сердце – и полвека промаешься, прежде чем найти то самое, что доктор прописал. Вот она какая, романтика по Маркесу: юноша и девушка загорелись друг к другу пылкой страстью, но девица возьми да выбери себе в мужья доктора – а возлюбленному от ворот поворот дала, крути, мол, в отместку с кем хочешь. Но над истинной страстью время не властно! И однажды, «пятьдесят один год, девять месяцев и четыре дня спустя» (надо же было высчитать!), после кончины Супруга-Номер-Один, те двое воссоединяются. Жемчужина колумбийской литературы, роман Гарсиа Маркеса заслуживает нашего салюта – сладкого, как истинная любовь, и пряного, как неувядающая страсть:


30 мл светлого рома;

15 мл кофейного ликера (например, «Калуа»);

60 мл нежирных сливок;

щепотка молотой корицы или мускатного ореха.


В стакан рокс укладываем лед и поливаем его ромом и кофейным ликером. Добавляем сливки и приправу по вкусу. А теперь опрокидываем нашу гремучую смесь во славу истинной страсти – даже если заморского врача вы видели только в телевизоре.
"""

# Инициализация сплиттера
splitter = RecipeSplitter()

# Разбиение текста на чанки
chunks = splitter.split_text(text)
for i, chunk in enumerate(chunks, 1):
    print(f"Чанк {i}:\n{chunk}\n{'-' * 40}")

Чанк 1:
Рожь и предубеждение
ГОРДОСТЬ И ПРЕДУБЕЖДЕНИЕ (1813)
ДЖЕЙН ОСТИН
Роман благородных нравов XIX века подарил Джейн Остин шанс еще при жизни (хоть и недолгой – всего 41 год) вкусить свои пять минут славы. «Гордость и предубеждение» повествует о попытках семейства Беннет выдать замуж своих дочерей. От лица одной из пяти девиц и ведется рассказ. Увы, Элизабет – в одной из экранизаций блеснувшая выразительными скулами Киры Найтли – та еще язва, и ее жажда припечатать всех и каждого чуть ли не затмевает ее трепетное чувство к мистеру Дарси, джентльмену с завидным самомнением (зато ну очень богатому!). Впрочем, все кончается восхитительной двойной свадьбой. Вот и мы сосватаем две сильные натуры – терпкую пряность ржи и жизнеутверждающую горечь грейпфрута – и на славу погуляем на нашем импровизированном торжестве:
90 мл грейпфрутового сока;
50 мл ржаного виски.
Ингредиенты выливаем в стакан рокс поверх кубиков льда, размешиваем в ритме «сердце вскачь». Хотим подчеркнуть, юные леди, мы н

In [22]:
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings

# Инициализация эмбеддингов
hf_embeddings_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2", #"cointegrated/LaBSE-en-ru",
    model_kwargs={
        "device": "cpu",
        "token": hf_token
        },
)

from langchain_core.documents import Document

# Преобразование строк в объекты Document
documents = [Document(page_content=chunk) for chunk in chunks]

# Создание векторного хранилища
try:
    db_embed = FAISS.from_documents(
        documents, 
        hf_embeddings_model
    )
except Exception as e:
    raise RuntimeError(f"Ошибка при создании базы данных FAISS: {e}")

# Сохранение векторной базы локально
db_embed.save_local("../data/faiss_db_epub_mistral")

In [40]:
query = "Рецепт и название коктейля, в который входят: ржаной виски, грейпфрутовый сок"
results = db_embed.similarity_search(query, k=1)  # Ищем 1 наиболее релевантный чанк
for result in results:
    print(result.page_content)

Кофейный ликер без меры
ЛЮБОВЬ ВО ВРЕМЯ ХОЛЕРЫ (1985)
ГАБРИЭЛЬ ГАРСИА МАРКЕС
Зачем вы, девочки, докторов заграничных любите? Отдашь такому сердце – и полвека промаешься, прежде чем найти то самое, что доктор прописал. Вот она какая, романтика по Маркесу: юноша и девушка загорелись друг к другу пылкой страстью, но девица возьми да выбери себе в мужья доктора – а возлюбленному от ворот поворот дала, крути, мол, в отместку с кем хочешь. Но над истинной страстью время не властно! И однажды, «пятьдесят один год, девять месяцев и четыре дня спустя» (надо же было высчитать!), после кончины Супруга-Номер-Один, те двое воссоединяются. Жемчужина колумбийской литературы, роман Гарсиа Маркеса заслуживает нашего салюта – сладкого, как истинная любовь, и пряного, как неувядающая страсть:
30 мл светлого рома;
15 мл кофейного ликера (например, «Калуа»);
60 мл нежирных сливок;
щепотка молотой корицы или мускатного ореха.
В стакан рокс укладываем лед и поливаем его ромом и кофейным ликером. Добавляем сл