## installing section

In [None]:
%pip install -qU  langchain-huggingface text-generation transformers google-search-results numexpr langchainhub sentencepiece jinja2 bitsandbytes accelerate qdrant-client langchain-qdrant ipywidgets langchain-community bs4 lxml markdownify trafilatura sentence-transformers

Note: you may need to restart the kernel to use updated packages.


## env

In [1]:
import getpass
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = getpass.getpass(
    "Enter your Hugging Face API key: "
)

os.environ["GROQ_API_TOKEN"] = getpass.getpass(
    "Enter your GROQ API TOKEN: "
)

# enabling langsmith tracing

os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_API_KEY"] = getpass.getpass(
    "Enter your LangSmith API key: "
)

## parsing html docs

In [2]:
import trafilatura
import markdownify
from langchain_text_splitters import MarkdownHeaderTextSplitter
from bs4 import BeautifulSoup
import urllib.parse
import json

documents = []

def safe_preprocess_formulas(html_content):
    """
    Аккуратно заменяет формулы на текст, не ломая HTML-структуру.
    Обрабатывает формулы в формате KaTeX (Яндекс) с data-content и annotation.
    """
    soup = BeautifulSoup(html_content, 'html.parser')

    # 1. Обработка формул в формате yfm-latex (Яндекс)
    # Ищем все span с классом yfm-latex, которые содержат формулы
    for yfm_latex in soup.find_all('span', class_='yfm-latex'):
        latex_code = None
        is_display = False
        
        # Пытаемся извлечь LaTeX из data-content (URL-encoded)
        data_content = yfm_latex.get('data-content', '')
        if data_content:
            try:
                latex_code = urllib.parse.unquote(data_content)
            except:
                pass
        
        # Если не получилось из data-content, ищем в annotation
        if not latex_code:
            annotation = yfm_latex.find('annotation', encoding="application/x-tex")
            if annotation:
                latex_code = annotation.get_text()
        
        # Определяем display mode из data-options
        data_options = yfm_latex.get('data-options', '')
        if data_options:
            try:
                options_str = urllib.parse.unquote(data_options)
                options = json.loads(options_str)
                is_display = options.get('displayMode', False)
            except:
                # Если не получилось распарсить, проверяем по классу родителя
                if yfm_latex.find_parent(class_="katex-display"):
                    is_display = True
        
        # Если display mode не определился, проверяем по классу родителя
        if not is_display:
            if yfm_latex.find_parent(class_="katex-display"):
                is_display = True
        
        # Если нашли LaTeX код, заменяем весь блок
        if latex_code:
            # Формируем строку замены
            if is_display:
                new_text = f"\n$${latex_code}$$\n"
            else:
                new_text = f"${latex_code}$"
            
            # Заменяем весь yfm-latex блок на текст
            yfm_latex.replace_with(soup.new_string(new_text))
    
    # 2. Обработка формул через annotation (fallback для других форматов)
    for annotation in soup.find_all('annotation', encoding="application/x-tex"):
        # Проверяем, не обработали ли мы уже этот annotation через yfm-latex
        if annotation.find_parent('span', class_='yfm-latex'):
            continue  # Уже обработано выше
        
        latex_code = annotation.get_text()
        if not latex_code:
            continue
        
        # Ищем ближайший контейнер KaTeX
        math_container = annotation.find_parent(class_="katex")
        
        if math_container:
            # Проверяем на display mode
            is_display = False
            if math_container.find_parent(class_="katex-display"):
                is_display = True
            
            # Формируем строку замены
            if is_display:
                new_text = f"\n$${latex_code}$$\n"
            else:
                new_text = f"${latex_code}$"
            
            # Заменяем контейнер формулы
            top_node = math_container
            if is_display:
                parent_display = math_container.find_parent(class_="katex-display")
                if parent_display:
                    top_node = parent_display
            
            top_node.replace_with(soup.new_string(new_text))

    # 3. MathJax (старый формат)
    for script in soup.find_all('script', type='math/tex'):
        script.replace_with(f"${script.get_text()}$")
        
    for script in soup.find_all('script', type='math/tex; mode=display'):
        script.replace_with(f"\n$${script.get_text()}$$\n")

    return str(soup)


for index in range(2, 70):
    file_path = f"data/page_{index}.html"
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            html_content = f.read()
    except FileNotFoundError:
        print(f"Файл {file_path} не найден")
        continue

    # 1. Аккуратно внедряем формулы как текст внутрь HTML
    html_with_math = safe_preprocess_formulas(html_content)

    # 2. Используем trafilatura ТОЛЬКО для очистки мусора (меню, футеры)
    # Но просим вернуть HTML (markdown)
    md_file = trafilatura.extract(
        html_with_math,
        output_format="markdown",
        include_formatting=True,
        include_links=True,
        include_images=True,
        include_tables=True,
        include_comments=False
    )

    if not md_file:
        print(f"Ошибка при очистке HTML от мусора {file_path}")
        continue

    # 4. Сплиттер
    headers_to_split_on = [
        ("#", "Header 1"),
        ("##", "Header 2"),
        ("###", "Header 3"),
    ]

    markdown_splitter = MarkdownHeaderTextSplitter(
        headers_to_split_on=headers_to_split_on,
        strip_headers=False 
    )
    md_header_splits = markdown_splitter.split_text(md_file)
    
    # Добавляем метаданные
    for doc in md_header_splits:
        doc.metadata["source_file"] = f"page_{index}.html"
    
    documents.extend(md_header_splits)

print(f"Готово. Обработано документов: {len(documents)}")

Готово. Обработано документов: 918


## vector db creation

In [3]:
from langchain_huggingface import HuggingFaceEmbeddings


embedder = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs={'device': 'cuda'}, # или 'cuda' если есть GPU
    encode_kwargs={'normalize_embeddings': True}
)

In [12]:
from qdrant_client.models import Distance, VectorParams
from langchain_qdrant import QdrantVectorStore
from qdrant_client import QdrantClient
from tqdm.auto import tqdm 

COLLECTION_NAME = "RAG_ML_HANDBOOK"
VECTOR_SIZE = len(embedder.embed_query("тестовый текст"))

# intialize qdrant client
client = QdrantClient(path="./qdrant_db")

# create collection if not exists
if client.collection_exists(COLLECTION_NAME):
    print(f"Удаляю старую коллекцию {COLLECTION_NAME}...")
    client.delete_collection(COLLECTION_NAME)

client.create_collection(
    collection_name=COLLECTION_NAME,
    vectors_config=VectorParams(size=VECTOR_SIZE, distance=Distance.COSINE)
)

# initialize vector store
vector_store = QdrantVectorStore(
    client=client,
    collection_name=COLLECTION_NAME,
    embedding=embedder,
)

for doc in tqdm(documents):
    _ = vector_store.add_documents([doc])

print(f"Успешно добавлено {len(documents)} документов.")

Удаляю старую коллекцию RAG_ML_HANDBOOK...


  0%|          | 0/918 [00:00<?, ?it/s]

Успешно добавлено 918 документов.


In [13]:
count = client.count(collection_name=COLLECTION_NAME)
print(f"Всего векторов: {count}")

Всего векторов: count=918


## vector db init from saved

In [2]:
from langchain_huggingface import HuggingFaceEmbeddings


embedder = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs={'device': 'cuda'}, # или 'cuda' если есть GPU
    encode_kwargs={'normalize_embeddings': True}
)

In [3]:
from qdrant_client import QdrantClient
from langchain_qdrant import QdrantVectorStore

# Те же настройки
COLLECTION_NAME = "RAG_ML_HANDBOOK"

# Просто указываем путь к папке, куда сохранили данные ранее
client = QdrantClient(path="./qdrant_db")

# LangChain сам поймет, что коллекция уже есть внутри клиента
vector_store = QdrantVectorStore(
    client=client,
    collection_name=COLLECTION_NAME,
    embedding=embedder,
)

# Все готово к использованию!
print("База успешно загружена с диска.")

База успешно загружена с диска.


In [4]:
count = client.count(collection_name=COLLECTION_NAME)
print(f"Всего векторов: {count}")

Всего векторов: count=918


## generator init

In [14]:
import httpx
from langchain_openai import ChatOpenAI

PROXY_URL = "http://hqCxDo:Q7BLoT@196.19.177.20:8000" # USA proxy for 1 month
http_client = httpx.Client(
    proxy=PROXY_URL,
    verify=False
)

llm = ChatOpenAI(
    model="qwen/qwen3-32b",
    api_key=os.environ["GROQ_API_TOKEN"],
    base_url="https://api.groq.com/openai/v1",
    http_client=http_client,

    temperature=0.3,
    max_tokens=1024
)

## creating the agent

In [15]:
import yaml

with open("prompts.yaml", "r") as f:
    prompts = yaml.safe_load(f)

ReActSysPrompt = prompts["ReActPrompt"]

In [16]:
from langchain.tools import tool
from langchain.agents import create_agent
from langgraph.checkpoint.memory import InMemorySaver

# tool with "content" enables to get "serialized" - what llm sees after tool calling
@tool(response_format="content")
def retrieve_context(query: str):
    """Retrieve information to help answer a query."""
    retrieved_docs = vector_store.similarity_search(query, k=5)
    serialized = "\n\n".join(
        (f"Content: {doc.page_content}")
        for doc in retrieved_docs
    )
    return serialized

# checkpointer to save states between invoke operations (storing session context) | we can implement the same functionality through 
checkpointer = InMemorySaver()
config = {
    "configurable": {
        "thread_id": "test_2",  # Уникальный ID сессии по которому БД достает сообщения и прокидывает их в State["messages"]
    }
}

agent = create_agent(
    model=llm,
    tools=[retrieve_context],
    system_prompt=ReActSysPrompt,
    checkpointer=checkpointer
)

In [17]:
agent_output = agent.invoke(
    {
        "messages": [
            {
                "role": "user",
                "content": "сколько градусов на солнце"
            }
        ],
        "config": config
    },
    config=config
)

In [24]:
agent_output

{'messages': [HumanMessage(content='сколько градусов на солнце', additional_kwargs={}, response_metadata={}, id='0b9cff88-2c4a-47de-8102-ab2978c7cf60'),
  AIMessage(content='Информация о температуре Солнца не содержится в учебнике по машинному обучению от Яндекса, так как это астрономический параметр, а не тема, связанная с Data Science или ML. Если вас интересует общая информация: температура поверхности Солнца (фотосфера) составляет около 5500 °C, а в ядре — до 15 миллионов °C.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 410, 'prompt_tokens': 956, 'total_tokens': 1366, 'completion_tokens_details': {'accepted_prediction_tokens': None, 'audio_tokens': None, 'reasoning_tokens': 302, 'rejected_prediction_tokens': None}, 'prompt_tokens_details': None, 'queue_time': 0.283056751, 'prompt_time': 0.050602755, 'completion_time': 1.001225559, 'total_time': 1.051828314}, 'model_provider': 'openai', 'model_name': 'qwen/qwen3-32b', 'system_fingerp

## watch the available models of GROQ provider

In [12]:
import requests
import os


api_key = os.environ.get("GROQ_API_TOKEN")

url = "https://api.groq.com/openai/v1/models"


headers = {

    "Authorization": f"Bearer {api_key}",

    "Content-Type": "application/json"

}

proxies = {
    "http": PROXY_URL,
    "https": PROXY_URL,
}


response = requests.get(url, headers=headers, proxies=proxies)


ans = response.json()

In [13]:
ans

{'object': 'list',
 'data': [{'id': 'meta-llama/llama-guard-4-12b',
   'object': 'model',
   'created': 1746743847,
   'owned_by': 'Meta',
   'active': True,
   'context_window': 131072,
   'public_apps': None,
   'max_completion_tokens': 1024},
  {'id': 'groq/compound',
   'object': 'model',
   'created': 1756949530,
   'owned_by': 'Groq',
   'active': True,
   'context_window': 131072,
   'public_apps': None,
   'max_completion_tokens': 8192},
  {'id': 'playai-tts-arabic',
   'object': 'model',
   'created': 1740682783,
   'owned_by': 'PlayAI',
   'active': True,
   'context_window': 8192,
   'public_apps': None,
   'max_completion_tokens': 8192},
  {'id': 'llama-3.3-70b-versatile',
   'object': 'model',
   'created': 1733447754,
   'owned_by': 'Meta',
   'active': True,
   'context_window': 131072,
   'public_apps': None,
   'max_completion_tokens': 32768},
  {'id': 'groq/compound-mini',
   'object': 'model',
   'created': 1756949707,
   'owned_by': 'Groq',
   'active': True,
   'co