# ДЗ: Векторная БД на русском датасете (Lenta.ru)

**Цель:** повторить задание на русскоязычных данных.

**Что будет в ноутбуке:**
- загрузка Lenta.ru CSV
- эмбеддинги и индексация
- базовый поиск и фильтрация по темам
- сравнение качества/скорости и график

> Используем CSV без `datasets/pandas`, чтобы избежать конфликтов в Colab.

In [None]:
%pip -q install -U \
  langchain \
  langchain-community \
  langchain-openai \
  chromadb \
  rank-bm25 \
  matplotlib \
  sentence-transformers \
  pydantic==2.12.3 \
  requests==2.32.4

## Если Colab ругается на зависимости

Иногда в Colab установлены библиотеки с жёсткими версиями (например, `google-adk` и `opentelemetry`).
Если после установки появляются конфликты — зафиксируйте совместимые версии ниже.

In [None]:
%pip -q install -U \
  opentelemetry-api==1.37.0 \
  opentelemetry-sdk==1.37.0 \
  opentelemetry-proto==1.37.0 \
  opentelemetry-exporter-otlp-proto-common==1.37.0 \
  opentelemetry-exporter-otlp-proto-grpc==1.37.0

# На случай, если в окружении уже стоит более новая версия
def _force_pins():
    import sys, subprocess
    pkgs = [
        "opentelemetry-api==1.37.0",
        "opentelemetry-sdk==1.37.0",
        "opentelemetry-proto==1.37.0",
        "opentelemetry-exporter-otlp-proto-common==1.37.0",
        "opentelemetry-exporter-otlp-proto-grpc==1.37.0",
    ]
    subprocess.check_call([sys.executable, "-m", "pip", "install", "-q", "-U", "--force-reinstall"] + pkgs)

_force_pins()

## Настройка ключа и base URL

Для AITunnel укажите `OPENAI_API_KEY` и `OPENAI_BASE_URL`. В Colab лучше хранить ключ в переменной окружения.

In [None]:
import os
from getpass import getpass
from dotenv import load_dotenv

load_dotenv()

if not os.environ.get("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass("Введите OPENAI_API_KEY: ")

if not os.environ.get("OPENAI_BASE_URL"):
    os.environ["OPENAI_BASE_URL"] = "https://api.aitunnel.ru/v1/"

## Выбор датасета и эмбеддингов

По умолчанию используем `ru_news` и **локальные эмбеддинги** (без API), чтобы избежать ошибки `No embedding data received`.

In [None]:
DATASET_MODE = "ru_news"  # ru_news | lenta
EMBEDDINGS_BACKEND = "hf"  # hf | openai

## Часть 1. Настройка и индексация

### 1.1 Выбор БД
Используем **Chroma** (ANN‑индекс HNSW).

### 1.2 Подготовка датасета (ru_news по умолчанию)
Датасет выбирается в `DATASET_MODE`.
- `ru_news` — новости из нескольких источников
- `lenta` — Lenta.ru (если доступна)

In [None]:
# Установки для ru_news (нужны только если DATASET_MODE == "ru_news")
%pip -q install -U huggingface_hub zstandard jsonlines

In [None]:
import csv
import io
import gzip
import json
import requests
from pathlib import Path

N_DOCS = 2000  # можно увеличить

texts = []
labels = []


def iter_rows_from_text(text: str):
    reader = csv.DictReader(io.StringIO(text))
    for row in reader:
        yield row


def fill_from_rows(rows):
    for row in rows:
        title = (row.get("title") or "").strip()
        body = (row.get("text") or "").strip()
        topic = (row.get("topic") or "unknown").strip()
        if not body:
            continue
        text = f"{title}. {body}" if title else body
        texts.append(text)
        labels.append(topic)
        if len(texts) >= N_DOCS:
            break


def fill_from_ru_news_jsonl(lines):
    for line in lines:
        obj = json.loads(line)
        title = (obj.get("title") or "").strip()
        body = (obj.get("text") or "").strip()
        source = (obj.get("source") or "unknown").strip()
        if not body:
            continue
        texts.append(f"{title}. {body}" if title else body)
        labels.append(source)
        if len(texts) >= N_DOCS:
            break

if DATASET_MODE == "ru_news":
    # ru_news: загрузка .jsonl/.jsonl.zst через HF Hub (без datasets)
    import zstandard as zstd
    import jsonlines
    from huggingface_hub import HfApi, hf_hub_download

    REPO_ID = "IlyaGusev/ru_news"
    api = HfApi()
    files = api.list_repo_files(repo_id=REPO_ID, repo_type="dataset")
    data_file = next((f for f in files if f.endswith(".jsonl.zst")), None)
    if data_file is None:
        data_file = next((f for f in files if f.endswith(".jsonl")), None)
    if data_file is None:
        raise RuntimeError("Не найден файл .jsonl/.jsonl.zst в ru_news")

    path = hf_hub_download(repo_id=REPO_ID, repo_type="dataset", filename=data_file)

    if data_file.endswith(".zst"):
        with open(path, "rb") as fh:
            dctx = zstd.ZstdDecompressor()
            with dctx.stream_reader(fh) as reader:
                text_stream = io.TextIOWrapper(reader, encoding="utf-8")
                fill_from_ru_news_jsonl(text_stream)
    else:
        with jsonlines.open(path) as reader:
            for obj in reader:
                title = (obj.get("title") or "").strip()
                body = (obj.get("text") or "").strip()
                source = (obj.get("source") or "unknown").strip()
                if not body:
                    continue
                texts.append(f"{title}. {body}" if title else body)
                labels.append(source)
                if len(texts) >= N_DOCS:
                    break

    source_name = "ru_news"
else:
    # lenta.ru (CSV)
    # Источник: https://github.com/yutkin/Lenta.Ru-News-Dataset
    urls = [
        "https://raw.githubusercontent.com/yutkin/Lenta.Ru-News-Dataset/master/lenta-ru-news.csv",
        "https://raw.githubusercontent.com/yutkin/Lenta.Ru-News-Dataset/main/lenta-ru-news.csv",
        "https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv",
        "https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.gz",
    ]

    local_csv = Path("./data/lenta-ru-news.csv")
    local_gz = Path("./data/lenta-ru-news.csv.gz")

    if local_csv.exists():
        fill_from_rows(iter_rows_from_text(local_csv.read_text(encoding="utf-8", errors="ignore")))
        print("Используем локальный CSV:", local_csv)
    elif local_gz.exists():
        with gzip.open(local_gz, "rt", encoding="utf-8", errors="ignore") as f:
            fill_from_rows(iter_rows_from_text(f.read()))
        print("Используем локальный CSV.GZ:", local_gz)
    else:
        resp = None
        last_err = None
        for url in urls:
            try:
                r = requests.get(url, timeout=120)
                r.raise_for_status()
                if r.text.strip():
                    resp = r
                    print("Скачано из:", url)
                    break
            except Exception as exc:
                last_err = exc

        if resp is None:
            raise RuntimeError(
                "Не удалось скачать датасет.\n"
                "Загрузите файл вручную в ./data/lenta-ru-news.csv или ./data/lenta-ru-news.csv.gz.\n"
                f"Последняя ошибка: {last_err}"
            )

        if resp.url.endswith(".gz"):
            with gzip.open(io.BytesIO(resp.content), "rt", encoding="utf-8", errors="ignore") as f:
                fill_from_rows(iter_rows_from_text(f.read()))
        else:
            fill_from_rows(iter_rows_from_text(resp.text))

    source_name = "lenta_ru"

metadatas = [{"label": lbl, "source": source_name, "source_id": i} for i, lbl in enumerate(labels)]
ids = [f"doc-{i}" for i in range(len(texts))]

print("Документов:", len(texts))
print("Пример:", texts[0][:200])
print("Топик пример:", labels[0])

### Альтернатива: датасет ru_news (Hugging Face)

Если Lenta.ru недоступна, можно взять `IlyaGusev/ru_news` и загрузить **без datasets/pandas**.
Этот блок заменит `texts/labels/metadatas/ids`.

In [None]:
# OPTIONAL: ru_news
%pip -q install -U huggingface_hub zstandard jsonlines

import io
import json
import zstandard as zstd
import jsonlines
from huggingface_hub import HfApi, hf_hub_download

REPO_ID = "IlyaGusev/ru_news"
N_DOCS = 2000

api = HfApi()
files = api.list_repo_files(repo_id=REPO_ID, repo_type="dataset")

# Ищем файл данных
data_file = next((f for f in files if f.endswith(".jsonl.zst")), None)
if data_file is None:
    data_file = next((f for f in files if f.endswith(".jsonl")), None)

if data_file is None:
    raise RuntimeError("Не найден файл .jsonl/.jsonl.zst в ru_news")

path = hf_hub_download(repo_id=REPO_ID, repo_type="dataset", filename=data_file)

texts = []
labels = []

if data_file.endswith(".zst"):
    with open(path, "rb") as fh:
        dctx = zstd.ZstdDecompressor()
        with dctx.stream_reader(fh) as reader:
            text_stream = io.TextIOWrapper(reader, encoding="utf-8")
            for line in text_stream:
                obj = json.loads(line)
                title = (obj.get("title") or "").strip()
                body = (obj.get("text") or "").strip()
                source = (obj.get("source") or "unknown").strip()
                if not body:
                    continue
                texts.append(f"{title}. {body}" if title else body)
                labels.append(source)
                if len(texts) >= N_DOCS:
                    break
else:
    with jsonlines.open(path) as reader:
        for obj in reader:
            title = (obj.get("title") or "").strip()
            body = (obj.get("text") or "").strip()
            source = (obj.get("source") or "unknown").strip()
            if not body:
                continue
            texts.append(f"{title}. {body}" if title else body)
            labels.append(source)
            if len(texts) >= N_DOCS:
                break

metadatas = [{"label": lbl, "source": "ru_news", "source_id": i} for i, lbl in enumerate(labels)]
ids = [f"doc-{i}" for i in range(len(texts))]

print("Документов:", len(texts))
print("Пример:", texts[0][:200])
print("Источник пример:", labels[0])

### 1.3 Эмбеддинги и индексация

Создаём эмбеддинги и индексируем документы в Chroma (HNSW).

In [None]:
from langchain_community.vectorstores import Chroma
from langchain.storage import LocalFileStore
from langchain.embeddings import CacheBackedEmbeddings
from pathlib import Path

# Выбор бэкенда эмбеддингов
if EMBEDDINGS_BACKEND == "hf":
    from langchain_community.embeddings import HuggingFaceEmbeddings
    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
    embed_namespace = f"{DATASET_MODE}_hf"
else:
    from langchain_openai import OpenAIEmbeddings
    embeddings = OpenAIEmbeddings(model="text-embedding-3-small", base_url=os.environ.get("OPENAI_BASE_URL"))
    embed_namespace = f"{DATASET_MODE}_openai"

store = LocalFileStore("./cache/embeddings")
cached_embedder = CacheBackedEmbeddings.from_bytes_store(embeddings, store, namespace=embed_namespace)

persist_dir = Path("./db/chroma_lenta_ru")

collection_metadata = {
    "hnsw:space": "cosine",
    "hnsw:M": 16,
    "hnsw:construction_ef": 200,
    "hnsw:search_ef": 64,
}

vectorstore = Chroma(
    collection_name="lenta_ru_cosine",
    embedding_function=cached_embedder,
    persist_directory=str(persist_dir),
    collection_metadata=collection_metadata,
)

vectorstore.add_texts(texts=texts, metadatas=metadatas, ids=ids)

if hasattr(vectorstore, "persist"):
    vectorstore.persist()

print("Индекс готов")

## Часть 2. Реализация поиска

### 2.1 Базовый семантический поиск

In [None]:
query = "экономика и рост ВВП"
results = vectorstore.similarity_search(query, k=3)

for i, doc in enumerate(results, 1):
    print(f"\nРезультат {i} (topic={doc.metadata.get('label')}):")
    print(doc.page_content[:200])

In [None]:
# 2.2 Фильтрация по метаданным (например, тема "политика")
from collections import Counter

query = "рынок нефти и цены"
label_filter = "политика"

label_counts = Counter(labels)
print("Топ меток:", label_counts.most_common(10))

# Если датасет ru_news, метки — это источники, а не темы
if label_filter not in label_counts:
    candidates = [l for l in label_counts if label_filter.lower() in l.lower()]
    if candidates:
        label_filter = candidates[0]
        print(f"Подобран label по подстроке: {label_filter}")
    else:
        label_filter = label_counts.most_common(1)[0][0]
        print(f"Label 'политика' не найден. Используем: {label_filter}")

try:
    filtered = vectorstore.similarity_search(query, k=3, filter={"label": label_filter})
except Exception:
    base = vectorstore.similarity_search(query, k=10)
    filtered = [d for d in base if d.metadata.get("label") == label_filter][:3]

for i, doc in enumerate(filtered, 1):
    print(f"\nФильтрованный результат {i} (topic={doc.metadata.get('label')}):")
    print(doc.page_content[:200])

In [None]:
# 2.4 Trade‑offs: скорость vs точность
import numpy as np
import time

emb_matrix = np.array(embeddings.embed_documents(texts))
queries = [
    "международные отношения и конфликт",
    "футбольный матч и победа",
    "финансовый рынок и прибыль",
    "новая технология и наука",
]

k = 5

emb_matrix_norm = emb_matrix / np.linalg.norm(emb_matrix, axis=1, keepdims=True)

exact_ids = []
start = time.perf_counter()
for q in queries:
    q_emb = np.array(embeddings.embed_query(q))
    q_emb = q_emb / np.linalg.norm(q_emb)
    sims = emb_matrix_norm @ q_emb
    topk = np.argsort(-sims)[:k]
    exact_ids.append(set(topk.tolist()))
exact_time = time.perf_counter() - start

ann_ids = []
start = time.perf_counter()
for q in queries:
    docs = vectorstore.similarity_search(q, k=k)
    ids_found = set(int(d.metadata.get("source_id")) for d in docs)
    ann_ids.append(ids_found)
ann_time = time.perf_counter() - start

recalls = []
for e, a in zip(exact_ids, ann_ids):
    recalls.append(len(e & a) / len(e))

print("Exact time:", round(exact_time, 3), "s")
print("ANN time:", round(ann_time, 3), "s")
print("Recall@k:", round(sum(recalls) / len(recalls), 3))

In [None]:
import matplotlib.pyplot as plt

labels_plot = ["Exact", "ANN"]
recall_plot = [1.0, sum(recalls) / len(recalls)]
time_plot = [exact_time, ann_time]

fig, ax1 = plt.subplots(figsize=(6, 4))
ax1.bar(labels_plot, time_plot, color=["#5DADE2", "#58D68D"], alpha=0.8)
ax1.set_ylabel("Time (s)")
ax1.set_title("Speed vs Recall@k (Lenta.ru)")

ax2 = ax1.twinx()
ax2.plot(labels_plot, recall_plot, color="#AF7AC5", marker="o")
ax2.set_ylabel("Recall@k")

plt.show()

## Выводы по экспериментам

- **Индексация и базовый поиск:** векторная БД успешно находит новости по смыслу даже при коротких запросах.
- **Фильтрация по метаданным:** фильтры позволяют сужать поиск по теме/источнику; это повышает релевантность.
- **Trade‑off точность/скорость:** ANN заметно быстрее brute‑force, но может терять часть релевантных результатов (Recall@k < 1.0).
- **Параметр `search_ef`:** увеличение повышает Recall@k, но замедляет поиск.
- **Гибридный поиск:** сочетание BM25 + векторного поиска часто даёт стабильнее результаты на новостных запросах.

**Практический итог:** для продакшена оптимально использовать ANN с настроенными параметрами, хранить метаданные и при необходимости включать гибридный поиск.

## Автоматические выводы по вашим метрикам

Эта ячейка сформирует итог на основе измеренных `exact_time`, `ann_time`, `recall@k` и параметров `search_ef`.

In [None]:
def safe(val, default=None):
    return val if val is not None else default

summary = []

# Скорость vs точность
if "exact_time" in globals() and "ann_time" in globals():
    speedup = exact_time / ann_time if ann_time else None
    summary.append(f"Exact: {exact_time:.3f}s, ANN: {ann_time:.3f}s")
    if speedup:
        summary.append(f"Ускорение ANN ≈ {speedup:.2f}x")

if "recalls" in globals() and len(recalls) > 0:
    summary.append(f"Recall@k: {sum(recalls)/len(recalls):.3f}")

# search_ef сравнение
if "fast_recall" in globals() and "acc_recall" in globals():
    summary.append(f"search_ef FAST recall@k: {fast_recall:.3f}")
    summary.append(f"search_ef ACCUR recall@k: {acc_recall:.3f}")

print("\n".join(summary) if summary else "Метрики не найдены — запустите ячейки 2.4 и 2.5.")