Retriever Benchmarking

Система для оценки качества поиска документов с метриками, независимыми от чанкинга.

Содержимое

Метрики оценки: metrics.py - FlexBench для оценки качества поиска
Базовый пайплайн: baseline/ - полный пайплайн индексации и оценки
Данные: ragflow_docs/ - документация RAGflow для тестирования
Тесты: tests/ - юнит-тесты и тестовые данные

Установка

# 1. Установить зависимости
uv sync --extra baseline

# 2. Настроить OpenAI API ключ
export OPENAI_API_KEY=your_key_here

Запуск

# Полный пайплайн (индексация + оценка)
uv run python baseline/run.py

# Только индексация документов
uv run python baseline/ingest.py

# Только оценка
uv run python baseline/evaluate.py

# Тесты
uv run pytest

Результаты

Результаты сохраняются в tests/data/baseline_results.json с метрикой:

flexible_rate - доля запросов где все golden spans пересекаются с результатами

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
baseline		baseline
ragflow_docs		ragflow_docs
tests		tests
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
download_ragflow_docs.py		download_ragflow_docs.py
metrics.py		metrics.py
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Retriever Benchmarking

Содержимое

Установка

Запуск

Результаты

About

Uh oh!

Releases

Packages

Languages

MathAndProgs/RetrieverBenchmarking

Folders and files

Latest commit

History

Repository files navigation

Retriever Benchmarking

Содержимое

Установка

Запуск

Результаты

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages