recs-searcher — библиотека для поиска похожих текстов

Библиотека позволяет находить похожие на пользовательский ввод тексты из датасета.

Содержание

Проблематика
Особенности библиотеки
Установка
Примеры применения
Помощь в выборе/настройке алгоритмов

Проблематика

Пользовательский ввод может содержать как орфографические, так и реестровые ошибки.

Рассмотрим самые частые ошибки:

используются сокращения или полные формы слова: «Литературный институт имени А.М. Горького» || «Литературный институт им. А.М. Горького»;
пропущены либо добавлены слова: «Литературный институт имени А.М. Горького» || «Институт имени А.М.Горького»;
пропущены либо добавлены дополнительные символы: «Сибирский федеральный университет» || «Сибрский федерааальный универ»;
слова могут быть в не правильном порядке: Институт космических и информационных технологий || Институт информационных и космических технологий.

Данные проблемы помогает решить разработанный модуль recs-searcher (registry error correction system - searcher), основанный на известных NLP-алгоритмах.

Особенности библиотеки:

модуль универсален для любого датасета;
содержит API для использования библиотеки;
содержит множество подмодулей алгоритмов для оптимизации задачи, из которых строится pipeline (предобработка текста, модели для создания эмбеддингов, алгоритмы для эффективного сравнения эмбеддингов, аугментация текста для оценки обученного pipeline);
возможность интерпретировать результаты обученных pipeline;
масштабирование библиотеки благодаря имеющимся абстрактным классам.

Установка

pip install recs-searcher

Примеры применения

Соберём pipeline:

from recs_searcher import (
    dataset,  # учебные датасеты
    preprocessing,  # предобработка текста
    embeddings,  # преобразование текста в эмбеддинги
    similarity_search,  # быстрые поисковики в пространстве эмбеддингов
    augmentation,  # аугментация текста для валидации пайплайнов
    explain,  # интерпретация сходства двух текстов
    api,  # Пайплайн
)

model_embedding = embeddings.CountVectorizerWrapperEmbedding(
    analyzer='char',
    ngram_range=(1, 2),
)

pipeline = api.Pipeline(
    dataset=['Красноярск', 'Москва', 'Владивосток'],
    preprocessing=[preprocessing.TextLower()],
    model=model_embedding,
    searcher=similarity_search.FaissSearch,
    verbose=True,
)
# Pipeline ready!

Найдём 3 схожих текстов в базе данных на пользовательский ввод "Красный ярск":

pipeline.search('Красный ярск', 3, ascending=True)
# return: pandas.DataFrame

Документация.

Более подробные примеры кода API.

Пример WEB-интерфейса, в который внедрена данная библиотека.

Помощь в выборе/настройке алгоритмов

Алгоритм сравнения датасета с пользовательским вводом	Преимущества	Недостатки
Мешок слов	Хорошо подходит для исправления реестровых ошибок при отсутствии орфографических ошибок. Также подходит для задачи поиска похожих текстов из датасета на ключевые слова. Даёт качество выше для больших текстов, чем для коротких.	При совершении всего одной орфографической ошибки в тексте или изменении формы слов перестаёт качественно выдавать ответы. Данный метод требователен к памяти при больших объёмах датасета.
Мешок символов	Хорошо подходит для разных задач: исправление реестровых и орфографических ошибок, а также поиск похожих текстов в датасете на ключевые слова. Не зависит от положения слов в тексте, а зависит только от их символов и N-грамм. Показывает чаще лучше качество и работает быстрее, чем другие алгоритмы в этом модуле.	Данный метод требователен к памяти при больших объёмах датасета. Требует тонкую настройку гиперпараметров для разных датасетов. Плохо работает на длинных текстах из-за того, что не учитывается контекст N-грамм символов.
Расстояние Левенштейна	Хорошо подходит для исправления орфографических ошибок в текстах, где мало слов. Метод малотребователен к памяти по сравнению с другими алгоритмами.	Крайне медленный метод. Медленно и менее качественно работает на длинных текстах, чем на коротких.
Трансформерные модели	Создаёт вектора текстов фиксированной длины, что при больших объёмах датасетов может сэкономить память. Подходит для поиска больших статей из набора данных по запросу. Учитывает не только символы, но и контекст и положение слов в текстах. Можно ускорить с помощью GPU.	Требует тонкую настройку гиперпараметров.

Автор

Кобелев Максим — автор и единственный разработчик.

Name		Name	Last commit message	Last commit date
Latest commit History 60 Commits
.github/workflows		.github/workflows
docs		docs
notebooks		notebooks
recs_searcher		recs_searcher
tests		tests
.gitignore		.gitignore
.readthedocs.yaml		.readthedocs.yaml
LICENSE		LICENSE
README.md		README.md
conftest.py		conftest.py
requirements.txt		requirements.txt
setup.cfg		setup.cfg
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

recs-searcher — библиотека для поиска похожих текстов

Содержание

Проблематика

Особенности библиотеки:

Установка

Примеры применения

Помощь в выборе/настройке алгоритмов

Автор

About

Releases 2

Packages

Languages

License

sheriff1max/recs-searcher

Folders and files

Latest commit

History

Repository files navigation

recs-searcher — библиотека для поиска похожих текстов

Содержание

Проблематика

Особенности библиотеки:

Установка

Примеры применения

Помощь в выборе/настройке алгоритмов

Автор

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 2

Packages 0

Languages

Packages