Skip to content

hackathone-prosept-team2/data-science

Repository files navigation

Создание сервиса для полуавтоматической разметки товаров

Заказчик

ООО «ПРОСЕПТ» — российская производственная компания, специализирующаяся на выпуске профессиональной химии. В своей работе используют опыт ведущих мировых производителей и сырье крупнейших химических концернов. Производство и логистический центр расположены в непосредственной близости от Санкт-Петербурга, откуда продукция компании поставляется во все регионы России.

Описание проекта

Заказчик производит несколько сотен различных товаров бытовой и промышленной химии, а затем продаёт эти товары через дилеров. Дилеры, в свою очередь, занимаются розничной продажей товаров в крупных сетях магазинов и на онлайн площадках.
Для оценки ситуации, управления ценами и бизнесом в целом, заказчик периодически собирает информацию о том, как дилеры продают их товар. Для этого они парсят сайты дилеров, а затем сопоставляют товары и цены.
Зачастую описание товаров на сайтах дилеров отличаются от того описания, что даёт заказчик. Например, могут добавляться новый слова (“универсальный”, “эффективный”), объём (0.6 л -> 600 мл). Поэтому сопоставление товаров дилеров с товарами производителя делается вручную.

Цель проекта - разработка решения, которое отчасти автоматизирует процесс сопоставления товаров. Основная идея - предлагать несколько товаров заказчика, которые с наибольшей вероятностью соответствуют размечаемому товару дилера.
Предлагается реализовать это решение, как онлайн сервис, открываемый в веб-браузере. Выбор наиболее вероятных подсказок делается методами машинного обучения.

Задача команды ML

Разработать рекомендательную модель, которая будет предлагать n-наиболее близких вариантов названия товара у заказчика, соответствующих названию товара, используемому на сайте дилера.

Команда №2

  • Павел Барков - тестирование моделей, отчётность
  • Кирилл Шулёв - предобработка данных, отчётность
  • Султан Султанов - представитель

Стэк технологий

  • язык программирования: Python
  • библиотеки для ML: Pandas, Sklearn, nltk, numpy, sentence_transformers, pytorch, transformers

Содержимое репозитория

  • notebooks - папка с ноутбуками участников
  • model - файл .py скрипт рекомендательной модели для интеграции с работой бэкэндом

Вывод

Для определения качества модели использовалась метрика Accuracy@k, которая рассчитывается как доля совпадений верных меток в топ-k предсказанных.
В рамках работы над проектам была построена матрица расстояний между векторами названий у дилеров и названий заказчика, для оценки качества выбрали топ-5 ближайших по расстоянию.
Качество полученной модели по метрике Accuracy@5 составила 0.7

Для заказчика модель работает следующим образом: заказчик вводит название товара у дилера, и в ответ выводятся 5 наиболее похожих названий из базы заказчика.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published