Создание сервиса для полуавтоматической разметки товаров

Заказчик

ООО «ПРОСЕПТ» — российская производственная компания, специализирующаяся на выпуске профессиональной химии. В своей работе используют опыт ведущих мировых производителей и сырье крупнейших химических концернов. Производство и логистический центр расположены в непосредственной близости от Санкт-Петербурга, откуда продукция компании поставляется во все регионы России.

Описание проекта

Заказчик производит несколько сотен различных товаров бытовой и промышленной химии, а затем продаёт эти товары через дилеров. Дилеры, в свою очередь, занимаются розничной продажей товаров в крупных сетях магазинов и на онлайн площадках.
Для оценки ситуации, управления ценами и бизнесом в целом, заказчик периодически собирает информацию о том, как дилеры продают их товар. Для этого они парсят сайты дилеров, а затем сопоставляют товары и цены.
Зачастую описание товаров на сайтах дилеров отличаются от того описания, что даёт заказчик. Например, могут добавляться новый слова (“универсальный”, “эффективный”), объём (0.6 л -> 600 мл). Поэтому сопоставление товаров дилеров с товарами производителя делается вручную.

Цель проекта - разработка решения, которое отчасти автоматизирует процесс сопоставления товаров. Основная идея - предлагать несколько товаров заказчика, которые с наибольшей вероятностью соответствуют размечаемому товару дилера.
Предлагается реализовать это решение, как онлайн сервис, открываемый в веб-браузере. Выбор наиболее вероятных подсказок делается методами машинного обучения.

Задача команды ML

Разработать рекомендательную модель, которая будет предлагать n-наиболее близких вариантов названия товара у заказчика, соответствующих названию товара, используемому на сайте дилера.

Команда №2

Павел Барков - тестирование моделей, отчётность
Кирилл Шулёв - предобработка данных, отчётность
Султан Султанов - представитель

Стэк технологий

язык программирования: Python
библиотеки для ML: Pandas, Sklearn, nltk, numpy, sentence_transformers, pytorch, transformers

Содержимое репозитория

notebooks - папка с ноутбуками участников
model - файл .py скрипт рекомендательной модели для интеграции с работой бэкэндом

Вывод

Для определения качества модели использовалась метрика Accuracy@k, которая рассчитывается как доля совпадений верных меток в топ-k предсказанных.
В рамках работы над проектам была построена матрица расстояний между векторами названий у дилеров и названий заказчика, для оценки качества выбрали топ-5 ближайших по расстоянию.
Качество полученной модели по метрике Accuracy@5 составила 0.7

Для заказчика модель работает следующим образом: заказчик вводит название товара у дилера, и в ответ выводятся 5 наиболее похожих названий из базы заказчика.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
notebooks		notebooks
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
class_based_script.py		class_based_script.py
model.py		model.py
prosept_script.py		prosept_script.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Создание сервиса для полуавтоматической разметки товаров

Заказчик

Описание проекта

Задача команды ML

Команда №2

Стэк технологий

Содержимое репозитория

Вывод

About

Releases

Packages

Contributors 3

Languages

License

hackathone-prosept-team2/data-science

Folders and files

Latest commit

History

Repository files navigation

Создание сервиса для полуавтоматической разметки товаров

Заказчик

Описание проекта

Задача команды ML

Команда №2

Стэк технологий

Содержимое репозитория

Вывод

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages