ООО «ПРОСЕПТ» — российская производственная компания, специализирующаяся на выпуске профессиональной химии. В своей работе используют опыт ведущих мировых производителей и сырье крупнейших химических концернов. Производство и логистический центр расположены в непосредственной близости от Санкт-Петербурга, откуда продукция компании поставляется во все регионы России.
Заказчик производит несколько сотен различных товаров бытовой и промышленной химии, а затем продаёт эти товары через дилеров. Дилеры, в свою очередь, занимаются розничной продажей товаров в крупных сетях магазинов и на онлайн площадках.
Для оценки ситуации, управления ценами и бизнесом в целом, заказчик периодически собирает информацию о том, как дилеры продают их товар. Для этого они парсят сайты дилеров, а затем сопоставляют товары и цены.
Зачастую описание товаров на сайтах дилеров отличаются от того описания, что даёт заказчик. Например, могут добавляться новый слова (“универсальный”, “эффективный”), объём (0.6 л -> 600 мл). Поэтому сопоставление товаров дилеров с товарами производителя делается вручную.
Цель проекта - разработка решения, которое отчасти автоматизирует процесс сопоставления товаров. Основная идея - предлагать несколько товаров заказчика, которые с наибольшей вероятностью соответствуют размечаемому товару дилера.
Предлагается реализовать это решение, как онлайн сервис, открываемый в веб-браузере. Выбор наиболее вероятных подсказок делается методами машинного обучения.
Разработать рекомендательную модель, которая будет предлагать n-наиболее близких вариантов названия товара у заказчика, соответствующих названию товара, используемому на сайте дилера.
- Павел Барков - тестирование моделей, отчётность
- Кирилл Шулёв - предобработка данных, отчётность
- Султан Султанов - представитель
- язык программирования:
Python
- библиотеки для ML:
Pandas
,Sklearn
,nltk
,numpy
,sentence_transformers
,pytorch
,transformers
- notebooks - папка с ноутбуками участников
- model - файл
.py
скрипт рекомендательной модели для интеграции с работой бэкэндом
Для определения качества модели использовалась метрика Accuracy@k, которая рассчитывается как доля совпадений верных меток в топ-k предсказанных.
В рамках работы над проектам была построена матрица расстояний между векторами названий у дилеров и названий заказчика, для оценки качества выбрали топ-5 ближайших по расстоянию.
Качество полученной модели по метрике Accuracy@5 составила 0.7
Для заказчика модель работает следующим образом: заказчик вводит название товара у дилера, и в ответ выводятся 5 наиболее похожих названий из базы заказчика.