Задачей хакатона являлось выявление несоответствий описаний товара назначенной подкатегории. В решении использовалась комбинация моделей CatBoost и дообученного RuBert.
Описание файлов:
- ETL.ipynb - загрузка и предобработка файлов
- catboost_modeling.ipynb - разработка модели CatBoost
- bert_modeling.ipynb - разработка модели BERT
- label_df.csv - закодированные подкатегории
Папки:
- validation - код для запуска веб-интерфейса для проверки корректности заполненных подкатегорий
- prediction - код для запуска веб-интерфейса для предсказания подкатегории по введенному описанию
В локально скачанный репозиторий, в папку model6 необзодимо загрузить модель BERT (не помещается на гитхаб из-за большого размера): https://drive.google.com/file/d/11jGomY-cs1L36_Zwam6vY_PPKjjVt7d2/view?usp=sharing
- Скачать репозитоорий на локальный компьютер
- Установить requirements.txt
- Перейти в папку validation или prediction (в зависимости от того, что хотите исполльзовать)
- Запустить из командной строки в этой папке : python main.py
- Перейти по ссылке, будет доступен интрефейс решения