Skip to content

Latest commit

 

History

History

12 Классификация текстовых комментариев

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

Цель

Построить модель бинарной классификации текстовых комментариев на позитивные и негативные. Модель должна стать инструментом детекции токсичных комментариев для их последующей модерации.

Описание

Имеются набор данных с англоязычными комментариями с разметкой о их токсичности.

Необходимо построить модель со значением метрики качества F1 не меньше 0.75.

Используемые библиотеки

  • NLTK
  • tf-idf
  • LightGBM
  • Scikit-learn
  • Pandas
  • Matplotlib
  • Seaborn

Результаты

  • С испозьзованием кроссвалидации построены, обучены и протестированы разные модели машинного обучения.
  • Протестировано влияние разного способа векторизации корпуса слов на качество предсказания
  • Удалось достичь значения f1_score = 0.79