Построить модель бинарной классификации текстовых комментариев на позитивные и негативные. Модель должна стать инструментом детекции токсичных комментариев для их последующей модерации.
Имеются набор данных с англоязычными комментариями с разметкой о их токсичности.
Необходимо построить модель со значением метрики качества F1 не меньше 0.75.
NLTK
tf-idf
LightGBM
Scikit-learn
Pandas
Matplotlib
Seaborn
- С испозьзованием кроссвалидации построены, обучены и протестированы разные модели машинного обучения.
- Протестировано влияние разного способа векторизации корпуса слов на качество предсказания
- Удалось достичь значения
f1_score = 0.79