Задача: сделать модель, которая будет по тексту писем определять является ли письмо СПАМом или нет.
Датасет: ссылка
Stack: Python
, Sklearn
, CatBoost
-
Предобработка и анализ данных.
-
Использование различных моделей для получения наилучшего результата ROC-AUC:
- радиентный бустинг (CatBoost)
- Random Forest
- Линейная регрессия
- Наивный байесовский классификатор
- SVM
-
Сравнение результатов моделей и выбор лучшей.
В результате все выбранные модели, кроме SVM, показали себя хорошо. Наилучший скор был у градиентного бустинга из CatBoost
.
Модель | ROC-AUC score |
---|---|
Градиентный бустинг (CatBoost) | 0.982495 |
Random Forest | 0.981997 |
Логистическая регрессия | 0.981926 |
Наивный байесовский классификатор | 0.972548 |
SVM | 0.924300 |