Skip to content

Построение модели, которая по тексту письма определяет является ли оно СПАМом.

Notifications You must be signed in to change notification settings

kudrmax/spam-recognition

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Spam Recognition Model

Задача: сделать модель, которая будет по тексту писем определять является ли письмо СПАМом или нет.

Датасет: ссылка

Stack: Python, Sklearn, CatBoost

Код

Что было сделано:

  1. Предобработка и анализ данных.

  2. Использование различных моделей для получения наилучшего результата ROC-AUC:

    • радиентный бустинг (CatBoost)
    • Random Forest
    • Линейная регрессия
    • Наивный байесовский классификатор
    • SVM
  3. Сравнение результатов моделей и выбор лучшей.

Результаты

В результате все выбранные модели, кроме SVM, показали себя хорошо. Наилучший скор был у градиентного бустинга из CatBoost.

Модель ROC-AUC score
Градиентный бустинг (CatBoost) 0.982495
Random Forest 0.981997
Логистическая регрессия 0.981926
Наивный байесовский классификатор 0.972548
SVM 0.924300

Результаты лучшей модели на test_spam.csv

Об авторе

  • Макс Кудряшов: студент 3 курса «Прикладной математики» НИУ ВШЭ
  • Другие проекты: GitHub
  • Связаться: Telegram

About

Построение модели, которая по тексту письма определяет является ли оно СПАМом.

Resources

Stars

Watchers

Forks