Skip to content

Danspers/7.Customer-churn

Repository files navigation

Прогнозирование оттока клиентов из «Бета-Банка»

Описание проекта:

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.

Постройте модель с предельно большим значением F1-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте F1-меру на тестовой выборке самостоятельно. Дополнительно измеряйте AUC-ROC, сравнивайте её значение с F1-мерой.

Источник данных: www.kaggle.com

Общий вывод

Из исходных данных были отобраны только те значения, которые подходят в качестве признаков. Категориальные данные были закодированы с помощью One-Hot Encodind, а количественные были стандартизированы с помощью StandartScaler.

Задача подходит под тип: бинарной классификации, для выполнение которой выбраны модели: Логистическая регрессия (LR), Решающее дерево (DT) и Случайный лес (RF). Экспериментальным путём были подобраны подходящие гиперпараметры для наилучшего результата предсказаний. Среди вышеупомянутых моделей выделилась модель: Случайный лес (RF).

Между классами присутствует дисбаланс. Целевой класс находится в меньшинстве: ушедших клиентов в 4 раза меньше оставшихся. Эту проблему получилось решить за счёт Увеличении выборки целевого класса. Остальные метода: уменьшение выборки, изменение порога классификации или веса класса - не принесли лучших результатов.

Итоговой сборкой стала: модель Случайный лес (RF) с увеличения выборки целевого класса.

На тесте получились сравнительно такие же значения метрик, как и на валидационной выборке. По этому можно судить, что модель смогла установить связь между признаками. Гиперпараметры модели подобраны таким образом, чтобы уменьшить ложные предсказания, и не нарушить баланс между ними.

Матрица ошибок модели "Случайного леса"

Но можно изменить баланс в пользу уменьшения ложных пропусков. Получится уменьшить число вовремя нераспознанных ушедших клиентов, но увеличится и кол-во постоянных клиентов, которые ошибочно будут получать рекламные предложения связанное с их уходом.