В ходе анализа данных, были выявлены NaN значения у поля first_loan, таких значений оказалось 19 на всем датасете. Выявлена необходимость в конвертации значений признака order_date из типа строки datetime в числовые значения timestamp
NaN значения поля first_loan были заменены на математическое ожидание данного признака. Корреляция признака active_cred_max_overdue больше 0.85, лучше не использовать данный признак. Следующие признаки показали наименьшую информативность и отсуствовали в списке обязательных признаков по которым нужно сделать прогноз и были отфильтрованы
- closed_creds
- active_cred_max_overdue
- region
- month_income
- active_cred_day_overdue
- active_cred_sum_overdue
- gender
Преобразование значений признака order_date из типа строки datetime в числовые значения timestamp Нормализация данных в диапазоне от 0 до 1
Нормальзованные данные были разделены на тренировочные и тестовые Для выявления наилучшего алгоритма классификации для данной задачи, было произведено предварительное обучение на 13 популярных алгоритмах машинного обучения. Из них были выбраны 3 алгоритма МО которые показали лучшие результаты. Далее была произведена тюнингация этих алгоритмов для поиска оптимальных параметров. А также проверка на переобучние с последующей корректировков
Для всех 3 моделей после тюнинга была составлена матрица ошибок, roc кривая, вычислены значения accuracy, recall, precision и f1 мера
Для данной задачи Gradient Boosting показал хорошие результаты, со следующими значениями метрик:
f1 score: | 0.98 |
---|---|
accuracy | 0.985 |
recall: | 0.9986 |
precision: | 0.9817 |
Матрица ошибок
Confusion Matrix | |||
---|---|---|---|
true |
false |
||
approved |
true |
1209 | 69 |
rejected |
false |
5 | 3718 |
Точность составляет 98.5%, но полностью доверять данной метрике нельзя, она малоэффективна в случаях если разница между классами большая Как мы видим доля объектов названных классификатором как положительные и действительно являющиеся положительными составляет 98.17% А доля объектов положительного класса из всех объектов положительного класса который нашел классификатор составляет 99.86%. Так как f1 мера представляет собой гармоническое среднее между точностью и полнотой, ее можно считать хорошей метрикой для оценки качества модели.