Skip to content
/ credit Public

Необходимо на основе предоставленных данных построить модель для предсказания целевой переменной(expert).

Notifications You must be signed in to change notification settings

Ildar5/credit

Repository files navigation

Анализ данных

В ходе анализа данных, были выявлены NaN значения у поля first_loan, таких значений оказалось 19 на всем датасете. Выявлена необходимость в конвертации значений признака order_date из типа строки datetime в числовые значения timestamp

Фильтрация

NaN значения поля first_loan были заменены на математическое ожидание данного признака. Корреляция признака active_cred_max_overdue больше 0.85, лучше не использовать данный признак. Следующие признаки показали наименьшую информативность и отсуствовали в списке обязательных признаков по которым нужно сделать прогноз и были отфильтрованы

  • closed_creds
  • active_cred_max_overdue
  • region
  • month_income
  • active_cred_day_overdue
  • active_cred_sum_overdue
  • gender

Преобразование переменных

Преобразование значений признака order_date из типа строки datetime в числовые значения timestamp Нормализация данных в диапазоне от 0 до 1

Моделирование

Нормальзованные данные были разделены на тренировочные и тестовые Для выявления наилучшего алгоритма классификации для данной задачи, было произведено предварительное обучение на 13 популярных алгоритмах машинного обучения. Из них были выбраны 3 алгоритма МО которые показали лучшие результаты. Далее была произведена тюнингация этих алгоритмов для поиска оптимальных параметров. А также проверка на переобучние с последующей корректировков

Оценка качества модели

Для всех 3 моделей после тюнинга была составлена матрица ошибок, roc кривая, вычислены значения accuracy, recall, precision и f1 мера

Для данной задачи Gradient Boosting показал хорошие результаты, со следующими значениями метрик:

f1 score: 0.98
accuracy 0.985
recall: 0.9986
precision: 0.9817

Матрица ошибок

Confusion Matrix
true false
approved true 1209 69
rejected false 5 3718

Точность составляет 98.5%, но полностью доверять данной метрике нельзя, она малоэффективна в случаях если разница между классами большая Как мы видим доля объектов названных классификатором как положительные и действительно являющиеся положительными составляет 98.17% А доля объектов положительного класса из всех объектов положительного класса который нашел классификатор составляет 99.86%. Так как f1 мера представляет собой гармоническое среднее между точностью и полнотой, ее можно считать хорошей метрикой для оценки качества модели.

About

Необходимо на основе предоставленных данных построить модель для предсказания целевой переменной(expert).

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages