In [1]:
import joblib
import sys
sys.path.extend(['../../../config', '../../app/utils'])

import pandas as pd
import numpy as np

from api import Features
from model import AdvancedModel
from preprocessing_utils import DtypeTransformer

RANDOM_STATE = 321

## Сравнение результатов предсказаний ядром и моделью.
- Загрузим данные
- Сделаем предсказания ядром и моделью
- Сравним результаты

In [2]:
# Загрузка данных
test_set = pd.read_csv('test_set.csv', index_col='sk_id_curr', low_memory=False)
test_set_ = test_set.iloc[:1000].copy()

In [3]:
# Загрузка и инициализация моделей
lgbm_model = joblib.load('lgbm_pipeline.pkl')
core_model = AdvancedModel(model_path='lgbm_pipeline.pkl')

In [None]:
# Предсказания
test_set_['proba_lgbm'] = lgbm_model.predict_proba(test_set_)[:,1]
test_set_['core_proba'] = test_set_.drop('proba_lgbm', axis=1)\
    .apply(lambda x: core_model.get_scoring_result(x).proba, axis=1
)

In [5]:
# Сравнение предсказаний
all(test_set_['proba_lgbm'].round(4) == test_set_['core_proba'].round(4))

True

In [6]:
# Для наглядности
test_set_.head(3)

Unnamed: 0_level_0,ext_source_1,ext_source_2,ext_source_3,cnt_children,amt_income_total,amt_credit,amt_annuity,amt_goods_price,days_birth,days_employed,...,flag_document_14,flag_document_15,flag_document_16,flag_document_17,flag_document_18,flag_document_19,flag_document_20,flag_document_21,proba_lgbm,core_proba
sk_id_curr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
202897,1.0,1.0,1.0,0,135000.0,553500.0,28390.5,553500.0,17472,3719,...,False,False,False,False,False,False,False,False,0.168171,0.168171
202899,,1.0,1.0,0,180000.0,247500.0,18139.5,247500.0,20578,1780,...,False,False,False,False,False,False,False,False,0.414151,0.414151
202907,,1.0,,0,135000.0,237024.0,12231.0,180000.0,18301,246,...,False,False,False,False,False,False,False,False,0.331677,0.331677


Предсказания моделью и ядром равны.

## Финансовый результат предсказаний и одобрения сумм.

In [7]:
# Загрузим данные
data = pd.read_csv('train_set.csv', index_col='sk_id_curr')

- **Для воспроизводимости**: то - как изначально был разделён тренировочный датасет.   
Чтобы уложиться в лимиты GitLab по размеру загружаемых файлов (100 MiB) - пришлось перезаписать.

In [8]:
# Получим результаты скоринга и извлечём необходимые данные
data['result'] = data.drop('target', axis=1).apply(lambda x: core_model.get_scoring_result(x), axis=1)
data['decision'] = data['result'].apply(lambda x: x.decision.name)
data['amount'] = data['result'].apply(lambda x: x.amount)
data['proba'] = data['result'].apply(lambda x: x.proba)

Насчитаем статистики по результатам скоринга.

In [9]:
annuity_rate = 0.15

result = data.pivot_table(
    index=['decision', 'amount'], 
    values=['proba', 'amt_credit'], 
    aggfunc={'proba': 'mean', 'amt_credit': 'count'}
).reset_index().rename(columns={'amt_credit': 'count'})

result['defaulters'] = result['count'] * result['proba']
result['paid'] = result['count'] - result['defaulters']
result['loss'] = result['defaulters'] * result['amount'] 
result['gross'] = result['paid'] * result['amount'] * annuity_rate
result['profit'] = result['gross'] - result['loss']

display(result)
print(f'Финансовый результат: {result["profit"].sum()}')

Unnamed: 0,decision,amount,count,proba,defaulters,paid,loss,gross,profit
0,accepted,20000,11,0.205824,2.264064,8.735936,45281.29,26207.81,-19073.48
1,accepted,50000,2152,0.169282,364.29558,1787.70442,18214780.0,13407780.0,-4806996.0
2,accepted,100000,498,0.16454,81.940688,416.059312,8194069.0,6240890.0,-1953179.0
3,accepted,250000,494,0.071006,35.076821,458.923179,8769205.0,17209620.0,8440414.0
4,declined,0,6071,0.493242,2994.473917,3076.526083,0.0,0.0,0.0


Финансовый результат: 1661165.352817228


Нам удалось выделить с помощью калькулятора:

- Заёмщиков с очень низким дефолтом 
- Отказать в выдаче кредитов потенциальным заёмщикам с очень высоким дефолтом.
