# 1.1 Загрузка данных.

Данные вязты с сайта: https://www.kaggle.com/datasets/mariosfish/default-of-credit-card-clients
Задача сводится к определению одного из категориальных признаков: дефолт, не дефолт.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt

Загрузим скаченный файл.

In [3]:
df = pd.read_csv("default of credit card clients.csv")

In [4]:
df.head(3).T

Unnamed: 0,0,1,2
ID,1,2,3
LIMIT_BAL,20000,120000,90000
SEX,2,2,2
EDUCATION,2,2,2
MARRIAGE,1,2,2
AGE,24,26,34
PAY_1,2,-1,0
PAY_2,2,2,0
PAY_3,-1,0,0
PAY_4,-1,0,0


* LIMIT_BAL - Сумма предоставленного кредита (в новых тайваньских долларах).
  
* SEX - пол (1 = мужской, 2 = женский)
  
* EDUCATION - Образование (1 = аспирантура; 2 = университет; 3 = средняя школа; 0, 4, 5, 6 = другие).
  
* MARRIAGE - Семейное положение (1 = женат; 2 = холост; 3 = разведен; 0 = другое).
  
* AGE - Возраст (год).
  
* PAY_1 - PAY_6 : История прошлых платежей. Мы отслеживали записи прошлых ежемесячных платежей (с апреля по сентябрь 2005 г.) следующим образом: X6 = статус погашения в сентябре 2005 г.; X7 = статус погашения в августе 2005 г.; . . .;X11 = статус погашения в апреле 2005 г.

  Шкала измерения для статуса погашения:**-2: Потребление отсутствует; -1: Оплачено полностью; 0: Использование возобновляемого кредита; 1 = отсрочка платежа на один месяц; 2 = отсрочка платежа на два месяца; . . .; 8 = отсрочка платежа на восемь месяцев; 9 = отсрочка платежа на девять месяцев и более.**
  
* BILL_AMT1 - BILL_AMT6 : Сумма выписки по счету (в новых тайваньских долларах). X12 = сумма выписки по счету в сентябре 2005 г.; X13 = сумма выписки по счету в августе 2005 г.; . . .; X17 = сумма выписки по счету в апреле 2005 г.
  
* PAY_AMT1 - PAY_AMT6 : Сумма предыдущего платежа (в новых тайваньских долларах). X18 = сумма, уплаченная в сентябре 2005 г.; X19 = сумма, уплаченная в августе 2005 г.; . . .;X23 = сумма, уплаченная в апреле 2005 г.
  
* dpnm поведение клиента; Y=0, то есть не по умолчанию, Y=1, то есть по умолчанию

In [6]:
len(df)

30000

В наборе 30 000 строк. Этого должно хватить для обучение модели.

Самый интересный для нас пункт - dpnm. Это цель для нашей модели и мы хотим научится прогнозировать именно его.

In [9]:
df.dtypes

ID           int64
LIMIT_BAL    int64
SEX          int64
EDUCATION    int64
MARRIAGE     int64
AGE          int64
PAY_1        int64
PAY_2        int64
PAY_3        int64
PAY_4        int64
PAY_5        int64
PAY_6        int64
BILL_AMT1    int64
BILL_AMT2    int64
BILL_AMT3    int64
BILL_AMT4    int64
BILL_AMT5    int64
BILL_AMT6    int64
PAY_AMT1     int64
PAY_AMT2     int64
PAY_AMT3     int64
PAY_AMT4     int64
PAY_AMT5     int64
PAY_AMT6     int64
dpnm         int64
dtype: object

Pandas при чтении датафрейма автомотически определяет столбцы и проставляет тип для каждого столбца автоматически, но иногда он ошибается.

In [11]:
df.isna().sum()

ID           0
LIMIT_BAL    0
SEX          0
EDUCATION    0
MARRIAGE     0
AGE          0
PAY_1        0
PAY_2        0
PAY_3        0
PAY_4        0
PAY_5        0
PAY_6        0
BILL_AMT1    0
BILL_AMT2    0
BILL_AMT3    0
BILL_AMT4    0
BILL_AMT5    0
BILL_AMT6    0
PAY_AMT1     0
PAY_AMT2     0
PAY_AMT3     0
PAY_AMT4     0
PAY_AMT5     0
PAY_AMT6     0
dpnm         0
dtype: int64

Пропущенных значений нет.

# 1.2 Подготовка данных для обучения.

In [14]:
from sklearn.model_selection import train_test_split

In [15]:
df_train_full, df_test = train_test_split(df, test_size=0.2, random_state=17)

In [16]:
df_train, df_val = train_test_split(df_train_full, test_size=0.2, random_state=17)

In [17]:
y_train = df_train.dpnm.values
y_val = df_val.dpnm.values

In [18]:
del df_train['dpnm']
del df_val['dpnm']

# 2.1 Исследовательский анализ данных

1) Проверяем данные на отсутствие значений.

In [21]:
df_train_full.isnull().sum()

ID           0
LIMIT_BAL    0
SEX          0
EDUCATION    0
MARRIAGE     0
AGE          0
PAY_1        0
PAY_2        0
PAY_3        0
PAY_4        0
PAY_5        0
PAY_6        0
BILL_AMT1    0
BILL_AMT2    0
BILL_AMT3    0
BILL_AMT4    0
BILL_AMT5    0
BILL_AMT6    0
PAY_AMT1     0
PAY_AMT2     0
PAY_AMT3     0
PAY_AMT4     0
PAY_AMT5     0
PAY_AMT6     0
dpnm         0
dtype: int64

2) Проверим распределение значений в целевой переменной.

In [23]:
df_train_full.dpnm.value_counts()

dpnm
0    18678
1     5322
Name: count, dtype: int64

Как видим большинство погасили свой долг.

In [25]:
5322 / (18678 + 5322)

0.22175

22% вероятность того что клиент просрочит платежи

In [27]:
global_mean = df_train_full.dpnm.mean()
round(global_mean, 3)

0.222

У нас несбалансированный набор данных.

Запишем списки с категориальными и числовыми параметрами.

In [30]:
df_train_full.head(3).T

Unnamed: 0,28062,15291,11157
ID,28063,15292,11158
LIMIT_BAL,400000,50000,40000
SEX,2,2,1
EDUCATION,1,2,2
MARRIAGE,2,1,2
AGE,36,37,31
PAY_1,-1,0,0
PAY_2,-1,0,0
PAY_3,-1,0,0
PAY_4,-1,0,0


In [31]:
categorical = ['SEX', 'EDUCATION', 'MARRIAGE', 'PAY_1', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'dpnm']

numirical =['LIMIT_BAL', 'AGE', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6',
            'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']

In [32]:
df_train_full[categorical].nunique()

SEX           2
EDUCATION     7
MARRIAGE      4
PAY_1        11
PAY_2        11
PAY_3        11
PAY_4        11
PAY_5        10
PAY_6        10
dpnm          2
dtype: int64

In [33]:
df_train_full['PAY_1'].unique()

array([-1,  0,  2, -2,  3,  1,  8,  4,  5,  7,  6], dtype=int64)

# 3.1 Важность признака

Начнем скатегориальных данных. посчитаем поэфициент плохих заемщков для каждой группы и сравним его с основным который мы получили раннее. Если коэфициент будет отличаться - то значит есть что-то особенное внутри этой группы, если нет и коэфициенты отличаются не значительн - то признак  не столь важен для модели. Наша модель должна улавливать именно такие изменения в группах.

In [36]:
global_mean = df_train_full.dpnm.mean()
round(global_mean,3)

0.222

In [37]:
female_mean = df_train_full[df_train_full.SEX == 2].dpnm.mean()
print(f'Пол = женский (2) коэф.= {round(female_mean,3)}')

Пол = женский (2) коэф.= 0.207


In [38]:
male_mean = df_train_full[df_train_full.SEX == 1].dpnm.mean()
print(f'Пол = мужской (1) коэф.= {round(male_mean,3)}')

Пол = мужской (1) коэф.= 0.244


Возможно пол влияет на просрочки.

Образование

In [41]:
list_education = df_train_full.EDUCATION.unique()
dict_education = {1:'аспирантура', 2:'университет', 3:'средняя школа',4:'другие'}

for education in list_education:
    education_mean = df_train_full[df_train_full.EDUCATION == education].dpnm.mean()
    print(f'Образование = {dict_education.get(education)} коэф.= {round(education_mean,3)}')

Образование = аспирантура коэф.= 0.19
Образование = университет коэф.= 0.239
Образование = средняя школа коэф.= 0.255
Образование = None коэф.= 0.0
Образование = None коэф.= 0.063
Образование = другие коэф.= 0.07
Образование = None коэф.= 0.132


Образование влияет на просрочку

In [43]:
list_mar = df_train_full.MARRIAGE.unique()
dict_mar = {1:'женат', 2:'холост', 3:'другие'}

for mar in list_mar:
    mar_mean = df_train_full[df_train_full.MARRIAGE == mar].dpnm.mean()
    print(f'Семейное положение = {dict_mar.get(mar)} коэф.= {round(mar_mean,3)}')

Семейное положение = холост коэф.= 0.208
Семейное положение = женат коэф.= 0.238
Семейное положение = другие коэф.= 0.255
Семейное положение = None коэф.= 0.103


Семейное положение влияет на просрочку

Коэфициент риска - соотношение между вероятностями в разных группах. Тут риск - относится к риску возникновения эффекта, а эффект - это просрочка.

РИСК = ГРУППОВОЙ КОЭФ / ГЛОБАЛЬНЫЙ КОЭФ

In [47]:
female_mean / global_mean

0.9346511873507214

Коэфициент показывает вероятность того, насколько элементы группы испытывают эффект (просрочка) по сравлению со всей совокупностью элементов.

Если разница не велика - то коэффициент близок к единице - т.е. эта группа имеет тот же эфект что и остальная чать.

In [50]:
for coef in categorical:
    df_group = df_train_full.groupby(by = coef).dpnm.agg(['mean'])
    df_group['diff'] = df_group['mean'] - global_mean
    df_group['rate'] = df_group['mean'] / global_mean
    display(df_group)

Unnamed: 0_level_0,mean,diff,rate
SEX,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0.243734,0.021984,1.099137
2,0.207259,-0.014491,0.934651


Unnamed: 0_level_0,mean,diff,rate
EDUCATION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.0,-0.22175,0.0
1,0.189924,-0.031826,0.856479
2,0.238952,0.017202,1.077575
3,0.25519,0.03344,1.1508
4,0.07,-0.15175,0.315671
5,0.063063,-0.158687,0.284388
6,0.131579,-0.090171,0.593366


Unnamed: 0_level_0,mean,diff,rate
MARRIAGE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.102564,-0.119186,0.462521
1,0.237974,0.016224,1.073161
2,0.207513,-0.014237,0.935798
3,0.254902,0.033152,1.149502


Unnamed: 0_level_0,mean,diff,rate
PAY_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-2,0.129864,-0.091886,0.585634
-1,0.165172,-0.056578,0.744856
0,0.130652,-0.091098,0.589188
1,0.342213,0.120463,1.543238
2,0.690799,0.469049,3.115214
3,0.75,0.52825,3.382187
4,0.666667,0.444917,3.006389
5,0.5,0.27825,2.254791
6,0.444444,0.222694,2.004259
7,0.666667,0.444917,3.006389


Unnamed: 0_level_0,mean,diff,rate
PAY_2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-2,0.185408,-0.036342,0.836114
-1,0.156115,-0.065635,0.704012
0,0.161011,-0.060739,0.726092
1,0.181818,-0.039932,0.819924
2,0.552498,0.330748,2.491537
3,0.622222,0.400472,2.805963
4,0.47561,0.25386,2.144802
5,0.5,0.27825,2.254791
6,0.625,0.40325,2.818489
7,0.8,0.57825,3.607666


Unnamed: 0_level_0,mean,diff,rate
PAY_3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-2,0.188749,-0.033001,0.851179
-1,0.153619,-0.068131,0.692757
0,0.175785,-0.045965,0.792717
1,0.25,0.02825,1.127396
2,0.512021,0.290271,2.309
3,0.567708,0.345958,2.560128
4,0.578125,0.356375,2.607103
5,0.470588,0.248838,2.122157
6,0.777778,0.556028,3.507453
7,0.809524,0.587774,3.650615


Unnamed: 0_level_0,mean,diff,rate
PAY_4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-2,0.195502,-0.026248,0.881631
-1,0.157941,-0.063809,0.712248
0,0.184918,-0.036832,0.833903
1,0.5,0.27825,2.254791
2,0.516739,0.294989,2.330277
3,0.609929,0.388179,2.750526
4,0.649123,0.427373,2.927273
5,0.62069,0.39894,2.799051
6,0.4,0.17825,1.803833
7,0.790698,0.568948,3.565717


Unnamed: 0_level_0,mean,diff,rate
PAY_5,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-2,0.199613,-0.022137,0.900171
-1,0.159424,-0.062326,0.718934
0,0.190276,-0.031474,0.858066
2,0.539637,0.317887,2.433538
3,0.616438,0.394688,2.77988
4,0.666667,0.444917,3.006389
5,0.588235,0.366485,2.652696
6,0.666667,0.444917,3.006389
7,0.790698,0.568948,3.565717
8,1.0,0.77825,4.509583


Unnamed: 0_level_0,mean,diff,rate
PAY_6,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-2,0.202463,-0.019287,0.913026
-1,0.17043,-0.05132,0.768568
0,0.188741,-0.033009,0.851145
2,0.50542,0.28367,2.279234
3,0.671329,0.449579,3.027412
4,0.65,0.42825,2.931229
5,0.6,0.37825,2.70575
6,0.714286,0.492536,3.221131
7,0.8,0.57825,3.607666
8,1.0,0.77825,4.509583


Unnamed: 0_level_0,mean,diff,rate
dpnm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.0,-0.22175,0.0
1,1.0,0.77825,4.509583


Взаимная информация

In [52]:
from sklearn.metrics import mutual_info_score

In [53]:
def calculate_mi(series):
    return mutual_info_score(series, df_train_full.dpnm)

In [54]:
df_mi = df_train_full[categorical].apply(calculate_mi)
df_mi = df_mi.sort_values(ascending = False).to_frame(name = 'MI')

In [55]:
df_mi

Unnamed: 0,MI
dpnm,0.529114
PAY_1,0.075425
PAY_2,0.048543
PAY_3,0.036823
PAY_4,0.031685
PAY_5,0.029951
PAY_6,0.026372
EDUCATION,0.003357
SEX,0.000916
MARRIAGE,0.000771


Кожфициент корреляции

In [57]:
df_train_full[numirical].corrwith(df_train_full.dpnm)

LIMIT_BAL   -0.155130
AGE          0.020481
BILL_AMT1   -0.019821
BILL_AMT2   -0.015053
BILL_AMT3   -0.015819
BILL_AMT4   -0.010265
BILL_AMT5   -0.008491
BILL_AMT6   -0.007636
PAY_AMT1    -0.073257
PAY_AMT2    -0.055579
PAY_AMT3    -0.053832
PAY_AMT4    -0.060705
PAY_AMT5    -0.050528
PAY_AMT6    -0.054671
dtype: float64

# 4.1 Конструирование признаков

Прямое кодирование категориальных данных.

In [60]:
train_dict = df_train.to_dict(orient='records')

In [61]:
from sklearn.feature_extraction import DictVectorizer

In [62]:
dv = DictVectorizer(sparse=False)
dv.fit(train_dict)

In [63]:
x_train = dv.transform(train_dict)

In [64]:
x_train.shape

(19200, 24)

In [65]:
dv.get_feature_names_out()

array(['AGE', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4',
       'BILL_AMT5', 'BILL_AMT6', 'EDUCATION', 'ID', 'LIMIT_BAL',
       'MARRIAGE', 'PAY_1', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6',
       'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5',
       'PAY_AMT6', 'SEX'], dtype=object)

# 5.1 Логистическая регрессия.

функция линейную регрессии

In [68]:
def len_reg(xi):
    for j in range(n):
        result = xi[j] * w[j] + bias
    return result

Определяем сигмоиду

In [70]:
def sigmoid(score):
    return 1/(1+math.exp(-score))

Определим логистическую регрессию

In [72]:
def log_res(xi):
    for j in range(n):
        result = xi[j] * w[j] + bias
    res_t = sigmoid(score)
    return res_t

In [73]:
from sklearn.linear_model import LogisticRegression

In [74]:
model = LogisticRegression(solver='liblinear', random_state=17)
model.fit(x_train, y_train)

In [75]:
val_dict = df_val.to_dict(orient='records')
x_val = dv.transform(val_dict)

In [76]:
y_pred = model.predict_proba(x_val)

In [77]:
y_pred

array([[0.82972085, 0.17027915],
       [0.70247083, 0.29752917],
       [0.74755964, 0.25244036],
       ...,
       [0.69994735, 0.30005265],
       [0.87714244, 0.12285756],
       [0.72965219, 0.27034781]])

Первый столбец - вероятность того что цель отрицательна т.е. 0, второй что цель положительна т.е. 1. 

In [79]:
y_pred = model.predict_proba(x_val)[:,1]

In [80]:
y_pred

array([0.17027915, 0.29752917, 0.25244036, ..., 0.30005265, 0.12285756,
       0.27034781])

In [81]:
y_pred >= 0.5

array([False, False, False, ..., False, False, False])

In [82]:
goal = y_pred >= 0.5

In [83]:
(y_val == goal).mean()

0.7795833333333333

Модель делает правильные прогнозы в 78% случаев.

# 6.1 Интерпретация модели.

w0 - компонент смещения и w - вектор весов.

компонент смещения получаем с помощью:

In [88]:
model.intercept_[0] #базовый прогноз или средняя оценка

-1.8968067244675072e-06

веса:

In [90]:
model.coef_ #Корректируем базовый прогноз

array([[-4.89254934e-05, -7.67464666e-06,  2.81182182e-06,
         1.26806401e-06,  4.62543003e-06,  3.44592854e-06,
        -7.00288936e-07, -4.00058023e-06, -2.75071259e-05,
        -3.91067555e-06, -4.05968102e-06,  1.08219273e-05,
         8.39414324e-06,  7.37702922e-06,  6.60744251e-06,
         6.00201396e-06,  5.59869770e-06, -2.86263126e-05,
        -1.67709746e-05, -7.61479078e-06, -1.21567834e-05,
        -1.36208503e-06, -3.03379182e-06, -3.70036556e-06]])

In [91]:
dict(zip(dv.get_feature_names_out(), model.coef_[0]))

{'AGE': -4.8925493376008935e-05,
 'BILL_AMT1': -7.674646658813131e-06,
 'BILL_AMT2': 2.811821817173549e-06,
 'BILL_AMT3': 1.268064011903103e-06,
 'BILL_AMT4': 4.6254300263430315e-06,
 'BILL_AMT5': 3.4459285357935134e-06,
 'BILL_AMT6': -7.002889363236304e-07,
 'EDUCATION': -4.000580233272125e-06,
 'ID': -2.7507125922967216e-05,
 'LIMIT_BAL': -3.910675545200532e-06,
 'MARRIAGE': -4.059681023662769e-06,
 'PAY_1': 1.082192731967608e-05,
 'PAY_2': 8.394143236164858e-06,
 'PAY_3': 7.377029218760482e-06,
 'PAY_4': 6.607442512124792e-06,
 'PAY_5': 6.002013959536068e-06,
 'PAY_6': 5.598697698943194e-06,
 'PAY_AMT1': -2.8626312621564517e-05,
 'PAY_AMT2': -1.6770974631582136e-05,
 'PAY_AMT3': -7.6147907805924415e-06,
 'PAY_AMT4': -1.2156783371957272e-05,
 'PAY_AMT5': -1.362085026160528e-06,
 'PAY_AMT6': -3.0337918202849534e-06,
 'SEX': -3.7003655576800193e-06}

In [92]:
model.predict_proba(df_val)[0,0].round(9)



0.918635249

# Использование модели

In [94]:
train_dict = [{'ID': 9072,
 'LIMIT_BAL': 260000,
 'SEX': 2,
 'EDUCATION': 2,
 'MARRIAGE': 1,
 'AGE': 53,
 'PAY_1': 0,
 'PAY_2': 0,
 'PAY_3': 0,
 'PAY_4': 0,
 'PAY_5': 0,
 'PAY_6': 0,
 'BILL_AMT1': 222134,
 'BILL_AMT2': 223345,
 'BILL_AMT3': 225258,
 'BILL_AMT4': 189500,
 'BILL_AMT5': 182771,
 'BILL_AMT6': 188876,
 'PAY_AMT1': 10020,
 'PAY_AMT2': 10007,
 'PAY_AMT3': 10017,
 'PAY_AMT4': 10003,
 'PAY_AMT5': 10007,
 'PAY_AMT6': 10036}]

In [95]:
x_pred = dv.transform(train_dict)

In [164]:
model.predict_proba(x_pred)[:,1]

array([0.20058506])

# Использование Pikle

In [166]:
import pickle

In [169]:
with open('scoring.bin', 'wb') as f_out: # w - записать в файл, b - двоичный файл НЕ текстовый
    pickle.dump((dv,model), f_out) # обьект - model и f_out дискриптор файла для записи

### Загрузка модели

In [171]:
with open('scoring.bin', 'rb') as f_in:
    dv_l, model_l = pickle.load(f_in)

In [173]:
dv_l

In [175]:
model_l

In [177]:
x_p = dv_l.transform(train_dict)
model.predict_proba(x_p)[:,1]

array([0.20058506])

### Сценарий который загружает модель и применяет ее к клиенту.

Создадим файли scoring.py он будет содержать:
* `функции предсказания`
* `код для загрузки модели`
* `код для применения модели к клиенту`

In [183]:
!pip install flask



In [185]:
from flask import Flask

app = Flask('test') # создаем прилоложение Flask (центральный обьект для регистрации)

@app.route('/ping', methods=['GET'])  # Определяем маршрут /ping
def ping():
    return 'PONG'  # Возвращаем ответ 'PONG'

if __name__ == '__main__':
    app.run(debug=False, host='0.0.0.0', port=9697)  # Запускаем приложение

 * Serving Flask app 'test'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:9687
 * Running on http://192.168.1.101:9687
Press CTRL+C to quit
192.168.1.101 - - [16/Dec/2024 14:19:09] "GET / HTTP/1.1" 404 -
192.168.1.101 - - [16/Dec/2024 14:19:09] "GET /favicon.ico HTTP/1.1" 404 -
127.0.0.1 - - [16/Dec/2024 14:19:31] "GET /ping HTTP/1.1" 200 -
127.0.0.1 - - [16/Dec/2024 14:19:31] "GET /favicon.ico HTTP/1.1" 404 -


Обращаемся по адресу: http://localhost:9697/ping

Flask регистрирует запросы, которые получает, поэтому мы  должны увидеть строку

"127.0.0.1 - - [28/Nov/2024 17:02:54] "GET /ping HTTP/1.1" 200 -"


# Доступ к модели с помощью Flask

In [187]:
from flask import Flask, request, jsonify
import pickle

In [189]:
def pred_client(client, dv, model):
    X = dv.transform([client])
    y_pred = model.predict_proba(X)[:, 1]
    return y_pred[0]

with open ("C://Users//User//Downloads//ML//LogRes//scoring.bin", 'rb') as f_in:
    dv, model = pickle.load(f_in)

In [201]:
app = Flask('scoring') # создаем прилоложение Flask (центральный обьект для регистрации)

@app.route('/scoring', methods=['POST'])  # Определяем маршрут /scoring
def pred():
    client = request.get_json() # получаем содержимое запросов

    prediction = pred_client(client, dv, model) # оцениваем клиента

    pred_result = prediction >= 0.5

    result = {'probability_of_default':float(prediction), 
             'default': bool(pred_result)}
    
    return jsonify(result) # преобразуем в json
    
if __name__ == '__main__':
    app.run(debug=False, host='0.0.0.0', port=9697)  # Запускаем приложение

 * Serving Flask app 'scoring'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:9697
 * Running on http://192.168.1.101:9697
Press CTRL+C to quit


### Для тестирования кода используем библиотеку reqest

In [192]:
!pip install requests



In [204]:
import requests

In [246]:
client = {'ID': 9072,
 'LIMIT_BAL': 12340000,
 'SEX': 0,
 'EDUCATION': 2,
 'MARRIAGE': 2,
 'AGE': 32,
 'PAY_1': 0,
 'PAY_2': 0,
 'PAY_3': 0,
 'PAY_4': 0,
 'PAY_5': 0,
 'PAY_6': 0,
 'BILL_AMT1': 321,
 'BILL_AMT2': 223345,
 'BILL_AMT3': 34,
 'BILL_AMT4': 189500,
 'BILL_AMT5': 182771,
 'BILL_AMT6': 188876,
 'PAY_AMT1': 10020,
 'PAY_AMT2': 10007,
 'PAY_AMT3': 10017,
 'PAY_AMT4': 10003,
 'PAY_AMT5': 10007,
 'PAY_AMT6': 10036}


In [238]:
url = 'http://localhost:8080/scoring' # URL адрес
response = requests.post(url, json = client) # отправляем пост запрос в виде json
result = response.json() # получаем ответ в виде json

In [240]:
result

{'default': True, 'probability_of_default': 0.6416704117809455}

In [248]:
url = 'https://bba7osgpk2eo1fb1lo3r.containers.yandexcloud.net/scoring' # URL адрес
response = requests.post(url, json = client) # отправляем пост запрос в виде json
result = response.json() # получаем ответ в виде json

In [249]:
result

{'default': False, 'probability_of_default': 3.153312175641078e-21}