# Компьютер говорит "Нет"

In [1]:
import random
from statsmodels.stats.multitest import multipletests
import os.path
import pandas_profiling
from scipy import stats
import itertools as it
from collections import Counter
from datetime import datetime, timedelta
import re
from sklearn.metrics import auc, roc_auc_score, roc_curve, recall_score
from sklearn.metrics import f1_score, accuracy_score, precision_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, OrdinalEncoder
from sklearn import preprocessing
from sklearn.feature_selection import f_classif, mutual_info_classif
from sklearn.base import BaseEstimator
from sklearn import pipeline
from pandas import Series
import pandas as pd
import numpy as np
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from catboost import CatBoostClassifier
from sklearn.ensemble import RandomForestClassifier


import copy

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Задача
Построить скоринг модель для вторичных клиентов банка, которая бы предсказывала вероятность дефолта клиента. Для этого нужно будет определить значимые параметры заемщика.

## Данные
### Предоставлена информация из анкетных данных заемщиков и факт наличия дефолта.

| Признак | Описание |
| :--- | :--- | 
| client_id | идентификатор клиента |
| education | уровень образования |
| sex | пол заёмщика |
| age | возраст заёмщика |
| car | флаг наличия автомобиля |
| car_type | флаг автомобиля-иномарки |
| decline_app_cnt | количество отказанных прошлых заявок |
| good_work | флаг наличия «хорошей» работы |
| bki_request_cnt | количество запросов в БКИ |
| home_address | категоризатор домашнего адреса |
| work_address | категоризатор рабочего адреса |
| income | доход заёмщика |
| foreign_passport | наличие загранпаспорта |
| sna | связь заемщика с клиентами банка |
| first_time | давность наличия информации о заемщике |
| score_bki | скоринговый балл по данным из БКИ |
| region_rating | рейтинг региона |
| app_date | дата подачи заявки |
| default | наличие дефолта |

### Посмотрим на данные
<a id='load_data'></a>

In [2]:
train = pd.read_csv('../input/sf-dst-scoring/train.csv')
train.head()

FileNotFoundError: [Errno 2] No such file or directory: '../input/sf-dst-scoring/train.csv'

In [None]:
# Дата представлена в формате %d%b%Y - сразу переведем в тип datetime
train['app_date'] = pd.to_datetime(train['app_date'])

In [None]:
train.info()

In [None]:
train.describe(datetime_is_numeric=True).transpose()

In [None]:
train.describe(exclude=[np.number, np.datetime64],
               datetime_is_numeric=True).transpose()

##### Промежуточные выводы
Данные представлены за период с 2014-01-01 по 2014-04-30, кол-во записей - 73799, только столбец education имеет пропуски.

## EDA
<a id='eda'></a>
[Goto data load](#load_data)

### Для начала поробуем pandas_profiling

In [None]:
# для того, чтобы предотвратить повторный вызов профайлера, проверим наличие результатов его работы
if not os.path.exists('eda_profiling.html'):
    profile = pandas_profiling.ProfileReport(
        train, title='Credit scoring profiler report', explorative=True)
    profile.to_file('eda_profiling.html')

[EDA profiling output](eda_profiling.html)

##### Промежуточные выводы
* client_id - полностью уникальный идентификатор - исключить
* education - имеет пропуски (307, <0.1%) - заменить пропуски на UNK
* age - имеется несколько экстремально старых клиентов, распределение скошено влево - изучить подробнее
* car и car_type - посмотреть есть ли записи с car=N и car_type=Y (не может быть), так же обнаружена корреляция крамера для этх признаков
* decline_app_cnt - имеются клиенты с количеством отказов больше 20 - изучить подробнее
* bki_request_cnt - имеются записи с экстремально большими значениями - изучить подробнее
* income - имеется несколько клиентов с очень большим и очень маленьким доходом, распределение сильно скошено влево - log и изучить подробнее


In [None]:
def outliers(df, feature):
    # Интерквартильный размах
    perc25 = df[feature].quantile(0.25)
    perc75 = df[feature].quantile(0.75)
    IQR = perc75 - perc25
    low, high = (perc25 - 1.5 * IQR, perc75 + 1.5 * IQR)
    print(
        f'25-й перцентиль: {perc25}, 75-й перцентиль: {perc75}, IQR: {IQR}, Границы выбросов: [{low}, {high}]')
    return df[(df[feature] < low) | (df[feature] > high)]


def get_stat_dif(df, feature, target, dropna=True, check=True, alpha=0.5):
    cols = df.loc[:, feature].value_counts(dropna=dropna).index
    combinations_all = list(it.combinations(cols, 2))
    p_values = []
    p_combs = []
    bonferony = []
    for comb in combinations_all:
        len0 = len(df.loc[df.loc[:, feature] == comb[0]])
        len1 = len(df.loc[df.loc[:, feature] == comb[1]])
        if check and len(df.loc[df.loc[:, feature] == comb[0]]) < 30:
            msg = 'Количество значений {} ({}) = {} (<30) тест стьюдента может дать некорректные результаты'.format(
                feature, comb[0], len0)
#            raise Exception(msg)
            continue
        if check and len(df.loc[df.loc[:, feature] == comb[1]]) < 30:
            msg = 'Количество значений {} ({}) = {} (<30) тест стьюдента может дать некорректные результаты'.format(
                feature, comb[1], len1)
#            raise Exception(msg)
            continue
        res = stats.ttest_ind(df.loc[df.loc[:, feature] == comb[0], target],
                              df.loc[df.loc[:, feature] == comb[1], target])
        p_combs.append(comb)
        p_values.append(res.pvalue)
        # Учли поправку Бонферони
        if res.pvalue <= alpha / len(combinations_all):
            print(
                f'Найдены статистически значимые различия для {feature} (поправка Бонферони)  комбинация {comb} p-value {res.pvalue}')
            bonferony.append(comb)

    res = multipletests(p_values, alpha=alpha, method='holm-sidak')
    rejected = []
    for i in range(0, len(res[0])):
        if res[0][i] == True:  # Гипотеза отвергается
            #            print(f'Найдены статистически значимые различия для {feature} (поправка Холм-Сидака)  комбинация {p_combs[i]} p-value {p_values[i]}')
            #            print(p_combs[i], p_values[i], res[0][i])
            rejected.append(p_combs[i])
    return (rejected, bonferony)

### Age

In [None]:
display(outliers(train, 'age'))
_ = sns.boxplot(x='default', y='age', data=train)

In [None]:
# Вроде выбросов нет - оставляем

In [None]:
# У age большой правый хвост - попробуем исправить 
fig, ax = plt.subplots(nrows=2, ncols=2)
fig.set_size_inches(16, 10)
ax[0][0].set_title('Source')
_ = sns.histplot(train['age'], fill=True, kde=True, bins=30, ax=ax[0][0])
ax[0][1].set_title('Log')
_ = sns.histplot(np.log(train['age']), fill=True, kde=True, bins=30, ax=ax[0][1])
ax[1][0].set_title('Sqrt')
_ = sns.histplot(np.sqrt(train['age']), fill=True, kde=True, bins=30, ax=ax[1][0])
ax[1][1].set_title('BoxCox')
_ = sns.histplot(stats.boxcox(train['age'])[0], fill=True, kde=True, bins=30, ax=ax[1][1])


In [None]:
print('normality =', stats.normaltest(np.log(train['age'])))
stat, p = stats.shapiro(train['age'].sample(5000)) # тест Шапиро-Уилк
print('Шапиро-Уилк = Statistics=%.3f, p-value=%.10f' % (stat, p))

In [None]:
# После логарифмирования стало больше похоже на нормальное, но все равно далеко от него

### Car и car_type

In [None]:
train[(train['car'] == 'N') & (train['car_type'] == 'Y')]
# Клиентов у которых нет машины и одновременно есть иномарка нет - не все в порядке

In [None]:
plt.figure(figsize=(16, 5))
plt.subplot(121)
_ = sns.countplot(x='car', data=train)
plt.subplot(122)
_ = sns.countplot(x='car_type', data=train)

In [None]:
# Посмотрим на числовые значения корреляции
temp = train[['car', 'car_type']].copy()
temp['car'] = LabelEncoder().fit_transform(temp['car'])
temp['car_type'] = LabelEncoder().fit_transform(temp['car_type'])
temp.corr()

### Decline_app_cnt

In [None]:
display(outliers(train, 'decline_app_cnt'))
plt.figure(figsize=(10, 8))
_ = sns.boxplot(x='default', y='decline_app_cnt', data=train)

In [None]:
# Очень много нулевых значений приводит к тому что все остальные помечаются как выбросы

In [None]:
plt.figure(figsize=(10, 8))
train['decline_app_cnt'].hist(bins=100)

In [None]:
# У age большой правый хвост - попробуем исправить 
fig, ax = plt.subplots(nrows=2, ncols=2)
fig.set_size_inches(16, 10)
indices = train['decline_app_cnt'] > 0
ax[0][0].set_title('Source')
_ = sns.histplot(train.loc[indices, 'decline_app_cnt'], fill=True, kde=True, bins=30, ax=ax[0][0])
ax[0][1].set_title('Log')
_ = sns.histplot(np.log(train.loc[indices, 'decline_app_cnt']), fill=True, kde=True, bins=30, ax=ax[0][1])
ax[1][0].set_title('Sqrt')
_ = sns.histplot(np.sqrt(train.loc[indices, 'decline_app_cnt']), fill=True, kde=True, bins=30, ax=ax[1][0])
ax[1][1].set_title('BoxCox')
_ = sns.histplot(stats.boxcox(train.loc[indices, 'decline_app_cnt'])[0], fill=True, kde=True, bins=30, ax=ax[1][1])

In [None]:
# После преобразований лучше не стало

In [None]:
# Посмотрим есть ли влияние этих признаков на целевую переменную
f, p = f_classif(train[['decline_app_cnt']], train['default'])
print(f'F-statistic = {f[0]}, p-value = {p[0]}')

In [None]:
# Можно попробовать сгруппировать отказы 0, 1, 2, >2
temp = train['decline_app_cnt'].apply(
    lambda x: 0 if x == 0 else 1 if x == 1 else 2 if x == 2 else 3)
#_ = sns.countplot(data=temp)
temp.hist()

### Home_address и work_address

In [None]:
# В профайлере обнаружена корреляция между нome_address и work_address, посмотрим подробнее
fig, ax = plt.subplots(figsize=(6, 6))
sns.heatmap(train[['home_address', 'work_address', 'default']].corr().abs(), vmin=0, vmax=1, annot=True, square=True)

In [None]:
# Возможно следует исключить work_address ?

### Bki_request_cnt

In [None]:
display(outliers(train, 'bki_request_cnt'))
plt.figure(figsize=(10, 8))
_ = sns.boxplot(x='default', y='bki_request_cnt', data=train)

In [None]:
# Очень много нулевых значений приводит к тому что все остальные помечаются как выбросы

In [None]:
# Посмотрим есть ли влияние этих признаков на целевую переменную
f, p = f_classif(train[['bki_request_cnt']], train['default'])
print(f'F-statistic = {f[0]}, p_value = {p[0]}')

In [None]:
plt.figure(figsize=(10, 8))
train['bki_request_cnt'].hist(bins=100)

In [None]:
# У признака большой правый хвост - попробуем исправить 
fig, ax = plt.subplots(nrows=2, ncols=2)
fig.set_size_inches(16, 10)
indices = train['bki_request_cnt'] > 0
ax[0][0].set_title('Source')
_ = sns.histplot(train.loc[indices, 'bki_request_cnt'], fill=True, kde=True, bins=30, ax=ax[0][0])
ax[0][1].set_title('Log')
_ = sns.histplot(np.log(train.loc[indices, 'bki_request_cnt']), fill=True, kde=True, bins=30, ax=ax[0][1])
ax[1][0].set_title('Sqrt')
_ = sns.histplot(np.sqrt(train.loc[indices, 'bki_request_cnt']), fill=True, kde=True, bins=30, ax=ax[1][0])
ax[1][1].set_title('BoxCox')
_ = sns.histplot(stats.boxcox(train.loc[indices, 'bki_request_cnt'])[0], fill=True, kde=True, bins=30, ax=ax[1][1])

In [None]:
# После преобразований лучше не стало

### Region_rating

In [None]:
display(outliers(train, 'region_rating'))
#_ = sns.boxplot(x='default', y='region_rating', data=train)
plt.figure(figsize=(10, 8))
_ = sns.boxplot(y='region_rating', data=train)

In [None]:
#  Есть выбросы, но скорее всего крайние значения как раз сильно влияют на дефолт, оставляем как есть

In [None]:
# Посмотрим есть ли влияние этих признаков на целевую переменную
f, p = f_classif(train[['region_rating']], train['default'])
print(f'F-statistic = {f[0]}, p_value = {p[0]}')

### Income

In [None]:
display(outliers(train, 'income'))
plt.figure(figsize=(10, 8))
_ = sns.boxplot(x='default', y='income', data=train)

In [None]:
# Выбросов много, но определить где начинается и заканчивается реальный доход очень тяжело. 
# Скорее всего доход 1000 (вопрос чего) - это действитель неправдоподобно мало, 
# а доход ровно 999999 выглядит странно, но возможно это тоже индикатор для принятия решений
# Если можно было-бы узнать как получены эти данные

In [None]:
# Посмотрим есть ли влияние этих признаков на целевую переменную
f, p = f_classif(train[['income']], train['default'])
print(f'F-statistic = {f[0]}, p_value = {p[0]}')

In [None]:
plt.figure(figsize=(10, 8))
train['income'].hist(bins=100)

In [None]:
# У признака большой правый хвост - попробуем исправить 
fig, ax = plt.subplots(nrows=2, ncols=2)
fig.set_size_inches(16, 10)
indices = train['income'] > 0
ax[0][0].set_title('Source')
_ = sns.histplot(train.loc[indices, 'income'], fill=True, kde=True, bins=30, ax=ax[0][0])
ax[0][1].set_title('Log')
_ = sns.histplot(np.log(train.loc[indices, 'income']), fill=True, kde=True, bins=30, ax=ax[0][1])
ax[1][0].set_title('Sqrt')
_ = sns.histplot(np.sqrt(train.loc[indices, 'income']), fill=True, kde=True, bins=30, ax=ax[1][0])
ax[1][1].set_title('BoxCox')
_ = sns.histplot(stats.boxcox(train.loc[indices, 'income'])[0], fill=True, kde=True, bins=30, ax=ax[1][1])

In [None]:
# После логарифма и бокса-кокса стало гораздо лучше

### SNA

In [None]:
# Вообще непонятный параметр. Что означает "связь заемщика с клиентами банка"? 
# Сколько человек? Балльная оценка? Если баллы что лучше 1 или 4?
# Будем рассматривать как баллы
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='sna', data=train)

In [None]:
# Интересна обратная корреляция между sna и first_time
fig, ax = plt.subplots(figsize=(6, 6))
sns.heatmap(train[['sna', 'first_time', 'default']].corr().abs(), vmin=0, vmax=1, annot=True, square=True)

### First_time

In [None]:
# Тоже непонятный признак "давность наличия информации о заемщике".
# Но здесь скорее всего категория 1 - небольшая давность, 4 - большая
# Тогда можно объяснить корреляцию (чем меньше давность, тем больше связь с клиентами)
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='first_time', data=train)

### И на "сладкое" default

In [None]:
# Из профайлера видно, что есть большой перекос в данных. Не 10 к одному, но 87 к 13 тоже много.
# Надо будет учитывать при построении модели
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='default', data=train)

In [None]:
len(train[train['default'] == 1]) / len(train[train['default'] == 0])

## Предобработка

In [None]:
# Заполнить пропуски в education = 'UNK'
train['education'].fillna('UNK', inplace=True)
train['education'].value_counts()

In [None]:
train.sample(5)

In [None]:
def boxcox(df):
    boxcox_df = df.copy()
    for f in df.columns:
        zero_indices = df[f] == 0
        bc, lam = stats.boxcox(df.loc[df[f] > 0, f])
        boxcox_df.loc[~zero_indices, f] = bc
        boxcox_df.loc[zero_indices, f] = -1 / lam
    return boxcox_df    


In [None]:
# У income большой правый хвость применим преобразование Бокса-Кокса к признаку
train['income'] = boxcox(train[['income']])
fig, ax = plt.subplots()
fig.set_size_inches(16, 10)
ax.set_title('Source')
_ = sns.histplot(train['income'], fill=True, kde=True, bins=30, ax=ax)

In [None]:
# У age большой правый хвость применим преобразование логарифмирование к признаку
train['age'] = np.log(train['age'])
fig, ax = plt.subplots()
fig.set_size_inches(16, 10)
ax.set_title('Source')
_ = sns.histplot(train['age'], fill=True, kde=True, bins=30, ax=ax)

### Feature engineering

In [None]:
num_features = ['age', 'score_bki', 'decline_app_cnt', 'bki_request_cnt', 'income']
bin_features = ['sex', 'car', 'car_type', 'foreign_passport', 'good_work']
cat_features = ['education', 'work_address', 'home_address']
ord_features = ['sna', 'first_time', 'region_rating']
del_features = ['client_id', 'app_date']
target = 'default'
len(num_features + bin_features + cat_features + ord_features + del_features + [target])

In [None]:
train['app_weekday'] = train['app_date'].dt.weekday
cat_features.append('app_weekday')
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='app_weekday', data=train)

In [None]:
train['car_type2'] = train['car_type'] + train['car']
cat_features.append('car_type2')
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='car_type2', data=train)

In [None]:
train['has_bki_request'] = train['bki_request_cnt'] > 0
bin_features.append('has_bki_request')
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='has_bki_request', data=train)

In [None]:
train['app_days'] = (train['app_date'] - datetime(2014, 1, 1)).dt.days
num_features.append('app_days')
fig, ax = plt.subplots()
fig.set_size_inches(16, 10)
ax.set_title('Source')
_ = sns.histplot(train['app_days'], fill=True, kde=True, bins=30, ax=ax)

In [None]:
train['has_decline'] = train['decline_app_cnt'] > 0
bin_features.append('has_decline')
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='has_decline', data=train)

In [None]:
train['region_cat'] = train['region_rating'].apply(lambda x: 2 if x == 50 else 1 if x < 50 else 3)
cat_features.append('region_cat')
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='region_cat', data=train)


In [None]:
edu_map = {'UNK': 1, 'SCH': 1, 'GRD': 2, 'UGR': 3, 'PGR': 3, 'ACD': 3}
train['education_cat'] = train['education'].map(edu_map)
cat_features.append('education_cat')
plt.figure(figsize=(16, 5))
_ = sns.countplot(x='education_cat', data=train)


In [None]:
mean_income = train.groupby('age')['income'].mean().to_dict()
mean_income_age = train['age'].map(mean_income)
max_income = train.groupby('age')['income'].max().to_dict()
max_income_age = train['age'].map(max_income)        
train['normalized_income'] = np.log(abs((train.income - mean_income_age) / max_income_age))
fig, ax = plt.subplots()
fig.set_size_inches(16, 10)
ax.set_title('Source')
_ = sns.histplot(train['normalized_income'], fill=True, kde=True, bins=30, ax=ax)

### Feature selection

In [None]:
train.set_index('client_id', inplace=True)

In [None]:
train.sample(2)

In [None]:
def showImportance(features_imp, features, n=20):
    imp_df = pd.DataFrame(features_imp.T, columns=['importance'], index=features)
    imp_df = np.abs(imp_df)
    imp_df = imp_df.sort_values(by='importance', ascending=False)
    f, ax = plt.subplots(1, 1, figsize=(16, 10), sharex=True)
    df4display = imp_df.head(n)
    sns.barplot(x=df4display['importance'], y=df4display.index, palette="vlag", ax=ax)
    _ = ax.set_ylabel("Признак")
    _ = ax.set_title("Значимость признаков")


In [None]:
f_cls = f_classif(train[num_features], train['default'])
showImportance(f_cls[0], num_features)

In [None]:
temp_df = train[bin_features + cat_features + ord_features + ['default']].copy()
label_encoder = LabelEncoder()
for feature in bin_features + cat_features:
    temp_df[feature] = label_encoder.fit_transform(train[feature])
mis = mutual_info_classif(temp_df[bin_features + cat_features + ord_features], 
                          temp_df['default'], discrete_features=True)
showImportance(mis, bin_features + cat_features + ord_features)

### Check correlation

In [None]:
# Корреляция между числовыми признаками набора данных
def showNumCorr(df, features, title='Корреляция между данными'):
    # Корреляция между данными о ролике
    plt.figure(figsize=(16, 10))
    mask = np.triu(np.ones_like(df[features].corr(), dtype=bool))
    heatmap = sns.heatmap(df[features].corr(),
                          mask=mask, vmin=-1, vmax=1, annot=True, cmap='BrBG')
    heatmap = heatmap.set_title(title, fontdict={'fontsize': 18}, pad=16)    
    return heatmap

In [None]:
temp_df = train.copy()
temp_df.drop('app_date', axis=1, inplace=True)
label_encoder = LabelEncoder()
for feature in bin_features + cat_features:
    temp_df[feature] = label_encoder.fit_transform(train[feature])
showNumCorr(temp_df, temp_df.columns)

In [None]:
# Получили значительную корреляцию car_type2 c car и car_type
train.drop(['car', 'car_type'], axis=1, inplace=True, errors='ignore')
if 'car' in bin_features:
    bin_features.remove('car') 
if 'car_type' in bin_features:
    bin_features.remove('car_type') 
# и region_rating c region_cat при этом все таки region_rating все таки больше влияет на default
train.drop(['region_cat'], axis=1, inplace=True, errors='ignore')
if 'region_cat' in cat_features:
    cat_features.remove('region_cat') 

In [None]:
### Features preparing

In [None]:
# Binary features encode
label_encoder = LabelEncoder()
for feature in bin_features:
    train[feature] = label_encoder.fit_transform(train[feature])
train.sample(2)

In [None]:
# Categorical features encode
onehot_encoder = OneHotEncoder(sparse = False, handle_unknown='ignore')
onehot_encoder = onehot_encoder.fit(train[cat_features])
df = pd.DataFrame(onehot_encoder.transform(train[cat_features]), 
                  columns=onehot_encoder.get_feature_names(input_features=cat_features),
                  index=train.index, dtype=int)
train = train.drop(cat_features, axis=1)
train = pd.concat([train, df], axis=1)
train.sample(2)

In [None]:
scaler = StandardScaler()
scaler.fit(train[num_features])
scaled_df = pd.DataFrame(scaler.transform(train[num_features]), 
                         columns=num_features, index=train.index)
train = train.drop(num_features, axis=1)
train = pd.concat([train, scaled_df], axis=1)
train.sample(2)

In [None]:
train.drop('app_date', axis=1, inplace=True, errors='ignore')
train.sample(2)

### Make base model

In [None]:
def showImportance(model, features, n=20):
    lr_coef = pd.DataFrame(model.coef_.T, columns=['coefficient'], index=features)
    f, ax = plt.subplots(1, 1, figsize=(16, 10), sharex=True)
    top_lr_coef = lr_coef.sort_values(by='coefficient', ascending=False).head(n)
    low_lr_coef = lr_coef.sort_values(by='coefficient', ascending=False).tail(n)
    df4display = pd.concat([top_lr_coef, low_lr_coef])
    sns.barplot(x=df4display['coefficient'], y=df4display.index, palette="vlag", ax=ax)
    _ = ax.set_ylabel("Признак")
    _ = ax.set_title("Значимость признаков")
    
    
def showMetrics(y_test, y_prob, y_pred):
    cm = confusion_matrix(y_test, y_pred)
    cmd = ConfusionMatrixDisplay(cm, display_labels=['success','default'])
    fpr, tpr, threshold = roc_curve(y_test, y_prob)
    roc_auc = roc_auc_score(y_test, y_prob)
    fig, ax = plt.subplots(nrows=1, ncols=2)
    fig.set_size_inches(16, 6)

    ax[0].plot([0, 1], label='Baseline', linestyle='--')
    ax[0].plot(fpr, tpr, label = 'Regression')
    ax[0].set_title('ROC AUC = %0.10f' % roc_auc)
    ax[0].set_ylabel('True Positive Rate')
    ax[0].set_xlabel('False Positive Rate')
    ax[0].legend(loc='lower right')

    cmd.plot(ax=ax[1])
    cmd.ax_.set(xlabel='Predicted', ylabel='True')
    plt.show()

def split(df):
    X_train, X_test, y_train, y_test = train_test_split(df.drop('default', axis=1), 
                                                    df['default'], 
                                                    test_size=0.20, 
                                                    stratify=df['default'], 
                                                    random_state=42)
    return X_train, X_test, y_train, y_test


In [None]:
class ScorerHistory:
    scores_columns = ['estimator', 'roc_auc',
                      'accuracy', 'precision', 'recall', 'f1']
    scores_df = pd.DataFrame([], columns=scores_columns)

    def add2scores(name, y_test, y_pred, y_prob):
        df = pd.DataFrame([[name,
                            roc_auc_score(y_test, y_prob),
                            accuracy_score(y_test, y_pred),
                            precision_score(y_test, y_pred),
                            recall_score(y_test, y_pred),
                            f1_score(y_test, y_pred)]], columns=ScorerHistory.scores_columns)
        ScorerHistory.scores_df = pd.concat([ScorerHistory.scores_df, df], axis=0)
        return ScorerHistory.scores_df
    

class ScorerBase():
    '''
    Базовый класс для предобработки данных
    Делает кодирование, шкалирование, обучение модели и предсказания
    '''
    def __init__(self, X_train, y_train):
        self._data = X_train
        self._target = y_train
        self._features = {
            'num': ['age', 'score_bki', 'decline_app_cnt', 'bki_request_cnt', 'income'],
            'cat': ['education', 'work_address', 'home_address'],
            'ord': ['region_rating', 'first_time', 'sna'],
            'bin': ['sex', 'car', 'car_type', 'foreign_passport', 'good_work']
        }
        
        
    def prepare(self, df, features):
        new_features = copy.deepcopy(features)
        columns = []
        for v in new_features.values():
            for f in v:
                columns.append(f)
        new_df = df.copy(columns)
        # Clean data
        new_df['education'].fillna('SCH', inplace=True)
        # Дата представлена в формате %d%b%Y - сразу переведем в тип datetime
        new_df['app_date'] = pd.to_datetime(data['app_date'])        
        return new_df, new_features
    
    def fit(self, df, features):
        # Fit encoders and scalers
        self._label_encoder = LabelEncoder()
        self._onehot_encoder = OneHotEncoder(sparse = False, handle_unknown='ignore')
        onehot_encoder = self._onehot_encoder.fit(df[features['cat']])
        self._num_scaler = StandardScaler()
        self._num_scaler.fit(df[features['num']])
        self._ord_scaler = StandardScaler()
        self._ord_scaler.fit(df[features['ord']])
        return self
    
    def transform(self, df, features):
        assert(self._label_encoder is not None)
        assert(self._onehot_encoder is not None)
        assert(self._num_scaler is not None)
        assert(self._ord_scaler is not None)
        new_df = pd.DataFrame([], index=df.index)
        # Binary features encode
        for feature in features['bin']:
            new_df[feature] = self._label_encoder.fit_transform(df[feature])
        # Categorical features encode
        columns = self._onehot_encoder.get_feature_names(input_features=features['cat'])
        encoded_df =  pd.DataFrame(self._onehot_encoder.transform(df[features['cat']]), 
                                   columns=columns, index=df.index, dtype=int)
        new_df = pd.concat([new_df, encoded_df], axis=1)
        # Numeric features scale
        scaled_df = pd.DataFrame(self._num_scaler.transform(df[features['num']]), 
                                 columns=features['num'], index=df.index)
        new_df = pd.concat([new_df, scaled_df], axis=1)
        # Ordered features 
#        scaled_df = pd.DataFrame(self._ord_scaler.transform(df[features['ord']]), 
#                                 columns=features['ord'], index=df.index)
        scaled_df = df[features['ord']]
        new_df = pd.concat([new_df, scaled_df], axis=1)
        return new_df
    
    def prepare_fit_transform(self):
        (df, features)  = self.prepare(self._data, self._features)
        self.fit(df, features)
        return self.transform(df, features), self._target
    
    def get_target(self):
        return self._target
    
    def train(self, model):
        self._model = model
        assert(self._model is not None)
        (df, features) = self.prepare(self._data, self._features)
        df = self.fit(df, features).transform(df, features)
        self._model.fit(df, self._target)
        return model
    
    def predict(self, test):
        assert(self._model is not None)
        (df, features) = self.prepare(test, self._features)
        df = self.transform(df, features)
        return self._model.predict(df)

    def predict_proba(self, test):
        assert(self._model is not None)
        (df, features) = self.prepare(test, self._features)
        df = self.transform(df, features)
        return self._model.predict_proba(df)[:,1]
    

In [None]:
# Base model
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)
scorer = ScorerBase(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))
model = LogisticRegression(max_iter=1000, random_state=42)
scorer.train(model)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('base', y_test, y_pred, y_prob)

In [None]:
showImportance(model, scorer.prepare_fit_transform()[0].columns, n=20)

In [None]:
class ScorerGen(ScorerBase):
    '''
    Класс для предобработки данных с переопределеннм методом prepare,
    где генирируются и отбираются признаки
    '''
    
    def boxcox(self, df):
        boxcox_df = df.copy()
        for f in df.columns:
            zero_indices = df[f] == 0
            bc, lam = stats.boxcox(df.loc[df[f] > 0, f])
            boxcox_df.loc[~zero_indices, f] = bc
            boxcox_df.loc[zero_indices, f] = -1 / lam
        return boxcox_df    
    
    def prepare(self, df, features):
        (df, features) = super().prepare(df, features)
        
        # Add features
        df['income'] = self.boxcox(df[['income']])
        df['app_days'] = (df['app_date'] - datetime(2014, 1, 1)).dt.days
        features['num'].append('app_days')
#        df['hw_address'] = df['home_address'] + df['work_address']
#        features['ord'].append('hw_address')
#        df['has_decline'] = df['decline_app_cnt'] > 0 
#        features['bin'].append('has_decline')
                       
        # remove features
 
        return df, features
    
            

In [None]:
# Model with generated features
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)
scorer = ScorerGen(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))
model = LogisticRegression(max_iter=1000, random_state=42)
scorer.train(model)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('lr+gen', y_test, y_pred, y_prob)

In [None]:
showImportance(model, scorer.prepare_fit_transform()[0].columns, n=20)

In [None]:
from sklearn.model_selection import StratifiedKFold
# Model with generated features and LogisticRegressionCV
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)

scorer = ScorerGen(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))
Cs = np.logspace(-5, 5, 11)
cv = StratifiedKFold(5, shuffle=True, random_state=42)
model = LogisticRegressionCV(Cs=Cs, max_iter=1000, cv=cv, random_state=42,
                             n_jobs=-1, verbose=2, scoring='f1')
model = scorer.train(model)
print('Best C =', model.C_)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('lr+cv+f1', y_test, y_pred, y_prob)

In [None]:
showImportance(model, scorer.prepare_fit_transform()[0].columns, n=20)

In [None]:
# Model with generated features and LogisticRegressionCV с балансировкой
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)

scorer = ScorerGen(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))
cv = StratifiedKFold(5, shuffle=True, random_state=42)
model = LogisticRegressionCV(Cs=9, max_iter=1000, cv=cv, random_state=42,
                             penalty='l2', solver='newton-cg',
                             verbose=2, n_jobs=-1, scoring='roc_auc', class_weight='balanced')
scorer.train(model)
print('Best C =', model.C_)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('lr+gen+cv+roc_auc+balance', y_test, y_pred, y_prob)

In [None]:
showImportance(model, scorer.prepare_fit_transform()[0].columns, n=20)

In [None]:
# Model with generated features and LogisticRegressionCV с балансировкой
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)

scorer = ScorerGen(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))

grid_values = {
    'penalty': ['l2'], 
    'C': [0.01],
    'solver': ['newton-cg', 'lbfgs', 'sag', 'saga'],
    'class_weight': [None, 'balanced'],
}
model = LogisticRegression(max_iter=1000, random_state=42)
model_cv = GridSearchCV(model, grid_values, cv=5, n_jobs=-1, verbose=3, 
                        scoring=['f1', 'roc_auc'], refit='roc_auc')
model_cv.fit(scorer.prepare_fit_transform()[0], scorer.get_target())
print('Best params', model_cv.best_params_)
model = model_cv.best_estimator_

scorer.train(model)

y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('lr+gen+gs+roc_auc+f1', y_test, y_pred, y_prob)

In [None]:
#showImportance(model, scorer.prepare_fit_transform()[0].columns, n=20)

In [None]:
class ScorerSampler(ScorerGen):
    def __init__(self, X_train, y_train):
        super().__init__(X_train, y_train)
        self._sampler = None
    
    def prepare_fit_transform(self):
        assert(self._sampler is not None)
        (df, features)  = self.prepare(self._data, self._features)
        df = self.fit(df, features).transform(df, features)
        X_resampled, y_resampled = self._sampler.fit_resample(df, self._target)
        print(X_resampled.shape)
        return X_resampled, y_resampled

    def train(self, model):
        assert(self._sampler is not None)
        self._model = model
        assert(self._model is not None)
        (df, features) = self.prepare(self._data, self._features)
        df = self.fit(df, features).transform(df, features)
        X_resampled, y_resampled = self._sampler.fit_resample(df, self._target)
        print(X_resampled.shape)
        self._model.fit(X_resampled, y_resampled)
        return model

In [None]:
from imblearn import over_sampling, under_sampling
class ScorerOver(ScorerSampler):
    '''
    Класс для сэмплирования незбалансированных данных
    '''
    def __init__(self, X_train, y_train):
        super().__init__(X_train, y_train)
        self._sampler = over_sampling.RandomOverSampler(random_state=42)
#        self._sampler = over_sampling.SMOTE()
#        self._sampler = over_sampling.ADASYN()
        


In [None]:
# Model with generated features and LogisticRegressionCV and sampling
from sklearn.model_selection import StratifiedKFold
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)
#'C': 0.01, 'class_weight': 'balanced', 'penalty': 'l2', 'solver': 'saga'
scorer = ScorerOver(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))
model = LogisticRegression(C=0.01, max_iter=1000, random_state=42, solver='saga')
model = scorer.train(model)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('lr+cv+roc_auc+oversamp', y_test, y_pred, y_prob)


In [None]:
from imblearn import over_sampling, under_sampling
class ScorerUnder(ScorerSampler):
    '''
    Класс для сэмплирования незбалансированных данных
    '''
    def __init__(self, X_train, y_train):
        super().__init__(X_train, y_train)
        self._sampler = under_sampling.RandomUnderSampler(random_state=42)
#        self._sampler = over_sampling.NearMiss(version=1)()



In [None]:
# Model with generated features and LogisticRegressionCV and sampling
from sklearn.model_selection import StratifiedKFold
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)

scorer = ScorerUnder(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))
model = LogisticRegression(C=0.01, max_iter=1000, random_state=42, solver='saga')
model = scorer.train(model)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('lr+cv+roc_auc+undersamp', y_test, y_pred, y_prob)

In [None]:
showImportance(model, scorer.prepare_fit_transform()[0].columns, n=20)

In [None]:
# Построение XGB модели c балансировкой
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)

scorer = ScorerGen(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))

sum_pos = sum(y_train)
sum_neg = len(y_train) - sum_pos
class_weights=[1, sum_neg / sum_pos]
model = XGBClassifier(random_state=42, subsample=0.8, reg_lambda=50, n_estimators=50, 
                      max_depth=3, learning_rate=0.2, colsample_bytree=0.5,
                      scale_pos_weight=sum_neg / sum_pos,
                      objective='binary:logistic', 
                      n_jobs=-1, use_label_encoder=False)
scorer.train(model)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('xgb', y_test, y_pred, y_prob)

In [None]:
class ScorerBoost(ScorerBase):
    '''
    Для CatBoost избавимся от onehot кодирования, где-то прочитал что сие не есть хорошо
    '''
    
    def boxcox(self, df):
        boxcox_df = df.copy()
        for f in df.columns:
            zero_indices = df[f] == 0
            bc, lam = stats.boxcox(df.loc[df[f] > 0, f])
            boxcox_df.loc[~zero_indices, f] = bc
            boxcox_df.loc[zero_indices, f] = -1 / lam
        return boxcox_df    
    
    def prepare(self, df, features):
        (df, features) = super().prepare(df, features)
        # Add features
        df['income'] = self.boxcox(df[['income']])
#        df['bki_request_cnt'] = self.boxcox(df[['bki_request_cnt']])
        df['car_type2'] = df['car'] + df['car_type']
#        df['car_type2'] = df['car_type2'].map({'NY': 0, 'NN': 1, 'YN': 2, 'YY': 3})
        features['cat'].append('car_type2')
        df['app_days'] = (df['app_date'] - datetime(2014, 1, 1)).dt.days
        features['num'].append('app_days')
        df['hw_address'] = df['home_address'] + df['work_address']
        features['ord'].append('hw_address')
        edu_map = {'UNK': 0, 'SCH': 1, 'GRD': 2, 'UGR': 3, 'PGR': 4, 'ACD': 5}
        df['education'] = df['education'].map(edu_map)
        features['ord'].append('education')
        features['cat'].remove('education')
                        
        # remove features
        df = df.drop('car', axis=1)
        features['bin'].remove('car')
        df = df.drop('car_type', axis=1)
        features['bin'].remove('car_type')
        df = df.drop('home_address', axis=1)
        features['cat'].remove('home_address')
        df = df.drop('work_address', axis=1)
        features['cat'].remove('work_address')
 
        return df, features
    
            

In [None]:
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)

scorer = ScorerGen(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))

sum_pos = sum(y_train)
sum_neg = len(y_train) - sum_pos
class_weights=[1, sum_neg / sum_pos]
model = CatBoostClassifier(iterations=300,
                           metric_period=100,
                           random_seed=42,
                           depth=3,
                           l2_leaf_reg=8,
                           eval_metric='AUC',
                           early_stopping_rounds=10,
                           learning_rate=0.05,
                           class_weights=class_weights
                          )

scorer.train(model)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('catboost', y_test, y_pred, y_prob)


In [None]:
data = pd.read_csv('../input/sf-dst-scoring/train.csv')
X_train, X_test, y_train, y_test = split(data)

# Построение RandomForest модели c балансировкой
scorer = ScorerGen(X_train, y_train)
display(scorer.prepare_fit_transform()[0].sample(5))

model = RandomForestClassifier(n_estimators=100, max_depth=5,
                               class_weight='balanced', random_state=42)

scorer.train(model)
y_prob = scorer.predict_proba(X_test)
base_roc_auc = roc_auc_score(y_test, y_prob)
y_pred = scorer.predict(X_test)
_ = showMetrics(y_test, y_prob, y_pred)
ScorerHistory.add2scores('rf+balanced', y_test, y_pred, y_prob)


In [None]:
############################################
# Выбор модели
ScorerHistory.scores_df.sort_values('roc_auc', ascending=False)

In [None]:
# Похоже из рассмотренных классификаторов оптимален catboost+gen+roc_auc
# но выбираем: LogisticRegression так как xgd и catboost похоже переобучились
model = LogisticRegression(C=0.01, max_iter=1000, penalty='l2', solver='saga', class_weight='balanced')
sum_pos = sum(y_train)
sum_neg = len(y_train) - sum_pos
class_weights=[1, sum_neg / sum_pos]
model = CatBoostClassifier(iterations=300,
                           metric_period=100,
                           depth=3,
                           l2_leaf_reg=6,
                           eval_metric='AUC',
                           early_stopping_rounds=10,
                           learning_rate=0.05,
                           class_weights=class_weights
                          )


In [None]:
train = pd.read_csv('../input/sf-dst-scoring/train.csv')
test = pd.read_csv('../input/sf-dst-scoring/test.csv')
X_train = train.drop('default', axis=1)
y_train = train['default']
X_test = test

sum_pos = sum(y_train)
sum_neg = len(y_train) - sum_pos
class_weights=[1, sum_neg / sum_pos]
model = CatBoostClassifier(iterations=300,
                           metric_period=100,
                           random_seed=42,
                           depth=3,
                           l2_leaf_reg=8,
                           eval_metric='AUC',
                           early_stopping_rounds=10,
                           learning_rate=0.05,
                           class_weights=class_weights
                          )

scorer = ScorerGen(X_train, y_train)
model = scorer.train(model)
y_prob = scorer.predict_proba(X_test)
sample_submission = X_test[['client_id']].copy()
sample_submission['default'] = y_prob
sample_submission.head()

In [None]:
sample_submission.to_csv('submission_cb.csv', index=False)
sample_submission.head(10)

## Выводы:
Рассмотренные модели дают примерно одинаковый ROC-AUC (0.73+-).
Модели с балансировкой классов дают в разы больший F1.
Наверное, настройкой гиперпараметров XGD и CatBoost можно добиться улучшения результата, но зато с
логистической регрессией работать проще (меньше гиперпараметров).
Можно сгенерировать еще признаки (например полиномиальные), но тогда значитльно упадет интерпретируемость модели.