In [5]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)



from pandas import Series

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.feature_selection import f_classif, mutual_info_classif
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV


from sklearn.metrics import confusion_matrix
#from sklearn.metrics import auc, roc_auc_score, roc_curve

from sklearn.metrics import f1_score, accuracy_score, roc_curve, roc_auc_score, auc,precision_score,recall_score

import warnings
warnings.filterwarnings("ignore")

In [6]:
RANDOM_SEED = 42

In [7]:
df_train = pd.read_csv('/train.csv')
df_test = pd.read_csv('/test.csv')
pd.set_option('display.max_columns', None)
print('Размерность тренировочного датасета: ', df_train.shape)
display(df_train.head(1))
print('Размерность тестового датасета: ', df_test.shape)
display(df_test.head(1))

FileNotFoundError: [Errno 2] No such file or directory: '/train.csv'

In [None]:
df_train['Train'] = 1 # помечаем где у нас трейн
df_test['Train'] = 0 # помечаем где у нас тест

df = df_train.append(df_test, sort=False).reset_index(drop=True) # объединяем

In [None]:
#Посмотрим на структуру объединенного датафрейма
df.info()

Описания полей датасета

* client_id - идентификатор клиента
* education - уровень образования
* sex - пол заемщика
* age - возраст заемщика
* car - флаг наличия автомобиля
* car_type - флаг автомобиля иномарки
* decline_app_cnt - количество отказанных прошлых заявок
* good_work - флаг наличия “хорошей” работы
* bki_request_cnt - количество запросов в БКИ
* home_address - категоризатор домашнего адреса
* work_address - категоризатор рабочего адреса
* income - доход заемщика
* foreign_passport - наличие загранпаспорта
* sna - связь заемщика с клиентами банка
* first_time - давность наличия информации о заемщике
* score_bki - скоринговый балл по данным из БКИ
* region_rating - рейтинг региона
* app_date - дата подачи заявки
* default - флаг дефолта по кредиту

тут что то не получилось с форматированием

In [None]:
#Посмотрим в каких колонках есть незаполненные значения
df.columns[df.isna().any()].tolist()

In [None]:
#Заполним колонку education MOD(ой)
df['education'] = df['education'].fillna(df['education'].mode()[0])

In [None]:
#Создадим списки колонок по типам 
#временные переменные
date_cols = ['app_date']
# бинарные переменные (default не включаем в список, посольку это наша целевая колонка)
bin_cols = ['sex', 'car', 'car_type', 'foreign_passport', 'good_work']
# категориальные переменные  (Train не включаем в список, это наш добавленныей признак, который не будет участвовать в обработке)
cat_cols = ['education', 'region_rating', 'home_address', 'work_address', 'sna', 'first_time']
# числовые переменные, client_id не включаем
num_cols = ['age', 'decline_app_cnt', 'bki_request_cnt','score_bki', 'income']

In [None]:
def outliers_iqr(ys):
    quartile_1, quartile_3 = np.percentile(ys, [25, 75])
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * 1.5)
    upper_bound = quartile_3 + (iqr * 1.5)
    return np.where((ys > upper_bound) | (ys < lower_bound))[0]

In [None]:
# Отображение информации о колонке
def show_info_column(dataframe, column):
    display(dataframe[column].describe())
    plt.hist(dataframe[column], bins=30)
    plt.ylabel('Количество')
    plt.xlabel(column)
    # plt.title('Histogram');
    plt.show()
    # Нижняя граница выбросов
    minimum_emission_limit = round(
        dataframe[column].mean() - 3 * dataframe[column].std(), 0)
    # Верхняя граница выбросов
    maximum_emission_limit = round(
        dataframe[column].mean() + 3 * dataframe[column].std(), 0)
    # Количество выбросов
    quantity_of_emissions = len(dataframe[round(
        ((df[column] - dataframe[column].mean()) / dataframe[column].std()).abs(), 0) > 3].index)
    print('Границы выбросов', minimum_emission_limit, maximum_emission_limit)
    display(sns.boxplot(data=dataframe[column]))
    print('Количество выбросов', quantity_of_emissions)

In [None]:
def show_logarifm(dataframe,column):
    plt.figure()
    sns.distplot(np.log1p(dataframe[column][dataframe['Train']==1]), kde = False, rug=False)    
    plt.title(column)
    plt.show()    

In [None]:
def show_confusion_matrix(y_true, y_pred):
    """Функция отображает confusion-матрицу"""
    color_text = plt.get_cmap('GnBu')(1.0)
    class_names = ['Дефолт', 'НЕ дефолт']
    cm = confusion_matrix(y_true, y_pred)
    cm[0,0], cm[1,1] = cm[1,1], cm[0,0]
    df = pd.DataFrame(cm, index=class_names, columns=class_names)
    
    fig, ax = plt.subplots(figsize=(4, 4))
    ax.set(xticks=np.arange(cm.shape[1]), yticks=np.arange(cm.shape[0]), title="Матрица ошибок")
    ax.title.set_fontsize(15)
    sns.heatmap(df, square=True, annot=True, fmt="d", linewidths=1, cmap="GnBu")
    plt.setp(ax.get_yticklabels(), rotation=0, ha="right", rotation_mode="anchor", fontsize=12)
    plt.setp(ax.get_xticklabels(), rotation=0, ha="center", rotation_mode="anchor", fontsize=12)
    ax.set_ylabel('Предсказанные значения', fontsize=14, color = color_text)
    ax.set_xlabel('Реальные значения', fontsize=14, color = color_text)
    b, t = plt.ylim()
    plt.ylim(b+0.5, t-0.5)
    fig.tight_layout()
    plt.show()

In [None]:
def all_metrics(y_true, y_pred, y_pred_prob):
    """Функция выводит в виде датафрейма значения основных метрик классификации"""
    dict_metric = {}
    P = np.sum(y_true==1)
    N = np.sum(y_true==0)
    TP = np.sum((y_true==1)&(y_pred==1))
    TN = np.sum((y_true==0)&(y_pred==0))
    FP = np.sum((y_true==0)&(y_pred==1))
    FN = np.sum((y_true==1)&(y_pred==0))
    
    dict_metric['P'] = [P,'Дефолт']
    dict_metric['N'] = [N,'БЕЗ дефолта']
    dict_metric['TP'] = [TP,'Истинно дефолтные']
    dict_metric['TN'] = [TN,'Истинно НЕ дефолтные']
    dict_metric['FP'] = [FP,'Ложно дефолтные']
    dict_metric['FN'] = [FN,'Ложно НЕ дефолтные']
    dict_metric['Accuracy'] = [accuracy_score(y_true, y_pred),'Accuracy=(TP+TN)/(P+N)']
    dict_metric['Precision'] = [precision_score(y_true, y_pred),'Точность = TP/(TP+FP)'] 
    dict_metric['Recall'] = [recall_score(y_true, y_pred),'Полнота = TP/P']
    dict_metric['F1-score'] = [f1_score(y_true, y_pred),'Среднее гармоническое Precision и Recall']
    dict_metric['ROC_AUC'] = [roc_auc_score(y_true, y_pred_prob),'ROC-AUC']    

    temp_df = pd.DataFrame.from_dict(dict_metric, orient='index', columns=['Значение', 'Описание метрики'])
    display(temp_df) 

In [None]:
def show_roc_curve(y_true, y_pred_prob):
    """Функция отображает ROC-кривую"""
    fpr, tpr, _ = roc_curve(y_true, y_pred_prob)
    plt.figure()
    plt.plot([0, 1], label='Случайный классификатор', linestyle='--')
    plt.plot(fpr, tpr, label = 'Логистическая регрессия')
    plt.title('Логистическая регрессия ROC AUC = %0.3f' % roc_auc_score(y_true, y_pred_prob))
    plt.ylabel('True Positive Rate')
    plt.xlabel('False Positive Rate')
    plt.legend(loc = 'lower right')
    plt.show()

In [None]:
show_info_column(df,'age')

In [None]:
plt.figure()
sns.distplot(df['age'][df['Train']==1], kde = False, rug=False)    
plt.title('age')
plt.show()

In [None]:
plt.figure()
sns.distplot(np.log1p(df['age'][df['Train']==1]), kde = False, rug=False)    
plt.title('age')
plt.show()

In [None]:
#После логорифмирование выгляднет лучше, берем логарифм от признака  
df['age'] = np.log1p(df['age'])

In [None]:
show_info_column(df,'decline_app_cnt')

In [None]:
df_copy=df.copy()
df_copy['decline_app_cnt'] = np.log1p(df_copy['decline_app_cnt'])

In [8]:
show_info_column(df_copy,'decline_app_cnt')

NameError: name 'show_info_column' is not defined

In [None]:
#По прежнему очень много выбросов, возьмем логарифм , а выбросы пока оставим как есть 
df['decline_app_cnt'] = np.log1p(df['decline_app_cnt'])

In [None]:
show_info_column(df,'bki_request_cnt')

In [None]:
df_copy=df.copy()
df_copy['bki_request_cnt'] = np.log1p(df_copy['bki_request_cnt'])
show_info_column(df_copy,'bki_request_cnt')

In [None]:
#График выглядет лучше , но выбросов стало очень много, возьмем пока логарфим от признака и выбросы оставим
df['bki_request_cnt'] = np.log1p(df['bki_request_cnt'])

In [None]:
show_info_column(df,'score_bki')

Здесь мы видим нормальное распреление, небольшое количество выбросов , поэтому оставляем все как есть 

In [None]:
show_info_column(df,'income')

In [None]:
df_copy=df.copy()
df_copy['income'] = np.log1p(df_copy['income'])
show_info_column(df_copy,'income')

In [None]:
#График стал лучше, берем логарифм от признака
df['income'] = np.log1p(df['income'])

In [None]:
sns.set(font_scale=1)
plt.subplots(figsize=(12, 12))
sns.heatmap(df[num_cols][df['Train']==1].corr(), square=True,
              annot=True, fmt=".3f", linewidths=0.1, cmap="RdBu")

Мультиколлинеарности не обнаружено, оставляем все признаки

In [None]:
temp_df = df[df['Train']==1]
imp_num = Series(f_classif(temp_df[num_cols], temp_df['default'])[0], index = num_cols)
imp_num.sort_values(inplace = True)
imp_num.plot(kind = 'barh')

In [None]:
df['education'].value_counts()

In [None]:
label_encoder = LabelEncoder()

for column in bin_cols:
    df[column] = label_encoder.fit_transform(df[column])
    
edu_label_encoder = LabelEncoder()
df['education'] = edu_label_encoder.fit_transform(df['education'])

# убедимся в преобразовании    
df.head(10)

In [None]:
temp_df = df[df['Train']==1]
imp_cat = Series(mutual_info_classif(temp_df[bin_cols + cat_cols], temp_df['default'],
                                     discrete_features =True), index = bin_cols + cat_cols)
imp_cat.sort_values(inplace = True)
imp_cat.plot(kind = 'barh')

Самым значимым признаком по Mutual information тесту является связь заемщика с клиентами банка (sna) и давность наличия информации о заемщике (first_time), потом идет рейтинг региона (region_rating) и в конце пол (sex).

In [None]:
df.drop(['app_date','client_id'], axis=1, inplace=True)

In [None]:
#Преобразуем категориальные признаки
df=pd.get_dummies(df, prefix=cat_cols, columns=cat_cols)

In [None]:
#Стандартизация пока пропустим
#X_num_train = StandardScaler().fit_transform(df[df['Train']==1][num_cols].values)
#Y_num_train = StandardScaler().fit_transform(df[df['Train']==0][num_cols].values)

In [None]:
train_data = df.query('Train == 1').drop(['Train'], axis=1)
test_data = df.query('Train == 0').drop(['Train'], axis=1)

y = train_data.default.values            # наш таргет
X = train_data.drop(['default'], axis=1)

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=RANDOM_SEED)

In [None]:
# проверяем
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

In [None]:
model = LogisticRegression()
model.fit(X_train, y_train)

probs = model.predict_proba(X_test)
probs = probs[:,1]

y_pred = model.predict(X_test)

# Оценка качества модели
all_metrics(y_test, y_pred, probs)
show_roc_curve(y_test, probs)
show_confusion_matrix(y_test, y_pred)

In [None]:
# запускаем GridSearch на небольшом кол-ве итераций max_iter=50 и с достаточно большой дельтой останова tol1e-3
# чтобы получить оптимальные параметры модели в первом приближении
model = LogisticRegression(random_state=RANDOM_SEED)
iter_ = 50
epsilon_stop = 1e-3
param_grid = [
    {'penalty': ['l1'], 
     'solver': ['liblinear', 'lbfgs'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_],
     'tol':[epsilon_stop]},
    {'penalty': ['l2'], 
     'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_],
     'tol':[epsilon_stop]},
    {'penalty': ['none'], 
     'solver': ['newton-cg', 'lbfgs', 'sag', 'saga'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_],
     'tol':[epsilon_stop]},
]
gridsearch = GridSearchCV(model, param_grid, scoring='f1', n_jobs=-1, cv=5)
gridsearch.fit(X_train, y_train)
model = gridsearch.best_estimator_
##печатаем параметры
best_parameters = model.get_params()
for param_name in sorted(best_parameters.keys()):
        print('\t%s: %r' % (param_name, best_parameters[param_name]))
    ##печатаем метрики
preds = model.predict(X_test)
print('Accuracy: %.4f' % accuracy_score(y_test, preds))
print('Precision: %.4f' % precision_score(y_test, preds))
print('Recall: %.4f' % recall_score(y_test, preds))
print('F1: %.4f' % f1_score(y_test, preds))

In [None]:
model = LogisticRegression(
    random_state=RANDOM_SEED, 
    C=1.0,
	class_weight= 'balanced',
	dual= False,
	fit_intercept= True,
	intercept_scaling= 1,
	l1_ratio= None,
	max_iter= 50,
	multi_class= 'auto',
	n_jobs= None,
	penalty= 'none',
	solver= 'sag',
	tol= 0.001,
	verbose= 0,
	warm_start= False)
model.fit(X_train, y_train)

probs = model.predict_proba(X_test)
probs = probs[:,1]
y_pred = model.predict(X_test)

# Оценка качества модели
all_metrics(y_test, y_pred, probs)
show_roc_curve(y_test, probs)
show_confusion_matrix(y_test, y_pred)

Как мы видим метрики стали значительно лучше чем у первой модели с параметрами по умолчанию

Submission

In [None]:
train_data = df.query('Train == 1').drop(['Train'], axis=1)
test_data = df.query('Train == 0').drop(['Train'], axis=1)

In [None]:
X_train=train_data.drop(['default'], axis=1)
y_train = train_data.default.values
X_test = test_data.drop(['default'], axis=1)

In [None]:
# проверяем
test_data.shape, train_data.shape, X_train.shape, y_train.shape, X_test.shape

In [None]:
model = LogisticRegression(
    random_state=RANDOM_SEED, 
    C=1.0,
	class_weight= 'balanced',
	dual= False,
	fit_intercept= True,
	intercept_scaling= 1,
	l1_ratio= None,
	max_iter= 50,
	multi_class= 'auto',
	n_jobs= None,
	penalty= 'none',
	solver= 'sag',
	tol= 0.001,
	verbose= 0,
	warm_start= False)

model.fit(X_train, y_train)

In [None]:
y_pred_prob = model.predict_proba(X_test)[:,1]


submit = pd.DataFrame(df_test.client_id)
submit['default']=y_pred_prob
submit.to_csv('submission.csv', index=False)