# **Проект 5. Компьютер говорит нет!**
Целью - построение модели МО для вторичных клиентов банка, для принятия решения о выдаче кредина на основе данных из БКИ и анкет заёмщиков.


**Описания полей**

* client_id - идентификатор клиента
* education - уровень образования
* sex - пол заемщика
* age - возраст заемщика
* car - флаг наличия автомобиля
* car_type - флаг автомобиля иномарки
* decline_app_cnt - количество отказанных прошлых заявок
* good_work - флаг наличия “хорошей” работы
* bki_request_cnt - количество запросов в БКИ
* home_address - категоризатор домашнего адреса
* work_address - категоризатор рабочего адреса
* income - доход заемщика
* foreign_passport - наличие загранпаспорта
* sna - связь заемщика с клиентами банка
* first_time - давность наличия информации о заемщике
* score_bki - скоринговый балл по данным из БКИ
* region_rating - рейтинг региона
* app_date - дата подачи заявки
* default - флаг дефолта по кредиту

### **Библиотеки**

In [1]:
from pandas import Series
import numpy as np
import pandas as pd
import pandas_profiling
import datetime
import warnings

warnings.filterwarnings('ignore')

import operator
import time
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))


import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from sklearn.feature_selection import f_classif, mutual_info_classif
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler,MinMaxScaler, RobustScaler, OrdinalEncoder, PowerTransformer, QuantileTransformer
from sklearn.linear_model import LogisticRegression,Ridge
from sklearn.model_selection import StratifiedKFold, cross_val_score , train_test_split, GridSearchCV,RandomizedSearchCV
from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier

from catboost import CatBoost,CatBoostClassifier, Pool
from catboost.utils import get_roc_curve
import lightgbm
from xgboost import XGBClassifier
import pickle

from sklearn.metrics import brier_score_loss, log_loss, confusion_matrix, plot_confusion_matrix, auc, mean_squared_error, roc_auc_score, roc_curve, accuracy_score, precision_score, recall_score, f1_score,precision_recall_curve,average_precision_score

from itertools import combinations
from scipy.stats import ttest_ind
import statsmodels.api as sm
import scipy.stats as sst
import warnings
import plotly.express as px
import datatable as dt
from sklearn import metrics
import itertools
from datetime import date
from datetime import datetime, timedelta

import warnings; warnings.simplefilter('ignore') # Убирает некритические сообщения
RANDOM_SEED = 40                                 # Зафиксируем RANDOM_SEED, чтобы эксперименты были воспроизводимы
!pip freeze > requirements.txt                   # Зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы

### 1. Загрузка набора данных

In [2]:
DATA_DIR = '/kaggle/input/sf-dst-scoring/'
train = pd.read_csv(DATA_DIR + 'train.csv')
test = pd.read_csv(DATA_DIR + 'test.csv')
sample_submission = pd.read_csv(DATA_DIR + 'sample_submission.csv')

In [3]:
# Для корректной обработки данных объединим train и test в один датасет
train['sample'] = 1 # помечаем train
test['sample'] = 0 # помечаем test
test['default'] = 0 # т.к. значения дефолта отсутствуют для тестовой выборки, то пока
# заполним нулями

data = test.append(train, sort=False).reset_index(drop=True)

In [4]:
data.info()

# 2. Создадим наивную модель

In [5]:
#избавимся от пропусков
train_naive = train.dropna()

In [6]:
#удалим все признаки которые нуждаются в каком-либо преобразовании
train_naive.drop(['app_date','education','sex','car','car_type','foreign_passport'],axis=1,inplace=True)

In [7]:
train_naive.sample(8)

In [8]:
# функци метрик ошибок
def scores(y_test, y_pred, prob):
    fpr, tpr, threshold = roc_curve(y_test, prob)
    roc_auc = roc_auc_score(y_test, prob)
    
    plt.figure()
    plt.plot([0, 1], label='Baseline', linestyle='--')
    plt.plot(fpr, tpr, label = 'Regression')
    plt.title('Logistic Regression ROC AUC = %0.3f' % roc_auc)
    plt.ylabel('True Positive Rate')
    plt.xlabel('False Positive Rate')
    plt.legend(loc = 'lower right')
    plt.show()
    print ("f1_score:",round(f1_score(y_test,y_pred), 3))
    print ("accuracy_score:",round(accuracy_score(y_test,y_pred), 3))
    print ("precision_score:",round(precision_score(y_test,y_pred), 3))
    print ("recall_score:",round(recall_score(y_test,y_pred), 3))
    print ("log_loss:",round(log_loss(y_test,y_pred), 3))
    print ("roc_auc_score:",round(roc_auc, 3))
    print("average_precision_score:", round(average_precision_score(y_test,y_pred), 3))
    print("brier_score_loss:", round(brier_score_loss(y_test,y_pred), 3))
    print('Confusion matrix:\n{}' .format(confusion_matrix(y_test,y_pred)))

In [9]:
#создаем модель на основе наивных данных
model_naive = LogisticRegression(max_iter = 1000)
X = train_naive.drop(['default','client_id'], axis = 1).values
y = train_naive['default'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=RANDOM_SEED)
model_naive.fit(X_train, y_train)
y_pred = model_naive.predict(X_test)
proba = model_naive.predict_proba(X_test)[:, 1]

In [10]:
scores(y_test, y_pred, proba)

### 3. Первичный анализ набора данных

In [11]:
pandas_profiling.ProfileReport(data)

**Предварительные наблюдения:**

* Education содержит пропуски
* 7 числовых переменных, 10 категориальных и 3 поля Boolean (включая целевую переменную и признак набора для обечения/теста)
* ни у одного из полей нет большой корреляции с целевой переменной
* есть коррелируемые параметры(удалим их, когда переведем все категорические параметры в численные)
* можно заметить что в числовых параметрах нет явно не адекватных значений, делаем вывод, что выбросов нет
* из графиков видно что необходимо нормализовать некоторые параметры:age, income, bki_request_cnt,region_rating

###  4.Предобработка данных
####  4.1.Обработка NaN

In [12]:
# Education, ординарные признаки
#Образование - это ординарный признак, т.к. есть увеличение уровня образования
data["education"].unique()

In [13]:
data['education'].value_counts(dropna=False)

In [14]:
# Посмотрим, какое образование является модой
data["education"].mode()

In [15]:
# заполним пропуски значением, которое встречается чаще всего
data["education"].fillna('SCH', inplace=True)

In [16]:
data.info()

#### 4.2 Обработка признаков

In [17]:
# Cоздадим списки по категориям датасета.
# Категориальные, бинарные, числовые.
# даты пока не будем включать в признак

bin_cols = ['sex', 'car', 'car_type', 'foreign_passport', 'good_work']
cat_cols = ['education', 'region_rating', 'home_address', 'work_address', 'sna', 'first_time']
num_cols = ['age', 'decline_app_cnt', 'income', 'bki_request_cnt', 'score_bki']

In [18]:
# Для бинарных признаков мы будем использовать LabelEncoder

label_encoder = LabelEncoder()

for column in bin_cols:
    data[column] = label_encoder.fit_transform(data[column])
    
data['education'] = label_encoder.fit_transform(data['education'])
# убедимся в преобразовании    
data.head()

In [19]:
# Разделим обратно на train и test
train = data.query('sample == 1').drop(['sample'], axis=1)
test = data.query('sample == 0').drop(['sample'], axis=1)

In [20]:
# удалим для X целевую переменную и client_id, app_date
X = train.drop(columns = ['default', 'client_id','app_date'])
Y = train['default']

In [21]:
#создаем модель на основе обработаннх данных
model = LogisticRegression(max_iter = 1000)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.30, random_state=RANDOM_SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
proba = model.predict_proba(X_test)[:, 1]

In [22]:
scores(y_test, y_pred, proba)

**Видим что показатели не сильнго изменились, поэтому преобразовываем параметры дальше**

### 4.3. Найдем коррелиции данных

In [23]:
# Посмотрим матрицу коэффициента корреляции численных признаком
sns.set(font_scale = 1)
fig, axis = plt.subplots(figsize=(12,12))
sns.heatmap(data[num_cols+cat_cols+bin_cols].corr().abs(), vmin=0, vmax=1, square=True,
           annot=True, fmt=".2f", linewidths=0.1, cmap="YlGnBu")

Замечаем, что большая корреляция между адресом работы и домашним адресом, автомобилем и его типом

In [24]:
#Уберем коррелирующие признаки из катеригорий и app_date
bin_cols = ['sex', 'car', 'foreign_passport', 'good_work']
cat_cols = ['education', 'region_rating', 'work_address', 'sna', 'first_time']
num_cols = ['age', 'decline_app_cnt', 'income', 'bki_request_cnt', 'score_bki']

In [25]:
data[bin_cols+cat_cols+num_cols].sample(8)

### 4.4.Нормализуем данные

In [26]:
plt.figure()
sns.distplot(data['age'].apply(lambda x: np.log(x+1)))
data['age'] = data['age'].apply(lambda x: np.log(x+1))

In [27]:
plt.figure()
sns.distplot(data['income'].apply(lambda x: np.log(x+1)))
data['income'] = data['income'].apply(lambda x: np.log(x+1))

In [28]:
plt.figure()
sns.distplot(data['decline_app_cnt'].apply(lambda x: np.log(x+1)))
data['decline_app_cnt'] = data['decline_app_cnt'].apply(lambda x: np.log(x+1))

In [29]:
plt.figure()
sns.distplot(data['bki_request_cnt'].apply(lambda x: np.log(x+1)))
data['bki_request_cnt'] = data['bki_request_cnt'].apply(lambda x: np.log(x+1))

In [30]:
plt.figure()
sns.distplot(data['region_rating'].apply(lambda x: np.log(x+1)))
data['region_rating'] = data['region_rating'].apply(lambda x: np.log(x+1))

In [31]:
data.sample(8)

### 4.5 Создадим модель после обработки данных

In [32]:
# Разделим обратно на train и test
train = data.query('sample == 1').drop(['sample'], axis=1)
test = data.query('sample == 0').drop(['sample'], axis=1)

In [33]:
# удалим для X целевую переменную и client_id, app_date, home_address, car_type
X = train.drop(columns = ['default', 'client_id','app_date','car_type','home_address'])
Y = train['default']

In [34]:
#создаем модель на основе обработаннх данных
model = LogisticRegression(max_iter = 1000)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.30, random_state=RANDOM_SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
proba = model.predict_proba(X_test)[:, 1]

In [35]:
scores(y_test, y_pred, proba)

### 4.6. Преобразуем параметр app_date и применим гиперпараметры

In [36]:
data.head()

In [37]:
#"app_date" перевести в формат datetime/числовой.
data['app_date'] = data['app_date'].apply(lambda x:datetime.strptime(x,'%d%b%Y'))
data['app_date'] = data['app_date'].apply(lambda x: (data['app_date'].max() - x).days)
data.head(5)

In [38]:
#Рассмотрим распределение параметра app_date
plt.figure()
sns.distplot(data['app_date'])

**Данные распределены нормально**

In [39]:
# Посмотрим матрицу коэффициента корреляции численных признаком
sns.set(font_scale = 1)
fig, axis = plt.subplots(figsize=(12,12))
sns.heatmap(data.drop(columns=['client_id','car_type','home_address']).corr().abs(), vmin=0, vmax=1, square=True,
           annot=True, fmt=".2f", linewidths=0.1, cmap="YlGnBu")

**коррелиция upp_date с другими параметрами отсутствует**

## 5 Создадим модель с app_date и с гипперпараметрами

In [40]:
# Разделим обратно на train и test
train = data.query('sample == 1').drop(['sample'], axis=1)
test = data.query('sample == 0').drop(['sample'], axis=1)

In [56]:
# создадим набор гиперпараметров
hyperparameters = {'C': np.logspace(0, 4, 20)}

X = train.drop(columns=['default', 'client_id','car_type','home_address'])
y = train['default']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=RANDOM_SEED, test_size=0.3)

model = LogisticRegression(random_state=RANDOM_SEED,
                           class_weight='balanced', max_iter=1000)
# создадим сетку поиска с использованием 5-кратной перекрёстной проверки
clf = GridSearchCV(model, hyperparameters, cv=5, verbose=0, scoring='roc_auc')

best_model = clf.fit(X_train, y_train)

# вывод лучшего параметра С
print('Лучшее C:', best_model.best_estimator_.get_params()['C'])

### Проверим качество модели с гиперпараметрами

In [48]:
y_pred = best_model.predict(X_test)
proba = best_model.predict_proba(X_test)[:, 1]
scores(y_test, y_pred, proba)

Модель немного улучшилась, возьму ее за финальную, т.к. нужно сдавать проект.

## 6. Тренировка на тестовых данных и создание файла submission

In [50]:
# Разделим обратно на train и test
train = data.query('sample == 1').drop(['sample'], axis=1)
test = data.query('sample == 0').drop(['sample'], axis=1)

In [59]:
X_test = test.drop(columns = ['default', 'client_id','home_address','car_type',]) # убираем не нужные параметры из тестовой выборки
y_probs = best_model.predict_proba(X_test)[:,1] # формируем вероятность отказова в для тестовой выборки
test['default'] = y_probs # добавляем столбец с предсказаниеми в дата фрейм

In [60]:
submission = test[['client_id','default']]# формируем датафрейм с необходимыми столбцами
display(submission.sample(10))
display(submission.shape)

In [61]:
submission.to_csv('submission.csv', index=False)# формируем файл submission.csv