##### Татур А.А.
##### v.0.5
##### Данные: бинарные преобразованы в 1-да, 0-нет; Пропуски - заменены на np.NaN. Для качественных перменных применено pd_dummies (после этого все замены np.nan автоматически выкидывались, т.о. строка полностью не удалялась, просто для нее отсутствует значение, где было Np.NaN).
##### Модель: CatBoost. Гиперпараметры дефолтные.
##### AUC 86.14

##### Цели:
1. разбить выборку на обучающую и тестовую
2. проанализировать пропуски и решить, что с ними делать
3. проанализировать выбросы
4. создать/ удалить переменные
5. закодировать категориальные переменные
6. нормализовать числовые переменные (при необходимости)

In [37]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import MinMaxScaler
from catboost import CatBoostClassifier, Pool, metrics, cv
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

In [38]:
# Читаем файл. Сразу убираем колонку id, формируем фрэйм с фичами и серию с целевым признаком
df = pd.read_csv('MFOCredit.csv',
                 encoding = 'cp1251',
                 sep=';')
df=df.drop('id',axis=1)

X=df.drop(['delinq60plus'], axis=1)
X.age=X.age.astype(np.float16)
y=df['delinq60plus']

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X,y, train_size=0.7, random_state=42)

#### Обрабатываем пропуски. Кодируем бинарные колонки в цифровые вручную. Походу приводим типы к float

##### 1. Кодируем целевую переменную

In [11]:
#Кодируем целевую колонку. Да=1, Нет=0
y_train.loc[(y_train=='Да')] = 1
y_train.loc[(y_train=='Нет')] = 0

y_test.loc[(y_test=='Да')] = 1
y_test.loc[(y_test=='Нет')] = 0

#Приводим к типу int
y_train=y_train.astype(np.float16)
y_test=y_test.astype(np.float16)

##### 2. Обрабатываем даты. 

In [12]:
#Меняем типы на дату в тренировочных колонках
X_train.date_start=X_train.date_start.astype('datetime64[ns]')
X_train.date_end=X_train.date_end.astype('datetime64[ns]')

#Меняем типы на дату в тестовых колонках
X_test.date_start=X_test.date_start.astype('datetime64[ns]')
X_test.date_end=X_test.date_end.astype('datetime64[ns]')

In [13]:
# Этот ужас переводит дату в формат "Год.Дни недели с начала года", чтобы их можно было запихивать в модельку.
# Такое усложнение понадобилось, т.к. если просто вызвать функцию dayofyear для числа, если прошло меньше чем 100 дней
# c начала года, то происходит следующее, допустим 30 января 2010 года превратится в 2010.30, т.е. 300й день. Поэтому циклы
# проверяют и если дней меньше ста допихивают ноль спереди.

for i in X_train.index:
    if X_train.loc[i, 'date_start'].dayofyear<100:
        X_train.loc[i, 'y.days_start'] = str(X_train.loc[i, 'date_start'].year)+'.0'+\
        str(X_train.loc[i, 'date_start'].dayofyear)
    else:
        X_train.loc[i, 'y.days_start'] = str(X_train.loc[i, 'date_start'].year)+'.'+\
        str(X_train.loc[i, 'date_start'].dayofyear)
X_train['y.days_start']=X_train['y.days_start'].astype(float)

for i in X_train.index:
    if X_train.loc[i, 'date_end'].dayofyear<100:
        X_train.loc[i, 'y.days_end'] = str(X_train.loc[i, 'date_end'].year)+'.0'+\
        str(X_train.loc[i, 'date_end'].dayofyear)
    else:
        X_train.loc[i, 'y.days_end'] = str(X_train.loc[i, 'date_end'].year)+'.'+\
        str(X_train.loc[i, 'date_end'].dayofyear)
X_train['y.days_end']=X_train['y.days_end'].astype(float)

for i in X_test.index:
    if X_test.loc[i, 'date_start'].dayofyear<100:
        X_test.loc[i, 'y.days_start'] = str(X_test.loc[i, 'date_start'].year)+'.0'+\
        str(X_test.loc[i, 'date_start'].dayofyear)
    else:
        X_test.loc[i, 'y.days_start'] = str(X_test.loc[i, 'date_start'].year)+'.'+\
        str(X_test.loc[i, 'date_start'].dayofyear)
X_test['y.days_start']=X_test['y.days_start'].astype(float)

for i in X_test.index:
    if X_test.loc[i, 'date_end'].dayofyear<100:
        X_test.loc[i, 'y.days_end'] = str(X_test.loc[i, 'date_end'].year)+'.0'+\
        str(X_test.loc[i, 'date_end'].dayofyear)
    else:
        X_test.loc[i, 'y.days_end'] = str(X_test.loc[i, 'date_end'].year)+'.'+\
        str(X_test.loc[i, 'date_end'].dayofyear)
X_test['y.days_end']=X_test['y.days_end'].astype(float)

In [14]:
#Вытаскиваем разность между датами. Получаем длину контракта.
X_train['credit_duration']=(X_train['date_end']-X_train['date_start']).dt.days
X_test['credit_duration']=(X_test['date_end']-X_test['date_start']).dt.days

In [15]:
#Выкидываем исходные колонки
X_train=X_train.drop(['date_start', 'date_end'], axis=1)
X_test=X_test.drop(['date_start', 'date_end'], axis=1)

##### 3. Кодируем пол

In [16]:
#Обработка колонки пола. 0 - Женский, 1 - Мужской

X_train.loc[(X_train.gender == 'Женский'), 'gender'] = '0'
X_train.loc[(X_train.gender == 'Мужской'), 'gender'] = '1'

X_test.loc[(X_test.gender == 'Женский'), 'gender'] = '0'
X_test.loc[(X_test.gender == 'Мужской'), 'gender'] = '1'

#Приводим к типу int
X_train.gender=X_train.gender.astype(np.float16)
X_test.gender=X_test.gender.astype(np.float16)

##### 4. Обрабатываем пропуски, кодируем колонку auto

In [17]:
#Заменяем пропуски в колонке "auto" на np.nan.
X_train.loc[(X_train.auto == 'Пропуск поля'), 'auto'] = np.nan
X_test.loc[(X_test.auto == 'Пропуск поля'), 'auto'] = np.nan

#Кодируем все в бинарные значения. 0 - нет авто. 1 - есть авто
X_train.loc[(X_train.auto == 'Нет'), 'auto'] = '0'
X_train.loc[(X_train.auto == 'Да'), 'auto'] = '1'

X_test.loc[(X_test.auto == 'Нет'), 'auto'] = '0'
X_test.loc[(X_test.auto == 'Да'), 'auto'] = '1'

#Конвертируем тип в int
X_test['auto']=X_test['auto'].astype(np.float16)
X_train['auto']=X_train['auto'].astype(np.float16)

#####  5. Обарабываем пропуски в колонке housing

In [18]:
#Заменяем пропуски в колонке 'housing' на np.nan
X_train.loc[(X_train.housing=='Пропуск поля'), 'housing'] = np.nan
X_test.loc[(X_test.housing=='Пропуск поля'), 'housing'] = np.nan

##### 6. Обарабываем пропуски в колонке marstatus

In [19]:
#Заменяем пропуски в 'marstatus' на np.nan
X_train.loc[(X_train.marstatus == 'Пропуск поля'), 'marstatus'] =np.nan
X_test.loc[(X_test.marstatus == 'Пропуск поля'), 'marstatus'] = np.nan

#####  7. Кодируем колонку regclient

In [20]:
#Кодируем regclien в бинарные значения. Да = 1, нет=0. Приводим к типу int16

X_train.loc[(X_train.regclient == 'Нет'), 'regclient'] = '0'
X_train.loc[(X_train.regclient == 'Да'), 'regclient'] = '1'

X_test.loc[(X_test.regclient == 'Нет'), 'regclient'] = '0'
X_test.loc[(X_test.regclient == 'Да'), 'regclient'] = '1'

#Приводим к типу int
X_train.regclient=X_train.regclient.astype(np.float16)
X_test.regclient=X_test.regclient.astype(np.float16)

#####  8. Обарабываем пропуски в колонке jobtype и кодируем

In [21]:
#Заменяем пропуски в колонке "jobtype" на np.nan
X_train.loc[(X_train.jobtype == 'Пропуск поля'), 'jobtype'] = np.nan
X_test.loc[(X_test.jobtype == 'Пропуск поля'), 'jobtype'] = np.nan

#Кодируем все в бинарные значения. 0 - неоффициальное. 1 - оффициальное
X_train.loc[(X_train.jobtype == 'Неофициальное'), 'jobtype'] = '0'
X_train.loc[(X_train.jobtype == 'Официальное'), 'jobtype'] = '1'

X_test.loc[(X_test.jobtype == 'Неофициальное'), 'jobtype'] = '0'
X_test.loc[(X_test.jobtype == 'Официальное'), 'jobtype'] = '1'

#Конвертируем тип в int
X_test['jobtype']=X_test['jobtype'].astype(np.float16)
X_train['jobtype']=X_train['jobtype'].astype(np.float16)

#####  9. Обарабываем пропуски в колонке credis и кодируем

In [22]:
#Заменяем пропуски в колонке "credits" на np.nan
X_train.loc[(X_train.credits == 'Пропуск поля'), 'credits'] = np.nan
X_test.loc[(X_test.credits == 'Пропуск поля'), 'credits'] = np.nan

#Кодируем все в бинарные значения. 0 - нет. 1 - да
X_train.loc[(X_train.credits == 'Нет'), 'credits'] = '0'
X_train.loc[(X_train.credits == 'Да'), 'credits'] = '1'

X_test.loc[(X_test.credits == 'Нет'), 'credits'] = '0'
X_test.loc[(X_test.credits == 'Да'), 'credits'] = '1'

#Конвертируем тип в int
X_test['credits']=X_test['credits'].astype(np.float16)
X_train['credits']=X_train['credits'].astype(np.float16)

#####  9. Обарабываем пропуски в колонке children и кодируем

In [23]:
#Заменяем пропуски в колонке "children" на np.nan.
X_train.loc[(X_train.children == 'Пропуск поля'), 'children'] = np.nan
X_test.loc[(X_test.children == 'Пропуск поля'), 'children'] = np.nan

#Кодируем все в бинарные значения. 0 - нет. 1 - да
X_train.loc[(X_train.children == 'Нет'), 'children'] = '0'
X_train.loc[(X_train.children == 'Да'), 'children'] = '1'

X_test.loc[(X_test.children == 'Нет'), 'children'] = '0'
X_test.loc[(X_test.children == 'Да'), 'children'] = '1'

#Конвертируем тип в int
X_test['children']=X_test['children'].astype(np.float16)
X_train['children']=X_train['children'].astype(np.float16)

#####  10. Применяем Dummies кодирование к вещественным колонкам с более чем 2-мя признаками.

In [28]:
X_train_dummie = pd.concat([X_train,
                           pd.get_dummies(X_train['auto'], prefix='auto'),
                           pd.get_dummies(X_train['housing'], prefix='housing'),
                           pd.get_dummies(X_train['marstatus'], prefix='marstatus'),
                           pd.get_dummies(X_train['jobtype'], prefix='jobtype'),
                           pd.get_dummies(X_train['credits'], prefix='credits'),
                           pd.get_dummies(X_train['children'], prefix='children'),
                           pd.get_dummies(X_train['region'], prefix='region')], axis=1)
X_test_dummie = pd.concat([X_test,
                           pd.get_dummies(X_test['auto'], prefix='auto'),
                           pd.get_dummies(X_test['housing'], prefix='housing'),
                           pd.get_dummies(X_test['marstatus'], prefix='marstatus'),
                           pd.get_dummies(X_test['jobtype'], prefix='jobtype'),
                           pd.get_dummies(X_test['credits'], prefix='credits'),
                           pd.get_dummies(X_test['children'], prefix='children'),
                           pd.get_dummies(X_test['region'], prefix='region')], axis=1)

#####  11. Удаляем вещественные колонки

In [29]:
X_train_dummie = X_train_dummie.drop(['auto','housing','marstatus','jobtype','credits','children','region'],axis=1)
X_test_dummie = X_test_dummie.drop(['auto','housing','marstatus','jobtype','credits','children','region'],axis=1)

#####  12. Скалируем

In [30]:
SSC=StandardScaler()
X_train_dummie_scaled= pd.DataFrame(SSC.fit_transform(X_train_dummie))
X_test_dummie_scaled = pd.DataFrame(SSC.transform(X_test_dummie))

##### 13. Обучаем модельку на нескалированных данных

In [31]:
model=CatBoostClassifier(
    custom_loss=[metrics.Accuracy()],
    random_seed=42,
    logging_level='Silent'
    )

In [32]:
model.fit(
    X_train_dummie, y_train,
    eval_set=(X_test_dummie, y_test),
    plot=True)

MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

<catboost.core.CatBoostClassifier at 0x2d14cf6e700>

In [34]:
pred_CatBoost = model.predict_proba(X_test_dummie)[:,1]
roc_auc_score(y_test, pred_CatBoost)

0.8614669420504444

##### 14. Обучаем модельку на скалированных данных

In [35]:
model.fit(
    X_train_dummie_scaled, y_train,
    eval_set=(X_test_dummie_scaled, y_test),
    plot=True)

MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

<catboost.core.CatBoostClassifier at 0x2d14cf6e700>

In [36]:
pred_CatBoost = model.predict_proba(X_test_dummie_scaled)[:,1]
roc_auc_score(y_test, pred_CatBoost)

0.8614669420504444