# Table of Contents
 <p><div class="lev1 toc-item"><a href="#Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга" data-toc-modified-id="Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Применение алгоритмов машинного обучения для задачи банковского скоринга</a></div>

# Применение алгоритмов машинного обучения для задачи банковского скоринга

Входными данными являются наборы для обучения и для тестирования:
* bank_scoring_train.csv.gz
* bank_scoring_test.csv.gz

Описание полей:
* SeriousDlqin2yrs - Флаг выхода на просрочку через 90 дней
* RevolvingUtilizationOfUnsecuredLines - Общий баланс по кредитным картам и личным кредитным линиям, за исключением недвижимости, и без задолженности по кредитам, таким как автокредиты, деленные на сумму кредитных лимитов
* age - Возраст заёмщика в годах
* NumberOfTime30-59DaysPastDueNotWorse - Сколько раз заемщик просрочил выплату не более, чем на 30-59 дней, за последние 2 года.
* DebtRatio - Ежемесячные платежи по долгам, алименты и прожиточные расходы, делённые на месячный валовый доход
* MonthlyIncome - Ежемесячный доход
* NumberOfOpenCreditLinesAndLoans - Количество открытых кредитов (например, автокредит или закладная, кредитные карты и т.д.)
* NumberOfTimes90DaysLate - Сколько раз заёмщик просрочил выплату на 90 дней и более.
* NumberRealEstateLoansOrLines - Количество ипотечных кредитов и кредитов на недвижимость
* NumberOfTime60-89DaysPastDueNotWorse - Сколько раз заёмщик просрочил выплату не более, чем на 60-89 дней, за последние 2 года.
* NumberOfDependents - Количество иждивенцев в семье, исключая самого заёмщика (супруга, дети и т.д.)

Целевой переменной является SeriousDlqin2yrs

** Рекомендации по использованию моделей, метрик и кросс-валидации представлены в compare_algorithms_emp **

In [1]:
import pandas as pd
import numpy as np
import sklearn

In [2]:
Train = pd.read_csv('bank_scoring_train.csv', sep='\t')

In [3]:
Test = pd.read_csv('bank_scoring_test.csv', sep='\t')

In [4]:
Train.shape

(96216, 11)

In [5]:
X_train = Train.iloc[:,1:]
y_train = Train.iloc[:,0]
X_test = Test.iloc[:,1:]
y_test = Test.iloc[:,0]

In [8]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier

In [10]:
LR = LogisticRegression()
KN = KNeighborsClassifier()
DTC = DecisionTreeClassifier()
SV = SVC()
RFC = RandomForestClassifier()

In [11]:
DTC = DecisionTreeClassifier(max_depth = 5)
DTC.fit(X_train,y_train)
print('ROC for DTC: ',roc_auc_score(y_test,DTC.predict_proba(X_test)[:,1]))
print('accuracy for DTC: ',accuracy_score(y_test,DTC.predict(X_test)))
print('f1 for DTC: ',f1_score(y_test,DTC.predict(X_test)))

ROC for DTC:  0.828698135634
accuracy for DTC:  0.933854404856
f1 for DTC:  0.219715546837


In [12]:
LR = LogisticRegression(C = 0.01, penalty = 'l1')
LR.fit(X_train,y_train)
print('ROC for LR: ',roc_auc_score(y_test,LR.predict_proba(X_test)[:,1]))
print('accuracy for LR: ',accuracy_score(y_test,LR.predict(X_test)))
print('f1 for LR: ',f1_score(y_test,LR.predict(X_test)))

ROC for LR:  0.698236645585
accuracy for LR:  0.931650937513
f1 for LR:  0.0452961672474


In [13]:
KN = KNeighborsClassifier()
KN.fit(X_train,y_train)
print('ROC for KN: ',roc_auc_score(y_test,KN.predict_proba(X_test)[:,1]))
print('accuracy for KN: ',accuracy_score(y_test,KN.predict(X_test)))
print('f1 for KN: ',f1_score(y_test,KN.predict(X_test)))

ROC for KN:  0.776275854062
accuracy for KN:  0.929530619881
f1 for KN:  0.194774346793


In [31]:
RFC = RandomForestClassifier(random_state = 1,n_estimators=1000, max_depth=None )
RFC.fit(X_train,y_train)
print('ROC for RFC: ',roc_auc_score(y_test,RFC.predict_proba(X_test)[:,1]))
print('accuracy for RFC: ',accuracy_score(y_test,RFC.predict(X_test)))
print('f1 for RFC: ',f1_score(y_test,RFC.predict(X_test)))

ROC for RFC:  0.94817112568
accuracy for RFC:  0.970273978298
f1 for RFC:  0.742713206189
