# Table of Contents
 <p><div class="lev1 toc-item"><a href="#Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга" data-toc-modified-id="Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Применение алгоритмов машинного обучения для задачи банковского скоринга</a></div>

# Применение алгоритмов машинного обучения для задачи банковского скоринга

Входными данными являются наборы для обучения и для тестирования:
* bank_scoring_train.csv.gz
* bank_scoring_test.csv.gz

Описание полей:
* SeriousDlqin2yrs - Флаг выхода на просрочку через 90 дней
* RevolvingUtilizationOfUnsecuredLines - Общий баланс по кредитным картам и личным кредитным линиям, за исключением недвижимости, и без задолженности по кредитам, таким как автокредиты, деленные на сумму кредитных лимитов
* age - Возраст заёмщика в годах
* NumberOfTime30-59DaysPastDueNotWorse - Сколько раз заемщик просрочил выплату не более, чем на 30-59 дней, за последние 2 года.
* DebtRatio - Ежемесячные платежи по долгам, алименты и прожиточные расходы, делённые на месячный валовый доход
* MonthlyIncome - Ежемесячный доход
* NumberOfOpenCreditLinesAndLoans - Количество открытых кредитов (например, автокредит или закладная, кредитные карты и т.д.)
* NumberOfTimes90DaysLate - Сколько раз заёмщик просрочил выплату на 90 дней и более.
* NumberRealEstateLoansOrLines - Количество ипотечных кредитов и кредитов на недвижимость
* NumberOfTime60-89DaysPastDueNotWorse - Сколько раз заёмщик просрочил выплату не более, чем на 60-89 дней, за последние 2 года.
* NumberOfDependents - Количество иждивенцев в семье, исключая самого заёмщика (супруга, дети и т.д.)

Целевой переменной является SeriousDlqin2yrs

** Рекомендации по использованию моделей, метрик и кросс-валидации представлены в compare_algorithms_emp **

In [92]:
import pandas as pd
from sklearn import tree, metrics, cross_validation, linear_model, neighbors, svm
import numpy as np

In [2]:
df = pd.read_csv("bank_scoring_train.csv", delimiter='\t')
dff = pd.read_csv("bank_scoring_test.csv", delimiter='\t')

In [3]:
df.head()

Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
0,0,0.975614,39,1,0.678552,1850.0,4,0,0,0,3.0
1,0,0.006634,75,0,0.082087,10500.0,21,0,1,0,0.0
2,0,0.227432,48,1,0.202145,6059.0,9,0,1,0,3.0
3,0,0.290217,59,0,0.674392,4400.0,6,0,2,0,0.0
4,0,0.0,80,0,0.0,2596.0,2,0,0,0,1.0


In [81]:
dff.head()

Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
0,0,0.163412,43,0,0.537356,8833.0,11,0,3,0,2.0
1,0,0.928872,48,2,0.149728,9750.0,6,0,2,1,0.0
2,0,0.100996,63,0,0.281506,5736.0,5,0,1,0,0.0
3,0,0.110392,57,0,0.219982,12500.0,16,0,2,0,2.0
4,0,0.143659,42,0,0.401813,7500.0,6,0,1,0,2.0


In [4]:
df.shape

(96216, 11)

In [5]:
labels = df.SeriousDlqin2yrs

In [6]:
df = df.drop('SeriousDlqin2yrs', 1)

In [61]:
df.shape

(96216, 10)

In [117]:
def check(model):
    
    answ = []
    
    model.fit(df, labels)
    res = model.predict(dff.drop('SeriousDlqin2yrs', 1))
    for metric in ['roc_auc', 'accuracy', 'precision', 'recall', 'f1']:
        cv_res = cross_validation.cross_val_score(model, dff.drop('SeriousDlqin2yrs', 1), dff.SeriousDlqin2yrs, scoring=metric)
        answ.append(np.mean(cv_res))
    print answ

In [108]:
decisionTree = tree.DecisionTreeClassifier(max_depth=5)

In [109]:
linearClassifier = linear_model.SGDClassifier(penalty='l2', random_state=421)

In [110]:
kNN = neighbors.KNeighborsClassifier()

In [111]:
SVM = svm.SVC()

In [118]:
check(decisionTree)

[0.81056605906783974, 0.93061158835595259, 0.48409403752807362, 0.17255106608343415, 0.25301922082090494]


In [119]:
check(linearClassifier)

[0.57379873859329933, 0.92583026907183674, 0.03425985778926955, 0.0036474191075124424, 0.0064602084267245041]


In [120]:
check(kNN)

[0.59267800828844797, 0.92790918989506166, 0.22548187444739168, 0.021872327035663164, 0.039862612257409065]


In [121]:
check(SVM)

[0.66897076716519399, 0.93684782707786118, 0.93165242165242168, 0.083235832458041378, 0.15277757557532812]
