# Table of Contents
 <p><div class="lev1 toc-item"><a href="#Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга" data-toc-modified-id="Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Применение алгоритмов машинного обучения для задачи банковского скоринга</a></div>

# Применение алгоритмов машинного обучения для задачи банковского скоринга

Входными данными являются наборы для обучения и для тестирования:
* bank_scoring_train.csv.gz
* bank_scoring_test.csv.gz

Описание полей:
* SeriousDlqin2yrs - Флаг выхода на просрочку через 90 дней
* RevolvingUtilizationOfUnsecuredLines - Общий баланс по кредитным картам и личным кредитным линиям, за исключением недвижимости, и без задолженности по кредитам, таким как автокредиты, деленные на сумму кредитных лимитов
* age - Возраст заёмщика в годах
* NumberOfTime30-59DaysPastDueNotWorse - Сколько раз заемщик просрочил выплату не более, чем на 30-59 дней, за последние 2 года.
* DebtRatio - Ежемесячные платежи по долгам, алименты и прожиточные расходы, делённые на месячный валовый доход
* MonthlyIncome - Ежемесячный доход
* NumberOfOpenCreditLinesAndLoans - Количество открытых кредитов (например, автокредит или закладная, кредитные карты и т.д.)
* NumberOfTimes90DaysLate - Сколько раз заёмщик просрочил выплату на 90 дней и более.
* NumberRealEstateLoansOrLines - Количество ипотечных кредитов и кредитов на недвижимость
* NumberOfTime60-89DaysPastDueNotWorse - Сколько раз заёмщик просрочил выплату не более, чем на 60-89 дней, за последние 2 года.
* NumberOfDependents - Количество иждивенцев в семье, исключая самого заёмщика (супруга, дети и т.д.)

Целевой переменной является SeriousDlqin2yrs

** Рекомендации по использованию моделей, метрик и кросс-валидации представлены в compare_algorithms_emp **

In [3]:
%pwd

'/home/kirill/TechnosphereML/Lecture_4/bank_scoring'

In [4]:
import pandas as pd
import numpy as np

In [5]:
data = pd.read_table('bank_scoring_train.csv', sep = '\t')
resData = pd.read_table('bank_scoring_test.csv', sep = '\t')

In [6]:
predictorNames = data.columns[1:].values
aimName = data.columns[0]

In [7]:
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors = 2)
neigh.fit(data[predictorNames], data[aimName])

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=2, p=2,
           weights='uniform')

In [8]:
neigh.predict(resData[predictorNames])

array([0, 0, 0, ..., 0, 0, 0])

In [9]:
from sklearn.metrics import classification_report

In [10]:
report = classification_report(resData[aimName], neigh.predict(resData[predictorNames]))

In [11]:
print(report)

             precision    recall  f1-score   support

          0       0.95      0.99      0.97     22407
          1       0.71      0.25      0.37      1646

avg / total       0.93      0.94      0.93     24053



In [12]:
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state = 0, max_depth = 100)

In [13]:
clf.fit(data[predictorNames], data[aimName])

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=100,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best')

In [14]:
report = classification_report(resData[aimName], clf.predict(resData[predictorNames]))
print(report)

             precision    recall  f1-score   support

          0       0.98      0.97      0.97     22407
          1       0.65      0.68      0.66      1646

avg / total       0.95      0.95      0.95     24053



In [15]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

In [16]:
lr.fit(data[predictorNames], data[aimName])

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [17]:
report = classification_report(resData[aimName], lr.predict(resData[predictorNames]))
print(report)

             precision    recall  f1-score   support

          0       0.93      1.00      0.96     22407
          1       0.53      0.04      0.08      1646

avg / total       0.91      0.93      0.90     24053



In [18]:
lr.predict(resData[predictorNames])

array([0, 0, 0, ..., 0, 0, 0])

In [19]:
np.sum(lr.predict(resData[predictorNames]) == 0)

23922

In [20]:
from sklearn.svm import SVC
svc = SVC()

In [21]:
svc.fit(data[predictorNames], data[aimName])

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [22]:
 report = classification_report(resData[aimName], svc.predict(resData[predictorNames]))

In [23]:
print(report)

             precision    recall  f1-score   support

          0       0.95      1.00      0.98     22407
          1       0.95      0.33      0.49      1646

avg / total       0.95      0.95      0.94     24053

