<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга" data-toc-modified-id="Применение-алгоритмов-машинного-обучения-для-задачи-банковского-скоринга-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Применение алгоритмов машинного обучения для задачи банковского скоринга</a></span></li><li><span><a href="#Сравнить-работу-алгоритмов-классификации:" data-toc-modified-id="Сравнить-работу-алгоритмов-классификации:-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Сравнить работу алгоритмов классификации:</a></span></li><li><span><a href="#Для-анализа-работы-алгоритмов-использовать-метрики:" data-toc-modified-id="Для-анализа-работы-алгоритмов-использовать-метрики:-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Для анализа работы алгоритмов использовать метрики:</a></span></li><li><span><a href="#Для-разбиения-выборки-в-процессе-кросс-валидации-в-процессе-обучения-можно-использовать-KFold:" data-toc-modified-id="Для-разбиения-выборки-в-процессе-кросс-валидации-в-процессе-обучения-можно-использовать-KFold:-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Для разбиения выборки в процессе кросс-валидации в процессе обучения можно использовать KFold:</a></span></li></ul></div>

# Применение алгоритмов машинного обучения для задачи банковского скоринга

Входными данными являются наборы для обучения и для тестирования:
* bank_scoring_train.csv.gz
* bank_scoring_test.csv.gz

Описание полей:
* SeriousDlqin2yrs - Флаг выхода на просрочку через 90 дней
* RevolvingUtilizationOfUnsecuredLines - Общий баланс по кредитным картам и личным кредитным линиям, за исключением недвижимости, и без задолженности по кредитам, таким как автокредиты, деленные на сумму кредитных лимитов
* age - Возраст заёмщика в годах
* NumberOfTime30-59DaysPastDueNotWorse - Сколько раз заемщик просрочил выплату не более, чем на 30-59 дней, за последние 2 года.
* DebtRatio - Ежемесячные платежи по долгам, алименты и прожиточные расходы, делённые на месячный валовый доход
* MonthlyIncome - Ежемесячный доход
* NumberOfOpenCreditLinesAndLoans - Количество открытых кредитов (например, автокредит или закладная, кредитные карты и т.д.)
* NumberOfTimes90DaysLate - Сколько раз заёмщик просрочил выплату на 90 дней и более.
* NumberRealEstateLoansOrLines - Количество ипотечных кредитов и кредитов на недвижимость
* NumberOfTime60-89DaysPastDueNotWorse - Сколько раз заёмщик просрочил выплату не более, чем на 60-89 дней, за последние 2 года.
* NumberOfDependents - Количество иждивенцев в семье, исключая самого заёмщика (супруга, дети и т.д.)

Целевой переменной является SeriousDlqin2yrs

# Сравнить работу алгоритмов классификации:
* KNeighborsClassifier (например, с числом ближайших соседей n_neighbors = 1, 10, 50, 100)

http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier

* DecisionTreeClassifier (например, с максимальной глубиной max_depth = 1, 10, 100, None)

http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

* LogisticRegression

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

# Для анализа работы алгоритмов использовать метрики:
* f1_score

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html

* roc_auc_score

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html

* accuracy_score

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html

# Для разбиения выборки в процессе кросс-валидации в процессе обучения можно использовать KFold: 

* http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html

In [8]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
import pandas as pd
import numpy as np

samples = pd.read_csv('./bank_scoring_train.csv', sep = '\t')
y = samples['SeriousDlqin2yrs'].values
X = samples[['RevolvingUtilizationOfUnsecuredLines', 'age', 'NumberOfTime30-59DaysPastDueNotWorse', 'DebtRatio', 'MonthlyIncome', 
             'NumberOfOpenCreditLinesAndLoans', 'NumberOfTimes90DaysLate', 'NumberRealEstateLoansOrLines', 
             'NumberOfTime60-89DaysPastDueNotWorse', 'NumberOfDependents']].values
test_samples =  pd.read_csv('./bank_scoring_test.csv', sep = '\t')
y_test = samples['SeriousDlqin2yrs'].values
X_test = samples[['RevolvingUtilizationOfUnsecuredLines', 'age', 'NumberOfTime30-59DaysPastDueNotWorse', 'DebtRatio', 'MonthlyIncome', 
             'NumberOfOpenCreditLinesAndLoans', 'NumberOfTimes90DaysLate', 'NumberRealEstateLoansOrLines', 
             'NumberOfTime60-89DaysPastDueNotWorse', 'NumberOfDependents']].values

In [6]:
kfold = KFold (n_splits = 5)
algoritms = [KNeighborsClassifier (n_neighbors = 1), KNeighborsClassifier (n_neighbors = 10),
             KNeighborsClassifier (n_neighbors = 50), KNeighborsClassifier (n_neighbors = 100),
             DecisionTreeClassifier (max_depth = 1), DecisionTreeClassifier (max_depth = 10), 
             DecisionTreeClassifier (max_depth = 100), DecisionTreeClassifier (),
             LogisticRegression ()]
alg_names = ['KNeighbors1', 'KNeighbors10', 'KNeighbors50', 'KNeighbors100',
             'DecisionTree1', 'DecisionTree10', 'DecisionTree100', 'DecisionTreeNone', 'LogReg']

for alg, alg_name in zip (algoritms, alg_names):
    print('Значения правильности перекрестной проверки для ', alg_name, ' = ',
          cross_val_score (alg, X, y, cv=kfold).mean ())

Значения правильности перекрестной проверки для  KNeighbors1  =  0.9449364078900194
Значения правильности перекрестной проверки для  KNeighbors10  =  0.9309262431936771
Значения правильности перекрестной проверки для  KNeighbors50  =  0.93119646862816
Значения правильности перекрестной проверки для  KNeighbors100  =  0.9311652879186629
Значения правильности перекрестной проверки для  DecisionTree1  =  0.9311548950689437
Значения правильности перекрестной проверки для  DecisionTree10  =  0.9368192460648862
Значения правильности перекрестной проверки для  DecisionTree100  =  0.9430344369989209
Значения правильности перекрестной проверки для  DecisionTreeNone  =  0.9430032633105249
Значения правильности перекрестной проверки для  LogReg  =  0.9312484339569262


In [9]:
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import accuracy_score

for alg, alg_name in zip (algoritms, alg_names):
    y_pred = alg.fit (X, y).predict (X_test)
    print ('Результат для ', alg_name,
           ' f1_score = ', f1_score (y_test, y_pred),
           ' roc_auc_score = ', roc_auc_score (y_test, y_pred),
           ' accuracy_score = ', accuracy_score (y_test, y_pred))

Результат для  KNeighbors1  f1_score =  0.9996981587684878  roc_auc_score =  0.999977676578266  accuracy_score =  0.9999584268728694
Результат для  KNeighbors10  f1_score =  0.07714367651276169  roc_auc_score =  0.519852902400706  accuracy_score =  0.933108838446828
Результат для  KNeighbors50  f1_score =  0.00481203007518797  roc_auc_score =  0.5011519209142637  accuracy_score =  0.9312172611623847
Результат для  KNeighbors100  f1_score =  0.0003018867924528302  roc_auc_score =  0.5000754830917874  accuracy_score =  0.9311652947534713
Результат для  DecisionTree1  f1_score =  0.0  roc_auc_score =  0.5  accuracy_score =  0.9311549014716887


  'precision', 'predicted', average, warn_for)


Результат для  DecisionTree10  f1_score =  0.45494923857868025  roc_auc_score =  0.658563567884555  accuracy_score =  0.9464330256921926
Результат для  DecisionTree100  f1_score =  0.9997735336302559  roc_auc_score =  0.9998434529609918  accuracy_score =  0.999968820154652
Результат для  DecisionTreeNone  f1_score =  0.9997735336302559  roc_auc_score =  0.9998434529609918  accuracy_score =  0.999968820154652
Результат для  LogReg  f1_score =  0.020441416086505706  roc_auc_score =  0.5048846437181891  accuracy_score =  0.9312692275712979
