# Домашнее задание по деревьям принятия решений
Задача кредитного скоринга - одна из наиболее популярных областей, где применяются алгоритмы машинного обучения.<br>
Здесь мы будет прогнозировать, что человек просрочит выплаты по кредиту на 3 месяца и более (целевой признак - Delinquent90).<br>
В качестве метрики была выбрана AUC (Area Under Curve).

Признаки клиентов банка:
- Age - возраст (вещественный)
- Income - месячный доход (вещественный)
- BalanceToCreditLimit - отношение баланса на кредитной карте к лимиту по кредиту (вещественный)
- DIR - Debt-to-income Ratio (вещественный)
- NumLoans - число заемов и кредитных линий
- NumRealEstateLoans - число ипотек и заемов, связанных с недвижимостью (натуральное число)
- NumDependents - число членов семьи, которых содержит клиент, исключая самого клиента (натуральное число)
- Num30-59Delinquencies - число просрочек выплат по кредиту от 30 до 59 дней (натуральное число)
- Num60-89Delinquencies - число просрочек выплат по кредиту от 60 до 89 дней (натуральное число)
- Delinquent90 - были ли просрочки выплат по кредиту более 90 дней (бинарный) - имеется только в обучающей выборке

## 1. Обучение дерева принятия решений
## 1.1 Подгрузка библиотек и инициализация вспомогательных функций

In [1]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import confusion_matrix

In [2]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import roc_auc_score, roc_curve

# функция, выдающая базовые метрики классификации
def quality_report(prediction, actual):
    print("Accuracy: {:.3f}\nPrecision: {:.3f}\nRecall: {:.3f}\nf1_score: {:.3f}".format(
        accuracy_score(prediction, actual),
        precision_score(prediction, actual),
        recall_score(prediction, actual),
        f1_score(prediction, actual)
    ))
    
# функция для отрисовки roc-кривой и подсчёта 
def plot_roc_curve(prob_prediction, actual):
    fpr, tpr, thresholds = roc_curve(y_test, prob_prediction)
    auc_score = roc_auc_score(y_test, prob_prediction)
    
    plt.plot(fpr, tpr, label='ROC curve ')
    plt.plot([0, 1], [0, 1])
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC AUC: {:.3f}'.format(auc_score))
    plt.show()

## 1.2 Загрузка данных

In [3]:
train_df = pd.read_csv('../data/credit_scoring_train.csv', index_col='client_id')
test_df = pd.read_csv('../data/credit_scoring_test.csv', index_col='client_id')

In [4]:
# размер тренировочного набора
train_df.shape

(75000, 10)

In [5]:
# бегло вглянем на данные в тренировочном наборе
train_df.head()

Unnamed: 0_level_0,DIR,Age,NumLoans,NumRealEstateLoans,NumDependents,Num30-59Delinquencies,Num60-89Delinquencies,Income,BalanceToCreditLimit,Delinquent90
client_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,0.496289,49.1,13,0,0.0,2,0,5298.360639,0.387028,0
1,0.433567,48.0,9,2,2.0,1,0,6008.056256,0.234679,0
2,2206.731199,55.5,21,1,,1,0,,0.348227,0
3,886.132793,55.3,3,0,0.0,0,0,,0.97193,0
4,0.0,52.3,1,0,0.0,0,0,2504.613105,1.00435,0


В данных наблюдаются пропуски. Необходимо посчитать для каждого признака, сколько информации утеряно, и принять решение о методе обработки пропущенных значений.

In [6]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 75000 entries, 0 to 74999
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   DIR                    75000 non-null  float64
 1   Age                    75000 non-null  float64
 2   NumLoans               75000 non-null  int64  
 3   NumRealEstateLoans     75000 non-null  int64  
 4   NumDependents          73084 non-null  float64
 5   Num30-59Delinquencies  75000 non-null  int64  
 6   Num60-89Delinquencies  75000 non-null  int64  
 7   Income                 60153 non-null  float64
 8   BalanceToCreditLimit   75000 non-null  float64
 9   Delinquent90           75000 non-null  int64  
dtypes: float64(5), int64(5)
memory usage: 6.3 MB


Атрибуты таблицы с тренировочными данными представлены в численном виде, обработка типов для признаков не требуется.

## 1.3 Предобработка данных
### 1.3.1 Обработка пропусков и невалидных значений

In [7]:
# посмотрим, сколько всего пропусков в каждом атрибуте в %
train_df.isnull().sum() / train_df.shape[0] * 100

DIR                       0.000000
Age                       0.000000
NumLoans                  0.000000
NumRealEstateLoans        0.000000
NumDependents             2.554667
Num30-59Delinquencies     0.000000
Num60-89Delinquencies     0.000000
Income                   19.796000
BalanceToCreditLimit      0.000000
Delinquent90              0.000000
dtype: float64

In [8]:
test_df.isnull().sum() / test_df.shape[0]

DIR                      0.000000
Age                      0.000000
NumLoans                 0.000000
NumRealEstateLoans       0.000000
NumDependents            0.026773
Num30-59Delinquencies    0.000000
Num60-89Delinquencies    0.000000
Income                   0.198453
BalanceToCreditLimit     0.000000
dtype: float64

В тренировочном наборе наблюдаются невалидные значения: 
- 2.5% в атрибуте NumDependents;
- 19.7% в атрибуте Income

В тестовом наборе также присутствуют пропущенные значения:
- менее 1% в атрибуте NumDependents
- менее 1% в атрибуте Income

Записи с невалидными значениями можно было бы удалить, но, на мой взгляд, удаление будет критичным, поскольку у нас всего 75_000 записей в тренировочном наборе. После разделения на тренировочный и валидационный датасеты их станет ещё меньше. 

Также пропуски можно было бы заполнить одним значением, но в атрибуте Income потеря информации составляет около 20% ($\frac{1}{5}$ ), есть риск, что этим действием я внесу лишние зависимости в данные. <b>На основе этих выводов,</b> я принимаю решение заполнить пропуски в данных с помощью алгоритма машинного обучения через модуль nona.

In [11]:
!pip install nona



In [19]:
nona(train_df)

NameError: name 'nona' is not defined

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    train_df.drop(['Delinquent90'], axis=1), 
    train_df['Delinquent90'], 
    test_size=0.20, 
    random_state=42, 
    stratify=train_df['Delinquent90']
)

In [None]:
y_train.value_counts(normalize=True)

In [None]:
y_test.value_counts(normalize=True)

In [None]:
X_train.hist(figsize=(15, 10));

In [None]:
# sns.pairplot(X_train, hue='Delinquent90');

### Baseline

In [None]:
y_naive = np.random.choice([0, 1], size=y_test.shape[0], p=y_train.value_counts(normalize=True))

In [None]:
quality_report(y_naive, y_test)

In [None]:
plot_roc_curve(y_naive, y_test)

### Дерево решений без настройки параметров

In [None]:
first_tree = DecisionTreeClassifier(max_depth=3, random_state=42)
first_tree.fit(X_train, y_train)

In [None]:
print("Train quality")
quality_report(first_tree.predict(X_train), y_train)

print("\nTest quality")
quality_report(first_tree.predict(X_test), y_test)

In [None]:
plot_roc_curve(first_tree.predict_proba(X_test)[:, 1], y_test)

In [None]:
featureImportance = pd.DataFrame({"feature": X_train.columns, 
                                  "importance": first_tree.feature_importances_})

featureImportance.set_index('feature', inplace=True)
featureImportance.sort_values(["importance"], ascending=False, inplace=True)
featureImportance["importance"].plot('bar');

In [None]:
graph = Source(sklearn.tree.export_graphviz(first_tree, out_file=None, feature_names=X_train.columns))
png_bytes = graph.pipe(format='png')
with open('dtree_pipe.png','wb') as f:
    f.write(png_bytes)

from IPython.display import Image
Image(png_bytes)

**Прогноз для тестовой выборки.**

In [None]:
first_tree_pred = first_tree.predict(test_df)

In [None]:
np.bincount(first_tree_pred)

**Запишем прогноз в файл.**

In [None]:
def write_to_submission_file(predicted_labels, out_file,
                             target='Delinquent90', index_label="client_id"):
    # turn predictions into data frame and save as csv file
    predicted_df = pd.DataFrame(predicted_labels,
                                index = np.arange(75000, 
                                                  predicted_labels.shape[0] + 75000),
                                columns=[target])
    predicted_df.to_csv(out_file, index_label=index_label)

In [None]:
first_tree_pred_probs = first_tree.predict_proba(test_df)[:, 1]

In [None]:
write_to_submission_file(first_tree_pred_probs, 'credit_scoring_first_tree_prob.csv')

## Дерево решений с настройкой параметров с помощью GridSearch

In [None]:
tree_params = {
               'max_depth': list(range(3,11)), 
               'min_samples_leaf': list(range(3,11)),
               'class_weight': [None, 'balanced']
}

locally_best_tree = GridSearchCV(DecisionTreeClassifier(random_state=42), 
                                 tree_params, 
                                 verbose=True, n_jobs=-1, cv=5,
                                scoring='roc_auc')
locally_best_tree.fit(X_train, y_train)

In [None]:
locally_best_tree.best_params_, round(locally_best_tree.best_score_, 3)

In [None]:
quality_report(locally_best_tree.predict(X_test), y_test)

In [None]:
plot_roc_curve(locally_best_tree.predict_proba(X_test)[:, 1], y_test)

In [None]:
featureImportance = pd.DataFrame({"feature": X_train.columns, 
                                  "importance": locally_best_tree.best_estimator_.feature_importances_})

featureImportance.set_index('feature', inplace=True)
featureImportance.sort_values(["importance"], ascending=False, inplace=True)
featureImportance["importance"].plot('bar');

In [None]:
graph = Source(sklearn.tree.export_graphviz(
    locally_best_tree.best_estimator_, out_file=None, feature_names=X_train.columns))
png_bytes = graph.pipe(format='png')
with open('big_tree.png','wb') as f:
    f.write(png_bytes)

from IPython.display import Image
Image(png_bytes)

In [None]:
cm = confusion_matrix(y_test, locally_best_tree.predict(X_test))
conf_matrix = pd.DataFrame(data = cm, columns = ['Predicted:0','Predicted:1'], index=['Actual:0','Actual:1'])
plt.figure(figsize = (5,5))
sns.heatmap(conf_matrix, annot=True,fmt='d',cmap="YlGnBu", cbar=False);