# Тестовое задание.

## Devim.

## Daudov Vagiz.

Отчет на тестовое задание.

Доступ ко всему коду и материалам доступен по ссылке на GitHub: https://github.com/vagizD/credit-predictions


## 1. Цель проекта.

Сравнить распределение каждого признака на выборке выданных кредитов (bad !=
nan) с распределением этого же признака на всей выборке. Прокомментировать
причину различий. Дополнить комментарии графиками, выбрав 4-5 показательных
признаков. Если есть признаки, между которыми различий в распределении не
наблюдается, объяснить причину.

Обучить модель классификации только на выданных кредитах, целевая переменная
bad. Придумать/найти алгоритм разметки отклоненных (bad=NaN) заявок. После
применения алгоритма разметки, обучить модель классификации на всех заявках.
Сравнить с моделью, обученной только на выданных.

In [None]:
# Main libraries
import sklearn
import catboost
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Process
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.inspection import permutation_importance
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

# Metrics
from sklearn.metrics import classification_report
from sklearn.metrics import f1_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.metrics import confusion_matrix

# Models
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from catboost import CatBoostClassifier

# Saving in binary
import pickle

## 2. Анализ данных.

### 2.1.  Тепловая карта.

Первым шагом анализа является просмотр наличия линейных зависимостей между данными. Это было выполнено с помощью тепловой карты (на выборке значений **bad!=nan**):

![Heatmap](heatmaps/whole-dataset-corr-mat-heatmap.png)

Как можно заметить, переменная bad не имеет линейного коэффициента зависимости больше, чем 0.08. Это означает, что линейные модели не смогут адекватно работать с данной выборкой данных. Это можно проверить на примере Логистической Регрессии.

In [None]:
# Testing simple LogisticRegression
np.random.seed(4)

lr = LogisticRegression(max_iter=300)

shuffled_df = df.dropna().drop(['region', 'approved', 'work_code'], axis=1).sample(frac=1)

X = shuffled_df.drop(['bad'], axis=1)
y = shuffled_df['bad']

scaler = StandardScaler(with_mean=True,
                        with_std=True).fit(X)
X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

lr.fit(X_train, y_train)
y_preds = lr.predict(X_test)
print(classification_report(y_test, y_preds))

In [None]:
              precision    recall  f1-score   support

         0.0       0.76      1.00      0.86      1103
         1.0       0.00      0.00      0.00       351

    accuracy                           0.76      1454
   macro avg       0.38      0.50      0.43      1454
weighted avg       0.58      0.76      0.65      1454

Результаты репорта показали, что модель **не может определить** значения bad=1 (просроченные кредиты). Она имеет точность 76% (это число может варироваться +- 3-4% в зависимости от разделения `sklearn.metrics.train_test_split`) потому, что предсказывает все значения целевой переменной bad=0 (каждый клиент вернет кредит). Процент содержания нулей в целевой переменной составляет те самые 73%.

### 2.2. Распределение данных.

После просмотра линейных коэффициентов, требуется проследить изменения **распределений** каждой переменной между всей выборкой и выборкой со значениями bad!=NaN.

Как показали результаты, переменные `bank_inqs_count_quarter`, `month_income`, `all_creds_count_lm`, `mfo_cred_mean_sum_3lm`, и `cred_day_overdue_all_sum_all` имеют самые значимые изменения в распределении.

Их вероятностные графики (слева представлена вся выборка, справа - только по выданным кредитам):

1. `bank_inqs_count_quarter`.

![bank_inqs_count_quarter](distributions/4-bank_inqs_count_quarter-distribution.png)

Рапределение справа похоже на **распределение Гаусса**, что очень полезно для моделей наподобии `RandomForestClassifier`. Также, происходит смещение среднего значения (см. *заметка*). Люди, которые подают больше заявок в банк, чаще получают кредит от МФО.

Заметка ( * ) : Оно происходит на изменении распреления каждой переменной потому, что люди, которым выдают кредит, имеют более высокие шансы его вернуть, чем те, кому не выдают кредит. Это исходит из того факта, что решение выдать или не выдать кредит происходит **не случайно**, а решается людьми, которые имеют опыт в определении этой вероятности в жизни. Они также оценивают потенциального клиента на основе его зарплаты, кредитной истории, взятых кредитов на данный момент и тд - все переменные задания - на основе своего опыта работы с клиентами. Таким образом, например, люди, которым выдали кредит, имеют в **среднем большую** зарплату, чем основная выборка. Сравнивая только тех, кому **не выдали кредит**, и тех, кому выдали, проследить изменение было бы еще более явно.

2. `month_income`.

![month_income](distributions/21-month_income-distribution.png)

График показывает изменения в высоте пиков и средней месячной зарплаты.

3. `all_creds_count_lm`

![all_creds_count_lm](distributions/19-all_creds_count_lm-distribution.png)

График справа не имеет высокого пика в нуле, форма имеет необходимое распределение.

4. `mfo_cred_mean_sum_3lm`.

![mfo_cred_mean_sum_3lm](distributions/11-mfo_cred_mean_sum_3lm-distribution.png)

Пик почти совпадает со средним значением. Также, средняя сумма кредитов от МФО за последние три месяца почти в два раза выше справа.

5. `cred_day_overdue_all_sum_all`.

![cred_day_overdue_all_sum_all](distributions/14-cred_day_overdue_all_sum_all-distribution.png)

Вместо биномиального распределения, здесь очень сильное изменение среднего значения, приблизительно 1300%. Это сопутствует изменению высоты пика, что очень сильно уменьшает среднее отклонение.


Есть также переменные, в которых изменения в распределении **не наблюдается**. Например:

6. `count_overdue_all_3lm`.

![count_overdue_all_3lm](distributions/18-count_overdue_all_3lm-distribution.png)

Два графика имеют практически идентичные средние значения и форму распределений. С большой вероятностью, это означает, что данная переменная не имеет важности в определении целевой переменной. Соответсвтенно, значимость для алгоритмов машинного обучения будет минимальная.

## 2.3. Использование RandomForestClassifier.

RFC является сильным алгоритмом классификации, который имеет возможность находить зависимости нелинейного рода, что является акутальной проблемой данной выборки.

In [None]:
# Testing non-linear relationships
np.random.seed(4)

rfc = RandomForestClassifier(n_estimators=1000, random_state=4)

rfc.fit(X_train, y_train)
rfc.score(X_test, y_test)

In [None]:
0.7537826685006878

Визуализация важности переменных для RFC:

![feature-importances](feature-importances/feature-importances.png)

Результаты, полученные с помощью данного метода, должны быть перепроверены, потому что для плохой модели определенные переменные могут иметь большую важность, а те же переменные для отличной модели - низкую (scikit-learn documentation). Для проверки потенциальной ошибки модели используется метод пермутации переменных:

![feature-importances-permutation](feature-importances/feature-importances-permutation.png)

Как можно увилеть, модель очень не стабильна. Огромный процент переменных показывает положительное влияние на модель в одних случаях и отрицатльное в других. Данный этап можно попробовать обойти искуственно - с помощью техники `forward_feature_selection`. Она позволяет провести итеративное извлечение переменных и выдает лучший их сет.

### 2.4. Forward feature selection.

Главная метрика - `f1_score`.

In [None]:
def evaluate_metric(model, x_cv, y_cv):
    return f1_score(y_cv, model.predict(x_cv), average='micro')


def forward_feature_selection(x_train, x_cv, y_train, y_cv, n):
    """
    Input : Dataframe df with m features, number of required features n
    Output : Set of n features most useful for model performance
    Decision function: f1_score
    """
    feature_set = []
    for num_features in range(n):
        metric_list = []
        model = RandomForestClassifier(n_estimators=1000,
                                       random_state=4)
        for feature in x_train.columns:
            if feature not in feature_set:
                f_set = feature_set.copy()
                f_set.append(feature)
                model.fit(x_train[f_set], y_train)
                metric_list.append((evaluate_metric(model, x_cv[f_set], y_cv), feature))

        metric_list.sort(key=lambda x : x[0], reverse = True)
        feature_set.append(metric_list[0][1])
    return feature_set

Получив 15 лучших переменных из 21, RFC выдает следующий результат:

In [None]:
# Testing best features with previous rfc
np.random.seed(4)

X = shuffled_df[best_features]
y = shuffled_df['bad']

scaler = StandardScaler(with_mean=True,
                        with_std=True).fit(X)

X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

rfc.fit(X_train, y_train)
y_preds = rfc.predict(X_test)

print(classification_report(y_test, y_preds))
print(rfc.score(X_test, y_test))

In [None]:
              precision    recall  f1-score   support

         0.0       0.73      0.98      0.84      1052
         1.0       0.45      0.04      0.08       402

    accuracy                           0.72      1454
   macro avg       0.59      0.51      0.46      1454
weighted avg       0.65      0.72      0.63      1454

Иными словами, модель проваливает свою цель хоть как то определять bad=1 значения. Далее, был проведен ряд испытаний и изменений гиперпараметров в целях улучшения результата `recall_score` для 1.0. Однако, результат отсутствовал. Вне зависимости от числа переменных, самих переменных, и гиперпараметров, число `true positive` значений не превосходило 15% от общего числа bad=1 значений (и даже в этих случаях падал `precision` и `recall` отрицательного класса). Поиск `forward_feature_selection_3` c главной метрикой в виде `recall_score` не дало видимых улучшений. Единственное, был получен список переменных в порядке уменьшения значимости для RFC, который мог бы быть использован в дальнейшем:

In [None]:
['cred_sum_debt_all_all', 'month_income', 'delay_more_sum_all',
'count_overdue_all_3lm', 'cred_sum_overdue_cc_all',
'cred_max_overdue_max_3lm', 'cred_max_overdue_max_ly',
'cred_day_overdue_all_sum_all', 'mfo_inqs_count_month',
'work_code', 'all_creds_count_lm', 'all_active_creds_sum_all',
'mfo_closed_count_ly', 'all_closed_creds_sum_ly',
'bank_inqs_count_quarter', 'cred_sum_cc_ly', 'mfo_last_days_all']

## 3. Моделирование 1.

Ввиду отсутствия положитльных результатов RFC, было решено попробовать другую модель из библиотеки catboost - CatBoostClassifier (CBC). Именно эта модель была выбрана потому, что она имеет параметр автоматического балансирования классов, что бы подняло `recall_score` для 1.0. Была применена такая же техника `forward_feature_selection` с главной метрикой в виде максимального числа  `true positive (tp)` значений и получен следующий результат:

In [None]:
Number of features: 16
5-folded CV score: 64.239%
              precision    recall  f1-score   support

         0.0       0.73      0.78      0.75      1041
         1.0       0.33      0.28      0.30       413

    accuracy                           0.63      1454
   macro avg       0.53      0.53      0.53      1454
weighted avg       0.62      0.63      0.62      1454

`recall` положительного класса уже 28%, хоть и точность модели оставляет желать лучшего - 64%. Было решено остановиться на этой модели и провести подбор гиперпараметров для CBC используя `grid_search`.

In [None]:
np.random.seed(4)

X = df_nona[final_feats]

y = df_nona['bad']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

final_model = CatBoostClassifier(loss_function='Logloss')

grid = {"learning_rate": [0.5, 1, 1.5],
        "random_seed": [4],
        "iterations": [1000],
        "auto_class_weights": ['Balanced'],
        "depth": [4, 6, 8, 10],
        "l2_leaf_reg": [1, 3, 5, 7, 9],
        "verbose": [False]}

final_model_tuning_1 = final_model.grid_search(param_grid=grid,
            X=X_train,
            y=y_train,
            cv=5,
            partition_random_seed=4,
            calc_cv_statistics=False,
            search_by_train_test_split=False,
            refit=True,
            shuffle=True,
            stratified=None,
            verbose=False,
            plot=True)

Улучшения модели отсутствовали, поэтому было решено оставить начальные результаты CBC. Модель была протестирована на финальном сете данных `test.csv` и получены практически идентичные результаты:

In [None]:
test_data = pd.read_csv('test.csv')

X_last = test_data.dropna()[final_feats]
y_last = test_data.dropna()['bad']

y_preds = cat.predict(X_last)

print(classification_report(y_last, y_preds))

In [None]:
              precision    recall  f1-score   support

         0.0       0.75      0.77      0.76       274
         1.0       0.31      0.28      0.30        99

    accuracy                           0.64       373
   macro avg       0.53      0.53      0.53       373
weighted avg       0.63      0.64      0.64       373

## 4. Алгоритм замены bad=NaN значений.

### 4.1. Гипотеза.

1. Отклоненные заявки могут быть промаркерованы **двумя способами** - с помощью создания новой категории (или категорий), или используя те же 1 и 0 значения (по сути это означает предсказать, что если бы человек получил кредит, который ему не был одобрен, то просрочил бы он его или нет). Первый вариант заранее включает в себя предвзятость - **100% корреляция** с переменной `approved`, поэтому остается второй вариант.
2. Для маркировки значений можно использовать имеющуюся модель и предсказать отсутствующие значения, но это заранее ставит определенные проблемы. Во-первых, CBC не обладает тем уровнем точности, чтобы адекватно предсказать значения, которые будут в дальнейшем использованы для тренировки другой модели. Во вторых, модель находит где то 25% bad=1 значений от всего количества, но это не просто другой датасет, в нем **изначально заложена другая информация** (как было упомянуто ранее в анализе распределений переменных): все значения bad=NaN (approved=0) уже решены на основе выборки данных. Этот датасет **должен** быть отличным от тренировочного датасета CBC потому, что он был отфильтрован людьми, которые решают, выдать кредит или нет (не радномное распределение переменной `approved`). Таким образом, **отношение bad=1/bad=0** должен быть не 27%/73%, а значитально выше.
3. Представим, что имеется гиперфункция, которая определяет вероятность того, будет ли возвращен кредит или нет (нахождение такой гиперфункции означало бы успешное завершение проекта). Человек, который выдает кредит, решает, при каком пороге его решение меняется с "выдать кредит" на "не выдавать кредит". Этот порог зависит не только от самого человека, но и от других факторов тоже (финансовая ситуация, последние изменения в законах, и другие вещи, которые не могут сразу отразиться в работе гиперфункции). Это может быть 50%, 60%, 65%, или даже 90%. Какой же **вероятностный порог** нашей выборки? Назовем его **ВП**.
4. Если известно отношение bad=1 значений к bad=0 значениям вместе с алгоритмом, определяющим эти значения, то можно вычислить ВП. Исходя из статистики, представленной в **пункте 2** (про отношение bad=1/bad=0 и 25% bad=1 значений), очевдино, что дефолтный порог в 50% (который стоит у моделей для определения бинарной классификации, также и у **CBC**) нужно поднять.
5. Представим, что ВП=65%. Это означает, что средний процент вероятности на выборке таких клиентов будет приблизительно 75%-80% (+-15% как основное стандартное отклонение на отрезке [0.65, 1.0]). Если взять ситуацию с МФО, где **1 из 4** людей просрачивает кредит (согласно статистике из начального датасета), то порог уверенности в 65% как раз подходит.

### 4.2. Использование гипотезы.

In [None]:
def check_threshold(threshold):
    np.random.seed(4)
    
    df_na = df.loc[df.bad.isna() == True]

    X = df_na[final_feats]
    
    y_preds = cat.predict_proba(X)
    
    labels = []
    for i in y_preds:
        if i[0] > threshold:
            labels.append(0)
        else:
            labels.append(1)
    return pd.DataFrame(labels, columns=['bad'])

In [None]:
Threshold is: 0.75
bad
0      8521
1      7326
dtype: int64
0 to 1 ratio: 1.16
Probability of bad=0: 0.54

In [None]:
np.random.seed(4)

df_na = df.loc[df.bad.isna() == True]

X = df_na[final_feats]

y_preds = cat.predict_proba(X)

labels = []
for i in y_preds:
    if i[0] > 0.75:
        labels.append(0)
    else:
        labels.append(1)

df_na['bad'] = labels

df_full = pd.concat([df.dropna(), df_na])

## 5. Моделирование 2.

Обучение CBC_2 на всей выборке.

In [None]:
np.random.seed(4)

cat_2 = CatBoostClassifier(learning_rate=1,
                           random_seed=4,
                           verbose=False,
                           iterations=1000,
                           auto_class_weights='Balanced',
                           depth=8,
                           l2_leaf_reg=3)

X = df_full[final_feats]
y = df_full['bad']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

cat_2.fit(X_train, y_train)
print(classification_report(y_test, cat_2.predict(X_test)))
print(np.mean(cross_val_score(cat_2, X_train, y_train, cv=5, verbose=False)))

In [None]:
              precision    recall  f1-score   support

         0.0       0.83      0.83      0.83      2790
         1.0       0.74      0.74      0.74      1834

    accuracy                           0.79      4624
   macro avg       0.78      0.78      0.78      4624
weighted avg       0.79      0.79      0.79      4624

0.7862323891201208

## 6. Сравнение моделирования 1 и моделирования 2.

Тест моделей на всей выборке:

In [None]:
AUC cat_1: 0.8988205657375812
              precision    recall  f1-score   support

         0.0       0.89      0.98      0.93      2790
         1.0       0.96      0.82      0.88      1834

    accuracy                           0.92      4624
   macro avg       0.93      0.90      0.91      4624
weighted avg       0.92      0.92      0.91      4624

AUC cat_2: 0.783397239713418
              precision    recall  f1-score   support

         0.0       0.83      0.83      0.83      2790
         1.0       0.74      0.74      0.74      1834

    accuracy                           0.79      4624
   macro avg       0.78      0.78      0.78      4624
weighted avg       0.79      0.79      0.79      4624

Тест моделей на финальной выборке `test.csv`:

In [None]:
             precision    recall  f1-score   support

         0.0       0.73      0.67      0.70        57
         1.0       0.17      0.22      0.20        18

    accuracy                           0.56        75
   macro avg       0.45      0.44      0.45        75
weighted avg       0.60      0.56      0.58        75

              precision    recall  f1-score   support

         0.0       0.80      0.75      0.77        57
         1.0       0.33      0.39      0.36        18

    accuracy                           0.67        75
   macro avg       0.56      0.57      0.57        75
weighted avg       0.69      0.67      0.67        75

AUC cat_1: 0.44444444444444453
AUC cat_2: 0.5716374269005848

### Вывод

1. Первая модель имеет 79% точность на выборке из bad=NaN значений, 92% точность на всей выборке, и 56% точность на финальной тестовой выборке (`recall`=0.22 положительного класса).
2. Вторая модель имеет 79% точность на всей выборке и 67% точность на финальной тестовой выборке (`recall`=0.39 положительного класса, выше чем все предыдущие значения).