<div style="font-size:18pt; padding-top:20px; text-align:center">СЕМИНАР. <b>Классификация с несбалансированной выборкой</b></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin.study@yandex.ru)</span></div>

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Загрузка исходных данных</a></li>
        <li><a href="#2">Обучение модели и оценка качества</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#2a">Расчет базовой отметки</a></li>
                <li><a href="#2b">Логистическая регрессия</a></li>
                <li><a href="#2c">Изменение порога предсказания</a></li>
                <li><a href="#2d">Логистическая регрессия с весами классов</a></li>
            </ol>
        </li>
        <li><a href="#3">Стратифицированная выборка</a></li>
        <li><a href="#4">Задание</a></li>
        <li><a href="#5">Источники</a>
        </li>
    </ol>
</div>

<p><b>Подключение библиотек</b></p>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_curve, roc_auc_score
from sklearn.model_selection import (train_test_split, 
                                     StratifiedKFold, 
                                     StratifiedShuffleSplit, 
                                     GridSearchCV, 
                                     cross_val_score)

%matplotlib inline

In [None]:
import sys
sys.path.insert(0, "../lib/")
from plot_confusion_matrix import plot_confusion_matrix

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">1. Загрузка исходных данных</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

Набор данных состоит из 10000 наблюдений со следующими признаками:

- `default`
    
    *Yes* указавает на то, что клиент не сможет выплатить долг, *No* если сможет.


- `student`
    
    Является ли клиент студентом (Yes/No)
    
    
- `balance`

    Средний баланс кредитной карты перед ежемесячными платежами
    
    
- `income`

    Доход клиента

In [None]:
FILE_PATH = "../data/Default.csv"

df = pd.read_csv(FILE_PATH)
df.head()

Конвертация строковых значений в числовые категориальные признаки:

In [None]:
# converters={"default": lambda x: int(x == "Yes"), "student": lambda x: int(x == "Yes")}

# Другие варианты
# df["default"] = np.where(df["default"]=="Yes", 1, 0)
# df["default"] = (df["default"] == "Yes").astype("int")

df["default"] = df["default"].apply(lambda x: int(x == "Yes"))
df["student"] = df["student"].apply(lambda x: int(x == "Yes"))
df.head(5)

Столбцы признаков и столбец целевых значений:

In [None]:
TARGET_COLUMN = "default"
FEATURE_COLUMNS = set(df.columns) - set([TARGET_COLUMN])
FEATURE_COLUMNS

Количество элементов в каждом целевом классе:

In [None]:
df["default"].value_counts()

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">2. Обучение модели и оценка качества</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

Разделение данных на обучающее и тестовое подмножества:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df[FEATURE_COLUMNS], df[TARGET_COLUMN],
                                                    test_size=0.3, random_state=123)

print("Обучающее множество:\n{}".format(y_train.value_counts()))
print("\nТестовое множество:\n{}".format(y_test.value_counts()))

<a name="2a"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Расчет базовой отметки
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#2b">Далее</a>
            </div>
        </div>
    </div>
</div>

In [None]:
y_train_pred = np.zeros(y_train.shape[0])
y_test_pred = np.zeros(y_test.shape[0])

print("Accuracy на обучающем множестве: {}".format(accuracy_score(y_train, y_train_pred)))
print("Accuracy на тестовом множестве: {}".format(accuracy_score(y_test, y_test_pred)))

Матрица ошибок:

In [None]:
# Train
plot_confusion_matrix(y_train, 
                      y_train_pred, 
                      np.array(["Non-default", "Default"]))
plt.show()

In [None]:
# Test
plot_confusion_matrix(y_test, 
                      y_test_pred, 
                      np.array(["Non-default", "Default"]))
plt.show()

<a name="2b"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Логистическая регрессия
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2a">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#2c">Далее</a>
            </div>
        </div>
    </div>
</div>

In [None]:
logr_model = LogisticRegression(penalty="l2", fit_intercept=True, max_iter=100, C=1e5,
                                solver="lbfgs", random_state=12345)
logr_model.fit(X_train, y_train)

print("Accuracy на обучающем множестве: {}".format(logr_model.score(X_train, y_train)))
print("Accuracy на тестовом множестве: {}".format(logr_model.score(X_test, y_test)))

Матрица ошибок:

In [None]:
# Train
plot_confusion_matrix(y_train, 
                      logr_model.predict(X_train), 
                      np.array(["Non-default", "Default"]))
plt.show()

In [None]:
# Test
plot_confusion_matrix(y_test, 
                      logr_model.predict(X_test), 
                      np.array(["Non-default", "Default"]))
plt.show()

ROC:

In [None]:
fpr_train, tpr_train, thresholds_train = roc_curve(y_train, logr_model.predict_proba(X_train)[:,1])
fpr_test, tpr_test, thresholds_test = roc_curve(y_test, logr_model.predict_proba(X_test)[:,1])

In [None]:
plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
plt.plot([0,1], [0,1], "--", color="grey")
plt.title("ROC for train")
plt.axvline(0, linestyle="-", c="black", lw=1)
plt.axvline(1, linestyle="--", c="black", lw=1)
plt.axhline(1, linestyle="--", c="black", lw=1)
plt.plot(fpr_train, tpr_train, "-", c="seagreen", lw=4)
plt.grid(True)
plt.ylabel("True Positive Rate")
plt.xlabel("False Positive Rate")
plt.xlim(-0.1, 1.1)
plt.ylim(0, 1.1)

plt.subplot(1,2,2)
plt.plot([0,1], [0,1], "--", color="grey")
plt.title("ROC for test")
plt.axvline(0, linestyle="-", c="black", lw=1)
plt.axvline(1, linestyle="--", c="black", lw=1)
plt.axhline(1, linestyle="--", c="black", lw=1)
plt.plot(fpr_test, tpr_test, "-", c="seagreen", lw=4)
plt.grid(True)
plt.ylabel("True Positive Rate")
plt.xlabel("False Positive Rate")
plt.xlim(-0.1, 1.1)
plt.ylim(0, 1.1)

plt.show()

ROC AUC:

In [None]:
roc_auc_train = roc_auc_score(y_train, logr_model.predict_proba(X_train)[:,1])
roc_auc_test = roc_auc_score(y_test, logr_model.predict_proba(X_test)[:,1])

print("ROC AUC на обучающем множестве: {}".format(roc_auc_train))
print("ROC AUC на тестовом множестве: {}".format(roc_auc_test))

<a name="2c"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            c. Изменение порога предсказания
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2b">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#2d">Далее</a>
            </div>
        </div>
    </div>
</div>

In [None]:
THRESHOLD = thresholds_train[np.argwhere((tpr_train > 0.8) & (tpr_train < 0.9))].mean()
THRESHOLD

In [None]:
def predict_with_threshold(model, threshold, X):
    if hasattr(model, "predict_proba") and callable(model.predict_proba):
        return np.where(logr_model.predict_proba(X)[:,1] >= threshold, 1, 0)
    raise Exception("This model isn't supported.")

In [None]:
y_train_pred = predict_with_threshold(logr_model, THRESHOLD, X_train)
y_test_pred = predict_with_threshold(logr_model, THRESHOLD, X_test)

print("Accuracy на обучающем множестве: {}".format(accuracy_score(y_train, y_train_pred)))
print("Accuracy на тестовом множестве: {}".format(accuracy_score(y_test, y_test_pred)))

Матрица ошибок:

In [None]:
# Train
plot_confusion_matrix(y_train, 
                      y_train_pred, 
                      np.array(["Non-default", "Default"]))
plt.show()

In [None]:
# Test
plot_confusion_matrix(y_test, 
                      y_test_pred, 
                      np.array(["Non-default", "Default"]))
plt.show()

<a name="2d"></a>
<div style="display:table; width:100%">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            d. Логистическая регрессия с весами классов
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style="display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2с">Назад</a>
            </div>
            <div style="display:table-cell; width:10%; text-align:center;">
                <a href="#3">Далее</a>
            </div>
        </div>
    </div>
</div>

In [None]:
logr_model = LogisticRegression(penalty="l2", fit_intercept=True, max_iter=100, C=1e5, 
                                class_weight="balanced",
                                solver="lbfgs", random_state=12345)
logr_model.fit(X_train, y_train)

print("Accuracy на обучающем множестве: {}".format(logr_model.score(X_train, y_train)))
print("Accuracy на тестовом множестве: {}".format(logr_model.score(X_test, y_test)))

Матрица ошибок:

In [None]:
# Train
plot_confusion_matrix(y_train, 
                      logr_model.predict(X_train), 
                      np.array(["Non-default", "Default"]))
plt.show()

In [None]:
# Test
plot_confusion_matrix(y_test, 
                      logr_model.predict(X_test), 
                      np.array(["Non-default", "Default"]))
plt.show()

ROC:

In [None]:
fpr_train, tpr_train, thresholds_train = roc_curve(y_train, logr_model.predict_proba(X_train)[:,1])
fpr_test, tpr_test, thresholds_test = roc_curve(y_test, logr_model.predict_proba(X_test)[:,1])

In [None]:
plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
plt.plot([0,1], [0,1], "--", color="grey")
plt.title("ROC for train")
plt.axvline(0, linestyle="-", c="black", lw=1)
plt.axvline(1, linestyle="--", c="black", lw=1)
plt.axhline(1, linestyle="--", c="black", lw=1)
plt.plot(fpr_train, tpr_train, "-", c="seagreen", lw=4)
plt.grid(True)
plt.ylabel("True Positive Rate")
plt.xlabel("False Positive Rate")
plt.xlim(-0.1, 1.1)
plt.ylim(0, 1.1)

plt.subplot(1,2,2)
plt.plot([0,1], [0,1], "--", color="grey")
plt.title("ROC for test")
plt.axvline(0, linestyle="-", c="black", lw=1)
plt.axvline(1, linestyle="--", c="black", lw=1)
plt.axhline(1, linestyle="--", c="black", lw=1)
plt.plot(fpr_test, tpr_test, "-", c="seagreen", lw=4)
plt.grid(True)
plt.ylabel("True Positive Rate")
plt.xlabel("False Positive Rate")
plt.xlim(-0.1, 1.1)
plt.ylim(0, 1.1)

plt.show()

ROC AUC:

In [None]:
roc_auc_train = roc_auc_score(y_train, logr_model.predict_proba(X_train)[:,1])
roc_auc_test = roc_auc_score(y_test, logr_model.predict_proba(X_test)[:,1])

print("ROC AUC на обучающем множестве: {}".format(roc_auc_train))
print("ROC AUC на тестовом множестве: {}".format(roc_auc_test))

Регулирование весов классов:

In [None]:
logr_model = LogisticRegression(penalty="l2", fit_intercept=True, max_iter=100, C=1e5, 
                                class_weight={0: 0.1, 1: 0.9},
                                solver="lbfgs", random_state=12345)
logr_model.fit(X_train, y_train)

print("Accuracy на обучающем множестве: {}".format(logr_model.score(X_train, y_train)))
print("Accuracy на тестовом множестве: {}".format(logr_model.score(X_test, y_test)))

In [None]:
plot_confusion_matrix(y_test, 
                      logr_model.predict(X_test), 
                      np.array(["Non-default", "Default"]))
plt.show()

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">3. Стратифицированная выборка</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

Отложенная выборка:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df[FEATURE_COLUMNS], df[TARGET_COLUMN],
                                                    stratify=df[TARGET_COLUMN],
                                                    test_size=0.3, random_state=123)

Кросс-валидация с k-Folds:

In [None]:
skf = StratifiedKFold(n_splits=10, random_state=111)

In [None]:
for train_index, test_index in skf.split(df[FEATURE_COLUMNS], df[TARGET_COLUMN]):
    print("Train: {} Test: {}".format(train_index[:5], test_index[:5]))

In [None]:
skf = StratifiedShuffleSplit(n_splits=10, random_state=123)

In [None]:
for train_index, test_index in skf.split(df[FEATURE_COLUMNS], df[TARGET_COLUMN]):
    print("Train: {} Test: {}".format(train_index[:5], test_index[:5]))

### Пример с логистической регрессией

In [None]:
logr_model = LogisticRegression(penalty="l2", fit_intercept=True, max_iter=100, C=1e5,
                                solver="lbfgs", random_state=12345)

In [None]:
skf = StratifiedShuffleSplit(n_splits=10, random_state=123)

**cross_val_score**

In [None]:
cross_val_score(logr_model, X_train, y_train, cv=skf, scoring="roc_auc").mean()

**GridSearchCV**

Определение сетки параметров:

In [None]:
parameters = {"class_weight":({0: 0.5, 1: 0.5}, {0: 0.1, 1: 0.9}, {0: 0.01, 1: 0.99}, 
                              {0: 0.001, 1: 0.999}, {0: 0.0001, 1: 0.9999},
                              {0: 0.00001, 1: 0.99999})}

Обучение:

In [None]:
clf = GridSearchCV(estimator=logr_model, param_grid=parameters, cv=skf, 
                   scoring="balanced_accuracy", refit=False, return_train_score=True)
clf.fit(X_train, y_train)

Значения `balanced_accuracy` на валидационном подмножетсве для каждого параметра:

In [None]:
clf.cv_results_["mean_test_score"]

Построение графика `balanced_accuracy` на обучающем и проверочном множествах:

In [None]:
class_1_weights = [pair[0]/pair[1] for pair in parameters["class_weight"]]

plt.figure(figsize=[6, 4])

plt.subplot(1,1,1)
plt.title("balanced_accuracy")
plt.plot(np.log10(class_1_weights), clf.cv_results_["mean_test_score"], "o-", label="Val")
plt.plot(np.log10(class_1_weights), clf.cv_results_["mean_train_score"], "o-", label="Train")
plt.xlabel("ratio")
plt.ylabel("balanced_accuracy")
plt.legend()
plt.grid(True)

plt.show()

Построение модели с выбранным параметром `class_weight` и обучение на (`X_train`, `y_train`):

In [None]:
# Note: GridSearchCV has already trained on the whole training set if refit=True (default value)
logr_model = LogisticRegression(penalty="l2", fit_intercept=True, max_iter=100, C=1e5,
                                class_weight={0: 0.1, 1: 0.9},
                                solver="lbfgs", random_state=12345)
logr_model.fit(X_train, y_train)

Отображение матрицы ошибок на тестовом подмножестве:

In [None]:
plot_confusion_matrix(y_test, 
                      logr_model.predict(X_test), 
                      np.array(["Non-default", "Default"]))
plt.show()

<a name="4"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">4. Задание</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a name="5"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">5. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

- [An Introduction to Statistical Learning by Gareth James,
Daniela Witten, Trevor Hastie, Robert Tibshir](http://faculty.marshall.usc.edu/gareth-james/ISL/)
- [3.1. Cross-validation: evaluating estimator performance](https://scikit-learn.org/stable/modules/cross_validation.html)
- [3.3. Metrics and scoring: quantifying the quality of predictions](https://scikit-learn.org/stable/modules/model_evaluation.html)