In [1]:
import numpy as np
import pandas as pd
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
warnings.filterwarnings('ignore')
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
plt.style.use('ggplot')
plt.rcParams["font.family"] = "Times New Roman"

In [2]:
from sklearn.model_selection import KFold, StratifiedKFold, train_test_split, cross_val_score
from sklearn.metrics import roc_auc_score, roc_curve, auc
from catboost.utils import get_roc_curve
import xgboost as xgb
from typing import List, Tuple

************

In [3]:
def reduce_mem_usage(df):
    """ iterate through all the columns of a dataframe and modify the data type
        to reduce memory usage.        
    """
    start_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    for col in df.columns:
        col_type = df[col].dtype
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')
    end_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(
        100 * (start_mem - end_mem) / start_mem))

    return df

In [4]:
train = reduce_mem_usage(pd.read_csv('assignment_2_train.csv'))
test = reduce_mem_usage(pd.read_csv('assignment_2_test.csv'))

Memory usage of dataframe is 541.08 MB
Memory usage after optimization is: 262.48 MB
Decreased by 51.5%
Memory usage of dataframe is 300.60 MB
Memory usage after optimization is: 145.82 MB
Decreased by 51.5%


In [5]:
train.head(2) 

Unnamed: 0,TransactionID,isFraud,TransactionDT,TransactionAmt,ProductCD,card1,card2,card3,card4,card5,...,V330,V331,V332,V333,V334,V335,V336,V337,V338,V339
0,2987000,0,86400,68.5,W,13926,,150.0,discover,142.0,...,,,,,,,,,,
1,2987001,0,86401,29.0,W,2755,404.0,150.0,mastercard,102.0,...,,,,,,,,,,


In [6]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180000 entries, 0 to 179999
Columns: 394 entries, TransactionID to V339
dtypes: category(14), float32(376), int16(1), int32(2), int8(1)
memory usage: 262.5 MB


In [7]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100001 entries, 0 to 100000
Columns: 394 entries, TransactionID to V339
dtypes: category(14), float32(376), int16(1), int32(2), int8(1)
memory usage: 145.8 MB


In [8]:
numerical_features = train.select_dtypes(include=[np.number]).columns.to_list()
numerical_features.remove('isFraud')
numerical_features.remove('TransactionID')
train_len = len(train)
dataset = pd.concat(objs=[train, test], axis=0)
dataset = pd.get_dummies(dataset)
dum_train = dataset[:train_len].copy() # dummies
dum_test = dataset[train_len:].copy() # dummies

In [9]:
# dum_train.set_index('TransactionID', inplace=True)
# dum_test.set_index('TransactionID', inplace=True)

**************************

**Задание 1:** сделать Hold-Out валидацию с разбиением, размер которого будет адеквтаным, по вашему мнению; разбиение проводить по id-транзакции (TransactionID), обучать модель градиетного бустинга любой реализации с подбором числа деревьев по early_stopping критерию до достижения сходимости. Оценить качество модели на валидационной выборке, оценить расхождение по сравнению с качеством на обучающей выборке и валидационной выборке. Оценить качество на ЛБ, сравнить с качеством на обучении и валидации. Сделать выводы.


In [10]:
X_train, X_valid, y_train, y_valid = train_test_split(dum_train.drop(columns='isFraud'),
                                                      dum_train['isFraud'],
                                                      shuffle=False,
                                                      train_size=0.8
                                                     )

print("X_train:  {} rows, {} cols".format(*X_train.shape))
print("X_valid:  {} rows, {} cols".format(*X_valid.shape))

X_train:  144000 rows, 530 cols
X_valid:  36000 rows, 530 cols


In [11]:
train_xgb = xgb.DMatrix(data=X_train,
                            label=y_train
                            )

valid_xgb = xgb.DMatrix(data=X_valid,
                            label=y_valid,
                            )

test_xgb = xgb.DMatrix(data=dum_test.drop(columns='isFraud'),
                            label=dum_test['isFraud'],
                            )

In [12]:
params = {
    "booster": "gbtree",
    "objective": "binary:logistic",
    "eval_metric": "auc",
    "learning_rate": 0.05,
    "reg_lambda": 100,
    "max_depth": 4,
    "gamma": 10,
    "nthread": -1,
    "seed": 13
}

In [13]:
model_xgb_1 = xgb.train(
    params=params,
    dtrain=train_xgb,
    num_boost_round=500,
    early_stopping_rounds=50,
    evals=[(train_xgb, "train"), (valid_xgb, "valid")],
    verbose_eval=50,
    maximize=True,
)

[0]	train-auc:0.61546	valid-auc:0.62643
[50]	train-auc:0.85591	valid-auc:0.84138
[100]	train-auc:0.88780	valid-auc:0.86141
[150]	train-auc:0.90207	valid-auc:0.87917
[200]	train-auc:0.90865	valid-auc:0.88687
[250]	train-auc:0.91292	valid-auc:0.88940
[300]	train-auc:0.91581	valid-auc:0.89119
[350]	train-auc:0.91804	valid-auc:0.89186
[377]	train-auc:0.91807	valid-auc:0.89181


In [14]:
predictions_train = model_xgb_1.predict(train_xgb)
predictions_valid = model_xgb_1.predict(valid_xgb)
predictions_lb = model_xgb_1.predict(test_xgb)

print(f'train_auc: {round(roc_auc_score(y_train, predictions_train), 4)}')
print(f'valid_auc: {round(roc_auc_score(y_valid, predictions_valid), 4)}')
print(f'LB_auc: {round(roc_auc_score(dum_test.isFraud, predictions_lb), 4)}')

train_auc: 0.9183
valid_auc: 0.8918
LB_auc: 0.8677


Mодель не переобучилась. Более низкие значения метрики на валидационной и  тестовой выборке, скорее всего связано с ее отличием от train (по времени). 

***************************

**Задание 2:** сделать Hold-Out валидацию с разбиением на 3 выборки, разбиение проводить по id-транзакции (TransactionID), размер каждой выборки подобрать самостоятельно. Повторить процедуру из п.1. для каждой выборки.

In [15]:
X_train, X_valid, y_train, y_valid = train_test_split(dum_train.drop(columns='isFraud'),
                                                      dum_train['isFraud'],
                                                      shuffle=False,
                                                      train_size=0.7
                                                     )

X_valid, X_test, y_valid, y_test = train_test_split(X_valid,
                                                      y_valid,
                                                      shuffle=False,
                                                      train_size=0.5
                                                     )

print("X_train:  {} rows, {} cols".format(*X_train.shape))
print("X_valid:  {} rows, {} cols".format(*X_valid.shape))
print("X_test:  {} rows, {} cols".format(*X_test.shape))

X_train:  125999 rows, 530 cols
X_valid:  27000 rows, 530 cols
X_test:  27001 rows, 530 cols


In [16]:
train_xgb = xgb.DMatrix(data=X_train,
                            label=y_train
                            )

valid_xgb = xgb.DMatrix(data=X_valid,
                            label=y_valid,
                            )

test_xgb_1 = xgb.DMatrix(data=X_test,
                            label=y_test,
                            )

In [17]:
model_xgb_2 = xgb.train(
    params=params,
    dtrain=train_xgb,
    num_boost_round=500,
    early_stopping_rounds=50,
    evals=[(train_xgb, "train"), (valid_xgb, "valid")],
    verbose_eval=50,
    maximize=True,
)

[0]	train-auc:0.60237	valid-auc:0.61787
[50]	train-auc:0.83932	valid-auc:0.84059
[100]	train-auc:0.88608	valid-auc:0.87176
[150]	train-auc:0.90052	valid-auc:0.88054
[200]	train-auc:0.90766	valid-auc:0.88561
[250]	train-auc:0.91168	valid-auc:0.88821
[300]	train-auc:0.91395	valid-auc:0.89008
[350]	train-auc:0.91499	valid-auc:0.89077
[374]	train-auc:0.91499	valid-auc:0.89077


In [18]:
predictions_train = model_xgb_2.predict(train_xgb)
predictions_valid = model_xgb_2.predict(valid_xgb)
predictions_test = model_xgb_2.predict(test_xgb_1)
predictions_lb = model_xgb_2.predict(test_xgb)

print(f'train_auc: {round(roc_auc_score(y_train, predictions_train), 4)}')
print(f'valid_auc: {round(roc_auc_score(y_valid, predictions_valid), 4)}')
print(f'test_auc: {round(roc_auc_score(y_test, predictions_test), 4)}')
print(f'LB_auc: {round(roc_auc_score(dum_test.isFraud, predictions_lb), 4)}')

train_auc: 0.9152
valid_auc: 0.8908
test_auc: 0.8746
LB_auc: 0.87


Более четко прослеживается снижение метрик в зависимости от времени транзакций (но пока это предположежние) Чем дальше по времени выборка от обучающей тем ниже точность

***********************

**Задание 3:** построить доверительный интервал на данных из п.2 на основе бутстреп выборок, оценить качество модели на ЛБ относительно полученного доверительного интервала. Сделать выводы.

In [19]:
def create_bootstrap_samples(data: np.array, n_samples: int = 1000) -> np.array:

    bootstrap_idx = np.random.randint(
        low=0, high=len(data), size=(n_samples, len(data))
    )
    return bootstrap_idx


def create_bootstrap_metrics(y_true: np.array,
                             y_pred: np.array,
                             metric: callable,
                             n_samlpes: int = 1000) -> List[float]:

    scores = []

    if isinstance(y_true, pd.Series):
        y_true = y_true.values

    bootstrap_idx = create_bootstrap_samples(y_true)
    for idx in bootstrap_idx:
        y_true_bootstrap = y_true[idx]
        y_pred_bootstrap = y_pred[idx]

        score = metric(y_true_bootstrap, y_pred_bootstrap)
        scores.append(score)

    return scores


def calculate_confidence_interval(scores: list, conf_interval: float = 0.95) -> Tuple[float]:

    left_bound = np.percentile(
        scores, ((1 - conf_interval) / 2) * 100
    )
    right_bound = np.percentile(
        scores, (conf_interval + ((1 - conf_interval) / 2)) * 100
    )

    return left_bound, right_bound

In [20]:
# на второй отложенной выборке (test)
np.random.seed(13)
scores = create_bootstrap_metrics(y_test, predictions_test, roc_auc_score)
calculate_confidence_interval(scores)

(0.8617681567798728, 0.886603204561964)

In [21]:
# на первой отложенной выборке (valid)
np.random.seed(13)
scores = create_bootstrap_metrics(y_valid, predictions_valid, roc_auc_score)
calculate_confidence_interval(scores)

(0.8783007651859719, 0.902352930773495)

Вывод: значение метрики на LB - попадает в интервал (test), но не попадает в интервал выборки valid (и не попал бы в доверительный интервал valid из 1 задания) - опять же вывод про разницу (?во времени) между train и test 

*************************

**Задание 4:** выполнить Adversarial Validation, подобрать объекты из обучающей выборки, которые сильно похожи на объекты из assignment_2_test.csv, и использовать их в качестве валидационного набора. Оценить качество модели на ЛБ, сделать выводы о полученных результатах.

In [22]:
x_adv = pd.concat([
    dum_train, dum_test], axis=0
)
y_adv = np.hstack((np.zeros(dum_train.shape[0]), np.ones(dum_test.shape[0])))
assert x_adv.shape[0] == y_adv.shape[0]

In [23]:
model = xgb.XGBClassifier(n_estimators=100, eval_metric='auc')
model.fit(x_adv[numerical_features], y_adv)

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, eval_metric='auc',
              gamma=0, gpu_id=-1, importance_type='gain',
              interaction_constraints='', learning_rate=0.300000012,
              max_delta_step=0, max_depth=6, min_child_weight=1, missing=nan,
              monotone_constraints='()', n_estimators=100, n_jobs=16,
              num_parallel_tree=1, random_state=0, reg_alpha=0, reg_lambda=1,
              scale_pos_weight=1, subsample=1, tree_method='exact',
              validate_parameters=1, verbosity=None)

In [24]:
y_pred_adv = model.predict_proba(x_adv[numerical_features])
score = roc_auc_score(y_adv, y_pred_adv[:, 1])
print(round(score, 4))

1.0


Алгоритм полностью отличает тестовый набор данных от тренйна. Не уж то по времени транзакции? Подобрать похожую на тест выборку нельзя

******************************************

**Задание 5:** сделать KFold / StratifiedKFold валидацию (на ваше усмотрение), оценить получаемые качество и разброс по метрике качества. Сделать выводы об устойчивости кросс-валидации, сходимости оценки на кросс-валидации и отложенном наборе данных; Оценить качество на ЛБ, сделать выводы.

In [25]:
def make_cross_validation(X: pd.DataFrame,
                          y: pd.Series,
                          estimator: object,
                          metric: callable,
                          cv_strategy):
  
    estimators, fold_train_scores, fold_valid_scores = [], [], []
    oof_predictions = np.zeros(X.shape[0])

    for fold_number, (train_idx, valid_idx) in enumerate(cv_strategy.split(X, y)):
        x_train, x_valid = X.loc[train_idx], X.loc[valid_idx]
        y_train, y_valid = y.loc[train_idx], y.loc[valid_idx]

        estimator.fit(x_train, y_train)
        y_train_pred = estimator.predict_proba(x_train)
        y_valid_pred = estimator.predict_proba(x_valid)

        fold_train_scores.append(metric(y_train, y_train_pred[:,1]))
        fold_valid_scores.append(metric(y_valid, y_valid_pred[:,1]))
        oof_predictions[valid_idx] = y_valid_pred[:,1]

        msg = (
            f"Fold: {fold_number+1}, train-observations = {len(train_idx)}, "
            f"valid-observations = {len(valid_idx)}\n"
            f"train-score = {round(fold_train_scores[fold_number], 4)}, "
            f"valid-score = {round(fold_valid_scores[fold_number], 4)}" 
        )
        print(msg)
        print("="*69)
        estimators.append(estimator)

    oof_score = metric(y, oof_predictions)
    print(f"CV-results train: {round(np.mean(fold_train_scores), 4)} +/- {round(np.std(fold_train_scores), 3)}")
    print(f"CV-results valid: {round(np.mean(fold_valid_scores), 4)} +/- {round(np.std(fold_valid_scores), 3)}")
    print(f"OOF-score = {round(oof_score, 4)}")

    return estimators, oof_score, fold_train_scores, fold_valid_scores, oof_predictions

In [26]:
cv_strategy = KFold(n_splits=5)
model = xgb.XGBClassifier(**params)
estimators, oof_score, fold_train_scores, fold_valid_scores, oof_predictions = make_cross_validation(
    dum_train.drop(columns='isFraud'), dum_train['isFraud'], model, metric=roc_auc_score, cv_strategy=cv_strategy
)

Fold: 1, train-observations = 144000, valid-observations = 36000
train-score = 0.8899, valid-score = 0.8572
Fold: 2, train-observations = 144000, valid-observations = 36000
train-score = 0.8879, valid-score = 0.8786
Fold: 3, train-observations = 144000, valid-observations = 36000
train-score = 0.8842, valid-score = 0.8838
Fold: 4, train-observations = 144000, valid-observations = 36000
train-score = 0.8859, valid-score = 0.8737
Fold: 5, train-observations = 144000, valid-observations = 36000
train-score = 0.8877, valid-score = 0.8613
CV-results train: 0.8871 +/- 0.002
CV-results valid: 0.8709 +/- 0.01
OOF-score = 0.8668


Кросс-валидация устойчивая, дисперсия низкая. Результаты ближе к LB,  но нельзя проследить зависимость от времени транкзакции