Продолжим работу с данными, которые были использованы в ДЗ2 и 3, продолжим решать задачу обнаружения мошеннических транзакций, что позволит получить полное решение задачи / полный пайплайн.

### Задание 0: 
Выбрать любую модель машнного обучения и зафиксировать любой тип валидации. Обучить базовую модель и зафиксировать базовое качество модели. В каждом следующем задании нужно будет обучить выбранную модель и оценивать ее качество на зафиксированной схеме валидации. После каждого задания, требуется сделать вывод о достигаемом качестве модели, по сравнению с качестом из предыдущего шага.

In [29]:
# !pip install missingno
# !pip install xgboost

In [3]:
from typing import List, Optional
from tqdm import tqdm

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

import seaborn as sns
import scipy.stats as st
from scipy.stats import probplot, ks_2samp

from sklearn.metrics import roc_auc_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import KFold, cross_val_score
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.utils.validation import check_is_fitted
import missingno as msno
import xgboost as xgb
%matplotlib inline

from sklearn.model_selection import train_test_split

In [4]:
train = pd.read_csv("assignment_2_train.csv")
test = pd.read_csv("assignment_2_test.csv")

print("train.shape = {} rows, {} cols".format(*train.shape))
print("test.shape = {} rows, {} cols".format(*test.shape))

train.shape = 180000 rows, 394 cols
test.shape = 100001 rows, 394 cols


In [5]:
train.sort_values("TransactionID", inplace=True)
X_train = train.drop("isFraud", axis=1)
y_train = train["isFraud"]

In [6]:
test.sort_values("TransactionID", inplace=True)
X_test = test.drop("isFraud", axis=1)
y_test = test["isFraud"]

In [7]:
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, shuffle=False, test_size=0.3, random_state=42)

In [8]:
numerical_features = X_train.select_dtypes(exclude=["object"])
numerical_features = numerical_features.columns.tolist()

In [9]:
def fit_eval(X_train, X_valid, X_test, y_train, y_valid, feats=numerical_features):
    eval_set = [(X_valid[feats], y_valid)]
    model = xgb.XGBClassifier(n_estimators=100, n_jobs=8)
    model.fit(X_train[feats],
            y_train,
            eval_metric='auc',
            eval_set=eval_set,
            early_stopping_rounds=5)
    
    y_train_pred = model.predict_proba(X_train[feats])
    print(f"Train score (ROC_AUC): {roc_auc_score(y_train, y_train_pred[:, 1])}")
    y_valid_pred = model.predict_proba(X_valid[feats])
    print(f"Valid score (ROC_AUC): {roc_auc_score(y_valid, y_valid_pred[:, 1])}")
    y_test_pred = model.predict_proba(X_test[feats])
    print(f"Test  score (ROC_AUC): {roc_auc_score(y_test, y_test_pred[:, 1])}")
    
    return model

In [10]:
base_model = fit_eval(X_train, X_valid, X_test, y_train, y_valid)



[0]	validation_0-auc:0.69945
[1]	validation_0-auc:0.79227
[2]	validation_0-auc:0.83576
[3]	validation_0-auc:0.83572
[4]	validation_0-auc:0.83670
[5]	validation_0-auc:0.83706
[6]	validation_0-auc:0.83939
[7]	validation_0-auc:0.84944
[8]	validation_0-auc:0.85100
[9]	validation_0-auc:0.85545
[10]	validation_0-auc:0.83308
[11]	validation_0-auc:0.81001
[12]	validation_0-auc:0.82093
[13]	validation_0-auc:0.83149
Train score (ROC_AUC): 0.8900934092842951
Valid score (ROC_AUC): 0.8554492591505862
Test  score (ROC_AUC): 0.8401148107316188


### Задание 1: 
Признак TransactionDT - это смещение в секундах относительно базовой даты. Базовая дата - 2017-12-01, преобразовать признак TransactionDT в datetime, прибавив к базовой дате исходное значение признака. Из полученного признака выделить год, месяц, день недели, час, день.

In [11]:
def process_transactionDT(X):
    base_date = pd.to_datetime('2017-12-01')
    X["TransactionDT"] = base_date + pd.to_timedelta(X["TransactionDT"], unit='s')
    X["TransactionDT_Year"] = X["TransactionDT"].dt.year
    X["TransactionDT_Month"] = X["TransactionDT"].dt.month
    X["TransactionDT_WeekDay"] = X["TransactionDT"].dt.weekday
    X["TransactionDT_Day"] = X["TransactionDT"].dt.day
    X["TransactionDT_Hour"] = X["TransactionDT"].dt.hour
    X["TransactionDT"] = (X["TransactionDT"].astype('int64')/1000000000).astype('int64')
    return X

In [12]:
X_train = process_transactionDT(X_train)
X_valid = process_transactionDT(X_valid)
X_test = process_transactionDT(X_test)

In [13]:
all_features = numerical_features + ["TransactionDT_Year", "TransactionDT_Month", "TransactionDT_WeekDay", "TransactionDT_Day", "TransactionDT_Hour"]

In [14]:
model = fit_eval(X_train, X_valid, X_test, y_train, y_valid, feats=all_features)



[0]	validation_0-auc:0.69945
[1]	validation_0-auc:0.79227
[2]	validation_0-auc:0.83578
[3]	validation_0-auc:0.83574
[4]	validation_0-auc:0.83675
[5]	validation_0-auc:0.83714
[6]	validation_0-auc:0.83946
[7]	validation_0-auc:0.84949
[8]	validation_0-auc:0.85104
[9]	validation_0-auc:0.85555
[10]	validation_0-auc:0.83228
[11]	validation_0-auc:0.83645
[12]	validation_0-auc:0.84455
[13]	validation_0-auc:0.85653
[14]	validation_0-auc:0.83950
[15]	validation_0-auc:0.84881
[16]	validation_0-auc:0.85451
[17]	validation_0-auc:0.85962
[18]	validation_0-auc:0.86272
[19]	validation_0-auc:0.86613
[20]	validation_0-auc:0.86897
[21]	validation_0-auc:0.87116
[22]	validation_0-auc:0.87108
[23]	validation_0-auc:0.87446
[24]	validation_0-auc:0.87464
[25]	validation_0-auc:0.87523
[26]	validation_0-auc:0.87597
[27]	validation_0-auc:0.87641
[28]	validation_0-auc:0.87684
[29]	validation_0-auc:0.87662
[30]	validation_0-auc:0.87683
[31]	validation_0-auc:0.87722
[32]	validation_0-auc:0.87433
[33]	validation_0-au

Результат совсем немного, но стал лучше. Подозреваю, что это связано с тем, что хоть алгоритм может вывести какие-то временные зависимости (на выходных или перед праздниками, к примеру, поведение и обычных клиентов, и мошенников может меняться), но алгоритму это легче сделать с выделенными признаками.

### Задание 2: 
Сделать конкатенацию признаков
* card1 + card2;
* card1 + card2 + card_3 + card_5;
* card1 + card2 + card_3 + card_5 + addr1 + addr2

Рассматривать их как категориальных признаки.

In [23]:
def concatenation(data):
    
    data = data.copy()
    data['card_1_2'] = data['card1'].astype(np.str) + '_' + data['card2'].astype(np.str)
    data['card_1_2_3_5'] = data['card_1_2'] + '_' + data['card3'].astype(np.str) + '_' + data['card5'].astype(np.str)
    data['card_1_2_3_5_addr_1_2'] = data['card_1_2_3_5'] + '_' + data['addr1'].astype(np.str) + '_' + data['addr2'].astype(np.str)

    return data

In [38]:
# X_train_concat = concatenation(X_train)
# X_valid_concat = concatenation(X_valid)

# stata = model(X_train_concat, y_train, X_valid_concat, y_valid, operation= concatenation)
# stata

### Задание 3: 
Сделать FrequencyEncoder для признаков card1 - card6, addr1, addr2.

In [33]:
def process_cards_feats_enc(data):
    new_feats = []
    for feat in ["card1", "card2", "card3", "card4", "card5", "card6", "addr1", "addr2"]:
        freq_encoder = data[feat].value_counts(normalize=True)
        data[f"{feat}_freq_enc"] = data[feat].map(freq_encoder)
        new_feats += [f"{feat}_freq_enc"]
    return data, new_feats

In [34]:
X_train, new_feats = process_cards_feats_enc(X_train)
X_valid, new_feats = process_cards_feats_enc(X_valid)
X_test, new_feats = process_cards_feats_enc(X_test)

In [35]:
new_feats

['card1_freq_enc',
 'card2_freq_enc',
 'card3_freq_enc',
 'card4_freq_enc',
 'card5_freq_enc',
 'card6_freq_enc',
 'addr1_freq_enc',
 'addr2_freq_enc']

In [36]:
all_features += new_feats

In [37]:
model = fit_eval(X_train, X_valid, X_test, y_train, y_valid, feats=all_features)



[0]	validation_0-auc:0.69880
[1]	validation_0-auc:0.79234
[2]	validation_0-auc:0.83462
[3]	validation_0-auc:0.83274
[4]	validation_0-auc:0.83408
[5]	validation_0-auc:0.83608
[6]	validation_0-auc:0.83745
[7]	validation_0-auc:0.84590
[8]	validation_0-auc:0.85197
[9]	validation_0-auc:0.85872
[10]	validation_0-auc:0.83012
[11]	validation_0-auc:0.84714
[12]	validation_0-auc:0.81837
[13]	validation_0-auc:0.82810
Train score (ROC_AUC): 0.8943290986990793
Valid score (ROC_AUC): 0.8587190485277483
Test  score (ROC_AUC): 0.8474646251738036


Немного увеличилось качество модели, похоже, что введённые признаки полезны.

### Задание 4: 
Создать признаки на основе отношения: TransactionAmt к вычисленной статистике. Статистика - среднее значение / стандартное отклонение TransactionAmt, сгруппированное по card1 - card6, addr1, addr2, и по признакам, созданным в задании 2.

In [39]:
def create_aggs(data, groupby_id, aggs=None, features=None):
    
    data = data.copy()
    
    if aggs != None:
        data_grouped_num = data.groupby(groupby_id)
        stats_num = data_grouped_num.agg(aggs)
        stats_num.columns = [f"{feature}_{stat}" for feature, stat in stats_num]
        stats_num = stats_num.reset_index()
        data = data.merge(stats_num, how='left', on=groupby_id)
    
    if features != None:
        categorical = data[features].copy()
        le = LabelEncoder()
        for feature in features:
            cat_value = list(categorical[feature].values.astype('str'))
            le.fit(cat_value)
            categorical[feature] = le.transform(cat_value)
        categorical[groupby_id] = data[groupby_id]
        data_grouped_cat = categorical.groupby(groupby_id)
        stats_cat = data_grouped_cat.agg({col: ["mean", "sum"] for col in features})
        stats_cat.columns = [f"{feature}_{stat}" for feature, stat in stats_cat]
        stats_cat = stats_cat.reset_index()
        data = data.merge(stats_cat, how='left', on=groupby_id)
    
    return data

In [40]:
aggs = {"card1": [np.mean, np.std],
        "card2": [np.mean, np.std],
        "card3": [np.mean, np.std],
        "card5": [np.mean, np.std],
        "addr1": [np.mean, np.std],
        "addr2": [np.mean, np.std]
        }

features = ["card4", "card6", "card_1_2", "card_1_2_3_5", "card_1_2_3_5_addr_1_2"]

groupby_id = "TransactionAmt"
    
X_data_agg_amt = create_aggs(X_data_concat, groupby_id, aggs, features)
X_lb_agg_amt = create_aggs(X_lb_concat, groupby_id, aggs, features)

stata = evaluation_model(X_data_agg_amt, y_data, X_lb_agg_amt, y_lb, operation='aggregating_TransactionAmt')
stata

NameError: name 'X_data_concat' is not defined

In [44]:
model = fit_eval(X_train, X_valid, X_test, y_train, y_valid, feats=all_features)



[0]	validation_0-auc:0.69880
[1]	validation_0-auc:0.79234
[2]	validation_0-auc:0.83462
[3]	validation_0-auc:0.83274
[4]	validation_0-auc:0.83408
[5]	validation_0-auc:0.83608
[6]	validation_0-auc:0.83745
[7]	validation_0-auc:0.84590
[8]	validation_0-auc:0.85197
[9]	validation_0-auc:0.85872
[10]	validation_0-auc:0.83012
[11]	validation_0-auc:0.84714
[12]	validation_0-auc:0.81837
[13]	validation_0-auc:0.82810
[14]	validation_0-auc:0.83895
Train score (ROC_AUC): 0.8943290986990793
Valid score (ROC_AUC): 0.8587190485277483
Test  score (ROC_AUC): 0.8474646251738036


Изменения минимальны, похоже модели всё равно, в логарифмическом масштабе подаётся величина или нет.

### Задание 5: 
Создать признаки на основе отношения: D15 к вычисленной статистике. Статистика - среднее значение / стандартное отклонение D15, сгруппированное по card1 - card6, addr1, addr2, и по признакам, созданным в задании 2.

In [43]:
groupby_id = "D15"

X_data_agg_d15 = create_aggs(X_data_concat, groupby_id, aggs, features)
X_lb_agg_d15 = create_aggs(X_lb_concat, groupby_id, aggs, features)

stata = evaluation_model(X_data_agg_d15, y_data, X_lb_agg_d15, y_lb, operation='aggregating_D15')
stata

NameError: name 'X_data_concat' is not defined

### Задание 6: 
выделить дробную часть и целую часть признака TransactionAmt в два отдельных признака. После создать отдельных признак - логарифм от TransactionAmt

In [45]:
def transform_TransactionAmt(data):
    
    data = data.copy()
    data['TransactionAmt_whole'] = data['TransactionAmt']//1
    data['TransactionAmt_frac'] = data['TransactionAmt']%1
    data['TransactionAmt_log'] = np.log2(data['TransactionAmt'])

    return data

In [46]:
X_data_trans_amt = transform_TransactionAmt(X_data)
X_lb_trans_amt = transform_TransactionAmt(X_lb)

stata = evaluation_model(X_data_trans_amt, y_data, X_lb_trans_amt, y_lb, operation='transform_TransactionAmt')
stata

NameError: name 'X_data' is not defined