##### Задание 1
взять любой набор данных для бинарной классификации (можно скачать один из модельных с https://archive.ics.uci.edu/ml/datasets.php)

Датасет банковских транзакций, часть из которых мошеннические

Описание данных - https://www.kaggle.com/datasets/vardhansiramdasu/fraudulent-transactions-prediction

В домашней работе использую неполный датасет. Большая часть данных, не являющихся мошенническими операциями, удалена. Оставил данные в соотношении 1 к 3 мошеннических транзакций к легальным. Это сделано из соображений балансировки данных и сокращения размера csv файла

In [38]:
import pandas as pd
import numpy as np
data = pd.read_csv("fraud_balanced.csv")
data.head(3)

Unnamed: 0,step,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
0,7,CASH_IN,111324.2,C926922342,4490417.58,4601741.78,C1182908789,135698.74,24374.54,0,0
1,19,CASH_OUT,143660.11,C681501417,143660.11,0.0,C447183071,0.0,143660.11,1,0
2,8,CASH_OUT,236104.53,C1000303171,45802.0,0.0,C1374917762,0.0,82985.37,0,0


About Dataset
1. step - maps a unit of time in the real world. In this case 1 step is 1 hour of time. Total steps 744 (30 days simulation).
2. type - CASH-IN, CASH-OUT, DEBIT, PAYMENT and TRANSFER.
3. amount - amount of the transaction in local currency.
4. nameOrig - customer who started the transaction
5. oldbalanceOrg - initial balance before the transaction
6. newbalanceOrig - new balance after the transaction
7. nameDest - customer who is the recipient of the transaction
8. oldbalanceDest - initial balance recipient before the transaction. Note that there is not information for customers that start with M (Merchants).
9. newbalanceDest - new balance recipient after the transaction. Note that there is not information for customers that start with M (Merchants).
10. isFraud - This is the transactions made by the fraudulent agents inside the simulation. In this specific dataset the fraudulent behavior of the agents aims to profit by taking control or customers accounts and try to empty the funds by transferring to another account and then cashing out of the system.
11. isFlaggedFraud - The business model aims to control massive transfers from one account to another and flags illegal attempts. An illegal attempt in this dataset is an attempt to transfer more than 200.000 in a single transaction.

В датасете 4 категориальных признака, 5 числовых 1 целевая переменная isFraud, а также признак isFlaggedFraud, который можно также рассматривать, как целевой. Признак isFlaggedFraud удалим из датасета, т.к. будем работать со всеми мошенническими рперациями, а не только с теми, которые пометил банк. Также удалим поле step, т.к. взята только часть полного датасета

In [39]:
print(data.shape)

(32772, 11)


In [40]:
data = data.drop(['step', 'isFlaggedFraud'], 1)
data.head(3)

  data = data.drop(['step', 'isFlaggedFraud'], 1)


Unnamed: 0,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud
0,CASH_IN,111324.2,C926922342,4490417.58,4601741.78,C1182908789,135698.74,24374.54,0
1,CASH_OUT,143660.11,C681501417,143660.11,0.0,C447183071,0.0,143660.11,1
2,CASH_OUT,236104.53,C1000303171,45802.0,0.0,C1374917762,0.0,82985.37,0


Посмотрим на соотношение классов

In [41]:
data.iloc[:, -1].value_counts()

0    24559
1     8213
Name: isFraud, dtype: int64

##### Задание 2
сделать feature engineering

Будем использовать модель Catboost Classification, поэтому признаки не трогаем

Разбиваем выборку на тренировочную и тестовую части

In [42]:
from sklearn.model_selection import train_test_split

x_data = data.iloc[:,:-1]
y_data = data.iloc[:,-1]

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=42)

##### Задание 3
обучить любой классификатор (какой вам нравится)

In [43]:
import catboost as ctb

cat_features = ['type', 'nameOrig', 'nameDest']
model = ctb.CatBoostClassifier(random_state=42, silent=True, cat_features=cat_features)
model.fit(x_train, y_train)

y_predict = model.predict(x_test)

Проверяем качество

In [44]:
from sklearn.metrics import auc, f1_score, roc_auc_score, precision_score, classification_report, precision_recall_curve, confusion_matrix

# Функция рассчета показателей и формирования словаря для датафрейма
def get_metrics(learn_type, y_test, y_predict):
    precision, recall, thresholds = precision_recall_curve(y_test, y_predict)

    fscore = (2 * precision * recall) / (precision + recall)
    # locate the index of the largest f score
    ix = np.argmax(fscore)
    print('F-Score=%.3f, Precision=%.3f, Recall=%.3f, roc_auc_score=%.3f, pr_auc=%.3f' % (
        fscore[ix],
        precision[ix],
        recall[ix],
        roc_auc_score(y_test, y_predict), 
        auc(recall, precision)))
    
    data = {'Learn type':learn_type,
        'F-Score':fscore[ix],
        'precision':precision[ix],
        'recall':recall[ix], 
        'roc_auc_score':roc_auc_score(y_test, y_predict),
        'pr_auc':auc(recall, precision)}
    
    return data

stats = get_metrics('Standart', y_test, y_predict)
stats_df = pd.DataFrame(stats, index=[0])

F-Score=0.995, Precision=0.996, Recall=0.993, roc_auc_score=0.996, pr_auc=0.995


##### Задание 4
далее разделить ваш набор данных на два множества: P (positives) и U (unlabeled). Причем брать нужно не все положительные (класс 1) примеры, а только лишь часть

In [58]:
def predsPU(data, part, cat_features):
    mod_data = data.copy()
    #get the indices of the positives samples
    pos_ind = np.where(mod_data.iloc[:,-1].values == 1)[0]
    #shuffle them
    np.random.shuffle(pos_ind)
    # leave just % of the positives marked
    pos_sample_len = int(np.ceil(part * len(pos_ind)))
    print(f'Using {pos_sample_len}/{len(pos_ind)} as positives and unlabeling the rest')
    pos_sample = pos_ind[:pos_sample_len]
    
    
    # Создаем столбец для новой целевой переменной, где у нас два класса - P (1) и U (-1)
    mod_data['class_test'] = -1
    mod_data.loc[pos_sample,'class_test'] = 1
    print('target variable:\n', mod_data.iloc[:,-1].value_counts())
    
    x_data = mod_data.iloc[:,:-2].values # just the X 
    y_labeled = mod_data.iloc[:,-1].values # new class (just the P & U)
    y_positive = mod_data.iloc[:,-2].values # original class
    
    '''
    Задание 5
    
    применить random negative sampling для построения классификатора в новых условиях
    '''
    
    mod_data = mod_data.sample(frac=1)
    neg_sample = mod_data[mod_data['class_test']==-1][:len(mod_data[mod_data['class_test']==1])]
    sample_test = mod_data[mod_data['class_test']==-1][len(mod_data[mod_data['class_test']==1]):]
    pos_sample = mod_data[mod_data['class_test']==1]
    print(neg_sample.shape, pos_sample.shape)
    sample_train = pd.concat([neg_sample, pos_sample]).sample(frac=1)
    
    # Обучаем модель
    model = ctb.CatBoostClassifier(random_state=42, silent=True, cat_features=cat_features)

    model.fit(sample_train.iloc[:,:-2], sample_train.iloc[:,-2])
    y_predict = model.predict(sample_test.iloc[:,:-2])
    
    return y_predict, sample_test

In [46]:
part = 0.25
y_predict, sample_test = predsPU(data, part, cat_features)

stats = get_metrics(f'PU {part}', sample_test.iloc[:,-2], y_predict)
stats_df = stats_df.append(stats, ignore_index=True)

Using 2054/8213 as positives and unlabeling the rest
target variable:
 -1    30718
 1     2054
Name: class_test, dtype: int64
(2054, 10) (2054, 10)
F-Score=0.978, Precision=0.960, Recall=0.997, roc_auc_score=0.993, pr_auc=0.979


##### Задание 6
сравнить качество с решением из пункта 4 (построить отчет - таблицу метрик)

In [47]:
stats_df

Unnamed: 0,Learn type,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,0.99462,0.995811,0.993433,0.995999,0.995461
1,PU 0.25,0.977827,0.959659,0.996697,0.993089,0.978509


Стандартный вариант классификации показал более хорошие результаты

##### Задание 7
поэкспериментировать с долей P на шаге 5 (как будет меняться качество модели при уменьшении/увеличении размера P)

Увеличим долю данных положительного класса до 0.5 (part = 0.5)

In [48]:
part = 0.5
y_predict, sample_test = predsPU(data, part, cat_features)

stats = get_metrics(f'PU {part}', sample_test.iloc[:,-2], y_predict)
stats_df = stats_df.append(stats, ignore_index=True)
stats_df

Using 4107/8213 as positives and unlabeling the rest
target variable:
 -1    28665
 1     4107
Name: class_test, dtype: int64
(4107, 10) (4107, 10)
F-Score=0.973, Precision=0.950, Recall=0.997, roc_auc_score=0.994, pr_auc=0.974


Unnamed: 0,Learn type,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,0.99462,0.995811,0.993433,0.995999,0.995461
1,PU 0.25,0.977827,0.959659,0.996697,0.993089,0.978509
2,PU 0.5,0.97289,0.949525,0.997434,0.994299,0.973663


Точность немного снизилась

Попробуем взять 0.75

In [49]:
part = 0.75
y_predict, sample_test = predsPU(data, part, cat_features)

stats = get_metrics(f'PU {part}', sample_test.iloc[:,-2], y_predict)
stats_df = stats_df.append(stats, ignore_index=True)
stats_df

Using 6160/8213 as positives and unlabeling the rest
target variable:
 -1    26612
 1     6160
Name: class_test, dtype: int64
(6160, 10) (6160, 10)
F-Score=0.952, Precision=0.912, Recall=0.997, roc_auc_score=0.994, pr_auc=0.954


Unnamed: 0,Learn type,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,0.99462,0.995811,0.993433,0.995999,0.995461
1,PU 0.25,0.977827,0.959659,0.996697,0.993089,0.978509
2,PU 0.5,0.97289,0.949525,0.997434,0.994299,0.973663
3,PU 0.75,0.952323,0.911644,0.996801,0.994403,0.954345


Точность снизилась на порядок

Для проверки попробуем взять part = 0.15

In [50]:
part = 0.15
y_predict, sample_test = predsPU(data, part, cat_features)

stats = get_metrics(f'PU {part}', sample_test.iloc[:,-2], y_predict)
stats_df = stats_df.append(stats, ignore_index=True)
stats_df

Using 1232/8213 as positives and unlabeling the rest
target variable:
 -1    31540
 1     1232
Name: class_test, dtype: int64
(1232, 10) (1232, 10)
F-Score=0.956, Precision=0.918, Recall=0.998, roc_auc_score=0.986, pr_auc=0.958


Unnamed: 0,Learn type,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,0.99462,0.995811,0.993433,0.995999,0.995461
1,PU 0.25,0.977827,0.959659,0.996697,0.993089,0.978509
2,PU 0.5,0.97289,0.949525,0.997434,0.994299,0.973663
3,PU 0.75,0.952323,0.911644,0.996801,0.994403,0.954345
4,PU 0.15,0.956211,0.918109,0.997611,0.986184,0.958124


Точность модели немного увеличилась, но лучше, чем при part=0.25 не стала

Уменьшим долю до 0.1

In [51]:
part = 0.1
y_predict, sample_test = predsPU(data, part, cat_features)

stats = get_metrics(f'PU {part}', sample_test.iloc[:,-2], y_predict)
stats_df = stats_df.append(stats, ignore_index=True)
stats_df

Using 822/8213 as positives and unlabeling the rest
target variable:
 -1    31950
 1      822
Name: class_test, dtype: int64
(822, 10) (822, 10)
F-Score=0.965, Precision=0.938, Recall=0.995, roc_auc_score=0.987, pr_auc=0.967


Unnamed: 0,Learn type,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,0.99462,0.995811,0.993433,0.995999,0.995461
1,PU 0.25,0.977827,0.959659,0.996697,0.993089,0.978509
2,PU 0.5,0.97289,0.949525,0.997434,0.994299,0.973663
3,PU 0.75,0.952323,0.911644,0.996801,0.994403,0.954345
4,PU 0.15,0.956211,0.918109,0.997611,0.986184,0.958124
5,PU 0.1,0.965341,0.937647,0.994719,0.987415,0.966794


Лучше, но все же не так хорошо, как модель с долей положительного класса 0.25

Итого: Обычный классификатор показал самые лучшие результаты, но это произошло потому, что данные были изначально размечены полностью, как позитивные, так и негативные. Найти частично размеченный датасет, к сожалению, не удалось.

С другой стороны, мы особо ничего не добились произведя манипуляции с переразметкой данных, т.к. задача look-alike, все-таки, заключается в поиске схожих данных с теми, которые размечены, как положительные. Т.е. в данном случае нам нужно получить выборку из исходных данных, в которой после обучения модели, данные не размеченные как позитивные будут помечены моделью, как позитивные

In [52]:
# Сделаем это на основе модели PU 0.25
part = 0.25
y_predict, sample_test = predsPU(data, part, cat_features)

stats = get_metrics(f'PU {part}', sample_test.iloc[:,-2], y_predict)
stats_df = stats_df.append(stats, ignore_index=True)
stats_df

Using 2054/8213 as positives and unlabeling the rest
target variable:
 -1    30718
 1     2054
Name: class_test, dtype: int64
(2054, 10) (2054, 10)
F-Score=0.976, Precision=0.956, Recall=0.997, roc_auc_score=0.993, pr_auc=0.977


Unnamed: 0,Learn type,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,0.99462,0.995811,0.993433,0.995999,0.995461
1,PU 0.25,0.977827,0.959659,0.996697,0.993089,0.978509
2,PU 0.5,0.97289,0.949525,0.997434,0.994299,0.973663
3,PU 0.75,0.952323,0.911644,0.996801,0.994403,0.954345
4,PU 0.15,0.956211,0.918109,0.997611,0.986184,0.958124
5,PU 0.1,0.965341,0.937647,0.994719,0.987415,0.966794
6,PU 0.25,0.976197,0.95619,0.997058,0.992761,0.976921


In [53]:
pred_final = model.predict(x_data)

In [54]:
data2 = data.copy()

In [55]:
preds_ser = pd.Series(pred_final)
data2['pred_final'] = preds_ser.values

In [56]:
# Итоговые данные, которые нас интересуют:
data2.loc[(data2['isFraud'] == 0) & (data2['pred_final'] == 1)]

Unnamed: 0,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,pred_final
833,CASH_OUT,307954.98,C385203700,214435.28,0.0,C442364016,0.0,328387.64,0,1
14854,CASH_OUT,126280.36,C1068912229,90774.66,0.0,C1572164601,1509.0,0.0,0,1
18206,CASH_OUT,54804.76,C213516770,51228.0,0.0,C759994182,1096.44,111238.42,0,1
18511,CASH_OUT,20411.8,C812452702,13021.0,0.0,C1456400374,44715.0,0.0,0,1
22541,TRANSFER,92095.41,C2131498299,105685.0,13589.59,C102537461,0.0,2742.32,0,1
22846,CASH_OUT,781796.89,C829508329,399808.23,0.0,C2078250226,2866603.03,4572011.3,0,1
32172,CASH_OUT,65016.19,C1998941515,38307.0,0.0,C351394592,0.0,65016.19,0,1


Итого мы получили 7 записей из изначального датасета, которые вызывают подозрение и могут оказаться мошенническими

<b>Бонусный вопрос:</b>

Как вы думаете, какой из методов на практике является более предпочтительным: random negative sampling или 2-step approach?

Ваш ответ здесь:

По логике 2-step approach является более надежным способом, т.к. мы можем использовать весь датасет и на каждой итерации получать более достоверные негативные данные, проводя данную процедуру до того уровня, пока позитивные и негативные данные не будут отбалансированы на наше усмотрение.