# Групповой проект 2
[Соревнование на Kaggle](https://www.kaggle.com/c/ieee-fraud-detection/overview)
In this competition you are predicting the probability that an online transaction is fraudulent, as denoted by the binary target isFraud.

The data is broken into two files identity and transaction, which are joined by TransactionID. Not all transactions have corresponding identity information.

Categorical Features - Transaction
ProductCD
card1 - card6
addr1, addr2
P_emaildomain
R_emaildomain
M1 - M9
Categorical Features - Identity
DeviceType
DeviceInfo
id_12 - id_38
The TransactionDT feature is a timedelta from a given reference datetime (not an actual timestamp).


## Все импорты ноутбука здесь

In [1]:
import catboost as cb
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

import zipfile
import random
import os
import gc
from functools import partial

## Загрузка данных

Files
- train_{transaction, identity}.csv - the training set
- test_{transaction, identity}.csv - the test set (you must predict the isFraud value for these observations)
- sample_submission.csv - a sample submission file in the correct format

> Загружаем данные из zip-архива, так как в распакованном виде они больше гигабайта

In [2]:
%%time
def csv_from_zip(csv_file, zip_file='./data/ieee-fraud-detection.zip' , **kwargs):
   with zipfile.ZipFile(zip_file) as z:
      with z.open(csv_file) as f:
         return pd.read_csv(f, **kwargs)

train_transaction = csv_from_zip('train_transaction.csv', delimiter=',')
train_identity = csv_from_zip('train_identity.csv', delimiter=',')

test_transaction = csv_from_zip('test_transaction.csv', delimiter=',')
test_identity = csv_from_zip('test_identity.csv', delimiter=',')

CPU times: user 31.6 s, sys: 2.2 s, total: 33.8 s
Wall time: 33.9 s


In [3]:
print(
    f'''
    Размеры выборок, (объекты, признаки).
    - Обучающие: transaction {train_transaction.shape}, identity {train_identity.shape}
    - Тестовые: transaction {test_transaction.shape}, identity {test_identity.shape}
    ''')


    Размеры выборок, (объекты, признаки).
    - Обучающие: transaction (590540, 394), identity (144233, 41)
    - Тестовые: transaction (506691, 393), identity (141907, 41)
    


## Разбиваем train_transaction на X и y. Где y - это целевая переменная

In [4]:
X = train_transaction.drop(["isFraud"],axis=1)
y = train_transaction["isFraud"]
del train_transaction
gc.collect

<function gc.collect(generation=2)>

## Полезные функции по обработке данных. Чтобы потом можно было их использовать в пайплайнах

In [5]:
# Установка seed для всех случайных счетчиков
def seed_everything(seed=0):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)

SEED = 0xBEEF
seed_everything(SEED)

In [6]:
# Вспомогательная функция, которая позволяет объединять несколько шагов 
# по трансформации матриц (или других объектов) в один пайплайн
def make_transformer(*transformers):
    def transformer(*args):
        for t in transformers:
            try:
                args = t(args)
            except:
                args = t(*args)
        return args
    return transformer

In [37]:
# Убираем столбец(ы) с указанным именем
def drop_column(column):
    def drop(data):
        data.drop(column, axis=1, inplace=True)
        return data
    return drop

# Добавляем identity
def merge_identity(identity):
    def merge(data):
        return pd.merge(data, identity, how = 'left', on = 'TransactionID', validate = "many_to_one")
    return merge
    
# Cтолбцы, где слишком много пропущенных значений (выше определенного процента)
def nan_columns(data, nan_percent=0.8):
    nans = data.isna().sum()
    return nans[nans > nan_percent*len(data)].index

# Обработка категориальных признаков
# Конвертация float в string
# Замена пропущеных значений на строковые - 'nan'
def perform_cat_features(cat_features):
    def perform_cat(data):
        # Приведем все float категориальные фичи к строкам
        dtypes = data[cat_features].dtypes
        idx = dtypes == 'float64'
        cat_floats = dtypes[idx].index
        data[cat_floats] = data[cat_floats].astype(str)
        # Конвертируем все пропущенные значения в строки (для категориальных фич)
        data[cat_features] = data[cat_features].fillna('nan')
        return data
    return perform_cat

# В тестовой таблице identity ошибка в названии столбцов. Вместо id_ - id-
# Заменим в названии столбцов 'id'- на 'id_'
def fix_id_columns(data):
    data.columns = data.columns.str.replace('id-', 'id_')
    return data

## Базовая подготовка данных для catboost

### Добавляем identity 
1. Добавим к train (X) данные из identity
1. Удалим бесполезный столбец `TransactionID`

In [8]:
%%time
base_transform = make_transformer(
    merge_identity(train_identity),
    drop_column('TransactionID')
)
X = base_transform(X)
del train_identity
gc.collect;

CPU times: user 1.55 s, sys: 756 ms, total: 2.31 s
Wall time: 2.39 s


<function gc.collect(generation=2)>

### Удаление столбцов, где слишком много пропущенных значений

In [9]:
bad_columns = nan_columns(X, nan_percent=0.8)
X.drop(bad_columns, axis=1, inplace=True)
print(f'Удалено {len(bad_columns)} столбцов, где было более 80% пропущеных значений')

Удалено 74 столбцов, где было более 80% пропущеных значений


### Категориальные и числовые признаки
[Обсуждение на Kaggle](https://www.kaggle.com/c/ieee-fraud-detection/discussion/101203#latest-607486)

#### Выделение категориальных и числовых признаков

In [10]:
cat_features = ['ProductCD'] + \
           ["card"+f"{i+1}" for i in range(6)] + \
           ["addr"+f"{i+1}" for i in range(2)] + \
           ["P_emaildomain", "R_emaildomain"] + \
           ["M"+f"{i+1}" for i in range(9)] + \
           ["DeviceType", "DeviceInfo"] + \
           ["id_"+f"{i}" for i in range(12, 39)]

# Вычтем удаленные ранее столбцы

cat_features = list(set(cat_features)- set(bad_columns))

In [11]:
num_features = list(set(X.columns)- set(cat_features))

In [12]:
print(f'Всего признаков = {X.shape[1]}, цифровых признаков = {len(num_features)}, категориальных = {len(cat_features)}')

Всего признаков = 358, цифровых признаков = 322, категориальных = 36


#### Подготовка категориальных признаков
cat_features must be integer or string, real number values and NaN values should be converted to string

In [13]:
# Приведем все float категориальные фичи к строкам
dtypes = X[cat_features].dtypes
idx = dtypes == 'float64'
cat_floats = dtypes[idx].index

In [14]:
X[cat_floats] = X[cat_floats].astype(str)

In [15]:
# Конвертируем все пропущенные значения в строки (для категориальных фич)
X[cat_features] = X[cat_features].fillna('nan')

## Базовый catboost

### Проверка с разбиением обучающей выборки

In [21]:
# Quick test with AUC

X_tr, X_val, y_tr, y_val = train_test_split(X, y, test_size=0.2, random_state=SEED, stratify = y)

cboost_params = {
    'loss_function': 'Logloss',
    'custom_loss':['AUC'],
    'logging_level':'Silent',
    # 'task_type' : 'GPU',
    'early_stopping_rounds' : 100
}

simple_model = cb.CatBoostClassifier(**cboost_params)

simple_model.fit(
    X_tr, y_tr,
    cat_features=cat_features,
    eval_set=(X_val, y_val),plot=True
)

MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

Learning rate set to 0.145034
0:	learn: 0.4766953	test: 0.4767969	best: 0.4767969 (0)	total: 3.42s	remaining: 56m 54s
1:	learn: 0.3455512	test: 0.3455973	best: 0.3455973 (1)	total: 5.99s	remaining: 49m 50s
2:	learn: 0.2639844	test: 0.2641567	best: 0.2641567 (2)	total: 8.31s	remaining: 46m 1s
3:	learn: 0.2133368	test: 0.2135097	best: 0.2135097 (3)	total: 10.7s	remaining: 44m 21s
4:	learn: 0.1815516	test: 0.1817513	best: 0.1817513 (4)	total: 12.9s	remaining: 42m 46s
5:	learn: 0.1587892	test: 0.1591108	best: 0.1591108 (5)	total: 15.9s	remaining: 43m 49s
6:	learn: 0.1431171	test: 0.1435544	best: 0.1435544 (6)	total: 18.5s	remaining: 43m 38s
7:	learn: 0.1315861	test: 0.1322212	best: 0.1322212 (7)	total: 20.8s	remaining: 43m 1s
8:	learn: 0.1239240	test: 0.1246780	best: 0.1246780 (8)	total: 23.2s	remaining: 42m 38s
9:	learn: 0.1180935	test: 0.1188407	best: 0.1188407 (9)	total: 25.6s	remaining: 42m 17s
10:	learn: 0.1128774	test: 0.1133730	best: 0.1133730 (10)	total: 27.7s	remaining: 41m 27s
11

KeyboardInterrupt: 

### Обучение catboost на всем train

In [22]:
# Обучение на всем train
train_dataset = cb.Pool(X, y, cat_features=cat_features)

cboost_params = {
    'loss_function': 'Logloss',
    'custom_loss':['AUC'],
}

model = cb.CatBoostClassifier(**cboost_params)
model.fit(train_dataset);

Custom logger is already specified. Specify more than one logger at same time is not thread safe.

Learning rate set to 0.157129
0:	learn: 0.4638096	total: 3.65s	remaining: 1h 44s
1:	learn: 0.3236508	total: 7.45s	remaining: 1h 1m 57s
2:	learn: 0.2430940	total: 10.8s	remaining: 1h 2s
3:	learn: 0.1964945	total: 14s	remaining: 58m 4s
4:	learn: 0.1680217	total: 17.8s	remaining: 59m 8s
5:	learn: 0.1468356	total: 21.9s	remaining: 1h 23s
6:	learn: 0.1351064	total: 25.7s	remaining: 1h 42s
7:	learn: 0.1270535	total: 28.5s	remaining: 58m 57s
8:	learn: 0.1187904	total: 32.8s	remaining: 1h 6s
9:	learn: 0.1131566	total: 36s	remaining: 59m 21s
10:	learn: 0.1073625	total: 40.2s	remaining: 1h 14s
11:	learn: 0.1030373	total: 43.8s	remaining: 1h 9s
12:	learn: 0.0984045	total: 47.7s	remaining: 1h 21s
13:	learn: 0.0949658	total: 51.7s	remaining: 1h 44s
14:	learn: 0.0935842	total: 55.3s	remaining: 1h 31s
15:	learn: 0.0923722	total: 59.4s	remaining: 1h 52s
16:	learn: 0.0913112	total: 1m 3s	remaining: 1h 55s
17:	learn: 0.0874885	total: 1m 7s	remaining: 1h 1m 27s
18:	learn: 0.0862269	total: 1m 11s	remainin

### Сохранение модели в файл и загрузка из файла

In [None]:
# Сохранение модели в файл
model.save_model('catboost 5.08.22')

In [17]:
# Загрузка модели из файла
from_file = cb.CatBoostClassifier()
from_file.load_model('catboost 5.08.22')

<catboost.core.CatBoostClassifier at 0x7f175f77b910>

### Подготовка тестовой выборки

Мы должны сделать с тестовой выборкой все те преобразования, какие делали до этого с тестовой

In [39]:
test_transformer = make_transformer(
    merge_identity(test_identity), # делаем добавление тестовой части identity
    drop_column('TransactionID'),
    fix_id_columns,    
    drop_column(bad_columns), # Удаляем столбцы, где много пропущенных
    perform_cat_features(cat_features)
)

test = test_transformer(test_transaction)

In [1]:
test.shape, test_transaction.shape, test_identity.shape, train

NameError: name 'test' is not defined

### Подготовка ответа для Kaggle