In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold, cross_val_score
import lightgbm as lgb
import xgboost as xgb
pd.set_option('display.max_columns', 100)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

This means that in case of installing LightGBM from PyPI via the ``pip install lightgbm`` command, you don't need to install the gcc compiler anymore.
Instead of that, you need to install the OpenMP library, which is required for running LightGBM on the system with the Apple Clang compiler.
You can install the OpenMP library by the following command: ``brew install libomp``.


In [2]:
data = pd.read_csv('Data/train_rosbank.csv')
data.head()

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum
0,01/10/2017,0,5200,,810,21OCT17:00:00:00,5023.0,POS,0,0.0
1,01/10/2017,0,6011,,810,12OCT17:12:24:07,20000.0,DEPOSIT,0,0.0
2,01/12/2017,0,5921,,810,05DEC17:00:00:00,767.0,POS,0,0.0
3,01/10/2017,0,5411,,810,21OCT17:00:00:00,2031.0,POS,0,0.0
4,01/10/2017,0,6012,,810,24OCT17:13:14:24,36562.0,C2C_OUT,0,0.0


In [3]:
# переводим переменные TRDATETIME и PERIOD в тип datetime
data['TRDATETIME'] = pd.to_datetime(data['TRDATETIME'], format='%d%b%y:%X')
data['PERIOD'] = pd.to_datetime(data['PERIOD'], format='%d/%m/%Y')
# извлекаем из даты месяц
data['month'] = data['TRDATETIME'].dt.month
# извлекаем из даты неделю
data['week'] = data['TRDATETIME'].dt.week
data.head()

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum,month,week
0,2017-10-01,0,5200,,810,2017-10-21 00:00:00,5023.0,POS,0,0.0,10,42
1,2017-10-01,0,6011,,810,2017-10-12 12:24:07,20000.0,DEPOSIT,0,0.0,10,41
2,2017-12-01,0,5921,,810,2017-12-05 00:00:00,767.0,POS,0,0.0,12,49
3,2017-10-01,0,5411,,810,2017-10-21 00:00:00,2031.0,POS,0,0.0,10,42
4,2017-10-01,0,6012,,810,2017-10-24 13:14:24,36562.0,C2C_OUT,0,0.0,10,43


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 490513 entries, 0 to 490512
Data columns (total 12 columns):
PERIOD          490513 non-null datetime64[ns]
cl_id           490513 non-null int64
MCC             490513 non-null int64
channel_type    487603 non-null object
currency        490513 non-null int64
TRDATETIME      490513 non-null datetime64[ns]
amount          490513 non-null float64
trx_category    490513 non-null object
target_flag     490513 non-null int64
target_sum      490513 non-null float64
month           490513 non-null int64
week            490513 non-null int64
dtypes: datetime64[ns](2), float64(2), int64(6), object(2)
memory usage: 44.9+ MB


In [5]:
data['channel_type'] = data['channel_type'].fillna('0')

In [6]:
# все транзакции переводим в рубли
mapping = {810: 1, 978: 65.87, 504: 6.5, 704: 0.0025, 981: 23, 985: 15.48,
           840: 58.31, 949: 15.97, 51: 4.3, 826: 75.11, 214: 1.23, 764: 1.7,
           203: 2.5, 702: 42, 360: 0.0042, 756: 59.26, 933: 30.20, 975: 33.68,
           36: 13.5, 191: 8.5, 784: 15.9, 980: 2.2, 124: 44.97, 398: 0.18,
           376: 15.7, 944: 33.81, 352: 0.52, 417: 0.85, 156: 8.6, 752: 6.8,
           392: 0.52, 484: 3.3, 634: 15.8, 188: 0.11, 643: 1, 348: 0.21, 356: 0.90,
           458: 13.5, 986: 18, 498: 3.5, 578: 7.1, 208: 8.9, 344: 7.5, 32: 65.87,
           410: 0.05, 788: 24, 480: 1.6, 604: 17.5, 941: 0.55, 144: 0.37, 946: 14.4,
           710: 4.52, 690: 4, 44: 20, 170: 0.02, 901: 1.9, 608: 1.15, 554: 41.5, 462: 3.7}
data['amount'] = data['amount'] * data['currency'].map(mapping)

In [7]:
%%time

# пишем функцию агрегации
def build_features(data):
    aggregated = data.groupby('cl_id')[['channel_type']].first()
    ids = aggregated.index
    aggregated['cl_id'] = ids
    # вычисляем самую позднюю дату транзакции во всем наборе
    global_max_date = data['TRDATETIME'].max()
    # вычисляем самую позднюю дату транзакции по каждому периоду
    # для каждого клиента
    data['max_date'] = data.groupby(
        ['cl_id', 'PERIOD'])['TRDATETIME'].transform(lambda x: x.max())
    # вычисляем разницу между самой поздней датой транзакции во всем наборе
    # и самой поздней датой транзакции по каждому периоду для каждого клиента
    data['global_diff'] = (global_max_date - data['max_date']).dt.days
    # берем среднюю разницу между самой поздней датой транзакции во всем наборе
    # и самой поздней датой транзакции для каждого клиента
    aggregated['global_diff_mean'] = data.groupby('cl_id')['global_diff'].mean()
    # вычисляем сумму транзакций по каждому периоду для каждого клиента
    data['amount_sum_cl_id_period'] = data.groupby(
        ['cl_id', 'PERIOD'])['amount'].transform(lambda x: x.sum())
    # вычисляем для каждого клиента среднюю абсолютную разность 
    # на основе сумм транзакций по каждому периоду
    aggregated['mad_of_amount_sum_cl_id_period'] = data.groupby(
        'cl_id')['amount_sum_cl_id_period'].apply(lambda x: x.mad())
    # вычисляем общее количество транзакций для каждого клиента
    aggregated['total_number_transact_cl_id'] = data.groupby(
        'cl_id')['TRDATETIME'].apply(lambda x: x.count())
    # вычисляем уникальное количество MCC-кодов для каждого клиента
    aggregated['uniq_number_MCC_cl_id'] = data.groupby(
        'cl_id')['MCC'].apply(lambda x: x.nunique())
    # вычисляем уникальное количество MCC-кодов по каждому периоду 
    # для каждого клиента
    data['uniq_number_MCC_cl_id_period'] = data.groupby(
        ['cl_id', 'PERIOD'])['MCC'].transform(lambda x: x.nunique())
    # вычисляем для каждого клиента уникальное количество 
    # MCC-кодов, усредненное по периодам
    aggregated['uniq_number_MCC_cl_id_period'] = data.groupby(
        'cl_id')['uniq_number_MCC_cl_id_period'].apply(lambda x: x.mean())
    # вычисляем самый часто встречающийся тип транзакции
    # для каждого клиента
    #aggregated['trx_category_cl_id_mode'] = data.groupby(
    #    'cl_id')['trx_category'].apply(lambda x: x.value_counts().index[0])
    # вычисляем разницу в днях между самой ранней и самой поздней
    # датами транзакции для каждого клиента
    aggregated['diff_days_cl_id'] = data.groupby(
        'cl_id')['TRDATETIME'].apply(lambda x: x.max() - x.min()).dt.days
    # вычисляем разницу в днях между самой ранней и самой поздней
    # датами POS-транзакции для каждого клиента
    aggregated['diff_days_POS'] = data[data['trx_category'] == 'POS'].groupby(
        'cl_id')['TRDATETIME'].apply(lambda x: x.max() - x.min()).dt.days
    # вычисляем разницу в днях между самой ранней и самой поздней
    # датами транзакции по каждому периоду для каждого клиента
    data['diff_days_cl_id_period'] = data.groupby(
        ['cl_id', 'PERIOD'])['TRDATETIME'].transform(
        lambda x: x.max() - x.min()).dt.days
    # вычисляем для каждого клиента разницу в днях между самой ранней 
    # и самой поздней датами транзакции, усредненную по периодам
    aggregated['mean_of_diff_days_cl_id_period'] = data.groupby(
        'cl_id')['diff_days_cl_id_period'].apply(lambda x: x.mean())
    # вычисляем разницу в неделях между самой ранней и самой поздней
    # датами транзакции по каждому периоду для каждого клиента
    data['diff_weeks_cl_id_period'] = data.groupby(
        ['cl_id', 'PERIOD'])['week'].transform(lambda x: x.max() - x.min())
    # вычисляем среднюю абсолютную разность для вышесозданной переменной 
    # по каждому клиенту
    aggregated['mad_of_diff_weeks_cl_id_period'] = data.groupby(
        'cl_id')['diff_weeks_cl_id_period'].apply(lambda x: x.mad())
    # вычисляем разницу в днях между конкретной и самой ранней
    # датами транзакции для каждого клиента
    data['days_from_first_transaction'] = data.groupby(
        'cl_id')['TRDATETIME'].transform(lambda x: x - x.min()).dt.days
    # вычисляем среднюю разницу в днях между конкретной и самой ранней
    # датами транзакции для каждого клиента
    aggregated['mean_of_days_from_first_transaction'] = data.groupby(
        'cl_id')['days_from_first_transaction'].apply(lambda x: x.mean())
    # вычисляем среднюю абсолютную разность для вышесозданной переменной 
    # по каждому клиенту
    aggregated['mad_of_days_from_first_transaction'] = data.groupby(
        'cl_id')['days_from_first_transaction'].apply(lambda x: x.mad())
    # вычисляем разницу в неделях между конкретной и самой ранней
    # датами транзакции для каждого клиента
    data['weeks_from_first_transaction'] = data.groupby(
        'cl_id')['week'].transform(lambda x: x - x.min())
    # вычисляем среднюю абсолютную разность для вышесозданной переменной 
    # по каждому клиенту
    aggregated['mad_of_weeks_from_first_transaction'] = data.groupby(
        'cl_id')['weeks_from_first_transaction'].apply(lambda x: x.mad())
    # вычисляем разницу в месяцах между конкретной и самой ранней
    # датами транзакции для каждого клиента
    data['months_from_first_transaction'] = data.groupby(
        'cl_id')['month'].transform(lambda x: x - x.min())
    # вычисляем среднюю абсолютную разность для вышесозданной переменной 
    # по каждому клиенту
    aggregated['mad_of_months_from_first_transaction'] = data.groupby(
        'cl_id')['months_from_first_transaction'].apply(lambda x: x.mad())
    # создаем тип транзакции, пополняет она или, наоборот, сокращает счет
    data['trx_type'] = data.apply(
        lambda x: 1 if x['trx_category'] in ['DEPOSIT', 'C2C_IN', 'BACK_TRX'] else -1, axis=1)
    # вычисляем сумму каждой транзакции с учетом знака 
    # (пополнения или снятия) по каждому клиенту
    data['amount_signed'] = data['amount'] * data['trx_type']
    # вычисляем среднюю сумму каждой транзакции с учетом знака 
    # (пополнения или снятия) по каждому клиенту
    aggregated['amount_signed'] = data.groupby(
        'cl_id')['amount_signed'].apply(lambda x: x.mean()) 
    # вычисляем сумму всех транзакций по каждому клиенту
    aggregated['amount_sum'] = data.groupby(
        'cl_id')['amount'].apply(lambda x: x.sum())
    # вычисляем минимальную сумму транзакции по каждому клиенту
    aggregated['amount_min'] = data.groupby(
        'cl_id')['amount'].apply(lambda x : x.min())
    # вычисляем сумму всех транзакций с учетом знака 
    # (пополнения или снятия) по каждому клиенту
    aggregated['amount_signed_sum'] = data.groupby(
        'cl_id')['amount_signed'].apply(lambda x: x.sum())
    # вычисляем сумму транзакций снятия по каждому клиенту
    aggregated['amount_snyatie'] = (aggregated['amount_sum'] - aggregated['amount_signed_sum']) / 2
    # вычисляем сумму транзакций пополнения по каждому клиенту
    aggregated['amount_popolnenie'] = aggregated['amount_sum'] - aggregated['amount_snyatie'] 
    # вычисляем уникальное количество периодов по каждому клиенту
    aggregated['PERIOD_uniq_count'] = data.groupby('cl_id')['PERIOD'].nunique()
    # вычисляем общее количество транзакций DEPOSIT по каждому клиенту
    aggregated['count_DEPOSIT'] = data[data['trx_category'] == 'DEPOSIT'].groupby(
        'cl_id')['trx_category'].count()
    # вычисляем общее количество транзакций POS по каждому клиенту
    aggregated['count_POS'] = data[data['trx_category'] == 'POS'].groupby(
        'cl_id')['trx_category'].count()
    # вычисляем сумму транзакций за первые 60 дней по каждому клиенту
    sum_of_amount_for_first_60_days = data.sort_values('TRDATETIME').groupby('cl_id').apply(
        lambda x: x['amount'][((x['TRDATETIME'] - x['TRDATETIME'].values[0]) / np.timedelta64(1, 'D') <= 60)].sum())
    # вычисляем сумму транзакций за первые 180 дней по каждому клиенту
    sum_of_amount_for_first_180_days = data.sort_values('TRDATETIME').groupby('cl_id').apply(
        lambda x: x['amount'][((x['TRDATETIME'] - x['TRDATETIME'].values[0]) / np.timedelta64(1, 'D') <= 180)].sum())
    # вычисляем отношение суммы транзакций за первые 60 дней к 
    # сумме транзакций за первые 180 дней по каждому клиенту
    aggregated['ratio_first_60_180_days'] = sum_of_amount_for_first_60_days / sum_of_amount_for_first_180_days
    # вычисляем сумму транзакций за последние 30 дней по каждому клиенту
    sum_of_amount_for_last_30_days = data.sort_values('TRDATETIME').groupby('cl_id').apply(
        lambda x: x['amount'][((x['TRDATETIME'].values[-1] - x['TRDATETIME']) / np.timedelta64(1, 'D') <= 30)].sum())
    # вычисляем сумму транзакций за последние 60 дней по каждому клиенту
    sum_of_amount_for_last_60_days = data.sort_values('TRDATETIME').groupby('cl_id').apply(
        lambda x: x['amount'][((x['TRDATETIME'].values[-1] - x['TRDATETIME']) / np.timedelta64(1, 'D') <= 60)].sum())
    # вычисляем отношение суммы транзакций за последние 30 дней к 
    # сумме транзакций за последние 60 дней по каждому клиенту
    aggregated['ratio_last_30_60_days'] = sum_of_amount_for_last_30_days / sum_of_amount_for_last_60_days
    # вычисляем сумму транзакций POS по каждому клиенту 
    aggregated['amount_sum_POS'] = data[data['trx_category'] == 'POS'].groupby(
        'cl_id')['amount'].sum()
    # вычисляем последний тип транзакции по каждому клиенту
    aggregated['last_trx_cat_cl_id'] = data.sort_values(
        'TRDATETIME').groupby('cl_id')['trx_category'].last()    
    # вычисляем общее количество транзакций DEPOSIT 
    # по каждому периоду для каждого клиента
    data['count_DEPOSIT_cl_id_period'] = data[data['trx_category'] == 'DEPOSIT'].groupby(
        ['cl_id', 'PERIOD'])['trx_category'].transform(lambda x: x.count())    
    # вычисляем среднюю абсолютную разность для вышесозданной 
    # переменной по каждому клиенту
    aggregated['mad_of_count_POS_cl_id_period'] = data.groupby(
        'cl_id')['count_DEPOSIT_cl_id_period'].apply(lambda x: x.mad())    
    # вычисляем разность между суммами транзакций в самую раннюю 
    # и самую позднюю даты для каждого клиента 
    aggregated['amount_diff_min_max_date'] = data.sort_values('TRDATETIME').groupby('cl_id').apply(
        lambda x: x['amount'][x['TRDATETIME'] == x['TRDATETIME'].values[0]].sum() - x['amount'][x['TRDATETIME'] == x['TRDATETIME'].values[-1]].sum())
    # добавляем зависимую переменную
    aggregated['target_flag'] = data.groupby('cl_id')['target_flag'].first()
    # импутируем пропуски нулями
    return aggregated.fillna(0)

# выполняем агрегирование
data_agg = build_features(data)

CPU times: user 1min 20s, sys: 1.44 s, total: 1min 22s
Wall time: 1min 22s


In [8]:
data_agg.head(10)

Unnamed: 0_level_0,channel_type,cl_id,global_diff_mean,mad_of_amount_sum_cl_id_period,total_number_transact_cl_id,uniq_number_MCC_cl_id,uniq_number_MCC_cl_id_period,diff_days_cl_id,diff_days_POS,mean_of_diff_days_cl_id_period,mad_of_diff_weeks_cl_id_period,mean_of_days_from_first_transaction,mad_of_days_from_first_transaction,mad_of_weeks_from_first_transaction,mad_of_months_from_first_transaction,amount_signed,amount_sum,amount_min,amount_signed_sum,amount_snyatie,amount_popolnenie,PERIOD_uniq_count,count_DEPOSIT,count_POS,ratio_first_60_180_days,ratio_last_30_60_days,amount_sum_POS,last_trx_cat_cl_id,mad_of_count_POS_cl_id_period,amount_diff_min_max_date,target_flag
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1
0,0,0,151.6,20111.68,5,5,3.4,53,45,9.6,0.64,16.2,14.72,2.24,0.64,-4876.6,64383.0,767.0,-24383.0,44383.0,20000.0,2,1.0,3,1.0,0.012,7821.0,POS,0.0,19233.0,0
1,0,1,188.154,99150.901,104,23,14.423,92,92,24.596,0.587,59.298,17.724,2.511,0.541,-1297.905,324982.152,76.0,-134982.152,229982.152,95000.0,4,2.0,101,0.244,0.907,179982.152,POS,0.0,-76.5,0
5,0,5,320.268,53091.984,142,34,16.338,92,92,23.697,0.943,47.951,23.597,3.365,0.873,-1899.197,557666.027,75.0,-269686.027,413676.027,143990.0,4,4.0,111,0.643,0.606,301797.647,POS,0.0,-19915.0,1
9,0,9,277.41,88384.787,39,5,3.41,89,89,26.128,0.26,43.667,25.744,3.704,0.849,-6292.695,849315.09,39.0,-245415.09,547365.09,301950.0,3,1.0,29,0.704,0.732,12365.09,POS,0.0,4900.0,0
10,0,10,215.533,407991.113,463,36,23.469,89,89,28.758,0.411,44.423,19.295,2.777,0.565,-543.724,1124343.99,3.0,-251743.99,688043.99,436300.0,3,24.0,374,0.901,0.139,200956.11,POS,4.229,3872.63,0
11,0,11,229.912,50784.615,217,39,20.724,91,91,26.332,0.871,39.203,20.694,3.011,0.72,-318.963,433215.032,4.0,-69215.032,251215.032,182000.0,4,10.0,207,0.88,0.176,251215.032,POS,0.96,5689.9,0
14,0,14,258.647,34976.316,136,30,14.574,92,92,20.706,1.622,57.529,22.541,3.266,0.848,-1053.604,448690.17,25.0,-143290.17,295990.17,152700.0,4,0.0,132,0.731,0.258,258990.17,POS,0.0,-1521.0,1
20,0,20,326.558,12024.312,77,17,12.156,73,70,25.0,0.561,43.948,19.588,2.829,0.678,-94.91,437308.09,68.0,-7308.09,222308.09,215000.0,3,3.0,74,0.887,0.453,222308.09,POS,0.0,70883.0,0
21,0,21,456.871,16805.934,124,35,18.048,88,86,27.387,20.697,44.363,21.257,19.745,4.651,-817.142,338881.65,1.0,-101325.65,220103.65,118778.0,3,8.0,113,0.636,0.625,220103.65,C2C_IN,0.375,21699.0,0
22,0,22,304.085,110282.828,59,12,6.034,66,66,16.169,1.117,25.237,20.236,2.841,0.484,-77.407,249767.0,20.58,-4567.0,127167.0,122600.0,4,8.0,45,0.977,0.04,110267.0,POS,1.562,-269.18,0


In [9]:
data_agg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5000 entries, 0 to 10215
Data columns (total 31 columns):
channel_type                            5000 non-null object
cl_id                                   5000 non-null int64
global_diff_mean                        5000 non-null float64
mad_of_amount_sum_cl_id_period          5000 non-null float64
total_number_transact_cl_id             5000 non-null int64
uniq_number_MCC_cl_id                   5000 non-null int64
uniq_number_MCC_cl_id_period            5000 non-null float64
diff_days_cl_id                         5000 non-null int64
diff_days_POS                           5000 non-null int64
mean_of_diff_days_cl_id_period          5000 non-null float64
mad_of_diff_weeks_cl_id_period          5000 non-null float64
mean_of_days_from_first_transaction     5000 non-null float64
mad_of_days_from_first_transaction      5000 non-null float64
mad_of_weeks_from_first_transaction     5000 non-null float64
mad_of_months_from_first_transactio

In [10]:
y = data_agg.pop('target_flag')
data_agg.drop('channel_type', axis=1, inplace=True)
X = pd.get_dummies(data_agg)

In [11]:
kf = KFold(n_splits=5, shuffle=True, random_state=42)
lgboost = lgb.LGBMClassifier(n_estimators=500, max_depth=1, learning_rate=0.16, 
                             colsample_bytree=0.5, 
                             max_bin=90, lambda_l1=1.2,
                             random_state=42)
cross_val_score(lgboost, X, y, cv=kf, scoring='roc_auc').mean()

0.8724600355766532

In [12]:
xgbst = xgb.XGBClassifier(n_estimators=300, max_depth=2, learning_rate=0.1, subsample=0.8,
                          random_state=42, gamma=5)
cross_val_score(xgbst, X, y, cv=kf, scoring='roc_auc').mean()

0.8746794584180403