In [381]:
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime

from sklearn.model_selection import train_test_split
import seaborn as sns

#Use database 
import sqlite3
conn = sqlite3.connect('example.db')

# Rosbank ML Competition

- Данные

Датасет, который содержит историю транзакций клиентов за 3 месяца льготного использования банковского продукта

- Задача

*Задача* бинарной классификации – прогноз оттока клиентов

Колонка cl_id содержит вутренний id клиента. Для каждого уникальнго cl_id следует предсказать продолжит ли клиент пользоваться продуктом (target_flag). Значение 0 соответствует отказу, а значение 1 соответствует продолжению использования

### Описание данных
- trx_category

Вид транзакции, POS – оплата через POS терминал, C2C_OUT – перевод на карту (исходящий платёж), C2C_IN – перевод на карту (входящий платёж), DEPOSIT – пополнение карты в банкомате, WD_ATM_PARTNER – снятие наличных в банкоматах партнерах,

In [382]:
df = pd.read_csv('./data/train.csv')

def convert_TRDATETIME(dt):
    new_dt=datetime.strptime(dt, '%d%b%y:%H:%M:%S')
    return int(new_dt.strftime('%Y%m%d%H%M%S'))

def convert_PERIOD(dt):
    new_dt=datetime.strptime(dt, '%d/%m/%Y')
    return int(new_dt.strftime('%Y%m%d'))
    
    
df['TRDATETIME'] = df.apply(lambda x: convert_TRDATETIME(x['TRDATETIME']), axis=1)
df['PERIOD'] = df.apply(lambda x: convert_PERIOD(x['PERIOD']), axis=1)

In [383]:
df.head()

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum
0,20171001,0,5200,,810,20171021000000,5023.0,POS,0,0.0
1,20171001,0,6011,,810,20171012122407,20000.0,DEPOSIT,0,0.0
2,20171201,0,5921,,810,20171205000000,767.0,POS,0,0.0
3,20171001,0,5411,,810,20171021000000,2031.0,POS,0,0.0
4,20171001,0,6012,,810,20171024131424,36562.0,C2C_OUT,0,0.0


In [384]:
# Дополнительные данные с MCC-кодами и валютами
mcc = pd.read_csv('./data/mcc_codes_alfa.csv')
currencies = pd.read_csv('./data/currencies.csv')

In [385]:
mcc.head()

Unnamed: 0.1,Unnamed: 0,mcc,mcc_name,mcc_group,big_cashback,no_cashback
0,0,742,Ветеринарные услуги,Контрактные услуги,0,0
1,1,763,Сельскохозяйственные кооперативы,Контрактные услуги,0,0
2,2,780,Ландшафтные и садоводческие магазины,Контрактные услуги,0,0
3,3,1520,Генеральные подрядчики – жилищное и торговое с...,Контрактные услуги,0,0
4,4,1711,"Генеральные подрядчики по вентиляции, теплосна...",Контрактные услуги,0,0


In [386]:
currencies.head()

Unnamed: 0.1,Unnamed: 0,Entity,Currency,AlphabeticCode,NumericCode,MinorUnit,WithdrawalDate
0,0,AFGHANISTAN,Afghani,AFN,971.0,2,
1,1,ÅLAND ISLANDS,Euro,EUR,978.0,2,
2,2,ALBANIA,Lek,ALL,8.0,2,
3,3,ALGERIA,Algerian Dinar,DZD,12.0,2,
4,4,AMERICAN SAMOA,US Dollar,USD,840.0,2,


1. Наборы данных вида Transactions (несколько транзакций на одного клиента) трансформировать в таблицу, где cl_id будут уникальными (соответственно 4000 строк в train и 1000 строк в test

2. Для каждого cl_id будет уникальное целевое событие target_flag, а также уникальный канал привлечения клиента channel_type (клиент привлекается лишь однажды и с самого начала его записи присваивается значение канала привлечения)

3. При агрегации (*pandas.DataFrame.groupby*) по cl_id (или по связке cl_id, channel_type, target_flag) необходимо создавать производные фичи, идеи для таких фичей могут быть следующими:

    - общая сумма транзакций по каждой из trx_category
    - общая сумма транзакции по основным вылютам (напр. выделить рубли, доллары и евро - предположительно, это будут самые крупные категории)
    - общая сумма транзакций по категориям MCC кодов (например, выбрать основные/популярные MCC коды). ВНИМАНИ! Некоторые MCC коды из train могут быть не представлены в test. Про MCC коды в целом: http://www.banki.ru/wikibank/mcc-kod/; Справочник MCC кодов: https://mcc-codes.ru/code; Про некоторые категории кэшбека Росбанка: https://mcc-codes.ru/card/rosbank-sverkh-plus;
    - возможные агрегации по времени суток и дням недели - траты в выходные (праздники) или будни, в ночное время или в рабочее и т.д.

In [387]:
def client_split_train_test(df):
    cl_ids = df[['cl_id', 'channel_type', 'target_flag']].drop_duplicates()
    cl_train, cl_test = train_test_split(cl_ids, test_size=0.2, random_state=42 )
    train = cl_train[['cl_id']].merge(df, how='inner', on='cl_id')
    test = cl_test[['cl_id']].merge(df, how='inner', on='cl_id')
    return train, test

train, test = client_split_train_test(df)
train.head()

Unnamed: 0,cl_id,PERIOD,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum
0,8729,20170201,7311,type1,810,20170203000000,5000.0,POS,1,8791.85
1,8729,20170201,7230,type1,810,20170211000000,800.0,POS,1,8791.85
2,8729,20170201,5411,type1,810,20170221000000,1837.14,POS,1,8791.85
3,8729,20170201,5411,type1,810,20170227000000,2610.71,POS,1,8791.85
4,8729,20170201,5812,type1,810,20170222000000,1583.4,POS,1,8791.85


In [388]:
#Use database
import sqlite3
conn = sqlite3.connect('rosbank.db')
mcc.to_sql('mcc', conn, if_exists='replace')
currencies.to_sql('currencies', conn, if_exists='replace')
train.to_sql('train', conn, if_exists='replace')
test.to_sql('test', conn, if_exists='replace')

  dtype=dtype)
  dtype=dtype)


### Гипотезы
На лояльность клиента влияют следующие факторы:

1. Сумма совершенных покупок по программам лояльности
2. Сумма транзакций по trx категориям
3. Сумма покупок по группам mcc категорий
4. Сумма покупок совершенных без кэшбэка
5. Медианное количество POS-транзакций в месяц
6. Медианное количество денег, переведенное на карту клиента
7. Количество маленьких покупок совершенных по карте в месяц (сумма до 1000 рублей)

In [389]:
# Лояльность по количеству покупок
df_median=pd.read_sql("""Select cl_id,
                                channel_type, 
                                target_flag, 
                                SUM(big_cashback) as big_cashback_cnt, 
                                SUM(no_cashback) as no_cashback_cnt, 
                                SUM(case when trx_category == 'POS' then 1 else 0 end) as pos_cnt ,
                                SUM(case when trx_category != 'POS' then 1 else 0 end) as no_pos_cnt ,
                                SUM(case when trx_category in ('C2C_IN', 'DEPOSIT') then 1 else 0 end) as c2c_in_amnt,
                                SUM(case when amount<=1000 then 1 else 0 end) as small_transactions_cnt
                    FROM train LEFT JOIN mcc
                        ON mcc.mcc = train.MCC
                GROUP BY cl_id, channel_type, target_flag""", conn)
df_median.head()

Unnamed: 0,cl_id,channel_type,target_flag,big_cashback_cnt,no_cashback_cnt,pos_cnt,no_pos_cnt,c2c_in_amnt,small_transactions_cnt
0,0,,0,1,2,3,2,1,1
1,1,,0,76,5,101,3,2,89
2,5,,1,29,37,111,31,4,48
3,9,,0,0,10,29,10,4,26
4,10,,0,100,91,374,89,25,370


In [390]:
# Категории транзакций
table = pd.read_sql("""SELECT cl_id, 
                               CASE 
                                   WHEN mcc_group NOT IN 
                                               ('Коммунальные и кабельные услуги',
                                                'Транспорт',
                                                'Автомобили и транспортные средства',
                                                'Развлечения',
                                                'Личные услуги',
                                                'Розничные магазины',
                                                'Поставщик услуг',
                                                'Магазины одежды',
                                                'Различные магазины') 
                                    THEN 'Other mcc category'
                                    else mcc_group END mcc_group, 
                                SUM(amount) amnt, COUNT(1) cnt 
                        FROM mcc INNER JOIN train
                            ON mcc.mcc = train.MCC
                            GROUP BY cl_id, mcc_group
                            ORDER BY cl_id, cnt DESC
                    """, conn)

table = table.pivot_table(values='cnt', index=['cl_id'], columns=['mcc_group']).fillna(value=0).reset_index()

In [409]:
# Используемые валюты
df_currency = pd.read_sql("""SELECT cl_id,
                      CASE WHEN currencies.Currency 
                            NOT IN ('Russian Ruble', 'Euro', 'US Dollar') 
                           THEN 'Other Currencies'
                           ELSE currencies.Currency 
                       END currency,
                       1 as cnt FROM currencies 
                                        INNER JOIN train ON train.currency = currencies.NumericCode
                            WHERE trx_category == 'POS'
                        GROUP BY 1, 2
                        ORDER BY 2 DESC
            """, conn)\
            .pivot_table(values='cnt', index=['cl_id'], columns=['currency']).fillna(value=0).reset_index()
df_currency.head()

currency,cl_id,Euro,Other Currencies,Russian Ruble,US Dollar
0,0,0.0,0.0,1.0,0.0
1,1,1.0,0.0,1.0,0.0
2,5,1.0,1.0,1.0,0.0
3,9,0.0,0.0,1.0,0.0
4,10,0.0,0.0,1.0,0.0


In [412]:
#Средний размер покупки по карте
df_avg = pd.read_sql("""SELECT cl_id,
                               AVG(amount) avg_trans_amount  FROM train 
                            WHERE trx_category == 'POS'
                        GROUP BY 1
            """, conn)
df_avg.head()

Unnamed: 0,cl_id,avg_trans_amount
0,0,2607.0
1,1,1213.64396
2,5,2617.123874
3,9,426.382414
4,10,537.315802


In [416]:
#Среднее количество транзакций в день
df_avg_transactions = pd.read_sql("""SELECT train.cl_id
                                            ,COUNT() as last_month_transaction_cnt
                                            ,AVG(amount) as last_month_avg_amt
                                        FROM train INNER JOIN (SELECT cl_id, MAX(PERIOD) PERIOD
                                                                    FROM train GROUP BY cl_id) maxprd
                                                    ON   maxprd.cl_id = train.cl_id
                                                    AND  maxprd.PERIOD = train.PERIOD
                                        WHERE train.trx_category == 'POS'
                                               GROUP BY train.cl_id
            """, conn)
df_avg_transactions.head()

Unnamed: 0,cl_id,last_month_transaction_cnt,last_month_avg_amt
0,0,1,767.0
1,1,24,481.458333
2,5,30,3030.812333
3,9,13,119.923077
4,10,111,552.191622


In [421]:
#Все фичи
df_full = df_median\
            .merge(table, how='inner', on='cl_id')\
            .merge(df_currency, how='inner', on='cl_id')\
            .merge(df_avg_transactions, how='inner', on='cl_id')\
            .merge(df_avg, how='inner', on='cl_id')


In [422]:
corr = df_full.corr()
corr

Unnamed: 0,cl_id,target_flag,big_cashback_cnt,no_cashback_cnt,pos_cnt,no_pos_cnt,c2c_in_amnt,small_transactions_cnt,Other mcc category,Автомобили и транспортные средства,...,Различные магазины,Розничные магазины,Транспорт,Euro,Other Currencies,Russian Ruble,US Dollar,last_month_transaction_cnt,last_month_avg_amt,avg_trans_amount
cl_id,1.0,-0.370937,-0.138257,-0.118292,-0.100661,-0.128015,0.200299,-0.083603,0.030501,-0.001154,...,-0.144171,-0.021559,-0.100834,-0.14303,-0.129616,-0.008847,0.010113,-0.054298,-0.005976,0.001019
target_flag,-0.370937,1.0,0.234318,0.205865,0.229226,0.194191,-0.078372,0.182108,0.063781,0.107498,...,0.246524,0.1204,0.116001,0.113033,0.124644,0.082392,0.007125,0.050219,-0.017643,0.005018
big_cashback_cnt,-0.138257,0.234318,1.0,0.321669,0.869225,0.300329,0.167604,0.838977,0.239689,0.314178,...,0.905813,0.593737,0.306039,0.150558,0.112785,0.080731,0.05893,0.488845,-0.097764,-0.069058
no_cashback_cnt,-0.118292,0.205865,0.321669,1.0,0.413288,0.931017,0.49291,0.407193,0.241352,0.225353,...,0.332291,0.275132,0.178036,0.038353,0.049757,0.094579,0.031864,0.20704,-0.03741,-0.011997
pos_cnt,-0.100661,0.229226,0.869225,0.413288,1.0,0.355994,0.268525,0.960359,0.326511,0.467578,...,0.843406,0.825065,0.387391,0.138199,0.107163,0.097621,0.082666,0.574739,-0.116798,-0.084153
no_pos_cnt,-0.128015,0.194191,0.300329,0.931017,0.355994,1.0,0.52544,0.364513,0.109921,0.206592,...,0.297838,0.268979,0.154913,0.015463,0.038931,0.094556,0.008647,0.161368,-0.027293,-0.002852
c2c_in_amnt,0.200299,-0.078372,0.167604,0.49291,0.268525,0.52544,1.0,0.268747,0.131991,0.237084,...,0.146359,0.279327,0.046547,-0.057066,-0.057421,0.06749,-0.007876,0.13818,0.00215,-0.012567
small_transactions_cnt,-0.083603,0.182108,0.838977,0.407193,0.960359,0.364513,0.268747,1.0,0.288538,0.407743,...,0.811944,0.814311,0.403771,0.117897,0.087413,0.073554,0.080825,0.551282,-0.117398,-0.087334
Other mcc category,0.030501,0.063781,0.239689,0.241352,0.326511,0.109921,0.131991,0.288538,1.0,0.186942,...,0.217409,0.193414,0.103055,0.063966,0.073236,0.006943,0.100266,0.201153,-0.034396,-0.022488
Автомобили и транспортные средства,-0.001154,0.107498,0.314178,0.225353,0.467578,0.206592,0.237084,0.407743,0.186942,1.0,...,0.283593,0.378894,0.015291,0.03879,0.055842,0.057745,-0.00243,0.255841,-0.063706,-0.045178


In [424]:
corr.target_flag.sort_values(ascending=False)

target_flag                           1.000000
Различные магазины                    0.246524
big_cashback_cnt                      0.234318
pos_cnt                               0.229226
no_cashback_cnt                       0.205865
no_pos_cnt                            0.194191
Поставщик услуг                       0.193938
small_transactions_cnt                0.182108
Магазины одежды                       0.161166
Личные услуги                         0.132150
Other Currencies                      0.124644
Розничные магазины                    0.120400
Транспорт                             0.116001
Euro                                  0.113033
Коммунальные и кабельные услуги       0.109009
Автомобили и транспортные средства    0.107498
Развлечения                           0.103011
Russian Ruble                         0.082392
Other mcc category                    0.063781
last_month_transaction_cnt            0.050219
US Dollar                             0.007125
avg_trans_amo