In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Rosbank ML Competition

Ссылка на соревнование: https://boosters.pro/champ_15

Росбанк – часть ведущей международной финансовой группы Societe Generale, банк включен ЦБ РФ в число 11 системно значимых кредитных организаций России. Инновации неотъемлемый процесс работы Росбанка, поэтому активно развивается направленный анализа больших данных.

- Данные

Датасет, который содержит историю транзакций клиентов за 3 месяца льготного использования банковского продукта

- Задача

Задача бинарной классификации – прогноз оттока клиентов

Колонка cl_id содержит вутренний id клиента. Для каждого уникальнго cl_id следует предсказать продолжит ли клиент пользоваться продуктом (target_flag). Значение 0 соответствует отказу, а значение 1 соответствует продолжению использования

In [55]:
raw_df = pd.read_csv('train.csv')
raw_df.head(5)
# target_sum - можно выкинуть, переменная участвует в другой задаче

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum
0,01/10/2017,0,5200,,810,21OCT17:00:00:00,5023.0,POS,0,0.0
1,01/10/2017,0,6011,,810,12OCT17:12:24:07,20000.0,DEPOSIT,0,0.0
2,01/12/2017,0,5921,,810,05DEC17:00:00:00,767.0,POS,0,0.0
3,01/10/2017,0,5411,,810,21OCT17:00:00:00,2031.0,POS,0,0.0
4,01/10/2017,0,6012,,810,24OCT17:13:14:24,36562.0,C2C_OUT,0,0.0


In [44]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 490513 entries, 0 to 490512
Data columns (total 10 columns):
PERIOD          490513 non-null object
cl_id           490513 non-null int64
MCC             490513 non-null int64
channel_type    487603 non-null object
currency        490513 non-null int64
TRDATETIME      490513 non-null object
amount          490513 non-null float64
trx_category    490513 non-null object
target_flag     490513 non-null int64
target_sum      490513 non-null float64
dtypes: float64(2), int64(4), object(4)
memory usage: 37.4+ MB


In [45]:
print("Total clients: ", len(raw_df.cl_id.unique()))

Total clients:  5000


Всего 5000 клиентов, случайным образом возьмем 1000 клиентов для тестирования

In [46]:
cl_ids_test = np.random.choice(raw_df.cl_id.unique(), size=1000, replace=False)
cl_ids_test_set = set(cl_ids_test)

In [47]:
# create transactions dataset for train
transactions_train = raw_df[~raw_df.cl_id.isin(cl_ids_test)].copy()
print("Total transactions in train dataset: ", len(transactions_train))
# create transactions dataset for test
transactions_test = raw_df[raw_df.cl_id.isin(cl_ids_test)].copy()
print("Total transactions in test dataset: ", len(transactions_test))

Total transactions in train dataset:  393094
Total transactions in test dataset:  97419


In [113]:
# raw_df_grouped = raw_df[
#     ['cl_id', 'amount', 'MCC']
# ].groupby(['cl_id', 'MCC']).agg(['sum', 'count'])
# agg_dataset = raw_df_grouped.unstack()

### Временно уменьшим датасет

In [49]:
#raw_df = raw_df[:2000]

## Удалим сумму транзакций - в текущей задачи мы ее не предсказываем

In [57]:
raw_df.drop('target_sum', axis=1, inplace=True)

## Все фичи надо варить, причём одинаково в train и test, лучше их сразу соединим и разделим при этом флагом is_test

In [96]:
transactions_test['is_test'] = True
transactions_train['is_test'] = False
df = pd.concat([transactions_test, transactions_train], axis=0)
df.index = range(len(data))

In [97]:
df.head(3)

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,is_test
0,01/06/2017,5,5944,,810,18JUN17:00:00:00,3719.0,POS,1,True
1,01/06/2017,5,6012,,810,14JUN17:00:00:00,10000.0,C2C_OUT,1,True
2,01/04/2017,5,5621,,810,06APR17:00:00:00,1399.0,POS,1,True


# Преобразование кодов MCC

поделим коды mcc на категории

In [98]:
codes = pd.read_excel('mcc_codes.xlsx')

In [99]:
codes.head(3)

Unnamed: 0,чисоло,Имя,Группа
0,742,Ветеринарные услуги,Контрактные услуги
1,763,Сельскохозяйственные кооперативы,Контрактные услуги
2,780,Услуги садоводства и ландшафтного дизайна,Контрактные услуги


заполнним пустые значения категорий(Группа)

In [100]:
#TODO проверить если пустых значений много - тогда их заполнить не от балды

In [101]:
codes.Группа.fillna("-", inplace=True)
codes[codes['Группа'] == '-']

Unnamed: 0,чисоло,Имя,Группа
704,4304,Категория неизвестна,-
754,5292,Категория неизвестна,-
755,5295,Категория неизвестна,-
766,5415,Категория неизвестна,-
873,6381,Страховые премии,-
994,8664,Категория неизвестна,-
1011,9700,Automated Referral Service (только VISA),-
1012,9701,Служба проверки учетных данных Visa (только VISA),-
1013,9702,Аварийные службы (GCAS) (только VISA),-
1017,9950,Покупки внутри компании,-


создадим словарь всех групп

In [102]:
codes_list = codes.Группа.value_counts().index.tolist()
codes_dict_short = dict((k,i) for i,k in enumerate(codes_list))
codes_dict_short

{'-': 16,
 'Авиалинии, авиакомпании': 1,
 'Автомобили и транспортные средства': 13,
 'Аренда автомобилей': 2,
 'Бизнес услуги': 6,
 'Государственные услуги': 17,
 'Коммунальные и кабельные услуги': 19,
 'Контрактные услуги': 15,
 'Личные услуги': 11,
 'Магазины одежды': 14,
 'Оптовые поставщики и производители': 5,
 'Отели и мотели': 0,
 'Поставщик услуг': 4,
 'Продажи по почте/телефону': 18,
 'Профессиональные услуги': 9,
 'Развлечения': 7,
 'Различные магазины': 3,
 'Ремонтные услуги': 12,
 'Розничные магазины': 8,
 'Транспорт': 10,
 'Членские организации': 20}

для каждого mcc кода создадим категорию и сохраним это в словарь

In [103]:
def set_code_val(group):
    return codes_dict_short[group]

codes['code_type'] = codes['Группа'].apply(set_code_val)

In [104]:
codes.head()

Unnamed: 0,чисоло,Имя,Группа,code_type
0,742,Ветеринарные услуги,Контрактные услуги,15
1,763,Сельскохозяйственные кооперативы,Контрактные услуги,15
2,780,Услуги садоводства и ландшафтного дизайна,Контрактные услуги,15
3,1520,Генеральные подрядчики – жилое и коммерческое ...,Контрактные услуги,15
4,1711,"Генеральные подрядчики по вентиляции, теплосна...",Контрактные услуги,15


In [105]:
codes.drop_duplicates( subset = 'чисоло', keep = 'first', inplace = True )

In [106]:
codes_dict = {}
for code, code_type in zip(codes.чисоло, codes.code_type):
    codes_dict[code] = code_type

# Формируем фичи

## Сумму транзакций приведем к одной валюте

###  MCC категория

In [107]:
def set_mcc_category(mcc):
    if mcc in codes_dict:
        return codes_dict[mcc]
    
    return codes_dict_short['-']

In [108]:
df['mcc_category'] = df['MCC'].apply(set_mcc_category)

In [109]:
df.head(10)

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,is_test,mcc_category
0,01/06/2017,5,5944,,810,18JUN17:00:00:00,3719.0,POS,1,True,3
1,01/06/2017,5,6012,,810,14JUN17:00:00:00,10000.0,C2C_OUT,1,True,4
2,01/04/2017,5,5621,,810,06APR17:00:00:00,1399.0,POS,1,True,14
3,01/06/2017,5,5691,,810,17JUN17:00:00:00,3190.0,POS,1,True,14
4,01/04/2017,5,5499,,810,25APR17:00:00:00,1387.61,POS,1,True,8
5,01/05/2017,5,5411,,810,18MAY17:00:00:00,158.99,POS,1,True,8
6,01/05/2017,5,6012,,810,16MAY17:00:00:00,2500.0,C2C_OUT,1,True,4
7,01/04/2017,5,5411,,810,27APR17:00:00:00,273.69,POS,1,True,8
8,01/05/2017,5,5411,,810,19MAY17:00:00:00,1688.87,POS,1,True,8
9,01/06/2017,5,4112,,810,16JUN17:00:00:00,1097.9,POS,1,True,10


## Сохраним в датасет количество операций по каждой категории и сумму расходов по каждой категории

для начала вытягнем подготовим данные

In [141]:
df_grouped = df[
    ['cl_id', 'amount', 'mcc_category']
].groupby(['cl_id', 'mcc_category']).agg(['sum', 'count'])
agg_dataset = df_grouped.unstack()

In [142]:
agg_dataset.head()

Unnamed: 0_level_0,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount
Unnamed: 0_level_1,sum,sum,sum,sum,sum,sum,sum,sum,sum,sum,...,count,count,count,count,count,count,count,count,count,count
mcc_category,0,1,2,3,4,5,6,7,8,9,...,11,12,13,14,15,16,17,18,19,20
cl_id,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
0,,,,767.0,56562.0,,,,7054.0,,...,,,,,,,,,,
1,,,,90868.78,145012.0,,30.0,8628.02,15146.16,,...,,,,5.0,,,1.0,,,
5,2940.0,,,37229.2,241878.38,,,15919.01,53534.1,2204.0,...,2.0,,,18.0,,,1.0,,5.0,
9,,,,12326.09,836950.0,,,,39.0,,...,,,,,,,,,,
10,,,,37733.07,923387.88,,2400.0,,119805.21,611.0,...,,1.0,33.0,12.0,,,,,1.0,


In [143]:
agg_dataset.fillna(0, inplace=True)

In [144]:
agg_dataset.head()

Unnamed: 0_level_0,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount,amount
Unnamed: 0_level_1,sum,sum,sum,sum,sum,sum,sum,sum,sum,sum,...,count,count,count,count,count,count,count,count,count,count
mcc_category,0,1,2,3,4,5,6,7,8,9,...,11,12,13,14,15,16,17,18,19,20
cl_id,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
0,0.0,0.0,0.0,767.0,56562.0,0.0,0.0,0.0,7054.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,90868.78,145012.0,0.0,30.0,8628.02,15146.16,0.0,...,0.0,0.0,0.0,5.0,0.0,0.0,1.0,0.0,0.0,0.0
5,2940.0,0.0,0.0,37229.2,241878.38,0.0,0.0,15919.01,53534.1,2204.0,...,2.0,0.0,0.0,18.0,0.0,0.0,1.0,0.0,5.0,0.0
9,0.0,0.0,0.0,12326.09,836950.0,0.0,0.0,0.0,39.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
10,0.0,0.0,0.0,37733.07,923387.88,0.0,2400.0,0.0,119805.21,611.0,...,0.0,1.0,33.0,12.0,0.0,0.0,0.0,0.0,1.0,0.0


In [150]:
agg_dataset.columns['amount']

MultiIndex(levels=[['amount'], ['sum', 'count'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]],
           labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]],
           names=[None, None, 'mcc_category'])

In [154]:
agg_dataset['amount']['sum'].columns

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
            19, 20],
           dtype='int64', name='mcc_category')

## Домашняя работа

1. Наборы данных вида Transactions (несколько транзакций на одного клиента) трансформировать в таблицу, где cl_id будут уникальными (соответственно 4000 строк в train и 1000 строк в test
2. Для каждого cl_id будет уникальное целевое событие target_flag, а также уникальный канал привлечения клиента channel_type (клиент привлекается лишь однажды и с самого начала его записи присваивается значение канала привлечения)
3. При агрегации (*pandas.DataFrame.groupby*) по cl_id (или по связке cl_id, channel_type, target_flag) необходимо создавать производные фичи, идеи для таких фичей могут быть следующими:

    - общая сумма транзакций по каждой из trx_category
    - общая сумма транзакции по основным вылютам (напр. выделить рубли, доллары и евро - предположительно, это будут самые крупные категории)
    - общая сумма транзакций по категориям MCC кодов (например, выбрать основные/популярные MCC коды). ВНИМАНИ! Некоторые MCC коды из train могут быть не представлены в test. Про MCC коды в целом: http://www.banki.ru/wikibank/mcc-kod/; Справочник MCC кодов: https://mcc-codes.ru/code; Про некоторые категории кэшбека Росбанка: https://mcc-codes.ru/card/rosbank-sverkh-plus;
    - возможные агрегации по времени суток и дням недели - траты в выходные (праздники) или будни, в ночное время или в рабочее и т.д.
3. **Обязательная часть**: провести первичный анализ данных - посмотреть распределения признаков, выделить самые популярные MCC, помотреть активность клиентов по дням недели/времени, какие категории транзакции (trx_category) наиболее популярны и т.д. Получить инсайты, которые в дальнейшем помогут вам правильно подготовить фичи
4. **Обязательная часть**: на большом количестве фичей применить Lasso регрессию и посмотреть, какие переменные получают 0 в качестве коэффициентов
5. **Обязательная часть**: на фичах из MCC кодов применить PCA и посмотреть, какие фичи получаются и что они могут объяснять (для этого посмотреть на коэффициенты в *sklearn.decomposition.pca.components_* после построения главных компонент)
6. **Обязательная часть**: с отобранными фичами и полученными компонентами обучить модель (тип алгоритма на свой вкус, можно начать с линейной) и померить качество на локальном тестовом наборе данных (локальная валидация), который создается в этом ноутбуке. Сравнить качество модели до добавления компонент/после добавления/только на главных компонентах. **Метрика оценки качества - ROC AUC**(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
8. **Дополнительная часть**: поучаствовать в соревновании - загрузить предсказания на https://boosters.pro/champ_15. Для этого необходимо использовать все данные из файла rosbank_train.csv, на них делать feature engineering и обучениеб затем делать предсказания для клиентов из файла rosbank_test.csv, предварительно создав фичи по аналогии с train.
9. Задания принимаются в виде ноутбука с кодом/картинками выполненной обязательной части + указанием места в leaderboard при решении дополнительной

При возникновении вопросов и для отправки домашнего задания - egsachko@gmail.com или http://fb.com/sachkoe
    