In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import datetime
import warnings
warnings.simplefilter('ignore')

## Rosbank ML Competition

Ссылка на соревнование: https://boosters.pro/champ_15

Росбанк – часть ведущей международной финансовой группы Societe Generale, банк включен ЦБ РФ в число 11 системно значимых кредитных организаций России. Инновации неотъемлемый процесс работы Росбанка, поэтому активно развивается направленный анализа больших данных.

- Данные

Датасет, который содержит историю транзакций клиентов за 3 месяца льготного использования банковского продукта

- Задача

Задача бинарной классификации – прогноз оттока клиентов

Колонка cl_id содержит вутренний id клиента. Для каждого уникальнго cl_id следует предсказать продолжит ли клиент пользоваться продуктом (target_flag). Значение 0 соответствует отказу, а значение 1 соответствует продолжению использования

In [2]:
raw_df = pd.read_csv('rosbank_train.csv')
raw_df.head(5)
# target_sum - можно выкинуть, переменная участвует в другой задаче

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum
0,01/10/2017,0,5200,,810,21OCT17:00:00:00,5023.0,POS,0,0.0
1,01/10/2017,0,6011,,810,12OCT17:12:24:07,20000.0,DEPOSIT,0,0.0
2,01/12/2017,0,5921,,810,05DEC17:00:00:00,767.0,POS,0,0.0
3,01/10/2017,0,5411,,810,21OCT17:00:00:00,2031.0,POS,0,0.0
4,01/10/2017,0,6012,,810,24OCT17:13:14:24,36562.0,C2C_OUT,0,0.0


In [3]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 490513 entries, 0 to 490512
Data columns (total 10 columns):
PERIOD          490513 non-null object
cl_id           490513 non-null int64
MCC             490513 non-null int64
channel_type    487603 non-null object
currency        490513 non-null int64
TRDATETIME      490513 non-null object
amount          490513 non-null float64
trx_category    490513 non-null object
target_flag     490513 non-null int64
target_sum      490513 non-null float64
dtypes: float64(2), int64(4), object(4)
memory usage: 37.4+ MB


In [4]:
print("Total clients: ", len(raw_df.cl_id.unique()))

Total clients:  5000


Всего 5000 клиентов, случайным образом возьмем 1000 клиентов для тестирования

In [5]:
cl_ids_test = np.random.choice(raw_df.cl_id.unique(), size=1000, replace=False)
cl_ids_test_set = set(cl_ids_test)

In [6]:
# create transactions dataset for train
transactions_train = raw_df[~raw_df.cl_id.isin(cl_ids_test)].copy()
print("Total transactions in train dataset: ", len(transactions_train))
# create transactions dataset for test
transactions_test = raw_df[raw_df.cl_id.isin(cl_ids_test)].copy()
print("Total transactions in test dataset: ", len(transactions_test))

Total transactions in train dataset:  393505
Total transactions in test dataset:  97008


## Домашняя работа

1. Наборы данных вида Transactions (несколько транзакций на одного клиента) трансформировать в таблицу, где cl_id будут уникальными (соответственно 4000 строк в train и 1000 строк в test
2. Для каждого cl_id будет уникальное целевое событие target_flag, а также уникальный канал привлечения клиента channel_type (клиент привлекается лишь однажды и с самого начала его записи присваивается значение канала привлечения)
3. При агрегации (*pandas.DataFrame.groupby*) по cl_id (или по связке cl_id, channel_type, target_flag) необходимо создавать производные фичи, идеи для таких фичей могут быть следующими:

    - общая сумма транзакций по каждой из trx_category
    - общая сумма транзакции по основным вылютам (напр. выделить рубли, доллары и евро - предположительно, это будут самые крупные категории)
    - общая сумма транзакций по категориям MCC кодов (например, выбрать основные/популярные MCC коды). ВНИМАНИ! Некоторые MCC коды из train могут быть не представлены в test. Про MCC коды в целом: http://www.banki.ru/wikibank/mcc-kod/; Справочник MCC кодов: https://mcc-codes.ru/code; Про некоторые категории кэшбека Росбанка: https://mcc-codes.ru/card/rosbank-sverkh-plus;
    - возможные агрегации по времени суток и дням недели - траты в выходные (праздники) или будни, в ночное время или в рабочее и т.д.
4. **Обязательная часть**: провести первичный анализ данных - посмотреть распределения признаков, выделить самые популярные MCC, помотреть активность клиентов по дням недели/времени, какие категории транзакции (trx_category) наиболее популярны и т.д. Получить инсайты, которые в дальнейшем помогут вам правильно подготовить фичи
5. **Дополнительная часть**: с отобранными фичами и полученными компонентами обучить модель (тип алгоритма на свой вкус, можно начать с линейной) и померить качество на локальном тестовом наборе данных (локальная валидация), который создается в этом ноутбуке. **Метрика оценки качества - ROC AUC**(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
6. Задания принимаются в виде ноутбука с кодов/картинками выполненной обязательной части

При возникновении вопросов и для отправки домашнего задания - egsachko@gmail.com или http://fb.com/sachkoe
    

## Практика

# EDA

# Feauture engeneering

In [7]:
raw_df.head()

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum
0,01/10/2017,0,5200,,810,21OCT17:00:00:00,5023.0,POS,0,0.0
1,01/10/2017,0,6011,,810,12OCT17:12:24:07,20000.0,DEPOSIT,0,0.0
2,01/12/2017,0,5921,,810,05DEC17:00:00:00,767.0,POS,0,0.0
3,01/10/2017,0,5411,,810,21OCT17:00:00:00,2031.0,POS,0,0.0
4,01/10/2017,0,6012,,810,24OCT17:13:14:24,36562.0,C2C_OUT,0,0.0


In [8]:
raw_df.drop('target_sum', axis=1).head()

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag
0,01/10/2017,0,5200,,810,21OCT17:00:00:00,5023.0,POS,0
1,01/10/2017,0,6011,,810,12OCT17:12:24:07,20000.0,DEPOSIT,0
2,01/12/2017,0,5921,,810,05DEC17:00:00:00,767.0,POS,0
3,01/10/2017,0,5411,,810,21OCT17:00:00:00,2031.0,POS,0
4,01/10/2017,0,6012,,810,24OCT17:13:14:24,36562.0,C2C_OUT,0


Идея: сгенерируем для каждого cl_id+channel_type+target_flag отдельные временные датасеты с общей суммой и количеством транзакций на клиента, суммой транзакций по валютам, суммой транзакций по MCC, суммой транзакций по категориям, суммой транзакций по часам, суммой транзакций по дням недели. Затем сдоиним получившиеся датасеты в один.

##### Сумма транзакций на клиента

In [9]:
def get_transaction_by_client(df):
    temp_df = raw_df[['cl_id','amount']].groupby('cl_id')['amount'].aggregate([np.sum, np.size]).reset_index().set_index('cl_id')
    temp_df['size'] = temp_df['size'].astype('int')
    temp_df.rename(columns={'size' : 'total_tr_count', 'sum' : 'total_tr_amount'},inplace=True)
    return temp_df
get_transaction_by_client(raw_df).head()

Unnamed: 0_level_0,total_tr_amount,total_tr_count
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,64383.0,5
1,267578.04,104
5,546369.13,142
9,849315.09,39
10,1124343.99,463


##### Сумма и количество транзакций на клиента по основным MCC-кодам

Возьмем N наиболее популярных MCC кодов

In [56]:
mcc_list = raw_df['MCC'].value_counts(dropna=False).reset_index().head(10)['index'].tolist()
mcc_list

[5411, 6011, 5814, 5812, 5499, 5541, 5912, 5999, 6012, 5921]

In [57]:
#Все mcc, которые не входят в список популярных, будем обозначать как 0 (прочее)
def transaction_per_mcc(data):
    temp_df = data[['cl_id','target_flag','channel_type','MCC','amount']]
    temp_df['MCC'] = temp_df['MCC'].apply(lambda x: x if x in  mcc_list else 0)
    temp_df = temp_df.groupby(['cl_id','MCC'])['amount'].agg(['sum','count']).unstack().fillna(0).astype('int')   
    temp_df.columns = ['_'.join(('mcc',str(x[1]),x[0])) for x in temp_df.columns.ravel()]
    return temp_df
transaction_per_mcc(raw_df).head()

Unnamed: 0_level_0,mcc_0_sum,mcc_5411_sum,mcc_5499_sum,mcc_5541_sum,mcc_5812_sum,mcc_5814_sum,mcc_5912_sum,mcc_5921_sum,mcc_5999_sum,mcc_6011_sum,...,mcc_5411_count,mcc_5499_count,mcc_5541_count,mcc_5812_count,mcc_5814_count,mcc_5912_count,mcc_5921_count,mcc_5999_count,mcc_6011_count,mcc_6012_count
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5023,2031,0,0,0,0,0,767,0,20000,...,1,0,0,0,0,0,1,0,1,1
1,18718,14629,492,0,3180,82441,2441,0,675,145000,...,12,2,0,19,41,3,0,1,3,0
5,247000,44925,7196,0,3309,247,1804,0,8,208000,...,31,8,0,2,1,3,0,1,22,8
9,420,39,0,0,0,0,0,0,11906,540000,...,1,0,0,0,0,0,0,27,7,3
10,111834,53920,13225,15755,319,2010,12972,488,12123,854000,...,103,30,22,2,4,20,2,81,66,4


In [53]:
#example
raw_df_grouped = raw_df[
    ['cl_id', 'amount', 'MCC']
].groupby(['cl_id', 'MCC']).agg(['sum', 'count'])

# aggregated_dataset = raw_df_grouped.unstack().fillna(0)


##### Транзакции на клиента по trx_category

In [54]:
raw_df['trx_category'].value_counts()

POS               416425
DEPOSIT            21216
WD_ATM_ROS         19104
WD_ATM_PARTNER      9948
C2C_IN              7306
WD_ATM_OTHER        7140
C2C_OUT             5456
BACK_TRX            2687
CAT                 1197
CASH_ADV              34
Name: trx_category, dtype: int64

In [55]:
def transaction_per_trx_category(data):
    temp_df = data[['cl_id','trx_category','amount']]
    temp_df = temp_df.groupby(['cl_id','trx_category'])['amount'].agg(['sum','count']).unstack().fillna(0).astype('int')
    temp_df.columns = ["_".join(x) for x in temp_df.columns.ravel()]
    #another way to get rid of multilevel index by dropping it temp_df.columns = temp_df.columns.drop_level(0)
    return temp_df
transaction_per_trx_category(raw_df).head()

Unnamed: 0_level_0,sum_BACK_TRX,sum_C2C_IN,sum_C2C_OUT,sum_CASH_ADV,sum_CAT,sum_DEPOSIT,sum_POS,sum_WD_ATM_OTHER,sum_WD_ATM_PARTNER,sum_WD_ATM_ROS,count_BACK_TRX,count_C2C_IN,count_C2C_OUT,count_CASH_ADV,count_CAT,count_DEPOSIT,count_POS,count_WD_ATM_OTHER,count_WD_ATM_PARTNER,count_WD_ATM_ROS
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,0,0,36562,0,0,20000,7821,0,0,0,0,0,1,0,0,1,3,0,0,0
1,0,0,0,0,0,95000,122578,0,0,50000,0,0,0,0,0,2,101,0,0,1
5,13990,0,33878,0,0,130000,290500,5500,6000,66500,1,0,8,0,0,4,111,2,2,14
9,0,296950,0,0,0,5000,12365,0,100000,435000,0,3,0,0,0,1,29,0,1,5
10,0,10000,21692,0,37694,426300,200956,0,5400,422300,0,1,19,0,3,24,374,0,3,39


##### Транзакции по основным видам валют

In [61]:
cur_lst = raw_df['currency'].value_counts(dropna=False).reset_index().head(5)['index'].tolist()

In [65]:
def transaction_per_cur(data):  
    temp_df = data[['cl_id','currency','amount']]
    temp_df['currency'] = temp_df['currency'].apply(lambda x: x if x in  cur_lst else 0)
    temp_df = temp_df.groupby(['cl_id','currency'])['amount'].agg(['sum','count']).unstack().fillna(0).astype('int')   
    temp_df.columns = ['_'.join(('cur',str(x[1]),x[0])) for x in temp_df.columns.ravel()]
    return temp_df
transaction_per_cur(raw_df).head()

Unnamed: 0_level_0,cur_0_sum,cur_810_sum,cur_840_sum,cur_933_sum,cur_978_sum,cur_985_sum,cur_0_count,cur_810_count,cur_840_count,cur_933_count,cur_978_count,cur_985_count
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,0,64383,0,0,0,0,0,5,0,0,0,0
1,0,266693,0,0,884,0,0,70,0,0,34,0
5,1442,544874,0,0,51,0,4,136,0,0,2,0
9,0,849315,0,0,0,0,0,39,0,0,0,0
10,0,1124343,0,0,0,0,0,463,0,0,0,0


##### Транзакции по дням недели

In [131]:
def transaction_by_day_count(dataset):
    dataset['day_of_transaction'] = dataset['TRDATETIME'].apply(
        lambda x: (datetime.datetime.strptime(x, '%d%b%y:%H:%M:%S')).strftime('%a')
    ) 
    tmp_df = dataset.groupby(
        ['cl_id','day_of_transaction']
    )['day_of_transaction'].size().unstack().fillna(0).reset_index().set_index('cl_id').astype('int')
    old_columns = [
        old_col for old_col in tmp_df.columns.tolist()
        if old_col in dataset['day_of_transaction'].unique()
    ]
    tmp_df.rename(
        columns={old_col: 'day_cnt_' + old_col for old_col in old_columns},
        inplace=True
    )
    #Избавляемся от остатков названий колонки: day_of_transaction(будет висеть в левом углу, если не удалить)
    tmp_df.columns.name = None
    tmp_df['total_cnt_per_wknd'] = tmp_df['day_cnt_Fri']+tmp_df['day_cnt_Sat']+tmp_df['day_cnt_Sun']
    tmp_df['total_cnt_per_work_days'] = tmp_df[[col for col in tmp_df.columns.tolist() if col not in ['day_cnt_Fri','day_cnt_Sat','day_cnt_Sun','total_cnt_per_wknd']]].sum(axis=1)
    tmp_df.drop([col for col in tmp_df.columns.tolist() if col not in ['total_cnt_per_wknd','total_cnt_per_work_days']], axis=1,inplace=True)
    return tmp_df
    

transaction_by_day_count(raw_df).head()

Unnamed: 0_level_0,total_cnt_per_wknd,total_cnt_per_work_days
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2,3
1,32,72
5,64,78
9,13,26
10,233,230


In [140]:
def transaction_by_day_sum(dataset):
    dataset['day_of_transaction'] = dataset['TRDATETIME'].apply(
        lambda x: (datetime.datetime.strptime(x, '%d%b%y:%H:%M:%S')).strftime('%a')
    ) 
    tmp_df = dataset.groupby(
        ['cl_id','day_of_transaction']
    )['amount'].sum().unstack().fillna(0).reset_index().set_index('cl_id')
    old_columns = [
        old_col for old_col in tmp_df.columns.tolist()
        if old_col in dataset['day_of_transaction'].unique()
    ]
    tmp_df.rename(
        columns={old_col: 'day_cnt_' + old_col for old_col in old_columns},
        inplace=True
    )
    #Избавляемся от остатков названий колонки: day_of_transaction(будет висеть в левом углу, если не удалить)
    tmp_df.columns.name = None
    tmp_df['total_sum_per_wknd'] = tmp_df['day_cnt_Fri']+tmp_df['day_cnt_Sat']+tmp_df['day_cnt_Sun']
    tmp_df['total_sum_per_work_days'] = tmp_df[[col for col in tmp_df.columns.tolist() if col not in ['day_cnt_Fri','day_cnt_Sat','day_cnt_Sun','total_cnt_per_wknd']]].sum(axis=1)
    tmp_df.drop([col for col in tmp_df.columns.tolist() if col not in ['total_sum_per_wknd','total_sum_per_work_days']], axis=1,inplace=True)
    return tmp_df
    

transaction_by_day_sum(raw_df).head()

Unnamed: 0_level_0,total_sum_per_wknd,total_sum_per_work_days
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,7054.0,64383.0
1,189804.37,267578.04
5,194549.4,546369.13
9,90406.09,849315.09
10,855855.34,1124343.99


##### Транзакции по частям дня

In [130]:

def transaction_by_hour_count(dataset):
    dataset['hour_of_transaction'] = dataset['TRDATETIME'].apply(
        lambda x: (datetime.datetime.strptime(x, '%d%b%y:%H:%M:%S')).strftime('%H')
    ) 
    temp = dataset.groupby(
        ['cl_id','hour_of_transaction']
    )['hour_of_transaction'].size().unstack().fillna(0).reset_index().astype('int').set_index('cl_id')
    temp.columns.name = None
    temp.rename(
        columns={col: 'hour_' + col for col in temp.columns.tolist()},
        inplace=True
    )
    night_hours = [x for x in temp.columns.tolist() if int(x[-2:]) < 6]
    morn_hours = [x for x in temp.columns.tolist() if int(x[-2:]) >= 6 and int(x[-2:]) < 12]
    day_hours = [x for x in temp.columns.tolist() if int(x[-2:]) >= 12 and int(x[-2:]) < 18]
    evn_hours = [x for x in temp.columns.tolist() if int(x[-2:]) >= 18 and int(x[-2:]) <= 23]
    temp['tr_per_night_hours'] = temp[night_hours].sum(axis=1)
    temp['tr_per_morn_hours'] = temp[morn_hours].sum(axis=1)
    temp['tr_per_evn_hours'] = temp[evn_hours].sum(axis=1)
    temp['tr_per_day_hours'] = temp[day_hours].sum(axis=1)
    
    temp.drop([col for col in temp.columns.tolist() if col not in ['tr_per_morn_hours','tr_per_evn_hours','tr_per_day_hours','tr_per_night_hours']], axis=1,inplace=True)
    return temp
transaction_by_hour_count(raw_df).head()

Unnamed: 0_level_0,tr_per_night_hours,tr_per_morn_hours,tr_per_evn_hours,tr_per_day_hours
cl_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,3,0,0,2
1,101,0,3,0
5,124,2,7,9
9,15,8,7,9
10,339,72,1,51


Небольшое пояснение, почему в ночные часы так много транзакций. В хоед анализа было установлено, что ночные часы уходя в отрыв в основном засчет часа 00. В этот момент больше всего совершается POS-транзакций, которые относятся POINT OF SALE - когда покупка совершается через терминал, потом информация о ней отправляется в банк, где скорее всего, все такие транзакции обрабатываются в совокупности в 00 часов.

##### Изменение количества транзакций по периодам

Здесь попытаемся отобразить следуещее. Посчитаем процентное отношение количества транзакций в текущем к месяце, к прошлому месяцу. Так для всех месяцев периода. Чтобы рассматривать только относительно недванее поведение пользователя, будем брать изменения за 8 месяцев. Далее, считаем чего больше, количество негативных изменений или позитивных. Если позитивных, ставим 1, иначе - 0.

In [214]:
def get_prcn_chng_per_cl(data):
    data['PERIOD'] = pd.to_datetime(data['PERIOD'])
    temp =  data.groupby(['cl_id','PERIOD'])['cl_id'].size().unstack().fillna(0).astype('int').pct_change(periods=8,axis='columns',fill_method='ffill').fillna(0).replace(np.inf, 0).reset_index()
    temp['positive_chng'] =  temp.apply(lambda x: int(len([z for z in x if z < 0]) < len([z for z in x if z > 0])), axis=1)
    temp = temp.set_index('cl_id')
    temp.columns.name = None
    temp = temp[['positive_chng']]
    return temp
get_prcn_chng_per_cl(raw_df).head()

Unnamed: 0_level_0,positive_chng
cl_id,Unnamed: 1_level_1
0,0
1,0
5,0
9,0
10,0


### Useful tips

### Агрегирование с помощью SQL

In [14]:
import sqlite3
conn = sqlite3.connect('transactions.db')

In [15]:
raw_df.to_sql('transactions_raw', if_exists='replace', con=conn)

In [16]:
check = pd.io.sql.read_sql("""
    select * from transactions_raw limit 100
    """, conn
)

In [17]:
pd.io.sql.read_sql("""
    select count(*), count(distinct cl_id) from transactions_raw
    """, conn
)

Unnamed: 0,count(*),count(distinct cl_id)
0,490513,5000


In [18]:
MCC_list = raw_df.MCC.value_counts().head(20).index.tolist()
for MCC_code in MCC_list:
    print(
        'sum(case when MCC = {0} then amount else 0 end) as MCC_{0},'.format(MCC_code)
    )

sum(case when MCC = 5411 then amount else 0 end) as MCC_5411,
sum(case when MCC = 6011 then amount else 0 end) as MCC_6011,
sum(case when MCC = 5814 then amount else 0 end) as MCC_5814,
sum(case when MCC = 5812 then amount else 0 end) as MCC_5812,
sum(case when MCC = 5499 then amount else 0 end) as MCC_5499,
sum(case when MCC = 5541 then amount else 0 end) as MCC_5541,
sum(case when MCC = 5912 then amount else 0 end) as MCC_5912,
sum(case when MCC = 5999 then amount else 0 end) as MCC_5999,
sum(case when MCC = 6012 then amount else 0 end) as MCC_6012,
sum(case when MCC = 5921 then amount else 0 end) as MCC_5921,
sum(case when MCC = 5331 then amount else 0 end) as MCC_5331,
sum(case when MCC = 4121 then amount else 0 end) as MCC_4121,
sum(case when MCC = 5211 then amount else 0 end) as MCC_5211,
sum(case when MCC = 4829 then amount else 0 end) as MCC_4829,
sum(case when MCC = 5691 then amount else 0 end) as MCC_5691,
sum(case when MCC = 5261 then amount else 0 end) as MCC_5261,
sum(case

In [19]:
datamart_check = pd.io.sql.read_sql("""
    select
        cl_id,
        target_flag,
        sum(case when MCC = 5411 then amount else 0 end) as MCC_5411,
        sum(case when MCC = 6011 then amount else 0 end) as MCC_6011,
        sum(case when MCC = 5814 then amount else 0 end) as MCC_5814,
        sum(case when MCC = 5812 then amount else 0 end) as MCC_5812,
        sum(case when MCC = 5499 then amount else 0 end) as MCC_5499,

/*------------------average amount---------------------------------*/
        avg(case when MCC = 5411 then amount else 0 end) as MCC_5411_avg,
        avg(case when MCC = 6011 then amount else 0 end) as MCC_6011_avg,
        avg(case when MCC = 5814 then amount else 0 end) as MCC_5814_avg,
        avg(case when MCC = 5812 then amount else 0 end) as MCC_5812_avg,
        avg(case when MCC = 5499 then amount else 0 end) as MCC_5499_avg
    from transactions_raw
    group by 1, 2
    order by 1
    """, conn)

In [20]:
datamart_check

Unnamed: 0,cl_id,target_flag,MCC_5411,MCC_6011,MCC_5814,MCC_5812,MCC_5499,MCC_5411_avg,MCC_6011_avg,MCC_5814_avg,MCC_5812_avg,MCC_5499_avg
0,0,0,2031.00,20000.0,0.00,0.00,0.00,406.200000,4000.000000,0.000000,0.000000,0.000000
1,1,0,14629.46,145000.0,82441.17,3180.01,492.80,140.667885,1394.230769,792.703558,30.577019,4.738462
2,5,1,44925.40,208000.0,247.00,3309.00,7196.70,316.376056,1464.788732,1.739437,23.302817,50.680986
3,9,0,39.00,540000.0,0.00,0.00,0.00,1.000000,13846.153846,0.000000,0.000000,0.000000
4,10,0,53920.36,854000.0,2010.00,319.00,13225.02,116.458661,1844.492441,4.341253,0.688985,28.563758
5,11,0,31084.62,182000.0,5653.00,11814.80,383.60,143.247097,838.709677,26.050691,54.446083,1.767742
6,14,1,20408.96,37000.0,23894.06,5659.00,827.00,150.065882,272.058824,175.691618,41.610294,6.080882
7,20,0,9834.43,215000.0,0.00,3023.33,1247.73,127.719870,2792.207792,0.000000,39.264026,16.204286
8,21,0,25978.04,65000.0,4853.00,7540.00,1277.45,209.500323,524.193548,39.137097,60.806452,10.302016
9,22,0,241.82,139000.0,0.00,0.00,2610.00,4.098644,2355.932203,0.000000,0.000000,44.237288


### Агрегирование с помощью Pandas

In [None]:
def get_aggregated_df(df, agg_type, col_to_groupby):
    agg_df = df[['cl_id', col_to_groupby, 'amount']].groupby(['cl_id', col_to_groupby]).agg([agg_type])
    agg_df = agg_df.unstack(fill_value=0)
    agg_df.columns = agg_df.columns.get_level_values(2)

    old_name = agg_df.columns.name
    old_cols = agg_df.columns
    new_cols = [old_name + '_' + agg_type + '_' + str(old_col) for old_col in old_cols]
    agg_df.rename(
        columns={old_col: new_col for old_col, new_col in zip(old_cols, new_cols)}, inplace=True
    )
    return agg_df