In [1]:
import pandas as pd
from pathlib import Path

In [2]:
data_folder = Path('tinkoff_hackathon_data')
file_account_x_balance = data_folder / 'avk_hackathon_data_account_x_balance.csv'
file_party_products = data_folder / 'avk_hackathon_data_party_products.csv'
file_party_x_socdem = data_folder / 'avk_hackathon_data_party_x_socdem.csv'
file_story_logs = data_folder / 'avk_hackathon_data_story_logs.csv'
file_story_texts = data_folder / 'avk_hackathon_data_story_texts.csv'
file_test_transactions = data_folder / 'avk_hackathon_data_test_transactions.csv'
file_train_transactions = data_folder / 'avk_hackathon_data_train_transactions.csv'

if not all(file.exists() for file in [
    file_account_x_balance,
    file_party_products,
    file_party_x_socdem,
    file_story_logs,
    file_story_texts,
    file_test_transactions,
    file_train_transactions,
]):
    raise Exception('Please download data from https://drive.google.com/drive/folders/1VXweyrVRO3tj4UrCoiZ64aeV_8szexDC')

In [3]:
df_party_x_socdem = pd.read_csv(
    file_party_x_socdem,
    index_col = 'party_rk',
    dtype = {
        'gender_cd': 'category',
        'marital_status_desc': 'category',
    },
).convert_dtypes()

print(df_party_x_socdem.dtypes)
df_party_x_socdem

gender_cd              category
age                       Int64
marital_status_desc    category
children_cnt              Int64
region_flg                Int64
dtype: object


Unnamed: 0_level_0,gender_cd,age,marital_status_desc,children_cnt,region_flg
party_rk,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
61243,F,70,,0,0
66535,F,25,,0,0
83721,M,55,Женат/замужем,0,0
88238,F,35,,0,0
57179,F,30,Женат/замужем,0,0
...,...,...,...,...,...
54994,M,40,Женат/замужем,0,0
63391,M,35,Холост/не замужем,0,0
5418,F,55,Холост/не замужем,0,0
50273,F,35,Женат/замужем,0,0


In [4]:
df_party_products = pd.read_csv(
    file_party_products,
    index_col = 'party_rk',
).convert_dtypes().astype(bool)

print(df_party_products.dtypes)
df_party_products

product1    bool
product2    bool
product3    bool
product4    bool
product5    bool
product6    bool
product7    bool
dtype: object


Unnamed: 0_level_0,product1,product2,product3,product4,product5,product6,product7
party_rk,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
74874,True,True,False,False,False,False,False
83618,False,False,True,True,True,False,False
73766,False,False,False,True,True,False,False
60218,False,True,False,False,False,False,False
47253,False,False,False,True,True,False,False
...,...,...,...,...,...,...,...
52276,False,True,False,False,True,False,False
53681,False,True,False,False,False,False,False
13947,False,True,False,True,True,False,True
94411,False,True,False,False,False,False,False


In [5]:
df_train_transactions = pd.read_csv(
    file_train_transactions,
    dtype = {
        'financial_account_type_cd': 'category',
        'transaction_type_desc': 'category',
        'category': 'category',
    },
    parse_dates = ['transaction_dttm']
).convert_dtypes()

print(df_train_transactions.dtypes)
df_train_transactions

party_rk                              Int64
account_rk                            Int64
financial_account_type_cd          category
transaction_dttm             datetime64[ns]
transaction_type_desc              category
transaction_amt_rur                 float64
merchant_rk                           Int64
merchant_type                         Int64
merchant_group_rk                     Int64
category                           category
dtype: object


Unnamed: 0,party_rk,account_rk,financial_account_type_cd,transaction_dttm,transaction_type_desc,transaction_amt_rur,merchant_rk,merchant_type,merchant_group_rk,category
0,20337,19666,1,2019-01-01,Покупка,84.00,88676,348,,Сувениры
1,63404,72991,1,2019-01-01,Покупка,410.00,887248,330,725,Фаст Фуд
2,24789,23517,2,2019-01-01,Покупка,701.44,830014,291,,Супермаркеты
3,57970,64838,2,2019-01-01,Покупка,6203.70,363834,278,454,Дом/Ремонт
4,12232,11591,2,2019-01-01,Покупка,734.53,85919,286,878,Супермаркеты
...,...,...,...,...,...,...,...,...,...,...
11987612,44990,111641,1,2019-12-31,Покупка,121.00,1940970,330,675,Фаст Фуд
11987613,53023,57593,2,2019-12-31,Покупка,102.29,1198564,286,,Супермаркеты
11987614,78716,99133,1,2019-12-31,Покупка,175.00,2688766,229,901,Транспорт
11987615,73104,91039,2,2019-12-31,Покупка,185.99,1965313,286,878,Супермаркеты


In [6]:
set(df_train_transactions.transaction_type_desc)

{'Оплата услуг', 'Платеж', 'Покупка', 'Снятие наличных'}

In [7]:
for type_desc in set(df_train_transactions.transaction_type_desc):
    print(type_desc, end=': ')
    print(*set(df_train_transactions[df_train_transactions.transaction_type_desc == type_desc].category), sep=', ')

Платеж: nan, Финансовые услуги, Развлечения, Связь/Телеком
Снятие наличных: nan, Наличные
Оплата услуг: nan
Покупка: nan, Транспорт, Дом/Ремонт, Сервисные услуги, Фото/Видео, Музыка, Одежда/Обувь, Аптеки, Наличные, Цветы, Связь/Телеком, Кино, Фаст Фуд, Аренда авто, Duty Free, Образование, Сувениры, Рестораны, Авиабилеты, Спорттовары, Госсборы, Развлечения, Разные товары, НКО, Животные, Медицинские услуги, Финансовые услуги, Книги, Искусство, Красота, Частные услуги, Супермаркеты, Турагентства, Топливо, Ж/д билеты, Автоуслуги, Отели


In [8]:
df_train = df_train_transactions
df_train = df_train[df_train_transactions.transaction_type_desc.isin(['Платеж', 'Покупка'])]
df_train = df_train[['party_rk', 'transaction_dttm', 'transaction_amt_rur', 'category']]
df_train['month'] = df_train.transaction_dttm.dt.month
df_train

Unnamed: 0,party_rk,transaction_dttm,transaction_amt_rur,category,month
0,20337,2019-01-01,84.00,Сувениры,1
1,63404,2019-01-01,410.00,Фаст Фуд,1
2,24789,2019-01-01,701.44,Супермаркеты,1
3,57970,2019-01-01,6203.70,Дом/Ремонт,1
4,12232,2019-01-01,734.53,Супермаркеты,1
...,...,...,...,...,...
11987612,44990,2019-12-31,121.00,Фаст Фуд,12
11987613,53023,2019-12-31,102.29,Супермаркеты,12
11987614,78716,2019-12-31,175.00,Транспорт,12
11987615,73104,2019-12-31,185.99,Супермаркеты,12


In [9]:
month = 1

df_train_groups = df_train[df_train.month == month].groupby(['party_rk', 'month', 'category'])

# for k, v in df_train_groups:
#     print(k)
#     print(v)
#     print()

df_train_sum = pd.DataFrame(
    ((party_rk, month, category, group.transaction_amt_rur.sum())
    for (party_rk, month, category), group in df_train_groups),
    columns = ['party_rk', 'month', 'category', 'transaction_amt_rur'],
)
df_train_sum

Unnamed: 0,party_rk,month,category,transaction_amt_rur
0,5,1,Дом/Ремонт,8075.60
1,5,1,Одежда/Обувь,2108.00
2,5,1,Отели,8551.00
3,5,1,Развлечения,7037.00
4,5,1,Разные товары,14541.36
...,...,...,...,...
142632,94607,1,Дом/Ремонт,3690.00
142633,94607,1,Красота,1549.20
142634,94607,1,Финансовые услуги,2026.00
142635,94608,1,Разные товары,691.74


In [10]:
df_train_rate = df_train_sum
df_train_rate['transaction_amt_rur_all_categories'] = df_train_rate.groupby(['party_rk', 'month']).transaction_amt_rur.transform('sum')
df_train_rate['rate'] = df_train_rate.transaction_amt_rur / df_train_rate.transaction_amt_rur_all_categories
del df_train_rate['transaction_amt_rur']
del df_train_rate['transaction_amt_rur_all_categories']
df_train_rate

Unnamed: 0,party_rk,month,category,rate
0,5,1,Дом/Ремонт,0.055807
1,5,1,Одежда/Обувь,0.014568
2,5,1,Отели,0.059093
3,5,1,Развлечения,0.048630
4,5,1,Разные товары,0.100490
...,...,...,...,...
142632,94607,1,Дом/Ремонт,0.507901
142633,94607,1,Красота,0.213236
142634,94607,1,Финансовые услуги,0.278864
142635,94608,1,Разные товары,0.471145


In [11]:
df_party = pd.merge(
    df_party_x_socdem,
    df_party_products,
    left_index=True,
    right_index=True,
)
df_party

Unnamed: 0_level_0,gender_cd,age,marital_status_desc,children_cnt,region_flg,product1,product2,product3,product4,product5,product6,product7
party_rk,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
61243,F,70,,0,0,False,False,False,True,True,True,False
66535,F,25,,0,0,False,True,False,False,False,False,False
83721,M,55,Женат/замужем,0,0,True,False,True,True,True,False,False
88238,F,35,,0,0,False,False,False,True,True,False,False
57179,F,30,Женат/замужем,0,0,True,True,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
54994,M,40,Женат/замужем,0,0,False,True,False,False,False,False,True
63391,M,35,Холост/не замужем,0,0,True,True,False,False,True,False,False
5418,F,55,Холост/не замужем,0,0,True,True,False,False,False,False,False
50273,F,35,Женат/замужем,0,0,True,False,False,True,False,False,True


In [12]:
df_party_train_rate = pd.merge(
    df_party,
    df_train_rate[df_train_rate.month == month],
    left_on='party_rk',
    right_on='party_rk',
)
# del df_party_train_rate['party_rk']
del df_party_train_rate['month']
df_party_train_rate

Unnamed: 0,party_rk,gender_cd,age,marital_status_desc,children_cnt,region_flg,product1,product2,product3,product4,product5,product6,product7,category,rate
0,61243,F,70,,0,0,False,False,False,True,True,True,False,Аптеки,0.074391
1,61243,F,70,,0,0,False,False,False,True,True,True,False,Разные товары,0.017072
2,61243,F,70,,0,0,False,False,False,True,True,True,False,Связь/Телеком,0.108638
3,61243,F,70,,0,0,False,False,False,True,True,True,False,Супермаркеты,0.283650
4,61243,F,70,,0,0,False,False,False,True,True,True,False,Финансовые услуги,0.516248
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
142632,63391,M,35,Холост/не замужем,0,0,True,True,False,False,True,False,False,Супермаркеты,0.237758
142633,63391,M,35,Холост/не замужем,0,0,True,True,False,False,True,False,False,Транспорт,0.165788
142634,63391,M,35,Холост/не замужем,0,0,True,True,False,False,True,False,False,Финансовые услуги,0.226455
142635,5418,F,55,Холост/не замужем,0,0,True,True,False,False,False,False,False,Финансовые услуги,1.000000


In [13]:
X = df_party_train_rate.drop(columns=['party_rk', 'rate'])
X

Unnamed: 0,gender_cd,age,marital_status_desc,children_cnt,region_flg,product1,product2,product3,product4,product5,product6,product7,category
0,F,70,,0,0,False,False,False,True,True,True,False,Аптеки
1,F,70,,0,0,False,False,False,True,True,True,False,Разные товары
2,F,70,,0,0,False,False,False,True,True,True,False,Связь/Телеком
3,F,70,,0,0,False,False,False,True,True,True,False,Супермаркеты
4,F,70,,0,0,False,False,False,True,True,True,False,Финансовые услуги
...,...,...,...,...,...,...,...,...,...,...,...,...,...
142632,M,35,Холост/не замужем,0,0,True,True,False,False,True,False,False,Супермаркеты
142633,M,35,Холост/не замужем,0,0,True,True,False,False,True,False,False,Транспорт
142634,M,35,Холост/не замужем,0,0,True,True,False,False,True,False,False,Финансовые услуги
142635,F,55,Холост/не замужем,0,0,True,True,False,False,False,False,False,Финансовые услуги


In [14]:
X[X.drop(columns=['gender_cd', 'marital_status_desc']).isnull().any(axis=1)]

Unnamed: 0,gender_cd,age,marital_status_desc,children_cnt,region_flg,product1,product2,product3,product4,product5,product6,product7,category


In [15]:
y = df_party_train_rate.rate
y

0         0.074391
1         0.017072
2         0.108638
3         0.283650
4         0.516248
            ...   
142632    0.237758
142633    0.165788
142634    0.226455
142635    1.000000
142636    1.000000
Name: rate, Length: 142637, dtype: float64

In [16]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline

categorical_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('encoder', OneHotEncoder(handle_unknown='ignore')),
])

preprocessor = ColumnTransformer([
    ('cat_gender', categorical_transformer, ['gender_cd']),
    ('cat_marital_status_desc', categorical_transformer, ['marital_status_desc']),
]).fit(X)

In [17]:
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(preprocessor.transform(X), y)

In [18]:
# convert rates to top-3 categories for given user and month
display(df_party_train_rate[df_party_train_rate.party_rk == 61243])
display(df_party_train_rate[df_party_train_rate.party_rk == 61243].nlargest(3, 'rate').category.values)

Unnamed: 0,party_rk,gender_cd,age,marital_status_desc,children_cnt,region_flg,product1,product2,product3,product4,product5,product6,product7,category,rate
0,61243,F,70,,0,0,False,False,False,True,True,True,False,Аптеки,0.074391
1,61243,F,70,,0,0,False,False,False,True,True,True,False,Разные товары,0.017072
2,61243,F,70,,0,0,False,False,False,True,True,True,False,Связь/Телеком,0.108638
3,61243,F,70,,0,0,False,False,False,True,True,True,False,Супермаркеты,0.28365
4,61243,F,70,,0,0,False,False,False,True,True,True,False,Финансовые услуги,0.516248


array(['Финансовые услуги', 'Супермаркеты', 'Связь/Телеком'], dtype=object)

In [19]:
train_top3 = pd.DataFrame(
    ((party_rk, group.nlargest(3, 'rate').category.values)
    for party_rk, group in df_party_train_rate.groupby('party_rk')),
    columns = ['party_rk', 'categories_top3'],
)
train_top3

Unnamed: 0,party_rk,categories_top3
0,5,"[Финансовые услуги, Супермаркеты, Разные товары]"
1,7,"[Аптеки, Топливо]"
2,8,[Красота]
3,13,"[Финансовые услуги, Развлечения, Супермаркеты]"
4,20,"[Дом/Ремонт, Финансовые услуги, Разные товары]"
...,...,...
27684,94602,"[Финансовые услуги, Супермаркеты, Дом/Ремонт]"
27685,94603,"[Разные товары, Супермаркеты, Транспорт]"
27686,94606,"[Одежда/Обувь, Дом/Ремонт, Супермаркеты]"
27687,94607,"[Дом/Ремонт, Финансовые услуги, Красота]"


In [20]:
predicted_train_rate = pd.DataFrame(dict(
    party_rk = df_party_train_rate.party_rk,
    category = df_party_train_rate.category,
    rate = model.predict(preprocessor.transform(X)),
))
predicted_train_top3 = pd.DataFrame(
    ((party_rk, group.nlargest(3, 'rate').category.values)
    for party_rk, group in predicted_train_rate.groupby('party_rk')),
    columns = ['party_rk', 'categories_top3'],
)
predicted_train_top3

Unnamed: 0,party_rk,categories_top3
0,5,"[Дом/Ремонт, Одежда/Обувь, Отели]"
1,7,"[Аптеки, Топливо]"
2,8,[Красота]
3,13,"[Развлечения, Супермаркеты, Транспорт]"
4,20,"[Дом/Ремонт, Искусство, Разные товары]"
...,...,...
27684,94602,"[Дом/Ремонт, Супермаркеты, Финансовые услуги]"
27685,94603,"[Разные товары, Супермаркеты, Транспорт]"
27686,94606,"[Автоуслуги, Аптеки, Дом/Ремонт]"
27687,94607,"[Дом/Ремонт, Красота, Финансовые услуги]"


In [21]:
train_top3_comparision = pd.merge(
    train_top3,
    predicted_train_top3,
    left_on='party_rk',
    right_on='party_rk',
    suffixes=('', '_predicted')
)
train_top3_comparision

Unnamed: 0,party_rk,categories_top3,categories_top3_predicted
0,5,"[Финансовые услуги, Супермаркеты, Разные товары]","[Дом/Ремонт, Одежда/Обувь, Отели]"
1,7,"[Аптеки, Топливо]","[Аптеки, Топливо]"
2,8,[Красота],[Красота]
3,13,"[Финансовые услуги, Развлечения, Супермаркеты]","[Развлечения, Супермаркеты, Транспорт]"
4,20,"[Дом/Ремонт, Финансовые услуги, Разные товары]","[Дом/Ремонт, Искусство, Разные товары]"
...,...,...,...
27684,94602,"[Финансовые услуги, Супермаркеты, Дом/Ремонт]","[Дом/Ремонт, Супермаркеты, Финансовые услуги]"
27685,94603,"[Разные товары, Супермаркеты, Транспорт]","[Разные товары, Супермаркеты, Транспорт]"
27686,94606,"[Одежда/Обувь, Дом/Ремонт, Супермаркеты]","[Автоуслуги, Аптеки, Дом/Ремонт]"
27687,94607,"[Дом/Ремонт, Финансовые услуги, Красота]","[Дом/Ремонт, Красота, Финансовые услуги]"


In [22]:
def accuracy(row):
    real = set(row.categories_top3)
    predicted = set(row.categories_top3_predicted)
    return len(real & predicted) / len(real)
train_top3_comparision.apply(accuracy, axis=1).mean()

0.6436972564315552

In [23]:
# test data
df_test_transactions = pd.read_csv(
    file_test_transactions,
    dtype = {
        'financial_account_type_cd': 'category',
        'transaction_type_desc': 'category',
        'category': 'category',
    },
    parse_dates = ['transaction_dttm']
).convert_dtypes()

print(df_test_transactions.dtypes)
df_test_transactions

party_rk                              Int64
account_rk                            Int64
financial_account_type_cd          category
transaction_dttm             datetime64[ns]
transaction_type_desc              category
transaction_amt_rur                 float64
merchant_rk                           Int64
merchant_type                         Int64
merchant_group_rk                     Int64
category                           category
dtype: object


Unnamed: 0,party_rk,account_rk,financial_account_type_cd,transaction_dttm,transaction_type_desc,transaction_amt_rur,merchant_rk,merchant_type,merchant_group_rk,category
0,18021,106616,2,2020-01-01,Платеж,15089.0,2231439,381,,Финансовые услуги
1,35240,34588,2,2020-01-01,Снятие наличных,7522.0,2495767,380,,Наличные
2,56472,106674,2,2020-01-01,Покупка,122.0,1456914,283,425,Разные товары
3,49587,52561,2,2020-01-01,Покупка,221.0,2820398,229,461,Транспорт
4,51277,54808,2,2020-01-01,Покупка,565.0,212573,284,,Разные товары
...,...,...,...,...,...,...,...,...,...,...
2299665,49382,124549,1,2020-02-29,Покупка,161.0,800756,286,866,Супермаркеты
2299666,71736,97011,2,2020-02-29,Платеж,81.0,1296741,388,243,Финансовые услуги
2299667,76677,100162,2,2020-02-29,Платеж,1026.0,1296741,388,243,Финансовые услуги
2299668,89344,118613,2,2020-02-29,Покупка,378.0,883431,330,1996,Фаст Фуд


In [24]:
df_test = df_test_transactions
df_test = df_test[df_test_transactions.transaction_type_desc.isin(['Платеж', 'Покупка'])]
df_test = df_test[['party_rk', 'transaction_dttm', 'transaction_amt_rur', 'category']]
df_test['month'] = df_test.transaction_dttm.dt.month
df_test

Unnamed: 0,party_rk,transaction_dttm,transaction_amt_rur,category,month
0,18021,2020-01-01,15089.0,Финансовые услуги,1
2,56472,2020-01-01,122.0,Разные товары,1
3,49587,2020-01-01,221.0,Транспорт,1
4,51277,2020-01-01,565.0,Разные товары,1
5,9214,2020-01-01,189.0,Транспорт,1
...,...,...,...,...,...
2299665,49382,2020-02-29,161.0,Супермаркеты,2
2299666,71736,2020-02-29,81.0,Финансовые услуги,2
2299667,76677,2020-02-29,1026.0,Финансовые услуги,2
2299668,89344,2020-02-29,378.0,Фаст Фуд,2


In [25]:
df_test_groups = df_test[df_test.month == month].groupby(['party_rk', 'month', 'category'])

df_test_sum = pd.DataFrame(
    ((party_rk, month, category, group.transaction_amt_rur.sum())
    for (party_rk, month, category), group in df_test_groups),
    columns = ['party_rk', 'month', 'category', 'transaction_amt_rur'],
)
df_test_sum

Unnamed: 0,party_rk,month,category,transaction_amt_rur
0,5,1,Одежда/Обувь,3916.83
1,5,1,Разные товары,12398.85
2,5,1,Транспорт,6499.00
3,5,1,Финансовые услуги,12100.00
4,11,1,Супермаркеты,425.10
...,...,...,...,...
212366,94603,1,Финансовые услуги,3718.00
212367,94608,1,Супермаркеты,88.79
212368,94608,1,Финансовые услуги,4443.00
212369,94610,1,Супермаркеты,39.90


In [26]:
df_test_rate = df_test_sum
df_test_rate['transaction_amt_rur_all_categories'] = df_test_rate.groupby(['party_rk', 'month']).transaction_amt_rur.transform('sum')
df_test_rate['rate'] = df_test_rate.transaction_amt_rur / df_test_rate.transaction_amt_rur_all_categories
del df_test_rate['transaction_amt_rur']
del df_test_rate['transaction_amt_rur_all_categories']
df_test_rate

Unnamed: 0,party_rk,month,category,rate
0,5,1,Одежда/Обувь,0.112183
1,5,1,Разные товары,0.355119
2,5,1,Транспорт,0.186139
3,5,1,Финансовые услуги,0.346559
4,11,1,Супермаркеты,1.000000
...,...,...,...,...
212366,94603,1,Финансовые услуги,1.000000
212367,94608,1,Супермаркеты,0.019593
212368,94608,1,Финансовые услуги,0.980407
212369,94610,1,Супермаркеты,0.249531


In [27]:
df_party_test_rate = pd.merge(
    df_party,
    df_test_rate[df_test_rate.month == month],
    left_on='party_rk',
    right_on='party_rk',
)
del df_party_test_rate['month']
df_party_test_rate

Unnamed: 0,party_rk,gender_cd,age,marital_status_desc,children_cnt,region_flg,product1,product2,product3,product4,product5,product6,product7,category,rate
0,61243,F,70,,0,0,False,False,False,True,True,True,False,Аптеки,0.101312
1,61243,F,70,,0,0,False,False,False,True,True,True,False,Дом/Ремонт,0.604930
2,61243,F,70,,0,0,False,False,False,True,True,True,False,Медицинские услуги,0.087334
3,61243,F,70,,0,0,False,False,False,True,True,True,False,Разные товары,0.036606
4,61243,F,70,,0,0,False,False,False,True,True,True,False,Сервисные услуги,0.013260
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
212366,77268,F,35,,0,0,False,True,False,False,False,False,False,Сервисные услуги,0.021405
212367,77268,F,35,,0,0,False,True,False,False,False,False,False,Сувениры,0.031596
212368,77268,F,35,,0,0,False,True,False,False,False,False,False,Супермаркеты,0.128535
212369,77268,F,35,,0,0,False,True,False,False,False,False,False,Фаст Фуд,0.025073


In [28]:
X_test = df_party_test_rate.drop(columns=['party_rk', 'rate'])
X_test

Unnamed: 0,gender_cd,age,marital_status_desc,children_cnt,region_flg,product1,product2,product3,product4,product5,product6,product7,category
0,F,70,,0,0,False,False,False,True,True,True,False,Аптеки
1,F,70,,0,0,False,False,False,True,True,True,False,Дом/Ремонт
2,F,70,,0,0,False,False,False,True,True,True,False,Медицинские услуги
3,F,70,,0,0,False,False,False,True,True,True,False,Разные товары
4,F,70,,0,0,False,False,False,True,True,True,False,Сервисные услуги
...,...,...,...,...,...,...,...,...,...,...,...,...,...
212366,F,35,,0,0,False,True,False,False,False,False,False,Сервисные услуги
212367,F,35,,0,0,False,True,False,False,False,False,False,Сувениры
212368,F,35,,0,0,False,True,False,False,False,False,False,Супермаркеты
212369,F,35,,0,0,False,True,False,False,False,False,False,Фаст Фуд


In [29]:
y_test = df_party_test_rate.rate
y_test

0         0.101312
1         0.604930
2         0.087334
3         0.036606
4         0.013260
            ...   
212366    0.021405
212367    0.031596
212368    0.128535
212369    0.025073
212370    0.382597
Name: rate, Length: 212371, dtype: float64

In [30]:
test_top3 = pd.DataFrame(
    ((party_rk, group.nlargest(3, 'rate').category.values)
    for party_rk, group in df_party_test_rate.groupby('party_rk')),
    columns = ['party_rk', 'categories_top3'],
)
test_top3

Unnamed: 0,party_rk,categories_top3
0,5,"[Разные товары, Финансовые услуги, Транспорт]"
1,11,[Супермаркеты]
2,14,"[Финансовые услуги, Фаст Фуд, Супермаркеты]"
3,15,"[Связь/Телеком, Разные товары, Сервисные услуги]"
4,20,[НКО]
...,...,...
37874,94598,"[Финансовые услуги, Фаст Фуд, Супермаркеты]"
37875,94602,"[Финансовые услуги, Дом/Ремонт, Автоуслуги]"
37876,94603,[Финансовые услуги]
37877,94608,"[Финансовые услуги, Супермаркеты]"


In [31]:
predicted_test_rate = pd.DataFrame(dict(
    party_rk = df_party_test_rate.party_rk,
    category = df_party_test_rate.category,
    rate = model.predict(preprocessor.transform(X_test)),
))
predicted_test_top3 = pd.DataFrame(
    ((party_rk, group.nlargest(3, 'rate').category.values)
    for party_rk, group in predicted_test_rate.groupby('party_rk')),
    columns = ['party_rk', 'categories_top3'],
)
predicted_test_top3

Unnamed: 0,party_rk,categories_top3
0,5,"[Одежда/Обувь, Разные товары, Транспорт]"
1,11,[Супермаркеты]
2,14,"[Музыка, Супермаркеты, Топливо]"
3,15,"[Дом/Ремонт, Разные товары, Связь/Телеком]"
4,20,[НКО]
...,...,...
37874,94598,"[Супермаркеты, Фаст Фуд, Финансовые услуги]"
37875,94602,"[Автоуслуги, Дом/Ремонт, Супермаркеты]"
37876,94603,[Финансовые услуги]
37877,94608,"[Супермаркеты, Финансовые услуги]"


In [32]:
test_top3_comparision = pd.merge(
    test_top3,
    predicted_test_top3,
    left_on='party_rk',
    right_on='party_rk',
    suffixes=('', '_predicted')
)
test_top3_comparision

Unnamed: 0,party_rk,categories_top3,categories_top3_predicted
0,5,"[Разные товары, Финансовые услуги, Транспорт]","[Одежда/Обувь, Разные товары, Транспорт]"
1,11,[Супермаркеты],[Супермаркеты]
2,14,"[Финансовые услуги, Фаст Фуд, Супермаркеты]","[Музыка, Супермаркеты, Топливо]"
3,15,"[Связь/Телеком, Разные товары, Сервисные услуги]","[Дом/Ремонт, Разные товары, Связь/Телеком]"
4,20,[НКО],[НКО]
...,...,...,...
37874,94598,"[Финансовые услуги, Фаст Фуд, Супермаркеты]","[Супермаркеты, Фаст Фуд, Финансовые услуги]"
37875,94602,"[Финансовые услуги, Дом/Ремонт, Автоуслуги]","[Автоуслуги, Дом/Ремонт, Супермаркеты]"
37876,94603,[Финансовые услуги],[Финансовые услуги]
37877,94608,"[Финансовые услуги, Супермаркеты]","[Супермаркеты, Финансовые услуги]"


In [33]:
test_top3_comparision.apply(accuracy, axis=1).mean()

0.6113061766854105