In [1]:
# Data
# wget https://hktn2022.blob.core.windows.net/dataset/hist_data.csv
# wget https://hktn2022.blob.core.windows.net/dataset/test.csv

In [2]:
# Пример решения с использованием статистического подхода - подсчет совстречаемостей.

import pandas as pd
import numpy as np
import gc

from collections import Counter 

In [3]:
hist_data = pd.read_csv('hist_data.csv')
hist_data.head()

Unnamed: 0,buyer_id,pav_order_id,created,item_id,count,price_sold,flag_weight_goods,weight
0,95203091,98506637863,2021-07-01 00:03:44,202808329,1.0,79.99,False,11.14
1,95203091,98506637863,2021-07-01 00:03:44,202953905,1.072,44.945,True,11.14
2,95203091,98506637863,2021-07-01 00:03:44,203566452,1.0,69.99,False,11.14
3,95203091,98506637863,2021-07-01 00:03:44,202820143,1.972,41.295,True,11.14
4,95203091,98506637863,2021-07-01 00:03:44,204400422,1.0,269.99,False,11.14


In [4]:
hist_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4529889 entries, 0 to 4529888
Data columns (total 8 columns):
 #   Column             Dtype  
---  ------             -----  
 0   buyer_id           int64  
 1   pav_order_id       int64  
 2   created            object 
 3   item_id            int64  
 4   count              float64
 5   price_sold         float64
 6   flag_weight_goods  bool   
 7   weight             float64
dtypes: bool(1), float64(3), int64(3), object(1)
memory usage: 246.2+ MB


In [5]:
# соберем словарь встречаемостей - какие item_id покупались чаще с каждым item_id 
tmp = (
    hist_data[['item_id', 'pav_order_id']]
    .sort_values(['item_id', 'pav_order_id'])
    .merge(hist_data[['item_id', 'pav_order_id']], how='left', on=['pav_order_id'], suffixes=('', '_left'))
)
tmp = tmp[tmp['item_id'] != tmp['item_id_left']].copy()
tmp1 = tmp.groupby(['item_id'])['item_id_left'].agg(lambda x: Counter(x).most_common(10))

most_freq_dict = {k: v for (k, v) in tmp1.iteritems()}

del tmp1, tmp
gc.collect()

0

In [6]:
test = pd.read_csv('test.csv')

In [7]:
test.head()

Unnamed: 0,buyer_id,pav_order_id,created,item_id,count,price_sold,flag_weight_goods
0,94640077,98519243164,2021-08-30 17:56:31,203053459,1.0,67.62,False
1,95865222,98512083628,2021-07-26 16:17:21,202967705,1.14,406.8,True
2,95147155,98519972197,2021-09-02 21:54:18,203551512,1.0,52.77,False
3,94832207,98518646272,2021-08-28 10:43:23,202801712,1.0,92.89,False
4,95483101,98510857920,2021-07-20 14:27:08,203416702,2.0,238.99,False


In [8]:
# из списка кандидатов по совстречаемости удаляем повторяющиеся item_id, сохраняя порядок
def get_unique_recs(recs: list, top_n: int) -> list:
    rec_dict = {}
    counter = 0
    for k, v in recs:
        if k not in rec_dict:
            rec_dict[k] = v
            counter += 1
        if counter == top_n:
            break
    return list(rec_dict.keys())

def rec_by_item(item_id: int, most_freq_dict: dict) -> list:
    return most_freq_dict.get(item_id, None)

In [9]:
# для каждого item_id соберем top_n самых часто встречающихся item_id, 
# отсортируем по частоте и выберем уникальные
def rec_by_basket(basket: list, most_freq_dict: dict, top_n: int = 20) -> list:
    res = []
    for item in basket:
        recs = rec_by_item(item, most_freq_dict)
        if recs is not None:
            res += recs
    
    res = sorted(res, key=lambda x: x[1], reverse=True)
    return get_unique_recs(res, top_n)

In [10]:
pred = test.groupby(['pav_order_id'])['item_id'].agg([('basket', list)])
pred['preds'] = pred['basket'].map(lambda x: rec_by_basket(x, most_freq_dict=most_freq_dict))

pred['preds'].to_csv('pred.csv')
pred.head()

Unnamed: 0_level_0,basket,preds
pav_order_id,Unnamed: 1_level_1,Unnamed: 2_level_1
4620121489,"[203164283, 204043498, 204146308, 204119602, 2...","[202820148, 202872237, 202791620, 202809628, 2..."
4620121505,"[202819114, 204074914, 202822471, 202880254, 2...","[202820148, 202872237, 202880262, 203068900, 2..."
4620121594,"[202818687, 203430473, 204016498, 203017711, 2...","[202820148, 202872237, 203059303, 202809628, 2..."
4620121684,"[203338264, 203436378, 203433668, 202812161, 2...","[202820148, 202872237, 203090014, 203090010, 2..."
4620121902,"[205768202, 202811971, 203429467, 204393593, 2...","[202820148, 203422957, 203431923, 202872237, 2..."


In [11]:
# Пример использования подхода из бейзлайна для тестирования модели и 
# расчета метрики через деление hist_data на трейн и валидацию

import gc
import numpy as np
import pandas as pd
from collections import Counter
from sklearn.model_selection import train_test_split

In [12]:
def split_data(data, test_size=0.3):
    orders_sort = data[['pav_order_id', 'created']].drop_duplicates().sort_values(by=['created', 'pav_order_id'])
    train_orders, test_orders = train_test_split(orders_sort['pav_order_id'].tolist(), test_size=test_size, shuffle=False)
    train_orders, test_orders = set(train_orders), set(test_orders)
    train = data[data['pav_order_id'].apply(lambda x: x in train_orders)]
    test = data[data['pav_order_id'].apply(lambda x: x in test_orders)]
    return train, test, orders_sort, train_orders, test_orders

In [13]:
# метрики оцениваются для вектора релевантности. пример:
# реальные item_id, которые приобрел покупатель: [1 ,4, 5, 69]
# рекомендованные алгоритмом item_id: [4, 6, 7, 8, 1, 2, 67, 90]
# тогда вектор релеватности будет выглядеть следующим образом: [1, 0, 0, 0, 1, 0, 0, 0]
# и уже по не му будет расчитываться ndcg
def dcg(y_relevance: np.ndarray) -> float:
    return np.sum([(2**i - 1) / np.log2(k + 1) for (k, i) in enumerate(y_relevance, start=1)])

def ndcg(y_relevance: np.ndarray, k: int) -> float:
    if y_relevance.sum() == 0:
        return 0.0
    DCG = dcg(y_relevance[:k])
    IDCG = dcg(-np.sort(-y_relevance)[:k])
    return DCG / IDCG

def apply_relevance(x):
    return [int(item in x['basket']) for item in x['preds']]

def create_relevance(pred):
    d = pred.copy()
    d['basket'] = d['basket'].apply(set)
    d = d.apply(apply_relevance, axis=1)
    return d

def ndcg_full_dataset(d):
    dd = pd.DataFrame(d.to_list()).fillna(0).to_numpy()
    k = dd.shape[1]
    scores = [ndcg(dd[i], k) for i in range(len(dd))]
    return np.mean(scores)

def compute_ndcg_score(pred):
    relevance = create_relevance(pred)
    return ndcg_full_dataset(relevance)

def make_coocurs_dict(train_data):
    tmp = (
        train_data[['item_id', 'pav_order_id']]
        .sort_values(['item_id', 'pav_order_id'])
        .merge(train_data[['item_id', 'pav_order_id']], how='left', on=['pav_order_id'], suffixes=('', '_left'))
    )
    tmp = tmp[tmp['item_id'] != tmp['item_id_left']].copy()
    tmp1 = tmp.groupby(['item_id'])['item_id_left'].agg(lambda x: Counter(x).most_common(10))

    most_freq_dict = {k: v for (k, v) in tmp1.iteritems()}

    del tmp1, tmp
    gc.collect()
    return most_freq_dict

def create_basket(test_data):
    pred = test_data.groupby(['pav_order_id'])['item_id'].agg([('basket', list)])
    return pred

def make_predictions(test_data, most_freq_dict):
    pred = create_basket(test_data)
    pred['preds'] = pred['basket'].map(lambda x: rec_by_basket(x, most_freq_dict=most_freq_dict))
    return pred

In [14]:
# считываем исторические данные
data = pd.read_csv("hist_data.csv", parse_dates=['created'])

# разобьем историю в отношении 70 на 30 для трейна и валидации
train_data, test_data, orders_sort, train_orders, test_orders = split_data(data)

# соберем словарь встречаемостей - какие item_id покупались чаще с каждым item_id 
most_freq_dict = make_coocurs_dict(train_data)

# предсказываем
pred = make_predictions(test_data, most_freq_dict)
pred.to_csv("preds_on_splitted_hist_data.csv")

# посчитаем скор для всего набора предсказаний
d_score = compute_ndcg_score(pred)
print(d_score)

0.34481132996828945
