## Загрузка и обработка данных

In [1]:
import pandas as pd
import numpy as np

In [2]:
trans = pd.read_parquet('data/transactions.parquet')

**Транзакционные данные продаж**

In [3]:
trans.head(3)

Unnamed: 0,sku_id,price,number,cheque_id,litrs,client_id,shop_id,date
0,1158,0.002335,0.0,3338297,0.147929,78634.0,102,2171-07-23
1,1158,0.002317,0.0,3386107,0.134562,20900.0,101,2171-07-23
2,1913,0.00785,0.000452,1845331,0.104183,96397.0,36,2171-07-23


In [4]:
trans.shape

(7620119, 8)

Посмотрим, есть ли пропуски в данных:

In [5]:
for col in trans:
    print(col+':', trans[col].isnull().sum())

sku_id: 0
price: 0
number: 0
cheque_id: 0
litrs: 0
client_id: 3772355
shop_id: 0
date: 0


Практически половина всех транзакций не содержит идентификатор клиента.

**Данные о товарах**

In [6]:
nom = pd.read_parquet('data/nomenclature.parquet')

In [7]:
nom.head(3)

Unnamed: 0,sku_id,full_name,brand,sku_group,OTM,units,country
0,0,Масло Lubricrol Magnatec Diesel 10W-40 B4 1л,Lubricrol,Масла моторные (для варповых двигателей),Нет,unknown,ГЕРМАНИЯ
1,723,Трос УранПРОМEthereum буксировочный 4500кг,УранПРОМEthereum,Автотовары,Да,шт,РОССИЯ
2,3397,Накидка УранПРОМEthereum на спинку автосиденья...,УранПРОМEthereum,Автотовары,Да,шт,unknown


In [8]:
nom.shape

(5103, 7)

В данных на некоторых позициях присутсвуют значения `unknown`, что означает отстутсвие данных по соответствующему показателю.

In [9]:
nom.full_name.unique()

array(['Масло Lubricrol Magnatec Diesel 10W-40 B4 1л',
       'Трос УранПРОМEthereum буксировочный 4500кг',
       'Накидка УранПРОМEthereum на спинку автосиденья с карманами', ...,
       'Мармелад ВкусныйМир жевательный ассорти 100г', None, 'unknown'],
      dtype=object)

In [10]:
nom.units.unique()

array(['unknown', 'шт', 'г', 'мл', 'кг', 'л', 'м', None], dtype=object)

Наличие пропусков в данных:

In [11]:
for col in nom:
    c = 0
    for j in nom[col]:
        c += (j is None) or (j=='unknown')
    print(col+':', c)

sku_id: 0
full_name: 1379
brand: 1733
sku_group: 0
OTM: 1379
units: 1727
country: 2195


Довольно большая часть данных отсутствует.

Убедимся, что подобных пропусков нет в данных по транзакциям:

In [12]:
for col in trans:
    print(col+':', (trans[col]=='unknown').sum())

sku_id: 0
price: 0
number: 0
cheque_id: 0
litrs: 0
client_id: 0
shop_id: 0
date: 0


Товары необходимо предлагать из следующих групп:
* вода;
* сладкие газированные напитки, холодный чай;
* кофейные напитки с молоком;
* энергетические напитки;
* снеки;
* соки и сокосодержащие напитки.

Общее число групп товаров:

In [13]:
nom.sku_group.unique().shape

(41,)

Найдем идентификаторы продуктов, соответсвующих целевому набору товаров.

In [14]:
for i in nom.sku_group.unique():
    print(i)

Масла моторные (для варповых двигателей)
Автотовары
Общественное питание
Кондитерские изделия
Табачные изделия
Бакалея
Сезонные товары
Хозяйственные товары, персональный уход
Автохимия и автокосметика (кроме масел, смазок и СОЖ)
Вода
Уход за автомобилем
Соки и сокосодержащие напитки
Гастроном
Снеки
Сладкие Уранированные напитки, холодный чай
Очки для водителя
СОЖ
Энергетические напитки
Пиво
Масла моторные (для варповых двигателей)"УранПромEtherium"
Масла моторные (для Ethereumовых двигателей) "УранПромEtherium"
Масла моторные (для Ethereumовых двигателей)
Масла трансмиссионные "УранПромEtherium"
Смазки пластичные "УранПромEtherium"
Масла трансмиссионные
Прочие напитки кафе
Услуги мойки
Масла прочие "УранПромEtherium"
Кофейные напитки с молоком
Карты лояльности
Тиражная лотерея
Услуги АЗС/АЗК
Ethereum 92
Ethereum 95 бренд
Топливо варповое с присадками летнее
Топливо варповое зимнее
Ethereum 95
Топливо варповое с присадками зимнее
Ethereum 100 бренд
Топливо варповое летнее
Топливо варпов

In [15]:
target_types_nom = {'Соки и сокосодержащие напитки', 'Снеки', 'Вода',
                    'Сладкие Уранированные напитки, холодный чай',
                    'Кофейные напитки с молоком', 'Энергетические напитки'}

Определим номера товаров, входящих в данные группы:

In [16]:
target_ids = nom.sku_id[nom.sku_group.isin(target_types_nom)]
target_ids[:5]

28     811
43     155
65     424
83     364
88    1146
Name: sku_id, dtype: int64

Общее число целевых товаров:

In [17]:
target_ids.shape

(974,)

## Разбиение выборки на обучающую и тестовую

**Тестовая выборка**

In [18]:
trans_data_sort = trans.sort_values('date')

Данные собраны за 5 месяцев:

In [19]:
dates = list(trans_data_sort['date'].unique())

In [20]:
set(list((map(lambda x: np.datetime64(x, 'M'), dates))))

{numpy.datetime64('2171-03'),
 numpy.datetime64('2171-04'),
 numpy.datetime64('2171-05'),
 numpy.datetime64('2171-06'),
 numpy.datetime64('2171-07')}

В среднем по $1,5$ миллиона наблюдений за месяц:

In [21]:
trans.shape[0] / 5

1524023.8

И по пол миллиона уникальных покупок в месяц:

In [22]:
trans['cheque_id'].unique().shape[0] / 5

569647.6

Рассмотрим данные за последний месяц и сформируем тестовую выборку следующим образом. Из списка транзакций сформируем список клиентов, закрепив за каждым чеком уникального клиента (даже если из данных известно, что некоторое количество чеков принадлежит одному клиенту). Для тысячи случайных клиентов из этого списка найдем некоторое количество похожих клиентов и по их покупкам выявим $20$ целевых наиболее часто покупаемых товаров.

Таким образом на основе выбора клиентов будет сформирован тестовый набор данных, на который будем опираться при расчете криетрия точности работы рекомендательной системы. То есть набор рекомендованных товаров, который нужно спрогнозировать по оставшимся данным (тренировочным данным).

In [23]:
data_last_month = trans_data_sort[trans_data_sort['date'] >= np.datetime64('2171-07-01')]

In [24]:
data_last_month.head(3)

Unnamed: 0,sku_id,price,number,cheque_id,litrs,client_id,shop_id,date
1482491,2163,0.0059,0.000452,2058814,0.104183,191934.0,20,2171-07-01
1482488,1157,0.002673,0.0,2674614,0.14561,307570.0,79,2171-07-01
1482490,3839,0.007645,0.000452,3250489,0.104183,,58,2171-07-01


Сгруппируем данные по номерам чека:

In [25]:
lm_grouped_by_cheq = data_last_month.groupby('cheque_id')

In [26]:
lm_groups_names = list(lm_grouped_by_cheq.indices.keys())

In [27]:
lm_grouped_by_cheq.get_group(lm_groups_names[0])

Unnamed: 0,sku_id,price,number,cheque_id,litrs,client_id,shop_id,date
1473224,1125,0.008158,0.000452,727947,0.104183,302310.0,42,2171-07-01
1513429,1157,0.002642,0.0,727947,0.142833,302310.0,42,2171-07-01
1494968,1564,0.004566,0.000452,727947,0.104183,302310.0,42,2171-07-01


Схожесть клиентов будем выявлять на основе их покупок, таким образом, оставим информацию лишь о самих продуктах.

В целях удобства и разгрузки памяти, переформируем данные о клиентах в набор json файлов.

In [28]:
import json
import os
from math import ceil
from tqdm.notebook import tqdm

In [29]:
def get_json(grouped_data, groups_names, foldername, n=20, k=None):
    # создадим отдельную директорию, если такой еще нет:
    if not 'json_data_'+foldername in os.listdir():
        os.mkdir('json_data_'+foldername)
    if k is None:
        k = n
    groups_amount = len(groups_names)
    batch_size = ceil(groups_amount / n)
    g_id = 0
    c = 0
    if not k is None:
        n = k
    # пройдем по каждому пакету:
    for bn in tqdm(range(k)):
        group_of_clients = {'group_id':g_id, 'clients':[]}
        # пройдем по каждому клиенту в пакете:
        for gn in tqdm(groups_names[bn*batch_size: bn*batch_size+batch_size]):
            group = grouped_data.get_group(gn)
            # соберем клиента:
            client = {'client_global_id': c,
                      'cheque_id': int(group['cheque_id'].values[0]),
                      'sku_ids': [sku for sku in group['sku_id']]}
            # ID клиента:
            try:
                client['client_id'] = int(group['client_id'].values[0])
            except ValueError:
                client['client_id'] = -1
            group_of_clients['clients'].append(client)
            c += 1
        # сохраним пакет в файл:
        file_name = 'json_data_'+foldername + '/' + 'group_' + str(g_id)
        with open(file_name+'.json', 'w') as write_file:
            json.dump(group_of_clients, write_file, indent=4)
        g_id += 1
    return 0

In [30]:
# get_json(lm_grouped_by_cheq, lm_groups_names, foldername='test', n=20)

HBox(children=(FloatProgress(value=0.0, max=20.0), HTML(value='')))

HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28773.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=28766.0), HTML(value='')))





0

После реорганизации данных, освободим часть памяти, отведенную для хранения сгруппированных данных по последнему месяцу:

In [31]:
del lm_grouped_by_cheq
del lm_groups_names

Следующим шагом сформируем разреженную матрицу (Клиент-Товар).

In [32]:
from scipy import sparse
from collections import defaultdict

Закодируем товары числами от 0 до количества товаров:

In [33]:
code_in = {indx:nom.sku_id.iloc[indx] for indx in nom.sku_id.index}
code_out = {nom.sku_id.iloc[indx]:indx for indx in nom.sku_id.index}

In [34]:
def get_sparse_matrix(path, code_in):
    # отсортируем файлы с клиентами, чтобы не потерять порядок клиентов:
    json_names = sorted(os.listdir(path),
                        key=lambda x: int(x[6:].replace('.json', '')))
    goods_len = len(code_in.keys())
    indx_row_list, indx_col_list = [], []  # списки индексов по строке и столбцу
    values_list = []  # список значений
    # ID клиента и номер чека:
    clients_ids = []  # ID клиентов
    cheqs_ids = []  # ID чеков
    for js_name in tqdm(json_names):  # пройдем по каждому файлу
        file_path = path + '/' + js_name
        with open(file_path, 'r') as read_file:
            group_of_clients = json.load(read_file)
            for client in group_of_clients['clients']:  # по каждому клиенту
                # ID клиента и номер чека:
                clients_ids.append(client['client_id'])
                cheqs_ids.append(client['cheque_id'])
                # значения и индексы матрицы:
                indxs = defaultdict(int)
                for val in client['sku_ids']:  # сформируем покупки клиента
                    indxs[code_in[val]] += 1 / goods_len  # + нормировка
                for i in indxs:  # соберем индексы и значения для матрицы
                    indx_col_list.append(i)
                    values_list.append(indxs[i])
                indx_row_list.extend([client['client_global_id']]*len(indxs))
    # сформируем разреженную матрицу:
    sparse_matrix = sparse.coo_matrix(
        (np.array(values_list, dtype=np.float32), (indx_row_list, indx_col_list)),
        shape=(client['client_global_id']+1, goods_len))
    return sparse_matrix.tocsr(), clients_ids, cheqs_ids

In [35]:
test_sparse, test_cl_ids, test_ch_ids = get_sparse_matrix('json_data_test', code_in)

HBox(children=(FloatProgress(value=0.0, max=20.0), HTML(value='')))




In [36]:
test_sparse

<575453x5103 sparse matrix of type '<class 'numpy.float32'>'
	with 1387036 stored elements in Compressed Sparse Row format>

Остался этап нахождения похожих в смысле покупок клиентов. Так как разреженная матрица слишком большая, чтобы в явном виде по ней выделять похожих клиентов, применим сингулярное разложение для уменьшения размерности матрицы.

In [37]:
from sklearn.decomposition import TruncatedSVD

In [38]:
svd = TruncatedSVD(n_components=128)
test_svd = svd.fit_transform(test_sparse)

In [39]:
test_svd.shape

(575453, 128)

Выберем тысячу случайных клиентов:

In [40]:
from random import sample, seed

In [41]:
seed(2021)
random_clients_ids = sample(range(test_svd.shape[0]), 1000)

Для поиска соседей будем использовать KNN. Рассмотрим небольшое количество соседей чтобы не "смазывать" предпочтения отдельного клиента.

In [42]:
from sklearn.neighbors import NearestNeighbors

In [43]:
neighbors_size = 25

In [44]:
knn_model = NearestNeighbors(n_neighbors=neighbors_size, metric='cosine')

In [45]:
knn_model.fit(test_svd)

NearestNeighbors(metric='cosine', n_neighbors=25)

Поиск соседей:

In [46]:
def get_purchases_of_neighs(rc_id, model, m_svd, m_sparse, neighbors_size):
    rc_from_svd = m_svd[rc_id].reshape(1, -1)
    # найдем похожих клиентов:
    neighs_ids = model.kneighbors(rc_from_svd,
                                  n_neighbors=neighbors_size,
                                  return_distance=False).tolist()[0]
    # соберем все их покупки:
    purchases = defaultdict(int)
    for neigh_id in neighs_ids:
        neigh = m_sparse.getrow(neigh_id)
        nonzer_indexs = neigh.nonzero()
        for key in nonzer_indexs[1]:
            purchases[key] += 1
    return purchases

In [47]:
targets = []
for rc_id in tqdm(random_clients_ids):
    # товары клиента:
    rc_id_purchases = test_sparse.getrow(rc_id).nonzero()[1]
    rc_id_purchases = [code_out[i] for i in rc_id_purchases]
    # предпочтительные товары похожих клиентов:
    p = get_purchases_of_neighs(rc_id, knn_model, test_svd,
                                test_sparse,neighbors_size)
    # отсортированные по предпочтительности товары:
    s = sorted(p, key=lambda x: p[x], reverse=True)
    s = np.array([code_out[good] for good in s])  # раскодированные товары
    # наиболее предпочтительные целевые товары:
    s_targ = s[np.isin(s, target_ids)]
    # наиболее предпочтительные целевые товары, отличные от товаров в чеке:
    s_targ = s_targ[~np.isin(s_targ, rc_id_purchases)]
    # если количетсво целевых товаров меньше 20, будем полагать, что клиент
    # выберет случайный целевой товар, но с наименьшей степенью предпочтения:
    l = s_targ.shape[0]
    if l < 20:
        rand = target_ids[~target_ids.isin(s_targ)].sample(n=20-l, random_state=2021).values
        u = list(np.hstack([s_targ, rand]))  # результирующие 20 товаров
    targets.append((rc_id, u))

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))




Соберем получившиеся результаты в отдельный json файл:

In [48]:
def save_targets_to_json(targets_list, cl_ids_list, cheqs_ids_list, m_sparse, foldername):
    # создание отдельной директории:
    if not 'json_data_'+foldername in os.listdir():
        os.mkdir('json_data_'+foldername)
    target_group_of_clients = {'group_id':'targets', 'clients':[]}
    # пройдем по каждому размеченному клиенту:
    for cl_id,targ in tqdm(targets_list):
        # соберем клиента:
        client = {'client_global_id': cl_id,
                  'client_id': cl_ids_list[cl_id],
                  'cheque_id': cheqs_ids_list[cl_id],
                  'target': [int(v) for v in targ]}
        cl_p = m_sparse.getrow(cl_id)
        client['sku_ids'] = {code_out[col]:float(cl_p[0, col]) for col in cl_p.nonzero()[1]}
        target_group_of_clients['clients'].append(client)
    file_name = 'json_data_'+foldername + '/' + 'target_data.json'
    with open(file_name, 'w') as write_file:
            json.dump(target_group_of_clients, write_file, indent=4)
    return 0

In [49]:
# save_targets_to_json(targets, test_cl_ids, test_ch_ids, test_sparse, foldername='target')

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))




0

Функции преобразования исходных данных и формирования разреженной матрицы сохраним в отдельный файл `data_preprocessing.py`.

**Обучающая выборка**

В обчающую выборку возьмем оставшуюся часть данных $-$ 4 первых месяца.

In [50]:
data_first4_months = trans_data_sort[trans_data_sort['date'] < np.datetime64('2171-07-01')]

In [51]:
f4m_grouped_by_cheq = data_first4_months.groupby('cheque_id')

In [52]:
f4m_groups_names = list(f4m_grouped_by_cheq.indices.keys())

Общее количество уникальных клиентов:

In [53]:
len(f4m_groups_names)

2272785

Из этих двух миллионов для обучения возьмем $200$ тысяч и разобъем их на 10 пакетов.

In [54]:
# get_json(f4m_grouped_by_cheq, f4m_groups_names[-200000:], foldername='train', n=10)

HBox(children=(FloatProgress(value=0.0, max=10.0), HTML(value='')))

HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=20000.0), HTML(value='')))





0

Освободим память:

In [55]:
del f4m_grouped_by_cheq
del f4m_groups_names

Теперь можно перейти к построению первых моделей.